FAQ | Munich Center for the Economics of Aging - MEA
Home
FAQ

FAQ

Was ist SAVE?

Die Studie „Sparen und Altersvorsorge in Deutschland“ (SAVE), eine Umfrage vom MEA, wurde erstmals im Jahr 2001 durchgeführt. In einer repräsentativen Stichprobe deutscher Haushalte vereint die SAVE Umfrage detaillierte quantitative Informationen über wirtschaftliche Sachverhalte mit relevanten soziopsychologischen Aspekten. SAVE ist als Paneldatensatz gestaltet, in welchem Haushalte von 2005 in einem einjährigen Turnus befragt wurden. Mit der zehnten Umfrage wurde das SAVE Projekt im Jahr 2013 abgeschlossen.

Wer kann die Daten benutzen? Wie bekomme ich die Daten?

Die Daten und die Dokumentation sind nur für die akademische Forschung und Lehre zugänglich. Eine Nutzung für kommerzielle Zwecke ist ausdrücklich untersagt. SAVE kann online im GESIS Datenbestandskatalog bestellt werden.

Bitte beziehen Sie sich auf die folgenden Studiennummern und Titel:

Study No. Title

4051 Saving and financial investment of private households (SAVE) 2001
4436 Saving and financial investment of private households (SAVE) 2003/04
4437 Saving and financial investment of private households (SAVE) 2005
4521 Saving and financial investment of private households (SAVE) 2006
4740 Saving and financial investment of private households (SAVE) 2007
4970 Saving and financial investment of private households(SAVE) 2008
5230 Saving and financial investment of private households(SAVE) 2009
5292 Saving and financial investment of private households(SAVE) 2010
5635 Saving and financial investment of private households(SAVE) 2011/12
5647 Saving and financial investment of private households (SAVE) 2013

Was bedeutet, dass die Daten "imputiert" sind? Sind die Daten künstlich?

Item nonresponse (also, die Tatsache, dass einige befragte Personen auf bestimmte Fragen keine Antwort geben) ist bei kleinen sowie die großen Haushaltsumfragen (wie z.B. das deutsche Sozio-ökonomische Panel – SOEP, oder die amerikanische Survey of Consumer Finances - SCF) ein wohlbekanntes Phänomen. Mit diesem Problem kann man auf verschiedene Weise verfahren. So ist das Streichen sämtlicher Beobachtungen mit fehlenden Werten aus der Datenmatrix nicht unüblich. Die für Auswertungszwecke vollständige zurückbleibende Datenmatrix führt jedoch nicht nur zu einem erheblichen Informationsverlust, sondern auch zu einer Verfälschung der verbleibenden Stichprobe, wenn die Systematik des Datenausfalls nicht zufällig erfolgte, sondern mit verschiedenen Haushaltsmerkmalen korreliert ist.

Um dieses Problem möglichst in den Griff zu bekommen, wurden fehlende Daten in SAVE mit Hilfe einer multiplen Imputation-Prozedur durch plausible Werte ersetzt. Diese Methode zielt auf die Erfassung aller relevanten Verbindungen zwischen den Variablen, um die Korrelationsstruktur im Datensatz zu erhalten. Um dies zu gewährleisten, werden die fehlenden Werte jeder einzelnen Variable mit Hilfe einer maximalen Anzahl von verfügbaren Variablen geschätzt. Ziel der Imputation ist es nicht künstliche Information zu kreieren, sondern die vorhandenen Information zu benutzten, so dass der Nutzer den resultierenden vollständigen Datensatz mit den üblichen statistischen Methoden analysieren kann. Dazu wurde auch in einem ersten Schritt vor der multiplen Imputation die Panelstruktur des Datensatzes ausgenutzt, um verschiedene Variablen logisch zu imputieren.

Da die Imputation ein sehr arbeitsaufwendiger Prozess ist, verschaffen Institutionen (wie z.B. die US-Zentralbank, die die SCF durchführt) den Endnutzer/innen imputierten Datensätze. Für den SAVE Datensatz übernimmt das MEA diese Aufgabe. Dies stellt ebenfalls sicher, dass alle Nutzer/innen mit den gleichen imputierten Datensätzen arbeiten können. In SAVE sind alle imputierten Werte gekennzeichnet, so dass imputierte Werte von den Endnutzer/innen, falls gewünscht, einfach ignoriert werden können. Der Datensatz „SAVE_[Jahr]_indicator“, der mit den imputierten Datensätzen zur Verfügung gestellt wird, zeigt ob ein bestimmter Wert beobachtet (0), stochastisch (1) oder logisch im Rahmen des Panels imputiert (2) wurde.


Eine ausführliche Beschreibung des Imputationprozesses in SAVE finden Sie in:

  • Schunk, D. (2008): “A Markov chain Monte Carlo algorithm for multiple imputation in large surveys.” Advances in Statistical Analysis 92(1), 101 - 114.
  • Ziegelmeyer, M. (2009): “Documentation of the logical imputation using the panel structure of the 2003-2008 German SAVE Survey.” MEA Discussion Paper 173-09, MEA Mannheim.
  • Ziegelmeyer, M. (2012): “Illuminate the unknown: Evaluation of imputation procedures based on the SAVE Survey”, Advances in Statistical Analysis, 97(1), 49-76.


Einen Überblick über verschiedene Methoden item nonresponse zu behandeln finden Sie in:

  • Rässler, S. und R. Riphahn (2006): “Survey item nonresponse and its treatment” Allgemeines Statistisches Archiv, 90, 217-232.


Eine allgemeine Einführung in die multiple Imputation finden Sie in:

  • Rubin, D.B. (1987): “Multiple Imputation for Nonresponse in Surveys.” Wiley, New York.
  • Little, R.J.A. und D.B. Rubin ( 2002), “Statistical analysis with missing data.” Wiley, New York.

Wieso gibt es fünf Datensätze für jedes Jahr? Welchen Datensatz soll ich benutzen?

Fehlende Daten wurden durch ein multiples Imputationsverfahren imputiert. Dieses stochastische Imputationsverfahren baut auf einer Monte-Carlo-Technik auf, in der die fehlenden Angaben mit m>1 Schätzwerten ersetzt werden. Wie in anderen Umfragen, die dasselbe Verfahren benutzten (wie z.B. die SCF), ist m in SAVE gleich fünf gesetzt. Das heißt, dass der ganze Algorithmus fünfmal wiederholt wird. So entstehen fünf Datensätze, die den Endnutzer/innen zur Verfügung gestellt werden.

Um zuverlässige Ergebnisse zu bekommen, soll jeder Datensatz mit Standardverfahren analysiert werden. Anschließend sollen die Einzelergebnisse kombiniert werden, um Koeffizienten und Konfidenzintervalle zu schätzen, die die Ungewissheit über die fehlenden Werte enthalten. Standardfehler, die nur mit einem einzigen Datensatz geschätzt werden, sind normalerweise zu niedrig. Außerdem neigt die Analyse nur eines imputatierten Datensatzes zur Generierung von verzerrten Ergebnissen. Allerdings ist die Analyse eines einzelnen Datensatzes nützlich um sich mit den Daten vertraut zu machen und um eine erste Idee über die Größenordnung und die Richtung der geschätzten Effekte zu sammeln. Zu diesem Zweck ist egal welcher der fünf Datensätze benutzt wird.

Rubin, D.B. (1996): “Multiple Imputation After 18+ Years” Journal of the American Statistical Association 91(434), 473-489 erklärt wie man die Ergebnisse der getrennten Analysen verknüpfen kann.

Siehe auch Schunk, D. (2007): “A Markov Chain Monte Carlo Multiple Imputation Procedure for Dealing with Item Nonresponse in the German SAVE Survey”, Appendix 6.2.

MEA Discussion paper 121-07, University of Mannheim

Es gibt drei verschiedene Gewichte in jedem Datensatz: Welche Gewichte soll ich benutzten?

Um diese Frage zu beantworten, soll man erstmal sich fragen warum man überhaupt Gewichte benutzten möchte.

Durch eine Nachkalibrierung der realisierten Stichprobe zielen Gewichte auf „den Schutz vor ungünstigen Stichprobenzusammensetzungen “ (siehe: Holt und Smith (1979): “Post Stratification” Journal of the Royal Statistical Society. Series A. 142(1)), so dass die Ergebnisse für die gesamte Bevölkerung repräsentativer sind. Gewichte sollen in der Regel immer benutzt werden, wenn deskriptive Statistiken (wie z.B. der Durchschnittswert einer Variable) dargestellt werden, wobei fraglich ist, ob Gewichte auch in Regressionen benutzt werden sollen (siehe u.a.: Radbill, L. und Winship, C. (1994) “Sampling Weights and Regression Analysis” Sociological Methods & Research, 23(2), 230 - 251). Deswegen bezieht sich das Folgende auf eine univariate Analyse.

Wie verbessern nun Gewichte die Schätzung von Stichprobendurchschnittswerten? Nehmen wir einmal an, dass Sie an dem Hochschulabsolventenanteil in der Bevölkerung interessiert sind: Falls junge Individuen mit hohem Einkommen (also, Individuen, die tendenziell auch besser gebildet sind, und die deswegen häufiger einen Universitätsabschluss besitzen) in einem höheren Anteil in der Stichprobe als in der Bevölkerung vertreten sind, überschätzt der einfache Stichprobemittelwert den Hochschulabsolventenanteil in der Bevölkerung. Der Gebrauch eines Gewichtes, das einen kleineren Wert auf die überrepräsentierte Gruppe legt, wird hingegen eine bessere Darstellung der „echten“ Größe in der Bevölkerung widerspiegeln.

Welches Gewicht geeigneter ist, hängt von den Bevölkerungsmerkmalen, an denen man interessiert ist, und vom Einflussgrad, den jede Schicht auf das Ergebnis hat, ab. Zurück zum Beispiel: Falls wir erwarten, dass der Hochschulabsolventenanteil mehr mit Alter und Einkommen der Befragten als mit deren Alter und Haushaltsgröße im Vergleich zur Bevölkerung variiert (d. h., wir erwarten, dass die Unterschiede im Hochschulabsolventenanteil unter Alters- und Einkommensklassen größer sind als unter Einkommens- und Haushaltsgrößenklassen), dann ist das Gewicht, welches die Haushalte nach Alter und Einkommen nachkalibriert, deutlich besser. Es ist selbstverständlich, dass, wenn ein Gewichtsatz ausgewählt ist, dieses für die Darstellung aller deskriptiven Statistiken in demselben Artikel benutzt werden sollte.

In der Praxis allerdings, sind die Unterschiede unter den drei verschiedenen Gewichten in SAVE nicht so groß. Glücklicherweise deckt die SAVE Stichprobe verschiedene Gruppen recht gut ab (dies sieht man daran, dass die Gewichte relativ nahe bei 1 liegen). Deswegen verändern sich die Ergebnisse nur schwach, wenn das ein oder andere Gewicht benutzt wird: wenn ein Gewicht ausgewählt wird, können die anderen zwei für Robustheitschecks benutzt werden.

Sind die Werte in der Umfrage 2001 in Deutsche Mark (DM) oder in Euro?

In der Umfrage 2001 haben die Befragten alle Geldbeträge in DM angegeben. Sie wurden danach von uns in Euro umgerechnet. Die Endnutzer/innen sollten deswegen die Daten nicht abermals umrechnen.

Wie ist die Variable bik kodiert?

Die Variable bik (Gemeindtyp und -größe) ist in der aktuellen Ausgabe der SAVE Daten nicht kodiert. Hier finden Sie die Beschriftung:

0 = 500.000 und mehr, Kerngebiet
1 = 500.000 und mehr, Randgebiet
2 = 100.000 - 499.999, Kerngebiet
3 = 100.000 - 499.999, Randgebiet
4 = 50.000 - 99.999, Kerngebiet
5 = 50.000 - 99.999, Randgebiet
6 = 20.000 - 49.999
7 = 5.000 - 19.999
8 = 2.000 - 4.999
9 = unter 2.000

Künftige Ausgaben der Daten werden die Nichtkodierung korrigieren.

Was bedeutet der Wert 10 für die Variable bula in den Umfragen 2003, 2005, 2006 und 2007?

In den Umfragen 2003, 2005, 2006 und 2007 nimmt die Variable bula (Bundesland) auch den Wert 10 an. Dieser Wert war leider nicht kodiert. Hier die korrekte Beschriftung:

0 Berlin-West
1 Schleswig-Holstein
2 Hamburg
3 Niedersachsen
4 Bremen
5 Nordrhein-Westfalen
6 Hessen
7 Rheinland-Pfalz
8 Baden-Württemberg
9 Bayern
10 Saarland
11 Berlin-Ost
12 Brandenburg
13 Mecklenburg-Vorpommern
14 Sachsen
15 Sachsen-Anhalt
16 Thüringen

Wie erkenne ich im Datensatz welches das Access Panel und welches das Random Sample ist? Was bedeutet die Variable wave?

In den Daten ist die Zugehörigkeit einer Beobachtung zu einer bestimmten Teilstichprobe in der Variablen wave kodiert. Laden Sie hier die Aufschlüsselung der Variablen herunter.