Methodik der Homeoffice-Studie in Bayern

In den folgenden Abschnitten werden methodische Details zur Datenerhebung, notwendigen Datenbereinigung und Fallgewichtung zu den veröffentlichten Ergebnissen der Studie „Digitalisierung durch Corona? Homeoffice in Bayern im Februar 2021“ erläutert.

Datenerhebung

Die hier verwendeten Primärdaten wurden vom Bayerischen Forschungsinstitut für Digitale Transformation (bidt) unter Nutzung von Google Surveys erhoben. Die aktuelle dritte Befragungswelle fand kurz nach Inkrafttreten einer neuen Arbeitsschutzverordnung im Zeitraum vom 5. bis 7. Februar 2021 in Bayern und zusätzlich vom 4. bis 8. Februar 2021 in ganz Deutschland statt. Die Fragebögen für Bayern und Deutschland waren identisch und umfassten je sieben Fragen zum Thema Homeoffice und drei zu soziodemografischen Merkmalen (berufliche Stellung, Alter und Geschlecht).

Google Surveys verfügt über ein Netzwerk an Webseiten, auf denen ausgewählten Besucherinnen und Besuchern der Fragebogen vorgelegt wird. Die Fragen erscheinen dabei in Form einer sogenannten Surveywall, bei der die Besucherinnen und Besucher der Webseite den Fragenbogen beantworten, um daraufhin Zugang zu weiteren Inhalten zu erlangen. Bereits während der Feldphase der Umfrage erfolgte eine Stichprobenschichtung, wonach im Verlauf unterrepräsentierte Bevölkerungsgruppen im Hinblick auf die Verteilung nach Region, Alter und Geschlecht den Fragebogen mit einer höheren Wahrscheinlichkeit vorgelegt bekamen, überrepräsentierte Bevölkerungsgruppen dahingegen mit einer geringeren Wahrscheinlichkeit. Für eine ausführliche Darstellung siehe Google (2018). Die überwiegende Mehrheit der Webseiten, auf denen der Fragebogen eingespielt wird, lässt sich der Kategorie „Nachrichten“ zuordnen. Die Kategorien „Kunst & Unterhaltung“ und „Sonstige“ spielen nur eine untergeordnete Rolle.

Diese Art der Stichprobengewinnung (River-Sampling) lässt sich weder reinen Zufallsstichproben noch vorrekrutierten Online-Panels zuordnen. Im Unterschied zu einer reinen Zufallsstichprobe im klassischen Sinn lässt sich beispielsweise keine exakte Grundgesamtheit definieren. Daraus folgt, dass sich keine Auswahlwahrscheinlichkeit eines Elements dieser Stichprobe bestimmen lässt. Dennoch zeigen Vergleiche hinsichtlich u. a. demografischer Merkmale eine gute Übereinstimmung mit anderweitig erhobenen Studien von Internetnutzerinnen und -nutzern (vgl. Pew Research Center 2012).

Datenbereinigung

Ursprünglich wurden von Google Surveys 1.526 vollständige Antworten in Bayern sowie 2.500 in Deutschland erhoben. Die Erhebungen erfolgten dabei unabhängig voneinander, sodass auch der deutschlandweit erhobene Datensatz Beobachtungen aus Bayern enthält. Auch die Datenbereinigung, Datengewichtung und Analyse der Daten erfolgte für beide Datensätze u. a. aufgrund der zuvor beschriebenen Stichprobengewinnung getrennt.

Bei Onlinebefragungen handelt es sich in der Regel um sogenannte selbst administrierte Befragungen. Hier unterliegt die Interviewsituation – anders als bei persönlich oder telefonisch geführten mündlichen Befragungen – keinerlei Kontrolle. Somit ist eine intensivere Datenprüfung und Bereinigung nötig, um z. B. Antworten von „Spaßantwortern“ und „Schnellausfüllern“ auszuschließen. In einem ersten Schritt wurden Befragte identifiziert, die den Onlinefragebogen in äußerst kurzer Zeit absolviert hatten. Als Ausschlusskriterium wurde in beiden Erhebungen jeweils das unterste Perzentil der Beantwortungszeit festgelegt. Es ist davon auszugehen, dass ein aufmerksames Lesen und Beantworten der Fragen unterhalb dieses Schwellenwertes kaum erfolgen kann. Auch Analysen von ungewöhnlichen Teilergebnissen dieser „Schnellausfüller“ stützen das Vorgehen einer entsprechenden Datenbereinigung.

In einem zweiten Schritt wurden ferner Fälle identifiziert, die im Verlauf der Befragung widersprüchliche Angaben zu ihrer Berufstätigkeit beziehungsweise ihrer Homeoffice-Nutzung abgegeben hatten. Solche Inkonsistenzen waren im Vorfeld nicht auszuschließen, da in den Fragenbögen bei Google Surveys keine komplexere Filterführung möglich ist. So konnten entsprechende Fragefilter erst ex post auf inkonsistente Antworten angewendet werden. Für einige Befragte trafen mehrere Ausschlussgründe gleichzeitig zu, sodass letztendlich für Bayern 1.237 Fälle und für Deutschland 1.935 Fälle in die nachfolgend beschriebene Gewichtung der Daten eingingen.

Gewichtung

Für die meisten sozialwissenschaftlichen Stichproben gilt, dass Ausfälle in der Regel nicht zufällig verteilt sind, z. B. weil manche Personengruppen von einer bestimmten Befragungsart besser oder schlechter erreicht werden können. Dies führt dazu, dass Subpopulationen nicht gemäß der Grundgesamtheit in der Stichprobe vertreten sind. Auch bei den hier vorliegenden Befragungen ergeben sich trotz der während der Feldphase vorgenommenen Stichprobenschichtungen systematische Abweichungen. Damit die erhaltenen Beobachtungen dennoch so weit wie möglich die Struktur der erwachsenen Internetnutzerinnen und -nutzer in Bayern beziehungsweise Deutschland widerspiegeln, wurden für die Datensätze Gewichtungen vorgenommen. Für den deutschlandweiten Datensatz erfolgte eine Redressement-Gewichtung bezüglich (1) der kombinierten Alters- und Geschlechtsstruktur der Onlinebevölkerung sowie (2) der regionalen Verteilung der Gesamtbevölkerung. Die dabei verwendeten Zielstrukturen wurden der aktuellen amtlichen Statistik entnommen (Destatis 2020Destatis 2021). Für den bayerischen Datensatz erfolgte eine Redressement-Gewichtung ausschließlich nach der kombinierten Alters- und Geschlechtsstruktur der Onlinebevölkerung in Bayern. Dabei wurde bezüglich der Internetnutzung der jeweiligen kombinierten Alters- und Geschlechtsgruppe der bayerischen Bevölkerung davon ausgegangen, dass diese dem gesamtdeutschen Durchschnitt der Internetnutzung in der jeweiligen kombinierten Alters- und Geschlechtsgruppe in Deutschland entspricht. Die daraus resultierende Zielstruktur wurde ebenso aus der amtlichen Statistik errechnet (Bayerisches Landesamt für Statistik 2021Destatis 2021). Bei der Gewichtung kam das iterative Randsummenverfahren unter Verwendung von IPFWEIGHT (Bergmann 2011) in Stata 16 zum Einsatz. Die Gewichtungsfaktoren liegen für den bayerischen Datensatz zwischen 0,67 und 4,64 sowie für den gesamtdeutschen Datensatz zwischen 0,50 und 5,19 und somit jeweils in einem gemeinhin noch als unkritisch angesehenen Bereich (vgl. DeBell et al. 2009, 31, zitiert nach Bergmann 2011).

Da zum einen bei Google Surveys das Alter (in Gruppen) und Geschlecht aufgrund des Browsing-Verhaltens der Teilnehmenden „geschätzt“ vorlag (vgl. Google 2018), zum anderen aber auch direkt im Rahmen der Befragung erhoben wurde, konnten beide Angaben geeignet kombiniert werden. Für die Gewichtung wurde demnach primär auf die Selbstauskunft und im Falle fehlender Angaben auf die Schätzung von Google abgestellt, falls vorhanden. Bei Angabe des Geschlechts konnte neben weiblich und männlich bei der Selbstauskunft auch die Kategorie „divers“ ausgewählt werden. Da amtliche Daten für die Internetnutzung aktuell nur für männliche und weibliche Personen vorliegen, wurde in diesen Fällen für die Gewichtung die von Google ermittelte mutmaßliche Geschlechtszugehörigkeit verwendet. Somit verblieben in beiden Datensätzen nur wenige Fälle, zu denen keine gewichtungsrelevanten Alters- und Geschlechtsangaben vorlagen.

Die regionale Zuordnung wurde von Google mittels der IP-Adresse vorgenommen, zumeist auf Bundeslandebene, im Falle einiger Großstädte auch auf Gemeindeebene. Aufgrund der zum Teil geringen Zellbesetzung wurden für die regionale Gewichtung des gesamtdeutschen Datensatzes die Bundesländer zu sieben Nielsen-Gebieten zusammengefasst. In sehr wenigen Fällen konnte keine Regionalinformation erfasst werden.
Alle Befragten, denen keine Werte für die gewichtungsrelevanten Variablen zugeordnet werden konnten, erhielten im entsprechenden Gewichtungsschritt einen Faktor von 1,0.

Analysegrundlage

Für die hier beschriebenen Analysen wurden nur berufstätige Befragte berücksichtigt. Insgesamt befanden sich nach Selbstauskunft 1.058 erwachsene berufstätige Internutzerinnen und -nutzer im bereinigten bayerischen Datensatz sowie 1.564 im bereinigten gesamtdeutschen Datensatz.