In den folgenden Abschnitten werden methodische Details zur Datenerhebung, notwendigen Datenbereinigung und Fallgewichtung der Studie „Digitalisierung durch Corona? Verbreitung und Akzeptanz von Homeoffice in Deutschland“ beschrieben.

Datenerhebung

Die hier verwendeten Primärdaten wurden vom Bayerischen Forschungsinstitut für Digitale Transformation (bidt) unter Nutzung von Google Surveys im Zeitraum vom 27. bis 29. März 2020 erhoben. Der Fragebogen umfasst sieben Fragen zum Thema Homeoffice und drei Fragen zu soziodemografischen Merkmalen (Stellung im Beruf, Alter und Geschlecht).

Google Surveys verfügt über ein Netzwerk an Webseiten, auf denen ausgewählten Besucherinnen und Besuchern der Fragebogen vorgelegt wird. Die Fragen erscheinen dabei in Form einer sogenannten „Surveywall“, bei der die Besucherinnen und Besucher der Webseite den Fragenbogen beantworten, um in Folge Zugang zu weiteren Inhalten zu erlangen. Bereits während der Feldphase der Umfrage erfolgte eine Stichprobenschichtung, wonach im Verlauf unterrepräsentierte Bevölkerungsgruppen im Hinblick auf die Verteilung nach Region, Alter und Geschlecht den Fragebogen mit einer höheren Wahrscheinlichkeit vorgelegt bekamen, überrepräsentierte Bevölkerungsgruppen dahingegen mit einer geringeren Wahrscheinlichkeit. Für eine ausführliche Darstellung siehe Google (2018). Bei der vorliegenden Umfrage lassen sich rund 89 % der Webseiten, auf denen der Fragebogen eingespielt wurde, der Kategorie „Nachrichten“ zuordnen, die restlichen Kategorien waren „Kunst & Unterhaltung“, „Referenz“ und „Sonstige“.

Diese Art der Stichprobengewinnung („River-Sampling“) lässt sich somit weder reinen Zufallsstichproben noch vorrekrutierten Online-Panels zuordnen. Im Unterschied zu einer reinen Zufallsstichprobe im klassischen Sinn lässt sich beispielsweise keine exakte Grundgesamtheit definieren. Daraus folgt, dass sich keine Auswahlwahrscheinlichkeit eines Elements dieser Stichprobe bestimmen lässt. Dennoch zeigen Vergleiche hinsichtlich u. a. demografischer Merkmale eine gute Übereinstimmung mit anderweitig erhobenen Studien von Internetnutzerinnen und -nutzern (vgl. Pew Research Center 2012).

Datenbereinigung

Ursprünglich wurden von Google Surveys 2.507 vollständige Antworten erhoben. Bei Onlinebefragungen handelt es sich in der Regel um sogenannte selbst administrierte Befragungen. Hier unterliegt die Interviewsituation – anders als bei persönlich oder telefonisch geführten mündlichen Befragungen – keinerlei Kontrolle. Somit ist eine intensivere Datenprüfung und Bereinigung nötig, um z. B. Antworten von „Spaßantwortern“ und „Schnellausfüllern“ auszuschließen. In einem ersten Schritt wurden 250 Befragte identifiziert, die den Onlinefragebogen in äußert kurzer Zeit absolviert hatten. Als unterste Grenze wurden 54 Sekunden festgelegt, was dem unteren Perzentil der Beantwortungszeit entspricht. Es ist davon auszugehen, dass ein aufmerksames Lesen und Beantworten der Fragen unterhalb dieses Schwellenwertes kaum erfolgen kann. Auch Analysen von ungewöhnlichen Teilergebnissen dieser „Schnellausfüller“ stützen das Vorgehen einer entsprechenden Datenbereinigung.

In einem zweiten Schritt wurden ferner 325 Fälle identifiziert, die im Verlauf der Befragung widersprüchliche Angaben zu ihrer Berufstätigkeit bzw. ihrer Homeoffice-Nutzung abgegeben hatten. Solche Inkonsistenzen waren im Vorfeld nicht auszuschließen, da in den Fragenbögen bei Google Surveys keine komplexere Filterführung möglich ist. So konnten entsprechende Fragefilter erst „ex post“ auf inkonsistente Antworten angewendet werden. Für einige Befragte trafen mehrere Ausschlussgründe gleichzeitig zu, sodass letztendlich 2.019 Fälle in die im Folgenden beschriebene Gewichtung der Daten eingingen.

Gewichtung

Für die meisten sozialwissenschaftlichen Stichproben gilt, dass Ausfälle in der Regel nicht zufällig verteilt sind, z. B. weil manche Personengruppen von einer bestimmten Befragungsart besser oder schlechter erreicht werden können. Dies führt dazu, dass Subpopulationen nicht gemäß der Grundgesamtheit in der Stichprobe vertreten sind. Auch bei der hier vorliegenden Befragung ergeben sich trotz der während der Feldphase vorgenommenen Stichprobenschichtung systematische Abweichungen.

Damit die erhaltenen Beobachtungen dennoch so weit wie möglich die Struktur der erwachsenen Internetnutzerinnen und -nutzer in Deutschland widerspiegeln, wurde eine Redressement-Gewichtung bezüglich der kombinierten Alters- und Geschlechtsstruktur der Onlinebevölkerung sowie der regionalen Verteilung der Gesamtbevölkerung vorgenommen. Die dabei verwendeten Zielstrukturen wurden der amtlichen Statistik entnommen (Destatis 2019a, b). Dabei kam das iterative Randsummenverfahren (Iterative Proportional Fitting) unter Verwendung von IPFWEIGHT (Bergmann 2011) in Stata 16.0 zum Einsatz. Die Gewichtungsfaktoren liegen zwischen 0,6 und 3,2 und somit in einem gemeinhin als unkritisch angesehenen Bereich (vgl. Börsch-Supan/Winter 2004: Fußnote 9; DeBell et al. 2009: 31, zitiert nach Bergmann 2011).

Da zum einen bei Google Surveys das Alter (in Gruppen) und Geschlecht aufgrund des Browsing-Verhaltens der Teilnehmenden „geschätzt“ vorlag (vgl. Google 2018), zum anderen aber auch direkt im Rahmen der Befragung erhoben wurde, konnten beide Angaben geeignet kombiniert werden. Für die Gewichtung wurde demnach primär auf die Selbstauskunft und im Falle fehlender Angaben auf die Schätzung von Google abgestellt, falls vorhanden. So konnte im Falle des Alters der Anteil fehlender Werte auf 1 % reduziert werden. Bei Angabe des Geschlechts konnte neben weiblich und männlich bei der Selbstauskunft auch die Kategorie „divers“ ausgewählt werden, dieser Anteil lag allerdings nur bei 1,4 %. Da amtliche Daten für die Internetnutzung aktuell nur für männliche und weibliche Personen vorliegen, wurde in diesen Fällen für die Gewichtung die von Google ermittelte mutmaßlichen Geschlechtszugehörigkeit verwendet. Somit verblieben noch 34 Fälle, zu denen keine gewichtungsrelevanten Alters- und Geschlechtsangaben vorlagen. Diese Fälle erhielten im entsprechenden Gewichtungsschritt einen Faktor von 1,0.

Die regionale Zuordnung wurde von Google mittels der IP-Adresse vorgenommen, zumeist auf Bundeslandebene, im Fall einiger Großstädte auch auf Gemeindeebene. Aufgrund der z. T. geringen Zellbesetzung wurden für die regionale Gewichtung die Bundesländer zu sieben Nielsen-Gebieten zusammengefasst. In zwei Fällen konnte keine Regionalinformation erfasst werden, diese erhielten in diesem Gewichtungsschritt einen Faktor von 1,0.

Analysegrundlage

Für die hier beschriebenen Analysen wurden nur berufstätige Befragte berücksichtigt. Insgesamt befanden sich nach Selbstauskunft 1.595 Berufstätige im bereinigten Datensatz. 424 Befragte gaben dagegen an, sich in „Schule, Ausbildung oder Studium“ zu befinden, nicht berufstätig zu sein oder eine sonstige berufliche Stellung innezuhaben.