Definition und Abgrenzung
Heute sind Schlagworte wie Digitalisierung, Big Data, Algorithmus etc. in aller Munde. Bei all diesen Themen spricht man grundsätzlich auch über Daten und deren unterschiedlichen Entstehungskontext oder Methoden ihrer Verarbeitung. Der eigentlich so grundlegende Begriff Daten sollte also geklärt und eindeutig definiert sein. Wie so häufig ist das aber nicht der Fall: Es gibt vor allem allgemeine Definitionen, die eine gewisse Unschärfe enthalten. Daneben existiert eine Vielzahl unterschiedlicher (wissenschaftlicher) Fachdisziplinen, die ganz verschiedene Vorstellungen und Eingrenzungen haben, um den Begriff zu fassen. Wenn man erklären möchte, was Daten sind, kann man sich diese als Symbole vorstellen, die eine Information enthalten. Das Symbol steht dafür, dass die Information eine Form von handlungsrelevantem Wissen enthält, das die Datenempfängerinnen und -empfänger interpretieren müssen. Daher sind die in Symbole verpackten und übermittelten Informationen, die in Form von Daten vorliegen, immer eine Abbildung von Realität.
Anwendung und Beispiele
Messwerte, die bei einem Experiment entstehen, sind ein gutes Beispiel, um diese Zusammenhänge zu verstehen. Messwertdaten werden zumeist durch Zahlsymbole dargestellt und lassen sich dadurch auf vielfältige Weise bearbeiten: Daten können gespeichert oder gelöscht, kopiert und zusammengefasst werden. Verschiedene Methoden der Datenanalyse bieten inzwischen multiple Möglichkeiten, die so übermittelten Informationen aus den Messdaten zu extrahieren und auszuwerten. Zudem kann man durch die Kombination mit anderen Daten neue Informationen entstehen lassen.
Die Symbolformen in den Daten und die darin enthaltenen Informationen sind jedoch nicht immer so einheitlich strukturiert wie die Messreihe eines Experiments. Jedes geschriebene (und sogar jedes gesprochene) Wort und auch Bilder können Symbole sein, die Information enthalten. Durch die Digitalisierung ist die vorhandene Datenmenge „explodiert“ und die Verfügbarkeit von Daten nimmt extrem zu: Digitale Daten sind beispielsweise beliebig kopierbar und lassen sich dementsprechend in größeren Mengen an unüberschaubar viele Empfängerinnen und Empfänger verteilen. Die „Nachfrage“ nach Daten und den darin enthaltenen Informationen, bzw. den daraus abgeleiteten Erklärungen für die unterschiedlichsten Zusammenhänge, nimmt stetig zu.
Forschung
Insofern gewinnt der Bereich des Datenschutzes an Bedeutung: Wie kann sichergestellt werden, dass Daten nicht in die falschen Hände gelangen? Wer darf was mit den Informationen machen, die wir – gerade online – über uns preisgeben? Eine mögliche Lösung verspricht Differential Privacy: Grundlegend für diese Methode der Datenaufbereitung ist die Annahme, dass die in Daten enthaltenen personenbezogenen Informationen dann geschützt sind, wenn keine (vertraulichen) Informationen von Einzelpersonen preisgegeben werden können. Um eine Datenauswertung „differential private“ zu gestalten, kann man beispielsweise den Analysealgorithmus oder die Datenquelle mathematisch verändern. Die Methode verspricht, nachvollziehbare und exakte Auswertungsergebnisse zu liefern und den Rückbezug von Merkmalen und Informationen auf Individuen zu verunmöglichen. Obwohl also eine Auswertung personenbezogener Daten zu Analysezwecken stattfindet, ist die nachträgliche Zuordnung von Merkmalen oder Analyseergebnissen zu einer Einzelperson nicht möglich. Ein „differential private“ gemachter Datensatz wahrt bei seiner Veröffentlichung die Privatheit des Einzelnen und bietet gleichzeitig eine nachvollziehbare Datengrundlage.
Im Projekt „Differential Privacy: Ein neuer Ansatz zum Umgang mit Social Big Data“ wird untersucht, wie sich valide statistische Schlussfolgerungen ziehen lassen, ohne die individuelle Privatsphäre zu verletzten und eine Software-Umgebung für die Umsetzung von Differential Privacy entwickelt.
Kritik und Probleme
Das Sammeln, Speichern und Auswerten von digitalen Daten in vielen Bereichen des gesellschaftlichen Lebens (die sogenannte „Datafizierung“) trägt die Hoffnung in sich, die ganze Welt besser erfassen und verstehen zu können. Die Vorstellung, dass man alle Prozesse – vom Weltklima bis zum individuellen menschlichen Verhalten – verstehen und erklären kann, wenn man nur genügend Daten darüber gesammelt und ausgewertet hat, enthält immanent den Wunsch, komplexe Zusammenhänge vorhersagenbar und letzten Endes kontrollierbar zu gestalten. Für viele ist das eine beängstigende Idee: Persönliche Daten und die damit verbundenen privaten Informationen (Adressen, Telefonnummern, politische Ansichten oder Krankenakten) möchte man vielleicht nicht beliebig vervielfältigt und ausgewertet wissen.
Die ganze Welt durch Daten erklären zu wollen ist per se als kritisch zu beurteilen: Vorausgesetzt wir verstehen Daten als Symbole, die Informationen in sich tragen, entsteht immer eine nicht schließbare Lücke zwischen der Realität und den Daten. Philosophisch kann man dies als die Differenz zwischen Signifikat und Signifikant [1,2] ausdrücken: Kein Symbol enthält die ursprüngliche Information, sondern immer „nur“ einen Verweis auf die Realität. Darüber hinaus ist die Realität ein sich entwickelnder, dynamischer Prozess. Dementgegen ist das aus Daten interpretierte Abbild der Realität eine feststehende „Momentaufnahme“. Gemeinsam mit der oben genannten ursprünglichen Lücke lässt dies den Informationsgehalt von Daten beständig verfallen: Im Prinzip sind alle Daten schon im Moment ihrer Erfassung veraltet. Deshalb können Daten für sich nicht als objektiv gelten, sondern unterliegen immer der Interpretation durch die Empfängerinnen und Empfänger. Zudem müssen Daten immer im Kontext ihrer (zeitlichen) Entstehung betrachtet werden. Generell ist also zu hinterfragen, wie die Daten entstanden sind, durch welchen Prozess Informationen in Symbole übersetzt und wie die Daten weiterverarbeitet wurden? Die aus den Daten gelesene Information ist nicht einfach als objektiv zu setzen: Zu berücksichtigen ist hier die durch die subjektive Interpretation der Empfängerinnen und Empfänger entstehende Ableitung von Handlungen oder Wissen. Daher entwickelt sich neben der Datenverarbeitung und der Datenanalyse zunehmend eine dritte wissenschaftliche Disziplin, die sich mit der beschriebenen Lücke und ihren Konsequenzen beschäftigt: die kritische Datenwissenschaft [3].
Quellen
[1] Barthes, Roland (1979). Elemente der Semiologie. Syndikat Verlag, Frankfurt a. Main.
[2] Saussure, Ferdinand de (1967). Grundfragen der allgemeinen Sprachwissenschaft. 2. Aufl., Walter deGruyter Verlag, Berlin.
[3] Iliadis, Andrew; Russo, Federica (2016). Critical Data Studies: An Introduction. In: Big Data and Society. Volume 3, Issue 2. SAGE Publishing, Los Angeles/CA.