• Keine Ergebnisse gefunden

Die Datenprozessierung unter Geheimhaltung erschwert die Interpretier- und Vergleichbarkeit. Die Datenverarbeitung ist je nach Mobilfunkanbieter sowie

Im Dokument Das Beispiel Mecklenburg-Vorpommern (Seite 37-42)

Definition, Anonymisierung, Gewichtung, Hochrech- Hochrech-nung und Modellierung

These 7: Die Datenprozessierung unter Geheimhaltung erschwert die Interpretier- und Vergleichbarkeit. Die Datenverarbeitung ist je nach Mobilfunkanbieter sowie

ver-wertendem Datendienstleister unterschiedlich, sie unterliegt aber aufgrund des Wett-bewerbs der Geheimhaltung und ist in der Regel somit nicht einsehbar.

Die beschriebenen Herausforderungen mit MND bedingen, dass Aufbereitungs- und Modellierungsprozesse durchgeführt werden. Wie werden die genannten Ver-zerrungen mittels Modellierung ausgeglichen? Welche Annahmen wurden getrof-fen? Letztendlich besteht anwenderseitig der Bedarf nach einer Beschreibung der

„Black Box”, nämlich Gewichtung, Hochrechnung und Modellierung. Typischer-weise werden diese in Ansätzen bei den Vorabsprachen zum Erwerb von MND be-sprochen, weitere Hinweise finden sich dann im ‘Beipackzettel’ zu den Daten. Je-doch sind diese Informationen oftmals sehr rudimentär und betreffen z.B. nur die in These 6 behandelten Definitionen der Bewegungsbestimmung oder übergeord-nete Informationen zur Berechnung der Durchschnittswerte (z. B. ausgewählte Zeiträume, Wochentage und Tage im Jahr). Die Funktionsweise dieser Verfahren sollte öffentlich oder zumindest für die Projektbearbeiter dokumentiert sein, um die Datenqualität einschätzen zu können. In den Interviews wurde auf Fälle hinge-wiesen, bei denen die Auswertung nicht angegangen wurde, weil die Auswirkun-gen der Datenprozessierung auf die Ergebnisqualität unklar blieben (Interview mit Datenanwender, April 2021). Der Verzicht auf die Nutzung von MND bedeutet an dieser Stelle auch für den Datenanbietern einen Nachteil, da somit potenzielle An-wendungsfelder ausgeschlossen werden.

These 8: Die Anonymisierung vernichtet relevante Informationen. Die Anonymisie-rung von Kundendaten erfordert eine Aggregation auf Basis bestimmter k-Anonymi-täts-Vorgaben. Dabei ist es insbesondere im ländlichen Raum denkbar, dass Bewe-gungsströme nur unzureichend erfasst werden. Diese These hat insbesondere dann Auswirkungen, wenn kleinräumige Analysen durchgeführt werden sollen.

Mobilfunkdaten unterliegen aus gutem Grund einer strengen Regulierung und müssen komplexe Anonymisierungsverfahren durchlaufen. Dabei kann die Ano-nymisierung durch Aggregation und Löschung erfolgen oder Daten gleich gänzlich verfremdet werden, so dass nur die Eigenschaften der MND übertragen werden.

Gängig sind Aggregationen, bei denen eine sogenannte k-Anonymitäts-Vorgabe berücksichtigt wird. Bei der k-Anonymisierung werden Quasi-Identifikatoren zu Äquivalenzklassen zusammengefasst. Die Mindestanzahl einzelner Personen in ei-ner Äquivalenzklasse wird durch den k-Wert angegeben. Im MND-Bereich liegt der k-Wert üblicherweise bei fünf. Das heißt, nach der Generalisierung müssen in al-len Äquivaal-lenzklassen mindestens fünf Personen enthalten sein.

Im ersten Schritt der Anonymisierung werden alle personenbeziehbaren Merk-male gelöscht (z. B. Telefonnummern) oder kategorisiert (z. B. Vertragsdaten zum Alter in Alterskategorien) sowie weitere Werte leicht verfälscht (Telefonica.de). Das Zusammenspiel mit den Netzbetreibern wird zudem technisch und organisatorisch (z. B. über Datenüberlassungsverträge) geregelt. BeiTeralyticsund Telefónica er-folgt das technische Zusammenspiel durch eine ‘Data Anonymization Platform’

(DAP), die von Telefónica in Abstimmung mit dem Bundesbeauftragten für den Da-tenschutz und die Informationsfreiheit (BfDI) entwickelt wurde (Destatis.de, Mobi-litätsindikatoren). Auch der Prozess beim ehemaligen AnbieterMotionlogicwar mit demBfDIabgestimmt (Web.archive.org).

BeiTeralyticswerden die MND von Telefónica wie oben beschrieben gruppiert, so dass eine gewisse Mindestanzahl von Mobilfunkgeräten repräsentiert wird. Diese

Mindestanzahl liegt bei Teralytics bei fünf. Das führt dazu, dass eine Quelle-Ziel-Relation zu einer bestimmten Uhrzeit nur in den Daten auftaucht, wenn fünf un-terschiedliche Geräte-IDs diese bestimmte Quell-Ziel-Bewegung vollziehen. Bewe-gungen unterhalb dieser Hürde werden aus Datenschutzgründen aus dem Daten-satz entfernt (Destatis.de, Mobilitätsindikatoren).

Da bei der feinen räumlichen Aufteilung der Funkzellen schnell viele kombinato-rische Möglichkeiten vorliegen, muss eine gelungene Abwägung zwischen dieser räumlichen Aufteilung und datenschutzbedingter Aggregation erfolgen, um nur einen relativ kleinen Anteil des Gesamtaufkommens durch die Löschung von ‚un-gewöhnlichen’ Relationen zu verlieren. Dabei ist es insbesondere im ländlichen Raum denkbar, dass Bewegungsströme nur unzureichend erfasst werden. In jedem Fall ist es wichtig, diesen wegfallenden Anteil der Relationen im absoluten und re-lativen Ausmaß für die jeweiligen Datensätze zu kennen, um die Bedeutung der Anonymisierung für die Aussagequalität der Daten einzustufen.

Den Informationen desmittlerweile geschlossenen Telekom-Tochterunterneh-mens Motionlogic9 nach (Web.archive.org) erfolgte die Aggregation nach sozio-de-mografischen Merkmalen und Postleizahlgebieten. Überstieg die Gruppe einer „ge-setzlich vorgegebenenMindestgröße”,wurdendie Daten auf dieser Ebene aggre-giert. Es ist zu vermuten, dass eine weitere Aggregation der Bewegungen dieser Gruppen dann auf einer bestimmten Raum- und Zeitebene durchgeführt wurde.

Der Informationsverlust betrifft an dieser Stelle seltene Kombinationen von sozio-demografischen Merkmalen und PLZ-Gebieten. Bei einer einfachen

9 Es ist davon auszugehen, dass die aktuell von der Telekom bereitgestellten Daten dieselbe Prozedur durchlaufen.

rung nach groben Altersgruppen und dem Geschlecht dürfte dieser Verlust ver-nachlässigbar klein sein, aber auch hier gilt es, den Verlust für die jeweiligen Da-tensätze transparent zu halten.

Als Beispiel für eine Verfremdung der MND kann die Verwendung als Eingangsda-tensatz bei der Verkehrsmodellierung gelten. So verwendetSenozonfür die Hoch-rechnung eine agentenbasierte Modellierung10, die eine räumliche Nachfragever-teilung über detaillierte Geodaten ermöglicht, und passt mit Mobilitätsnachfrage-daten wesentliche Parameter dieser Modelle an. Hierzu werden die MND mit weite-ren Mobilitätsnachfragedaten11 nach ähnlichen Bewegungspaaren durchsucht, so dass eine weitere Quantifizierung der Mobilitätsnachfragedaten für Raum- und Zeiteinheiten über die MND erfolgen kann.Die MNDsind somitganz wesentlich für die Ergebnisse der Modellierung, sind aber im Einzelnen nicht in den Ergebnisda-ten wiederzufinden.

These 9: Die veränderliche Datenprozessierung ohne Track-Record führt zu Fehl-schlüssen. Die Aufbereitungsprozesse von MND unterliegen fortlaufend Anpassungen und Verbesserungen, die in Zeitreihenvergleichen nicht immer einheitlich sind. Auf-grund der rechenintensiven Datenprozessierung ist es sicherlich nicht wirtschaftlich, jede Änderung in der Aufbereitung auch auf vergangene Datensätze anzuwenden.

Vielmehr wird eine solche Nachverbesserung nur dort durchgeführt, wo Abweichungen auffällig werden. Das ist eine mögliche Quelle für Fehlinterpretationen, die durch eine offene Kommunikation der Versionierung besser eingegrenzt werden könnte.

Mehrjährige Vergleiche sollten auf identischen Aufbereitungsprozessen basieren.

Es wird davon ausgegangen, dass dies mit Blick auf die OVID-19-Analysen aktuell

10 auf Basis der Verkehrsmodellierungssoftware MATSim

11 z. B. den Wegeangaben der MiD 2017

nicht der Fall ist. Insbesondere die Machbarkeitsstudien der Destatis müssen in diesem Zusammenhang erwähnt werden. In der EXDAT-Dokumentation wird eine entsprechende Änderung dokumentiert. Hier wird erläutert, wie der Anbieter Te-ralytics den Hochrechnungsalgorithmus für die Auswertung angepasst hatte.

Grund waren räumliche Verzerrungen durch eine laut Destatis falsche Konfigura-tion der ExtrapolaKonfigura-tionsfaktoren, was auch „vormals veröffentlichte Daten syste-matisch verzerrt”. Die Neuberechnung aller historischen Daten wurden durchge-führt und am 12. April als korrigierte Daten im öffentlichen Auftritt verwendet (Destatis.de, Mobilfunkdaten).

Auch beim RKI wird eine Anpassung erwähnt. Dort geht es um den Vergleichszeit-raum für die einzelnen Monate der Pandemiezeit in den Jahren 2020 und 2021. Zu Beginn der Analysen wurde der Benchmark aus „einer Durchschnittswoche aus dem März 2019” gebildet (covid-19-mobility.org, Update zur Berechnung). Abwei-chungen wurden zu den jeweiligen Wochentagen der Durchschnittswoche gebildet.

Im späteren Verlauf wurden monatsbasierte Durchschnittswerte der einzelnen Wochentage genutzt. Die Änderungen wurden in einem eigenen Report im Oktober 2020 dargestellt. Sie dokumentieren dabei Korrekturen der Veränderungsraten, die insbesondere im Juni und September zu Anpassungen hin zu niedrigeren Wer-ten führWer-ten.

Die Beispiele zeigen einen guten Umgang mit der Thematik, indem Veränderungen grob und Korrekturdaten genau beschrieben worden sind. Werden die Angaben der Webseiten nun z. B. mit älteren Angaben aus den Printmedien verglichen, wird es jedoch schwer, die Veränderungen im Auge zu behalten. Insbesondere von Sei-ten der DaSei-tenlieferanSei-ten und -dienstleister fehlt eine öffentliche Versionsdoku-mentation der Berechnungsalgorithmen, mit denen Dritte auch für vergangene Arbeiten weiterführende Informationen über die verwendeten Versionen erhalten können.

Im Dokument Das Beispiel Mecklenburg-Vorpommern (Seite 37-42)