• Keine Ergebnisse gefunden

Daten-LAC-Folge

Im Dokument Do----iT iT iT iT (Seite 149-157)

Fahrt mit Telefonat

A- Daten-LAC-Folge

“zqnlnjlstscbdhif”

Routen im Projektnetz und resultierende

Netz-LAC-Folgen

 “zmqnlnjlscbdhif”

 Ähnlichkeit: 80 %

 “zmqnlnjlscbdhif”

 Ähnlichkeit: 80 %

 “bcs”

 Ähnlichkeit: -105 % 271,000 weiteren Routen

 Ähnlichkeiten < 80 % Abbildung 30: Beispiel 1: Ergebnis des Stringvergleichs (Ähnlichkeit: 80,0 %).

Trajektoriengenerierung

A-Daten-LAC-Folge

“zqm”

Ähnlichste Route im Projektnetz

„zqnm“

Abbildung 31: Beispiel 2: Ergebnis des Stringvergleichs (Ähnlichkeit: 57,1 %).

Das zweite Beispiel in Abbildung 31 zeigt links die A-Daten-LAC-Folge und rechts die aufgrund der Stringvergleiches als ähnlichste Route ermittelte Schienenroute. Es ergibt sich dabei eine Ähnlichkeit von 57,1 %:

A-Daten-LAC-Folge: zq m (Länge: 3) Netz-LAC-Folge: zqnm (Länge: 4)

match ++ +  3,0 Punkte gap -  -1,0 Punkte

Ähnlichkeit = Punkte / (0,5 * Gesamtlänge) = (3,0 – 1,0) / (0,5 * (3 + 4)) = 0,571 = 57,1 %

Bei dieser LAC-Folge lässt es sich, auch unter Hinzunahme des detaillierten Best-Server-Plots, der Cell-IDs, der Zeiten und Busfahrplänen nur erahnen, dass hier eine Kombination aus S-Bahn (S6) und Bus (Nr. 500 oder 501) stattgefunden hat. Eine Zuordnung zu einer Fahrt im Eisenbahnnetz ist deshalb nicht wünschenswert.

Trajektoriengenerierung

A-Daten-LAC-Folge

“ y78626mzmqzqnljnjlscrjrcrj ”

Ähnlichste Route im Projektnetz

„y786mqnlnjlscrj“

Abbildung 32: Beispiel 3: Ergebnisse des Stringvergleichs (Ähnlichkeit: 59,5 %).

Beim dritten Beispiel in Abbildung 32 ergibt sich bei Stringvergleich eine Ähnlichkeit von 59,5 %:

A-Daten-LAC-Folge: y78626mzmqzqnljnjlscrjrcrj (Länge: 26) Netz-LAC-Folge: y786 m q nl njlscrj (Länge: 15) match ++++ + + ++ +++++++  15,0 Punkte gap - - - - -  -5,0 Punkte „Fall aba“ o o o o o  2,0 Punkte „Fall abca“ o  0,2 Punkte

Ähnlichkeit = Punkte / (0,5 * Gesamtlänge)

= (15,0 – 5,0 + 2,0 + 0,2) / (0,5 * (26 + 15)) = 0,595 = 59,5 %

Die A-Daten-LAC-Folge enthält deutlich mehr LACs als vergleichbare LAC-Folgen auf dieser Route, die häufigen Wechsel zwischen den LACs könnten durch spezielle Abschattungseffekte o.ä. zustande gekommen sein. Aufgrund der Berücksichtigung der aba- und abca-Fälle (z.B. „...zmqz...rcr...“) kann dennoch eine Ähnlichkeit von fast 60 % erreicht werden. Der gefundene Fahrverlauf entspricht dem Fahrtverlauf, der sich bei einer manuellen Analyse des Mobilfunkteilnehmers abschätzen lässt.

Aufgrund einer detaillierten Analyse einer Vielzahl von Stringvergleichen wird die Akzeptanzgrenze auf 60% festgelegt. Von den oben gezeigten Beispielen wird daher nur aus dem ersten eine Fahrt generiert werden. Kurze A-Daten-LAC-Folgen mit nur drei unterschiedlichen LACs wie im zweiten Beispiel können dann Ähnlichkeit über

Trajektoriengenerierung

60% erreichen, wenn A-Daten-LAC-Folge genau vier Zeichen beinhaltet und für das vierte Zeichen der aba-Fall zutrifft. Das dritte Beispiel ist durch die Wahl der 60 %-Grenze eine LAC-Folge, die knapp nicht weiter berücksichtigt wird.

Die gewählte Grenze und der Algorithmus des Stringvergleichs führen dazu, dass bei Folgen mit einer geringen Anzahl unterschiedlicher LACs relativ wenig LAC-Folgen die gewählte Grenze erreichen. Bei zunehmender Anzahl unterschiedlicher LACs, bei denen man von einer tatsächlichen Bewegung ausgehen kann, werden deutlich mehr Stringvergleiche mit einem erfolgreichen Matching (Ähnlichkeit ≥ 60 %) erreicht.

Abbildung 33: Stringvergleiche mit einem erfolgreichen Matching (Ähnlichkeit ≥ 60 %).

Performanceanalyse und -optimierung

Das Beispiel in Tabelle 8 zeigt, dass für einen Vergleich zweier Strings mit den Längen 7 und 5 die Bewertungsfunktion w a b( , ) insgesamt 105mal (3mal je Matrixeintrag) berechnet werden muss.

Untenstehende Tabelle 9 zeigt die notwendige Anzahl Funktionsaufrufe der Bewertungsfunktion zur Bestimmung des ähnlichsten Strings aus dem Routenbaum-generator für einen String aus den A-Daten mit der Länge 7. In der ersten Zeile lässt sich ablesen, dass der Routenbaumgenerator 304 unterschiedliche Strings mit der Länge 3 produziert hat. Für jeden dieser Strings muss die Bewertungsfunktion 63mal (7x3 Matrixeinträge und 3mal je Matrixeintrag) aufgerufen werden bzw. 19.152 mal für den Vergleich mit allen Strings der Länge 3. Für die 45.394 unterschiedlichen Netz-LAC-Folgen mit drei oder mehr LACs aus dem Routenbaumgenerator ergeben sich insgesamt über 13 Millionen Aufrufe dieser Funktion. Dieser Wert nimmt linear mit der

Trajektoriengenerierung

Länge der A-Daten-LAC-Folge zu, bei der maximal zulässigen LAC-Länge von 255 ergeben sich fast 500 Millionen Aufrufe für die Vergleiche eines Strings aus den A-Daten. Für einen Tag ergeben sich ca. 100.000 verschiedene A-Daten-LAC-Folgen mit einer mittleren Länge ca. 8 Zeichen.

LAC-Folgen aus dem Routenbaumgenerator Aufrufe der Bewertungsfunktion je ...

Anzahl LACs Anzahl je Klasse ... LAC-Folge ... LAC-Folgen-Klasse

3 304 63 19.152

Summe 45.394 13.463.226

Tabelle 9: Statistik eines Stringvergleichs mit der LAC-Folge der Länge 7.

Dies führt dazu, dass aus Rechenzeitgründen der Stringvergleich nicht für alle Kombi-nationen von LAC-Folgen durchgeführt wird. Daher werden aus Vorab-Analysen ver-schiedene Regeln abgeleitet, wie die Rechenzeit des Stringvergleichs auf ein sinnvolles Maß reduziert werden kann:

Trajektoriengenerierung

• Reduzierung des Vergleichssets der LAC-Folgen aus dem Routenbaumgenerator

• Reduzierung der Anzahl der zu vergleichenden LAC-Folgen aus A-Daten

Die wichtigste Regel zur Perfomanceverbesserung ergibt sich aus einer Analyse des Zusammenhangs zwischen der Anzahl verschiedener LACs in der A-Daten-LAC-Folge und der ähnlichsten Routenbaum-LAC-Folge (vgl. Abbildung 34). Dabei zeigt sich, dass gerade bei geringer Anzahl unterschiedlicher LACs der ähnlichste String meistens dieselbe Anzahl unterschiedlicher LACs hat. Bei einer höheren Anzahl unterschied-licher LACs in der A-Daten-LAC-Folge nimmt die Streuung erwartungsgemäß zu.

Daher müssen die Grenzen bei längeren LAC-Folgen etwas großzügiger gewählt werden.

Abbildung 34: Zusammenhang zwischen der Anzahl verschiedener LACs in der A-Daten-LAC-Folge und der ähnlichsten Routenbaum-LAC-Folge (unabhängig von der Ähnlichkeit).

Für die Festlegung der Grenzen sind vor allem die Stringvergleiche mit einer Ähnlich-keit über 60 % entscheidend, da nur diese als Trajektorien weiterverarbeitet werden.

Bei hoher Ähnlichkeit nimmt die Streuung gegenüber der in Abbildung 34 dargestellten Verteilung signifikant ab, so dass für die Auswahl des Vergleichssets der LAC-Folgen aus dem Routenbaumgenerator sehr enge Grenzen gewählt werden, die in der folgenden Tabelle dargestellt sind.

Trajektoriengenerierung

Verschiedene LACs in A-Daten-LAC-Folge Verschiedene LACs im Vergleichsstring (Routenbaum)

3 -0 bis +1

4 - 8 -1 bis +1

> 9 -2 bis +1

Tabelle 10: Auswahl der zu vergleichenden LAC-Folgen aus dem Routenbaumgenerator für die Berechnung der Ähnlichkeit.

Weitere Einschränkungen, die sich aus einer vertieften Datenanalyse ergeben, sind:

• LAC-Folgen der Länge 3 werden nicht untersucht, da diese keine Ähnlichkeit über 60 % erreichen können. Ein Matching z.B. einer Folge ABC mit einer LAC-Folge ABX (Ähnlichkeit 33 %) ist nicht gewünscht.

• LAC-Folgen mit einem Nervositätsfaktor ≥ 2 werden unabhängig von der Anzahl der unterschiedlichen LACs nicht untersucht. Zum einen werden dort sehr selten akzeptable Ähnlichkeiten erreicht, zum anderen sind diese LAC-Folgen aufgrund ihrer Länge sehr rechenintensiv.

3.7 Aufteilung der identifizierten LAC-Folgen aus VPN-Routen

Es ist möglich, dass mehrere VPN-Routen und/oder Schienenrouten identische Netz-LAC-Folgen haben. Die Aufteilung der A-Daten-Fahrten mit mehrdeutigen Netz-LAC-Folgen erfolgt in den drei Schritten Moduswahl, Anbindungswahl und Routenwahl.

3.7.1 Moduswahl

457 der insgesamt 45.553 Netz-LAC-Folgen repräsentieren sowohl VPN-Routen (IV) als auch Schienenrouten (ÖV). Es gibt verschiedene Ansätze, die eine Aufteilung der Mobilfunkteilnehmer ermöglichen sollen.

In Fastenrath (2009) wird anhand eines Beispiels gezeigt, dass sich in den Mobilfunk-daten Züge durch Häufungen von Mobilfunkteilnehmern, die mehrere vorab definierte Location Area Updates an bestimmten Funkzellen durchführen, erkennen lassen (vgl.

Abbildung 35). Ein Abgleich mit Fahrplänen ermöglicht es, die Punktwolken den verschiedenen Zügen auf dem jeweiligen Abschnitt zuzuordnen.

Trajektoriengenerierung

Abbildung 35: Zugerkennung aus Mobilfunkdaten (Quelle: Fastenrath 2009, S. 52).

Allerdings ist auch hier davon auszugehen, dass sich bei gebündelter Führung von Straßen und Schienenverkehrsstrecken Überlappungen ergeben, die eine eindeutige Zuordnung erschweren.

Einen anderer Ansatz (Schollmeyer & Wiltschko, 2007) basiert auf Untersuchungen einzelner Mobilfunkteilnehmer, der daher auch für schwach besetzte Busverkehre angewendet werden kann. Dazu wird das Verkehrsnetz mit Kacheln überzogen und anschließend für jede Kachel und jede Fahrt im Öffentlichen Verkehr eine zeitab-hängige Zugehörigkeit ermittelt. Um eventuelle Verspätungen und Verfrühungen zu berücksichtigen, nimmt die Zugehörigkeit rund um die fahrplanmäßige Aufenthalts-dauer in einer Kachel nur langsam ab. Für eine Trajektorie wird für alle relevanten ÖV-Fahrten ein mittlerer Zugehörigkeitswert bestimmt und bei ausreichender Überein-stimmung die Fahrt als ÖV-Fahrt bewertet. Je nach Festlegung einer Mindestzugehö-rigkeit nimmt die Wahrscheinlichkeit für einen der folgenden Fehler zu:

• Bei einer geringen Mindestzugehörigkeit wird ein Kfz, das über einen längeren Zeit-raum hinter einem Bus fährt, fälschlicherweise als ÖV erkannt.

• Bei einer hohen Mindestzugehörigkeit werden ÖV-Nutzer, die z.B. in verspäteten ÖV-Fahrzeugen fahren, als IV identifiziert.

Dieser Ansatz erfordert eine umfassende Datenbasis über den Öffentlichen Verkehr im Untersuchungsgebiet sowie sehr genaue Trajektorien.

Für das hier vorgestellte Trajektoriengenerierungsverfahren wäre es denkbar, die Fahrten mit vergleichbaren Methoden zwischen IV und ÖV aufzuteilen. Es wird aber an dieser Stelle bewusst auf eine solche Aufteilung verzichtet, da der zusätzliche Nutzen den Aufwand nicht rechtfertigt. Dies ergibt sich vor allem aus einer Analyse der nicht eindeutigen Fahrten. Diese haben, wie Abbildung 36 zeigt, zu über 50 % nur drei unter-schiedliche LACs und sind somit Fahrten, deren Genauigkeit ohnehin etwas geringer

Trajektoriengenerierung

ist. Dies gilt insbesondere, da es sich zu einem großen Teil um Fahrten in der Region Stuttgart handelt, wo die S-Bahn identische LAC-Folgen mit dem Straßennetz hat.

Abbildung 36: Anteil der LAC-Folgen, die nicht eindeutig einer Route zugeordnet werden können.

Daher wird für diese Fahrten eine pauschale Aufteilung zwischen IV und ÖV im Verhältnis von 80% zu 20% durchgeführt. Dies entspricht in etwa der Aufteilung der Fahrten bei eindeutigen LAC-Folgen und liegt im Bereich von Mobilitätsanalysen wie MiD (2002).

3.7.2 Anbindungswahl

Über verschiedene Anbindungen einer Verkehrszelle können identische LAC-Folgen entstehen, die in einem zweistufigen Verfahren aufgeteilt werden.

Im Dokument Do----iT iT iT iT (Seite 149-157)