• Keine Ergebnisse gefunden

Stringähnlichkeitsvergleich

Im Dokument Do----iT iT iT iT (Seite 144-149)

Fahrt mit Telefonat

K- verschiedene Routen

3.6 Matching mit LAC-Folgen aus Routenbaum .1 Direkter Stringvergleich

3.6.3 Stringähnlichkeitsvergleich

Es gibt eine Vielzahl von Ursachen, warum sich A-Daten-LAC-Folgen in den bisher durchgeführten zwei Schritten keiner LAC-Folge aus VPN- bzw. Schienenrouten zuordnen lassen. Diese Ursachen lassen sich in zwei Kategorien unterteilen:

Trajektoriengenerierung

1. Folge entspricht einer einzelnen Fahrt, es gibt aber keine passende LAC-Folge aus dem Routenbaumgenerator.

2. LAC-Folge entspricht keiner einzelnen Fahrt bzw. entspricht mehr als einer Fahrt.

Für LAC-Folgen der Kategorie 1 soll die bestmögliche LAC-Folge ermittelt werden, für die LAC-Folgen der Kategorie 2 soll dagegen keine LAC-Folge gefunden werden.

Tabelle 7 fasst einige Gründe für das Auftreten in beiden Kategorien zusammen:

Nr. Beschreibung Beispiel-LAC-Folge aus...

Kategorie 1: A-Daten-LAC-Folge entspricht einer Fahrt im VPN oder Schienennetz

... A-Daten ... Routenbaum

1 Anmeldung eines Mobilfunkteilnehmers an der nicht-nächsten LA (z.B. aufgrund Überlastung im Mobilfunknetz, Abschattung etc.), ebenso fehlende Anmeldung an einer nächsten LAC

ABCDXDF ABCD F

Mobilfunkteilnehmer wechselt vorübergehend in

„X“, obwohl dies nicht die nächste LA ist.

2 Unschärfe bei der Generierung der Netz-LAC-Folgen aus dem VPN (vgl. Kap. 3.5)

ABCDEDF ABCDE F

Kurzer Rückwechsel in „D“ fehlt im Routenbaum, wenn dieser zwischen Knoten und Streckenmitte erfolgt.

3 Mobilfunkteilnehmer befährt Strecken, die nicht im VPN enthalten sind (z.B. untergeordnetes Straßennetz) und zu neuen LAC-Folgen führen.

---

Kategorie 2: A-Daten-LAC-Folge ist keine einzelne Fahrt

... A-Daten ... Routenbaum

4 Mobilfunkteilnehmer nutzt Schienennetz und das VPN auf einer Quelle-Ziel-Relation

ABCDEFGH ABCD (VPN) &

DEFGH (Schiene) Multimodale Fahrt wird nicht erkannt.

5 Unzureichende Fahrtidentifikation, z.B.

fehlende Aufteilung zwei verschiedenen Fahrten (vgl. Kap. 3.3).

ABCDEDCB ABCDE & EDCB Ziel in „E“ wurde nicht erkannt, Gesamtfahrt nicht in Routenbaum vorhanden (zu umwegig)

Tabelle 7: Ursachen für das Nicht-Wiederfinden von LAC-Folgen aus A-Daten in LAC-Folgen aus dem Routenbaumgenerator.

Wie an den Beispielen der Kategorie 1 zu erkennen ist, folgen die Abweichungen gewissen Regeln (z.B. „ABA“ statt „A“). Für eine erfolgreiche Zuordnung einer A-Daten-LAC-Folge zu der wahrscheinlichsten Netz-A-Daten-LAC-Folge wird deshalb ein Stringvergleich angewendet, der auf dem aus der Biologie bekannten Needleman-Wunsch-Algorithmus (Needleman & Wunsch, 1970) basiert, der für die Zwecke des LAC-Folgen-Vergleichs angepasst wird.

Algorithmus des Stringähnlichkeitsvergleichs

Der Algorithmus vergleicht zwei Strings miteinander und bewertet deren Ähnlichkeit.

Dabei wird eine Matrix M I J

( )

, erzeugt und diese anhand der im Folgenden etwas vereinfacht dargestellten Regeln gefüllt:

Trajektoriengenerierung

i = I

Index für Zeichen der A-Daten-LAC-Folge 1...

w a b Bewertungsfunktion für die Zeichen a und b Die Bewertungsfunktion w a b( , ) ergibt sich dabei wie folgt:

„Fall aba“ bedeutet dabei, dass der Mobilfunkteilnehmer von einer LAC in eine andere wechselt und anschließend wieder zurück. Dies entspricht der häufig auftretenden Ursachennummer 1 aus der Tabelle 7. „Fall abca“ ist vergleichbar, nur dass hier zwei andere LACs zwischen der wiederholt auftretenden LAC liegen. Somit wird also im Gegensatz zum normalen Needleman-Wunsch-Algorithmus nicht nur ein Vergleich zwischen zwei Strings durchgeführt, sondern auch die Struktur der einzelnen Strings bei der Bewertung berücksichtigt.

Damit der Struktureinfluss bei kurzen A-Daten-LAC-Folgen mit weniger als 4 unter-schiedlichen Location Areas nicht überschätzt wird, werden diese beiden Fälle dort mit einer Bewertung von 0 belegt.

Zur abschließenden Bewertung der Ähnlichkeit („SeqAlignment“) wird der Matrixwert

( )

,

M I J durch die mittlere Länge der beiden Strings geteilt:

( )

Trajektoriengenerierung

Bei den hier gewählten Parametern ergibt sich bei einer vollständigen Überein-stimmung von zwei Strings eine Ähnlichkeit von 100 %. Stark voneinander abweichende Strings können auch negative Bewertungen enthalten.

Die folgende Tabelle 8 zeigt einen String-Vergleich der A-Daten-LAC-Folge „abcdxdf“

mit der Netz-LAC-Folge „abcdf“. Fett gedruckt ist die Folge, die zur höchsten Punkte-zahl von 4,4 in der rechten unteren Ecke führt. Aus dieser PunktPunkte-zahl ergibt sich eine Ähnlichkeit von 73,3 %.

a b c d x d f

0,0 -1,0 -2,0 -3,0 -4,0 -5,0 -4,6 -5,6

a -1,0 1,0 0,0 -1,0 -2,0 -3,0 -2,6 -3,6 b -2,0 0,0 2,0 1,0 0,0 -1,0 -0,6 -1,6 c -3,0 -1,0 1,0 3,0 2,0 1,0 1,4 0,4 d -4,0 -2,0 0,0 2,0 4,0 3,0 3,4 2,4 f -5,0 -3,0 -1,0 1,0 3,0 3,0 3,4 4,4

( ) (

,

)

4, 4

( )

73, 3%

0, 5 0, 5 7 5

M I J SeqAlignment

I J

= = =

⋅ + ⋅ +

Tabelle 8: Beispielberechnung einer String-Ähnlichkeit.

Die Ähnlichkeit von 73,3 % kann auch anhand der folgenden Berechnung nachvoll-zogen werden, die allerdings bereits eine optimale Vorsortierung der LAC-Folgen benötigt. Dabei wird pro Übereinstimmung (match) von zwei Zeichen ein Punkt vergeben, eine Lücke (gap) führt zu einem Punkt Abzug und der „Fall aba“ wird mit 0,4 Punkten bewertet.

A-Daten-LAC-Folge: abcdxdf (Länge: 7) Netz-LAC-Folge: abcd f (Länge: 5)

match ++++ +  5,0 Punkte gap -  -1,0 Punkte „Fall aba“ o  0,4 Punkte

Ähnlichkeit = Punkte / (0,5 * Gesamtlänge)

= (5,0 – 1,0 + 0,4) / (0,5 * (5 + 7)) = 0,733 = 73,3 %

Trajektoriengenerierung

Auswahl einer Ähnlichkeitsgrenze

Die Netz-LAC-Folge mit der höchsten Ähnlichkeit wird der A-Daten-LAC-Folge zugeordnet. Wie zu Beginn dieses Abschnitts in Tabelle 7 dargestellt, sind nicht alle A-Daten-LAC-Folgen Fahrten im VPN bzw. Eisenbahnnetz. Daher wird nur bei hoher Ähnlichkeit eine Fahrt generiert.

Die optimale Grenze der Ähnlichkeit kann nicht mathematisch bestimmt werden. Daher erfolgt die Festlegung anhand der Analyse einer Vielzahl von Stringvergleichsergeb-nissen. Dafür werden die A-Daten-LAC-Folgen, die ähnlichste Netz-LAC-Folge aus dem Routenbaumgenerator und die daraus resultierenden Routen im VPN bzw. Eisen-bahnnetz für verschiedene Ähnlichkeiten und LAC-Folgen-Längen visualisiert. Im Folgenden werden drei Beispiele visualisiert:

1. Fahrt von Stuttgart nach Heidelberg (ca. 100 km, Ähnlichkeit 80,0 %) 2. Fahrt in der Region Stuttgart (ca. 20 km, Ähnlichkeit 57,1 %)

3. Fahrt von Stuttgart nach Heilbronn (ca. 100 km, Ähnlichkeit 59,5 %)

Abbildung 30 zeigt für das erste Beispiel links die in den A-Daten beoachtete LAC-Folge und rechts drei von 271.000 Routen in Straßen- und Schienennetz. Die beiden oberen Routen, die sich nur bei Heilbronn leicht unterscheiden, haben dieselbe Netz-LAC-Folge, die die höchste Ähnlichkeit zur A-Daten-LAC-Folge hat.

A-Daten-LAC-Folge: z qnlnjlstscbdhif (Länge: 15) Netz-LAC-Folge: zmqnlnjls cbdhif (Länge: 16)

match + +++++++ ++++++  14,0 Punkte gap - -  -2,0 Punkte „Fall aba“ o  0,4 Punkte

Ähnlichkeit = Punkte / (0,5 * Gesamtlänge)

= (14,0 – 2,0 + 0,4) / (0,5 * (15 + 16)) = 0,800 = 80,0 %

Aufgrund der längeren Ubereinstimmungen der beiden LAC-Folgen und der Anwendung des Falls „aba“ (hier ... „sts“ ...) ergibt sich eine Ähnlichkeit von 80 %. Die gefundenen Routen im Projektnetz erscheinen passend zu der A-Daten-LAC-Folge, passenden Routen im Schienennetz gibt es nicht.

Trajektoriengenerierung

Im Dokument Do----iT iT iT iT (Seite 144-149)