• Keine Ergebnisse gefunden

Visuelle Analyse von E-mail-Verkehr

N/A
N/A
Protected

Academic year: 2022

Aktie "Visuelle Analyse von E-mail-Verkehr"

Copied!
46
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

von E-mail Verkehr

Florian Mansmann - Bachelorarbeit - Universit¨at Konstanz

27. August 2003

1. Gutachter: Prof. Dr. Daniel A. Keim

2. Gutachter: Prof. Dr. Oliver Deussen

(2)

1 Einleitung 2

1.1 Hintergrund . . . 2

1.2 Problemstellung . . . 3

1.3 Methodik . . . 4

1.4 Aufbau der Arbeit . . . 5

2 Visuelle Analyse des E-mail Verkehr 6 2.1 Related Work . . . 6

2.1.1 Visualisierungsstudie des NSFNET . . . 7

2.1.2 Visualisierung von Netzwerk-Daten . . . 7

2.1.3 VisualRoute . . . 9

2.2 Datenaufbereitung . . . 11

2.2.1 Filtern der E-mail Header . . . 11

2.2.2 Aufl¨osen der Mailserver-Hosts . . . 13

2.2.3 Geographische Zuordnung . . . 13

2.3 Visualisierung der E-mail Routen . . . 15

2.3.1 Color Mapping . . . 15

2.3.2 Kartenprojektionen . . . 18

2.3.3 Darstellung der Routen . . . 25

2.3.4 Rasterung . . . 27

2.3.5 Zoom . . . 28

2.3.6 Kartogramm-Zoom . . . 30

2.4 Anwendung . . . 32

2.4.1 Regul¨are E-mails . . . 32

2.4.2 Spam . . . 34

2.5 Evaluierung . . . 36

2.5.1 Effektivit¨at . . . 36

2.5.2 Genauigkeit . . . 37

2.5.3 L¨ugenfaktor . . . 38

2.5.4 Effizienz . . . 38

2.5.5 Asthetik . . . .¨ 39

2.5.6 Anpassbarkeit . . . 39

3 Zusammenfassung und Ausblick 40 3.1 Zusammenfassung . . . 40

3.2 Ausblick . . . 41

3.3 Danksagung . . . 42

(3)

1.1 Hintergrund

Im Jahr 2000 wurden sch¨atzungsweise 11 285 Terabytes (vgl. [LVDSS00]) per E-mail ver- sendet. Das entspricht 610 Milliarden E-mails, wohingegen lediglich 2,1 Milliarden statische Seitenabrufe get¨atigt wurden. E-mail ist heutzutage nicht mehr aus dem allt¨aglichen Leben wegzudenken und wird von Andrew Odlyzko berechtigt als die ’killer app’ des Internets be- zeichnet (siehe [Odl01]). Mit dem exponentiell wachsenden Volumen an E-mails, als auch durch die wirtschaftliche und gesellschaftliche Bedeutung von E-mail Verkehr, gewinnt die Visuali- sierung von E-mail-Daten zunehmend an Relevanz.

Im Rahmen dieser Arbeit ist der Begriff Visualisierung als ,,rechnergest¨utzte, visuelle Pr¨asen- tation von Daten, Informationen und Wissen in einer f¨ur den Menschen ad¨aquaten und f¨ur die jeweilige Anwendung (...) sinnvollen Form zu verstehen” (vgl. [SM00]).

Aus technischer Sicht muss durch das ununterbrochene Wachstum des E-mail-Verkehrs die Hardware st¨andig nachger¨ustet werden. Durch eine Visualisierung des E-mail-Verkehrs k¨onnen Engp¨asse der Mailserver besser identifiziert beziehungsweise die Routing Tables derart opti- mieren werden, dass eine bessere Verteilung des Lastaufkommens erreicht wird.

F¨ur kommerzielle Zwecke ergibt eine geographische Visualisierung des E-mail-Verkehrs Hin- weise darauf, an welchen Orten sich die Kunden und Partner befinden, mit denen das Unter- nehmen per E-mail kommuniziert. Beispielsweise k¨onnte man dadurch Standpunkte m¨oglicher neuer Filialen identifizieren. Des Weiteren ist es durch eine derartige Visualisierung m¨oglich, eine volumin¨ose Absch¨atzung der Kommunikationsstrukturen vorzunehmen, welche wiederum relevante Indikatoren f¨ur Entscheidungen des Managements liefert.

Laut der Washington Post besteht der E-mail Verkehr in den USA bereits zu 40 Prozent aus Werbemails (siehe [Kri03]), sogenanntem Spam. Es stellt sich nun die Frage, ob sich normale E-mails von diesen Werbemails unterscheiden. Wenn ja, so k¨onnte eine visuelle Auswertung solcher unerw¨unschter E-mails durch Vergleich mit dem normalen E-mail Verkehr Hinweise auf Besonderheiten von Spam-E-mails ergeben. Durch diese Hinweise kann eine gezielte sta- tistische Untersuchung des Mailaufkommens angestoßen werden, mit deren Hilfe effektivere Spam-Filter geschaffen werden k¨onnen.

Diese Arbeit soll als eine Einf¨uhrung in die geographische Visualisierung von E-mail Verkehr verstanden werden, auf m¨ogliche Problemfelder hinweisen und L¨osungen anbieten. Des Weite- ren soll der interessierte Leser einen Einblick in die Strukturen von E-mail Routen bekommen.

(4)

1.2 Problemstellung

Tagt¨aglich treffen in einem vielbenutzen E-mail-Postfach circa 20 E-mails ein. Im Jahr sam- meln sich dadurch ¨uber 7000 E-mails in einem einzigen Postfach an. Bei der Flut an E-mails stellt sich beispielsweise die Frage, woher diese alle kommen. Bei n¨aherer Betrachtung des Protokolls ist feststellbar, dass es m¨oglich ist, den Weg von E-mails zu verfolgen. Aus die- ser M¨oglichkeit heraus ergibt sich nun die Frage, auf welchen Wegen die E-mails zu ihrem Empf¨anger gelangen.

Zur Darstellung der E-mail Routen soll ein ungerichteter Graph G = (V, E) verwendet werden, dessen Kanten je nach Frequenz der Routen Gewichte tragen. Eine visuelle Relation zwischen den Kanten und der Gewichtung der Kanten soll erkennbar sein. Viel frequentierte Routen sollen hierbei als Hauptrouten ersichtlich sein. Es soll m¨oglich sein, ¨uber 10 000 E- mails durch Verwendung von Verfahren der Informationsvisualisierung anzueigen.

Die entwickelte Visualisierung soll in ¨asthetischer Weise die geographische Herkunft der E- mails pr¨asentieren. Zu diesem Zweck sollen Kartenprojektionen Π : (λ, ϕ)→(x, y) eingesetzt werden, welche die gesamte Weltkugel auf einer zweidimensionalen Ebene darstellen.

Um dem Anwender der Visualisierung ein m¨achtigeres Werkzeug zur Verf¨ugung zu stellen, wird angestrebt, dass die Visualisierung durch Beutzerinteraktion gesteuert werden kann. Dies g¨abe dem Benutzer die M¨oglichkeit, unwichtige Routen auszublenden, um sich auf die rele- vanten Daten zu fokussieren. Des Weiteren soll der Benutzer durch einen Zoom interessante Detailbereiche der Daten untersuchen k¨onnen.

Da viel Verkehrsaufkommen zwischen den USA und Deutschland zu erwarten ist, soll eine alternative Darstellung der Amerikarouten m¨oglich sein. Die ¨Uberlagerung der Routen der amerikanischen Westk¨uste durch diejenigen der Ostk¨uste soll dadurch verringert werden.

Ferner soll durch ein Kartogramm eine alternative Darstellung der E-mail Routen verwen- det werden, welche die Weltkarte nach relevanten Bildbereichen verzerrt. L¨ander mit geringem E-mail Verkehr sollen hierbei verkleinert, L¨ander mit großen E-mail Verkehr vergr¨oßert werden.

(5)

1.3 Methodik

Grunds¨atzlich wird eine 2-dimensionale Darstellung der Daten entwickelt, welche auf m¨oglichst effektive Weise dem Betrachter den geographischen Sachverhalt der E-mail Routen nahelegen soll.

Bertin (vgl. [Ber82]) unterscheidet in seinem Buch ,,Graphische Darstellungen und die gra- phisch Weiterverarbeitung der Information” acht visuelle Variablen, wobei zu beachten ist, dass die Position (x,y) als zwei dieser Variablen gesehen wird. Die Variablen werden wie folgt den einzelnen Elementen der Visualisierung zugeordnet:

Position (x,y) Geographische Zuordnung der Mailserver Gr¨oße L¨ange der Route

Helligkeitswert Anzahl der E-mails, welche ¨uber die Route transportiert wurden

Farbe Siehe Helligkeitswert

Musterung oder Textur Dient der Unterscheidung von Landmasse und Wasser Form des Elements Unterscheidung zwischen Routen, welche eine Strecke

zur¨uckgelegt haben und Routen, welche keine Strecke hinterlegen und nur lokal transportiert werden.

Richtung oder Orientierung Nicht verwendet

Die Effektivit¨at verschiedener graphischer Elemente und Attribute wurde von Mackinlay (siehe [Mac86]) in Bezug auf die drei Datenarten Quantitativ, Ordinal und Nominal, beur- teilt. Hierbei steht bei allen Datenarten die Position an erster Stelle. Da das Hauptziel der Visualisierung die Darstellung der E-mail Routen und deren Einordnung in Relevanzklassen ist, wird zur besseren Orientierung des Betrachters die Position den geographischen Koordi- naten der E-mail Server zugeordent.

Bei ordinalskalierten Datenwerten steht die Helligkeit an zweiter Stelle der Evaluierung.

Aus diesem Grund wurde sie zur Unterscheidung der Relevanz der jeweiligen E-mail Route verwendet.

(6)

1.4 Aufbau der Arbeit

Kapitel 1 dient der Hinf¨uhrung des Lesers zum eigentlichen Thema. Dem Leser werden im Hintergrund die Motivationsgr¨unde f¨ur die Visualisierung des E-mail Verkehrs gegeben. In der Problemstellung wird das zu l¨osende Problem definiert, welches im Laufe der Arbeit gel¨ost wird. Im UnterkapitelMethodikwird die wissenschaftliche Vorgehensweise im Detail erl¨autert.

Das zweite Kapitel besch¨aftigt sich mit der Visuellen Analyse des E-mail Verkehrs. Es ist in f¨unf Unterkapitel unterteilt. Das erste Unterkapitel geht auf bisherige Arbeiten auf dem Forschungsgebiet der Visualisierung von E-mail und Netzwerkverkehr ein. Die Auswahl fiel auf die Visualisierungsstudie des NSFNET, auf eine Forschungsarbeit zur Visualisierung von Netzwerk-Daten und auf ein kommerzielles Produkt, VisualRoute.

Im UnterkapitelDatenaufbereitungwird nun detailliert beschrieben, welche Schritte notwen- dig sind, um die zur Visualisierung ben¨otigten Daten aufzubereiten.

Im Anschluß daran wird im UnterkapitelVisualisierung der E-mail Routendie visuelle Dar- stellung der E-mail Routen erl¨autert. Hierbei wird auf verschiedene Skalenniveaus f¨ur das Colormapping eingegangen. Zur Darstellung der Weltkugel in einer zweidimensionalen Ebene auf dem Bildschrim werden verschiedeneKartenprojektionenverwendet. In diesen Karten wer- den nun die Routen als Linien eingezeichnet, wobei eine Aggregation der E-mail Routen durch Rasterungnotwendig ist. Erg¨anzend wird einZoom auf der Weltkarte vorgestellt. Ferner wird der Einsatz eines Kartogramms vorgestellt, welches die Weltkarte nach der geographischen Verteilung der Datenwerte verzerrt.

Das UnterkapitelAnwendung umfasst die Auswertung von normalen E-mails und von Wer- bemails. Hierbei wird ein besonderer Fokus auf die Unterschiede zwischen normalen E-mails und Spam gelegt.

Die entwickelte Visualisierung wird schließlich im UnterkapitelEvaluierungbewertet, indem die Schw¨achen dargelegt und St¨arken gezeigt werden.

Das Kapitel 3, Zusammenfassung und Ausblick, ist in drei Unterkapitel unterteilt. Im Un- terkapitel Zusammenfassung wird ein R¨uckblick auf die Arbeit gegeben. Der Ausblick weist nun auf weitere Probleme, Forschungsgebiete und Verbesserungen hin.

(7)

In dieser Arbeit wird eine visuelle Analyse des E-mail Verkehrs durchgef¨uhrt. Hierbei werden verschiedene Begrifflichkeiten verwendet. Unter einer E-mail Route verstehe ich den geogra- phischen Weg, den eine E-mail einschl¨agt, um vom Absender zum Empf¨anger zu gelangen.

Dieser Weg wird durch die Lokalit¨at der einzelnen E-mail Server und der Lokalit¨at des Ver- senders bestimmt, welche E-mail Hops genannt werden.

Unter einer Weiterleitung verstehe ich hierbei keine Weiterleitung im Sinne des E-mail An- wendungsprogramms, sondern die T¨atigkeit der Mailserver, die E-mails weiter zu versenden, falls die Empf¨angeradresse nicht von ihnen selbst verwaltet wird. Ferner werden auf dem Ser- ver eingerichtete Forwarder, welche die Nachricht automatisch an eine andere E-mail Adresse versenden, ebenfalls als Weiterleitungen bezeichnet.

Jeder Mailserver ist durch eine IP-Adresse eindeutig identifizierbar. Meistens werden der jeweiligen IP-Adresse ein oder mehrere Hostnamen zugewiesen.

Ein Traceroute ist eine spezielle Methode der Geschwindigkeits- und Routenmessung ein- zelner Pakete des IP-Protokolls. Hierbei sendet man mehrere spezielle IP-Pakete an den Empf¨anger. Die Pakete sind derartig manipuliert, das jedes folgende Paket jeweils einen Hop weiter kommt als das vorherige. Danach wird es zusammen mit den Informationen ¨uber die besuchten Hops und den Zeitmessungen zwischen den einzelnen Hops zur¨uck an den Versender geschickt.

2.1 Related Work

Aus technischem Interesse heraus wurden schon vielf¨altig Netzwerkdaten visualisiert. So ha- ben zum Beispiel Cox und Patterson (vgl. [CP92]) bereits 1993 das Wachstum des Internets w¨ahrend einer zweij¨ahrigen Periode anhand eines Videos mit 3D-Animationen visualisiert.

Becker, Eick und Wilks (siehe [BEW95]) hingegen haben 1995 in ihrem Paper ihre Software Seenet vorgestellt, welche darauf ausgelegt ist, Daten des AT&T Long Distance Telefonnetz- werks darzustellen. Hierbei wurden mehrere 2D Displays entwickelt, die von Analysten mani- puliert werden konnten.

Bei der dritten Arbeit handelt es sich um ein aktuelles kommerzielles Produkt, VisualRoute von Visualware (vgl. [Visw03]). Diese Software erlaubt es, einen Traceroute visuell auf einer Weltkarte zu verfolgen. Durch Zuhilfenahme eines weiteren Produkts der Firma, emailTracer,

(8)

ist es m¨oglich, einzelne E-mail Routen zu verfolgen.

Neu an dieser Arbeit ist, dass der gesamte E-mail Verkehr aus Anwendersicht nach geogra- phischen Gegebenheiten visualisiert wird. Im Vordergrund stehen hierbei nicht die technischen, sondern die durch die Visualisierung erkennbaren semantischen Zusammenh¨ange.

2.1.1 Visualisierungsstudie des NSFNET

Abbildung 2.1: Inbound Traffic des NSFNET T1 Backbones, September 1991 (vgl. [CP92]) Cox und Patterson vom National Center for Supercomputing Applications (NCSA) stellen in ihrer Arbeit den Internetverkehr des Backbones des National Science Foundation Netzwerks (NSFNET) dar (vgl. [CP92]).

Hierbei verwenden sie eine Animation, um die Entwicklung und das exponentielle Wachstum des NSFNET innerhalb eines Zeitraumes von zwei Jahren zu verdeutlichen. Durch 3D-Effekte haben die Forscher das Backbone oberhalb der Erde dargestellt, um den enormen Datenaus- tausch zwischen den einzelnen Backbone-Knoten hervorzuheben (siehe 2.1, Seite 7).

2.1.2 Visualisierung von Netzwerk-Daten

Netzwerke sind von entscheidender Bedeutung f¨ur die moderne Gesellschaft. Becker, Eick und Wilks (siehe [BEW95]) zeigen in ihrer Studie zur Visualisierung von Netzwerkdaten, wie diese Daten visuell repr¨asentiert werden k¨onnen. Dadurch erwarten sie ein gesteigertes Verst¨andnis f¨ur das Netzwerk und dessen Daten, um eine effiziente Handhabung sicherzustellen.

Die hierzu von ihnen entwickelte Software Seenet erm¨oglicht die Visualisierung von ge- richtetem Netzwerkverkehr in vielf¨altiger Art und Weise. Hierbei kommen statische Displays,

(9)

Abbildung 2.2: Visualisierung von Netzwerk-Verkehr mit Seenet (vgl. [BEW95])

interaktive Manipulationsm¨oglichkeiten und Animationen zum Einsatz.

Bei den visualisierten Daten handelt es sich zum gr¨oßten Teil um Benutzungsdaten des AT&T Long Distance Telefonnetzwerks. Hierbei wurden Daten an 110 Netzwerkknoten erho- ben, welche jeweils eine geographische Referenz haben. Besonders herausfordernd war laut den Autoren, dass ¨uber 12 000 Links und deren Ver¨anderung im Laufe der Zeit dargestellt werden mussten.

Des Weiteren wurde in dem Paper der Internetverkehr zwischen verschiedenen L¨andern, als auch der E-mail Verkehr innerhalb des Forschungsinstituts visuell untersucht. Die visuelle Analyse des E-mail Verkehrs wurde jedoch nicht nach geographischen Gegebenheiten durch- gef¨uhrt. Stattdessen wurde die Anordnung nach dem Verkehrsaufkommen optimiert.

In dem Paper werden Methoden vorgestellt, welche die Daten in vielfacher Art und Wei- se darstellen. Die einfachste und intuitivste Darstellung sind sogenannte Linkdaten, welche als Linie oder Teillinie Verbindungsdaten zweier Knoten darstellen. Zum einen besteht die M¨oglichkeit, von jedem Knoten aus auf der H¨alfte der Strecke zum n¨achsten Knoten die Daten des Ausgangsknotens darzustellen. Zum anderen k¨onnen durch sogenanntes Line Shortening die ¨Uberlagerungen der Linien verringert werden. Vergleiche hierzu Abbildung 2.2 auf Seite 8.

Eine weitere M¨oglichkeit zur visuellen Repr¨asentation der Daten sind Rechtecke. Die Auto- ren haben in der horizontalen Dimension der Recktecke die einkommenden Daten kodiert und in der vertikalen Dimension die ausgehenden Daten. Beispielsweise bedeutet ein 500 × 1000 Rechteck bei linear skalierter vertikaler und horizentaler Dimension, dass 500 eingehende An- rufe und 1000 ausgehende Anrufe gemessen wurden. Bei dieser Visualisierung gehen allerdings Richtungsinformationen zwischen den Knoten verloren.

(10)

Matrix Displays hingegen l¨osen das Problem der ¨Uberlagerung visueller Datenrepr¨asenatio- nen auf eine andere Art und Weise. Sie lassen geographische Informationen der Netzwerkknoten aus. Hierbei werden zweierlei Probleme gel¨ost. Zum einen wird den langen Linien zwischen weit auseinander liegenden Netzwerkknoten nicht zuviel visuelle Aufmerksamkeit geschenkt und zum anderen wird das ¨Uberlagerungsproblem gel¨ost.

Um interessante Visualisierungen der Daten zu erzeugen, m¨ussen die unterschiedlichen Para- meter der Visualisierung geeignet gew¨ahlt werden. Durch dynamische Parametereinstellungen kann dieser langwierige Prozess erheblich beschleunigt werden. Becker, Eick und Wilks ver- wenden hierzu vor allem Direct Manipulation. Durch Auswahl einzelner Netzwerkknoten mit der Maus und durch Variation der anderen Parameter durch Slider stellen sie dem Analysten m¨achtige Werkzeuge zum Durchst¨obern eines großen Suchraumes zur Verf¨ugung.

2.1.3 VisualRoute

Abbildung 2.3: VisualRoute von Visualware [Visw03]

Die Firma Visualware (siehe [Visw03]) vertreibt die Software VisualRoute, welche es erm¨oglicht, visuell auf einer Weltkarte einen einzelnen Traceroute zu verfolgen (vgl. Abbildung 2.3, Seite 9). Hierbei werden die traversierten IP-Adressen mit Informationen zur jeweiligen Lokalit¨at angezeigt. Des Weiteren erscheinen Informationen zur Netzwerkzugeh¨origkeit der jeweiligen IP-Adresse.

F¨ur jeden Hop wird ein Knoten auf der Landkarte gezeichnet. Die einzelnen Knoten der Routen sind durch Linien verbunden. Zus¨atzlich erscheinen an den Knoten Labels wie ,,Ger- many” oder St¨adtenamen f¨ur Knoten in den USA.

(11)

Es besteht zus¨atzlich die M¨oglichkeit, ¨uber Mausinteraktion in die Landkarte hineinzuzoo- men, um Detailbereiche anzusehen.

Visualware hat ferner eine Software ,,emailTracerPro” entwickelt, welche einzelne E-mail Header analysiert und ¨uber VisualRoute darstellt. ¨Uber ein Microsoft Outlook Plug-in kann man direkt aus dem E-mail-Programm heraus die Herkunft einer Nachricht als auch die einge- schlagene Route ¨uberpr¨ufen. Laut Visualware deckt die Software sogar ¨ubliche Irref¨uhrungs- taktiken auf.

Leider ist es mit der Software von Visualware in der aktuellen Version 2.0 nicht m¨oglich simultan mehrere E-mails zu analysieren.

(12)

2.2 Datenaufbereitung

Die Datenaufbereitung nimmt in der Regel 70 Prozent der Arbeitszeit eines Visualisierungs- Projekts in Anspruch. Hierbei werden Rohdaten bearbeitet und mit anderen Datenquellen zusammengef¨uhrt. Die Datenmenge wird nun auf die zur Visualisierung ben¨otigten Daten re- duziert.

Die Datenaufbereitung wurde technisch in der Programmiersprache Perl realisiert, da sie sich besonders gut zum Parsen von Daten eignet. Hierbei werden dem Anwender zwei M¨oglichkei- ten der Datengewinnung zur Verf¨ugung gestellt. Einerseits kann das Perlskript vom Benutzer durch Angabe der Accountdaten seines IMAP-Accounts veranlasst werden, direkt die Hea- der zu scannen. Andererseits steht den Anwendern, welche nicht ¨uber einen IMAP-Account verf¨ugen, die M¨oglichkeit offen, das Perlscript die Netscape Mail-Datei scannen zu lassen.

Abbildung 2.4: UML-Klassendiagramm des E-Mail Filters

Im IP-Filter wird die Datenaufbereitung initialisiert. Es wird eine Verbindung zum IMAP Server aufgebaut und eine Liste von E-mails abgefragt. Diese werden vom HeaderAnalyzer geparst. ¨Uber einen DNS-Lookup werden die vom HeaderAnalyser gefundenen Hostadressen der Mailserver aufgel¨ost, so dass jede Route nur aus IP-Adressen besteht.

Nun werden die Daten zur¨uck an den IPfilter gegeben. Dieser startet den GeoLocator, welcher die Aufgabe hat, jeder gefundenen IP-Adresse eine geographische Koordinate zuzu- ordnen. Hierzu werden zweierlei Datenbest¨ande abgefragt, zum einen die Datenbank selbst, welche geographische Informationen auf L¨anderebene zur Verf¨ugung stellt und zum anderen den GeoCache, welcher den Zugriff auf eine Auswahl von Koordinaten auf St¨adteebene erlaubt.

2.2.1 Filtern der E-mail Header

Der E-mail Header beinhaltet technische Informationen ¨uber die E-mail, wie beispielsweise Versandzeitpunkt, Ankunftszeitpunkt als auch die E-mail-Server, welche die E-mail weiterge- leitet haben. Unter Zuhilfenahme des Attributs ,,Received” (vgl. Abbildung 2.5,12) habe ich

(13)

die Hostadressen bzw. direkt die IP-Adressen der traversierten Hosts herausgefiltert.

Das Perl-Skript verbindet sich ¨uber das Perl-Modul Mail::IMAPClient (siehe [Ker03]) mit dem IMAP-Server. Durch Angabe eines Benutzernamens und eines Passworts kann nun auf die E-mails zugegriffen werden.

Return-Path: <FRIDOLIN.MANSMANN@Roche.COM>

Delivered-To: mansmann@cservices.de

Received: (qmail 15871 invoked from network); 11 Dec 2002 08:35:17 -0000 Received: from unknown (HELO mx02.web.de) ([217.72.192.152])

(envelope-sender <FRIDOLIN.MANSMANN@Roche.COM>) by twister.ispgateway.de (qmail-ldap-1.03) with SMTP

for <mansmann@cservices.de>; 11 Dec 2002 08:35:17 -0000 Received: from [196.3.50.241] (helo=rbadb2.rbacpxclu.bas.roche.com)

by mx02.web.de with esmtp (WEB.DE(Exim) 4.93 #56) id 18M2KO-0002I1-00

for Florian.Mansmann@web.de; Wed, 11 Dec 2002 09:34:48 +0100 Received: from CONVERSION-DAEMON.Roche.COM by Roche.COM

(PMDF V6.0-025 #47170)

id <01KPWG6PF3Q89774AT@Roche.COM>

for Florian.Mansmann@web.de; Wed, 11 Dec 2002 09:33:01 +0100 Received: from rbamsemcn1.emea.roche.com

(rbamsemcn1.emea.roche.com [145.245.211.139])

by Roche.COM (PMDF V6.0-025 #47170) with ESMTP id <01KPWG6CV74I9889VO@Roche.COM>

for Florian.Mansmann@web.de; Wed, 11 Dec 2002 09:32:42 +0100 Received: from rkamsem1.emea.roche.com ([145.245.247.233])

by rbamsemcn1.emea.roche.com

with Microsoft SMTPSVC(5.0.2195.2966);

Wed, 11 Dec 2002 09:32:40 +0100 Date: Wed, 11 Dec 2002 09:32:37 +0100 From: ”Mansmann, Fridolin PGID Kaiseraugst

<FRIDOLIN.MANSMANN@Roche.COM>”

Subject: RE: Adresse

To: Florian Mansmann <Florian.Mansmann@web.de>

Abbildung 2.5: Auszug aus dem Header einer E-mail

Lediglich die relevanten Information werden herausgefiltert, d.h. f¨ur jede E-mail wird eine Route angelegt, welche aus IP-Adressen, wie beispielsweise [134.34.240.38], oder Hostadres- sen, wie popserver.uni-konstanz.de, besteht. F¨ur Animationen, welche den zeitlichen Verlauf des E-mail Verkehrs darstellen, ist es hilfreich, zu jeder E-mail Route eine Zeitinformation zu speichern. Diese kann aus dem Attribut ,,Date” ausgelesen werden, das den Versandzeitpunkt der E-mail dokumentiert.

(14)

Zur Einsch¨atzung der Validit¨at einer geographischen Zuordnung k¨onnte man die Zeitanga- ben der ,,Received” Attribute analysieren. Zum Beispiel bedeutet die Angabe ,,Tue, 14 Jan 2003 11:27:37 +0100 (CET)”, dass die E-mail am Dienstag, den 14. Januar 2003 um 11:27 Uhr Zentraleurop¨aischer Zeit empfangen wurde. Die Zahl +0100 bedeutet, dass die Zeiteinstellung des Servers um +1 Stunde von der Greenwich Mean Time (GMT) abweicht. Durch ein Map- ping, welches jedem Land ein oder mehrere Zeitzonen zuordnet, k¨onnte man nun einen Hinweis erhalten, ob eine Zuordnung richtig ist, oder mit hoher Wahrscheinlichkeit falsch ist. Hierbei treffe ich die Annahme, dass die Server jeweils auf die Zeitzone, in der sie aufgestellt sind, konfiguriert sind. Selbstverst¨andlich m¨usste diese Annahme zuerst empirisch belegt werden.

2.2.2 Aufl¨ osen der Mailserver-Hosts

Die E-mail Routen bestehen bis jetzt aus einzelnen Hosts und IP-Adressen. W¨ahrend der Arbeit mit der GeoIP-Datenbank von Maxmind (siehe [GeoIP03]) habe ich festgestellt, dass Anfragen auf IP-Adressen innerhalb von wenigen Millisekunden beantwortet werden, wohinge- gen Anfragen auf Hostnames mehrere Sekunden zur Beantwortung ben¨otigen und des ¨ofteren von der Software nicht lokalisierbar sind.

Durch Verwendung eines Nameserver Lookups kann man im Perl-Skript wesentlich schneller die Hosteintr¨age in IP-Adresse umwandeln. Besonders auff¨allig an den Realdaten war, dass sehr viele Hosts mehrmals abgefragt wurden. Folglich konnte ich ¨uber einen Cache der bereits abgefragten Domainnamen die Anfragezeit noch einmal deutlich reduzieren.

2.2.3 Geographische Zuordnung

Zur geographischen Zuordnung der IP-Adressen habe ich die GeoIP-Datenbank der Firma Maxmind (siehe [GeoIP03]) verwendet. Die kostenlose L¨anderversion konnte direkt von der Homepage des Herstellers heruntergeladen werden. Zu Forschungszwecken stellte uns die Firma Maxmind 10 000 kostenlose Lookups auf St¨adteebene zur Verf¨ugung. Mithilfe dieser Lookups erf¨ahrt man eine Welt-Koordinate zu jeder IP-Adresse und kann die E-mail Routen dann ent- sprechend auf einer Weltkarte darstellen. Da die Anzahl an Lookups begrenzt war, wurden uber einen Cache bereits bekannte Zuordnungen gespeichert.¨

Leider erfuhr ich von Maxmind LLC nicht, wie sie die geographischen Zuordnungen der Datenbank erheben. Die Webseite teilte lediglich mit, dass die Datenbank erheblich genauer sei, als Datenbanken, welche lediglich aus Eintr¨agen der WHOIS-Datenbanken bestehen.

F¨ur einige Anwendungen, wie beispielsweise die Beobachtung von Spam E-mails, ist es sinn- voll, die Lookups auf L¨anderebene durchzuf¨uhren, da hierdurch bereits eine Klassifizierung der geographischen Information vorgenommen wird. Durch diese Klassifizierung kann anschließend untersucht werden, ob Spam E-Mails h¨aufiger als normale E-mails gewisse Routen einschlagen.

Die GeoIP-Datenbank mit L¨anderaufl¨osung verwendet zur eindeutigen Zuordnung der L¨ander nach ISO 3166 genormte L¨andernamen und -k¨urzel. Zur Arbeit mit der Visualisierung habe ich die L¨anderk¨urzel der Polygon-Weltkarte ebenfalls auf ISO 3166-Norm gebracht, um die

(15)

Daten kompatibel zu machen.

Laut Maxmind (http://www.maxmind.com/app/faq, 10. August 2003) bel¨auft sich die Ge- nauigkeit der Datenbank auf 95 Prozent. Des Weiteren ¨andern sich jeden Monat ca. ein Prozent der Daten. Daraus l¨asst sich eine Formel zur Berechnung der Genauigkeit in Abh¨angigkeit von der Zeit ableiten:

accuracy(t) = 95%∗0.9912t

t : Zeitdifferenz in Jahren zwischen dem Stand der Datenbank und dem Alter der Daten

Eine alternative und exaktere Methode der geographischen Ausmessung von IP-Adressen wurde 2002 von Neil Spring, Ratul Mahajan und David Wetherall vorgestellt (vgl. [SMW02]).

Durch Traceroutes von ¨uber 750 ¨offentlichen Traceroute Servern haben die Autoren die Back- bones der großen amerikanischen Internet Service Provider ausgemessen.

(16)

2.3 Visualisierung der E-mail Routen

Laut Schumann und M¨uller (vgl. [SM00], Seite 5) dient die wissenschaftlich-technische Visua- lisierung vor allem der ,,Analyse”, dem ,,Verst¨andnis” und der ,,Kommunikation” von ,,Mo- dellen, Konzepten und Daten”. Hierbei soll darauf geachtet werden, die Dinge so dazustellen, wie sie tats¨achlich vorliegen und sie nicht zu verf¨alschen.

Die Visualisierung des E-mail Verkehr wurde von mir in C++ entwickelt. Die OpenGL- Bibliothek wurde hierbei zur visuellen Darstellung verwendet. N¨ahere Informationen zu Soft- wareentwicklung in OpenGL findet sich im OpenGL Redbook (siehe [WNDS99]). Die Wahl der Entwicklungsumgebung fiel auf C++ und OpenGL, da die OpenGL-Grafikroutinen sehr performant implementiert sind und auch C++ gegen¨uber Java einen deutlichen Performance- Vorteil bietet. F¨ur eine rein statische Visualisierung ohne Benutzerinteraktion w¨aren die Performance-Einbußen weniger ins Gewicht gefallen.

Ferner wurde bei der Entwicklung darauf geachtet, dass die Applikation sowohl unter Unix- /Linux-Systemen als auch unter Microsoft Windows-Systemen ausf¨uhrbar ist.

Abbildung 2.6: Darstellung von 16.800 E-mail Routen mit logarithmischem Color Mapping

2.3.1 Color Mapping

Das von Keim entwickelte HSI-Farbmodell (vgl. [Kei95], Seiten 95-100) ist ein speziell f¨ur Visualisierungen entwickeltes Farbmodell. Durch das HSI-Modell kann ein farbiger Colormap erzeugt werden, dessen Helligkeitswerte monoton absteigend geordnet sind (vgl. Abbildung 2.8 auf Seite 17). Erzeugt man mit dem HSV-Modell einen Colormap durch Interpolation zwischen dem Ausgangs- und Endfarbwert, so erh¨alt man hingegen einen Colormap, dessen Helligkeitswerte nicht in monoton absteigendender Reihenfolge geordnet sind (vgl. Abbildung 2.9 auf Seite 17).

(17)

Abbildung 2.7: HSI- und HSV-Modell, entnommen aus [Kei95], Seite 97

F¨ur die Visualisierung wurde ein Unicolormap verwendet, welcher aus mehreren Farb¨uberg¨angen besteht. Die Farben sind hierbei der Helligkeit nach geordnet. Grau wurde als Hintergrundfar- be der Visualisierung gew¨ahlt, um die Farben des Colormaps m¨oglichst gut sichtbar zu machen.

Definitionen

S : Menge statistischer Datenwerte min :min∈S∧ ∀u∈S :min≤u max :max∈S∧ ∀u∈S:max≥u

fx(s) : [min, max]→[0,1] (Normalisierungsfunktion) D : Verteilung der Datenwerte aus S

csize : Anzahl der Farbwerte eines Colormaps

c(fx(s)) : [0,1]→[1, csize]∈IN (Farbzuordnungsfunktion) Lineares Mapping

Lineares Mapping eignet sich f¨ur Daten, die gleichm¨aßig ¨uber ein Intervall verteilt sind, da die Daten hierdurch linear auf das Intervall [0,1] gemappt werden. Der kleinste Wert min entspricht hierbei dem Wert 0, der gr¨oßte Wert max der 1.

flin(s) = s − min max − min Wurzel-Mapping

Das Wurzel-Mapping ist sehr gut f¨ur Daten geeignet, die viele kleine Werte und viele große Werte besitzen. Ein lineares Mapping w¨urde bei einer derartigen Verteilung einen großen fast leeren Zwischenraum produzieren. Durch das Wurzel-Mapping wird dieser Bereich jedoch kom- primiert dargestellt.

f (s) =

√s − √

√ √min

(18)

Abbildung 2.8: HSI-Colormap mit Wurzel-Skala, Schwarz-Weiß-Ansicht Logarithmisches Mapping

Abbildung 2.9: HSV-Colormap mit Logarithmischer Skala, Schwarz-Weiß-Ansicht Beim logarithmischen Mapping muss man die Datenmenge S gegebenenfalls auf den Werte- bereich S0 transformieren, da die Logarithmus-Funktionen nur ¨uber den Wertebereich S0 :=

{s0 ∈IR|s0 >0}definiert ist. Das logarithmische Mapping eignet sich ebenfalls f¨ur Datenmen- gen, mit vielen kleinen Werten und vielen großen Werten. Die St¨arken des Mappings liegen insbesonders bei weit auseinander liegenden hohen Datenwerten.

fln(s) = ln(s) − ln(min) ln(max) − ln(min) α-Quantil Mapping

Beim α-Quantil Mapping werden die Datenwerte sortiert und anschließend aufsteigend den Quantilen zugeordnet. Die Zuordnung geschieht hierbei in Proportion zu den vorhandenen Da- tenwerten, d.h. jedes Quantil repr¨asentiert in etwa gleich viele Datenwerte. Problematisch ist hierbei, dass zwischen zwei benachbarten Quantilen riesige Unterschiede in den statistischen Werten sein k¨onnen und die Visualisierung keine Hinweise darauf gibt. Im Extremfall k¨onnen sogar statistische Werte mit sehr großen Unterschieden dem selben Farbwert zugeordnet wer- den.

α−Quantil(D) ={x: Z x

−∞

fx(D) =α}

(19)

2.3.2 Kartenprojektionen

In der E-mail Visualisierung wurden Kartenprojektionen verwendet. Die mathematisch ein- fachste Kartenprojektion ist die Equirectangular Projektion, welche die Koordinaten eins zu eins in einem Rechteck auf dem Bildschirm darstellt.

Schaltet man zwischen den Projektionen um, so stellt man insbesonders bei der Albers Projektion (Definition siehe Seite 23) fest, dass E-mail Routen sichtbar werden, welche zuvor von anderen Routen ¨uberlagert werden. Diesen Effekt sieht man sehr gut beim Vergleich der Amerika-Routen in der Hammer-Aitoff Projektion (Definition siehe Seite 21) mit denen in der Albers Projektion. Vergleiche hierzu Abbildung 2.24 und Abbildung 2.25 auf Seite 36.

Des Weiteren k¨onnen je nach angewendeter Projektion Distanz-, Fl¨achen- und Formfehler der L¨anderpolygone verringert, bzw. vollst¨andig ausgeschlossen werden.

Aufgrund der Tatsache, dass Routen auf der ganzen Welt dargestellt werden sollen, war die Auswahl der Kartenprojektionen auf Projektionen beschr¨ankt, die gleichzeitig beide He- misph¨aren darstellen.

Eine Kartenprojektion sei definiert als Π : (λ, ϕ)→(x, y). Um sie auf den Anzeigebereich zu normieren m¨ussen λ und ϕ mit einem konstanten Faktor multipliziert werden. Dabei handelt es sich um das Produkt aus dem Erdradius und dem verwendeten Maßstab.

Datenformat

Das Datenformat f¨ur L¨angengrade ist auf das Intervall [−180,180] festgelegt, wobei negative Werte f¨ur westliche Grade und positive Werte f¨ur ¨ostliche Grade stehen. Analog dazu sind Breitengrade auf dem Intervall [−90,90] definiert, wobei negative Werte f¨ur s¨udliche Grade und positive Werte f¨ur n¨ordliche Grade verwendet werden.

Azimuthalprojektion Kegelprojektion Zylinderprojektion Abbildung 2.10: Projektionsarten, entnommen aus Guszlev: Map Projections (vgl. [Gus03])

(20)

Begriffserl¨auterungen

Die Erl¨auterungen zu den Begrifflichkeiten der Geographie-Wissenschaften wurden in Anleh- nung an [Sny87] und [Gus03] erstellt.

f l¨achentreu Eine Kartenprojektion wird als fl¨achentreu bezeichnet, wenn bei- spielsweise eine M¨unze beliebigen Ausmaßes auf einem Teil der Kar- te genau die gleiche Fl¨ache auf der Erdkugel bedeckt, wie wenn man die M¨unze auf einen anderen Teil der Karte legt. Hierbei werden Formen, Winkel und Gr¨oßenverh¨altnisse verzerrt.

konf orm Unter konform versteht man, dass die relativen lokalen Winkel auf jedem Punkt einer Karte korrekt dargestellt werden. Obwohl große Fl¨achen immer noch fl¨achenverzerrt dargestellt werden, werden die Details dieser Fl¨ache ausreichend korrekt dargestellt.

Standardparallele Unter Standardparallele versteht man diejenigen Parallelen der Erdkugel, auf denen die Distanz maßstabsgetreu auf der Karte ab- gelesen werden kann. Hierbei handelt es sich bei den meisten Pro- jektionen um eine oder zwei Breitengrade, f¨ur welche die Bedingung gilt.

Azimuthalprojektion Azimuthalprojektionen bestehen aus einer Projektion des Gradnet- zes auf eine Ebene. Hierbei wird die Projektionsebene normaler- weise ¨uber dem Nord- oder S¨udpol plaziert und die darunterliegen- de Erdhalbkugel wird auf die Ebene projeziert. In der Regel wird nur eine Hemisph¨are dargestellt. Vergleiche hierzu Abbildung 2.10, Azumuthalprojektion auf Seite 18.

Kegelprojektion Bei der Kegelprojektion wird ein Kegel ¨uber die Erdkugel gest¨ulpt, der tangential oder sekant anliegt. Breitengrade werden als Kreise um den Projektionsmittelpunkt dargestellt, L¨angengrade als von diesem Mittelpunkt ausgehende Geraden. Kegelprojektionen wer- den wegen ihrem relativ kleinen Genauigkeitsbereich selten f¨ur Kar- ten mit kleinem Maßstab verwendet. Selbst wenn man durch die Projektion zwei Sekanten erzeugt, auf denen keine Verzerrung fest- stellbar ist, so nimmt die Verzerrung sehr rapide zu, sobald man sich von diesen Standardparallelen entfernt. Kegelprojektionen sind wegen dieser Problematik am besten f¨ur Karten der mittleren Brei- tenregionen angemessen. Vergleiche hierzu Abbildung 2.10, Kegel- projektion auf Seite 18.

Zylinderprojektion Eine Zylinderprojektion kann man sich in seiner einfachsten Versi- on wie eine Ebene vorstellen, die wie ein Zylinder um den ¨Aquator gelegt wurde. Jeder Punkt des Globus wird nun nach außen auf den Zylinder projiziert. Eine derartige Projektion wird in der Regel dazu verwendet, um die gesamte Erdoberfl¨ache darzustellen. Die meisten Zylinderprojektionen sind winkeltreu. Die L¨angen- und Breitengra- de stehen orthogonal zueinander. Vergleiche hierzu Abbildung 2.10, Zylinderprojektion auf Seite 18.

(21)

Symbolerl¨auterungen

In engster Anlehnung an Guszlev, Map Projections, Explanation of the symbols (vgl. [Gus03]).

ϕ Phi repr¨asentiert in Radianten gemessene Breitengrade. Beispielsweise entsprichen 30 Nord 0,52359877 und 60 S¨ud -1,04719755.

λ Lambda repr¨asentiert in Radianten gemessene L¨angengrade. Beispiels- weise entspricht 90 Ost 1,57079632 und 180 West -3,14159265.

x x bezieht sich auf den Wert eines auf der horizontalen Axe gemessenen Punktes einer zweidimensionalen Karte.

y y bezieht sich auf den Wert eines auf der vertikalen Axe gemessenen Punktes einer zweidimensionalen Karte.

β =π−ϕ Beta repr¨asentiert die in Radianten gemessene Winkeldistanz zum Pol.

Das Maß ist ¨ahnlich den Breitengraden, welche allerdings vom ¨Aquator aus gemessen werden. Beta kann keinen negativen Wert annehmen.

ϕ0 Phi 0 repr¨asentiert den in Radianten gemessenen Breitengrad der Standardparallele.

β0 =π−ϕ0 Beta 0 repr¨asentiert die Winkeldistanz in Radianten vom Pol zum Breitengrad der Standardparallele.

β1, β2 Gibt es zwei Standardparallelen, so werden sie normalerweise mit Beta 1 und Beta 2 referenziert.

Equirectangular Projektion

Die Equirectangular Projektion (vgl. [Gus03], Cylindrical Projections) gilt als eine der ¨altesten und einfachsten Projektionen.

Bei dieser Projektion handelt es sich um eine Zylinderprojektion. Die Besonderheit der Pro- jektion ist, dass sowohl L¨angen- als auch Breitengrade gleichverteilt sind. Sie weist sehr starke Fl¨achenverzerrungen auf.

Abbildung 2.11: Equirectangular Projektion

(22)

x =λ y =ϕ

Die Kugelkoordinaten werden bei dieser Projektion eins zu eins auf eine rechteckige Projek- tionsfl¨ache ¨ubertragen.

Hammer-Atioff Projektion

Die Hammer-Aitoff (vgl. [Sny87]) Projektion ist eine Verbesserung der Aitoff-Projektion in Bezug auf die Fl¨achentreue. Optisch ist sie der Aitoff-Projektion sehr ¨ahnlich und kann nur durch Ausmessung von Teilbereichen unterschieden werden, da der Unterschied mit bloßem Auge kaum zu erkennen ist.

Die ellipsische Form gilt als sehr ¨asthetisch und gibt dem Betrachter einen Hinweis auf die Kugelform der Erde.

Abbildung 2.12: Hammer-Aitoff Projektion x= 2√

2 cos ϕ sinλ2 (1 +cos ϕ cosλ

2)12 y =

√2sin ϕ (1 +cos ϕ cosλ

2)12 Mollweide Projektion

Die Mollweide Equal-Area Pseudocylindrical Projektion stellt die Erde in Form einer Ellipse dar. Aufgrund ihrer ¨Asthetik eignet sie sich besonders f¨ur Weltkarten.

Die Projektion wird als pseudozylindrisch bezeichnet, da die Breitengrade parallel zueinan- der dargestellt werden, die Projektion selbst jedoch nicht ¨uber einen Zylinderk¨orper erstellt werden kann.

(23)

Abbildung 2.13: Mollweide Projektion

Weisstein erl¨autert auf der Internetseite von Mathworld (vlg. [Wei99]), wie man die Moll- weide Projektion berechnet.

x = 2√

2 (λ−λ0)cos θ

π (1)

y = 212 sin θ (2)

2θ+sin(2θ) = π sin ϕ (3)

Umθ zu erhalten, wird das Newton-Verfahren zur L¨osung der Gleichung (3) angewendet:

∆θ0 =−θ0+sin θ0 −π sin ϕ 1 +cos θ0 (4)

θ = 12θ0 (5)

θ0 = 2sin−12ϕ π

(6)

Dabei wird pro Iterationsschritt die Ver¨anderung ∆θ0 durch die Gleichung (4) berechnet.

Der Startwert f¨ur θ0 wird in (6) festgelegt. Das Verfahren terminiert, sobald|∆θ0| kleiner als ein Wert ist.

Cosinusodial Projektion

Die Cosinusodial Projektion (vgl. [Sny87]) gilt als einfache und schnell zu berechnende Pro- jektion. Sie ist durch ihre bizarre Form sehr auff¨allig und ist in Teilbereichen durchaus ver- wendbar. Wie die Mollweide Projektion ist auch sie wegen ihrer parallelen Breitengrade eine pseudozylindrische Projektion.

Erstaunlicherweise ist sie eine fl¨achentreue Projektion.

(24)

Abbildung 2.14: Cosinusodial Projektion x = λ×cos ϕ

y = ϕ

Albers Equal-Area Conic Projektion

Die Albers Equeal-Area Conic Projektion (vgl. [Gus03]) ist eine fl¨achentreue Kegelprojektion.

Proportionen und Richtungen werden dabei entlang der Standardparallelenβ1 undβ2erhalten.

W¨ahlt man die Standardparallelen als β12 = 12π, so erh¨alt man bei Projektion der ge- samten Erdoberfl¨ache auf die Projektionsfl¨ache eine kreisf¨ormige Weltkarte mit dem Nordpol im Kartenmittelpunkt.

Abbildung 2.15: Albers Equal-Area Conic Projektion mitβ12 = 12π

Werden die Standardparallelen anders gew¨ahlt, so erh¨alt man die Weltkarte auf einem Aus- schnitt der Seitenfl¨ache eines aufgeklappten Kegels mit abgeschnittener Kegelspitze.

(25)

n = cos β1+cos β2 2 p =

r

n4 ×sinπ 2−ϕ

2

+ 4n2 × sinβ1

2 2

× sinβ2

2 2

x = p

sin(n×λ)

y =− p

cos(n×λ)

Lambert Cylindrical Projektion

Bei der Lambert Cylindrical Projektion (vgl. [Gus03], Cylindrical Projections) werden die Abst¨ande der Breitengrade zu den Polen hin enger. Sie wurde 1772 von J.H. Lambert erfun- den und ist sowohl durch ihre einfachen Formeln als auch durch ihre rechteckige Form sehr gut handzuhaben.

Abbildung 2.16: Lambert Cylindrical Projektion x =cos ϕ0×λ

y = sin ϕ cosϕ0

(26)

2.3.3 Darstellung der Routen

Eine E-mail erreicht ihren Zielhost, indem sie vom Starthost ¨uber einen oder mehrere Mailser- ver weitergeleitet wird. Die Position eines solchen Mailservers wird hierbei als Knoten v ∈V eines ungerichteten Graphen G = (V, E) modelliert. Die Kante e ={v1, v2};e ∈E;v1, v2 ∈V stellt eine Teilstrecke der E-mail Route r dar. Eine Route sei definiert als r := (e1, e2, ..., en), wobei n die Anzahl der Teilstrecken von r ist.R sei die Menge der Routen.

Ist die Lokalit¨at eines Knoten v2 ∈V einer Route r= ({v1, v2},{v2, v3}) nicht feststellbar, so werden die zu v2 adjazenten Kanten {v1, v2} und {v2, v3} aus r gel¨oscht und statt dessen die Kante {v1, v3} eingef¨ugt. Ist die Lokalit¨at eines Start- oder Endknotens nicht definiert, so wird nur die adjazente Kante gel¨oscht. Der Fall, dass eine Lokalit¨at nicht feststellbar ist, tritt erstens ein, wenn der Hostname eines Mailservers vom DNS-Server nicht aufgel¨ost wer- den kann. Zweitens kann es passieren, dass die Datenbank einer IP-Adresse keine Lokalit¨at zuweisen kann.

Jeder Kante e ={v1, v2} wird ein Gewicht w(e) zugewiesen, das der Anzahl an Routen r0 aus Re, Re⊂R entspricht.Re sei definiert als ∀r0 ∈R :e∈r0. Daher gilt: w(e) = |Re|.

Besteht eine Kante e = {v1, v2} aus zwei unterschiedlichen Knoten v1 und v2, so wird sie als Linie zwischen der Projektion der beiden Knoten, Π(v1) und Π(v2), auf dem Bildschirm dargestellt. Kanten e0 ={v1, v1} werden als kleine Quadrate dargestellt, da Linien der L¨ange 0 nicht auf dem Bildschirm erscheinen.

Die Anwendung der Normalisierungs-Funktion auf das Gewicht w(e) einer Kante e resultiert in einem Wert a=fx(w(e)). Durch eine lineare Funktion c(a) erh¨alt man nun den Index der entsprechenden Farbe im Colormap.

Abbildung 2.17: Alle Routen Abbildung 2.18: Routen, die mindestens 10 mal frequentiert wur- den

Auf Routen ¨uber die Datumsgrenze wurde verzichtet, da diese durch die verwendeten Kar- tenprojektionen sehr schwer verfolgbar sind. Durch Verwendung von Kartenprojektionen, wie beispielsweise der Hammer-Aitoff Projektion, wird die Weltkugel als Ellipse dargestellt. Auf-

(27)

grund der rechteckigen Beschaffenheit von Anwendungsfenstern entstehen an den Ecken des Fensters Bereiche, die nicht zur Darstellung der Projektion verwendet werden. Wird nun eine Route ¨uber die Datumsgrenze eingezeichnet, so verl¨auft sie vom Startknoten bis zur Außenkan- te der Ellipse und auf der anderen Seite von der Außenkante der Ellipse hin zum Zielknoten. Im Bereich zwischen Fenster und Ellipse d¨urften jedoch keine Linien eingezeichnet werden. Der Einfachheit halber werden die Routen ¨uber die Datumsgrenze als direkte Verbindungslinie zweier Knoten dargestellt. Im konkreten Anwendungsfall entstanden dadurch wenige st¨orende Uberlagerungen.¨

Der Einsatz von Line Shortening (vgl. Abbildung 2.2, Seite 8; [BEW95]) w¨are durchaus sinnvoll bei Darstellungen mit sehr viel ¨Uberlagerungen. Die Problematik wurde jedoch gel¨ost, indem Routen mit geringer Bedeutung durch den Benutzer ausgeblendet werden k¨onnen.

Ausblenden der Routen mit geringem Verkehr

Der ¨Ubersichtlichkeit halber lassen sich ¨uber ,,-” Routen mit geringem Verkehr sequentiell aus- blenden und ¨uber ,,+” wieder einblenden. Durch diese Interaktion kann der Benutzer selbst entscheiden, ob er alle Routen betrachten will, oder nur diejenigen mit einem von ihm selbst festgelegten Mindestverkehr. Vergleiche hierzu Abbildungen 2.17 und 2.18 auf Seite 25.

(28)

2.3.4 Rasterung

Das sequentielle Zeichnen aller Einzelrouten macht wenig Sinn, da alle Routen die gleiche Wertigkeit h¨atten und gleiche Teilstrecken ¨uberlagert werden w¨urden. Des Weiteren sind f¨ur den Betrachter zwei Routen, deren Koordinaten der Start- und Endknoten nur um wenige Sekunden voneinander differenzieren, nicht unterscheidbar.

Abbildung 2.19: Rasterung mit Aufl¨osung von 1× 1 Grad

Zur L¨osung dieses Problems wurde eine Rasterung eingef¨uhrt, welche die Menge aller m¨ogli- cher Knoten auf IG 3 [−180,180]×[−90,90] ∈ IG eingeschr¨ankt (vgl. Abbildung 2.19, Seite 27). Hierbei treten allerdings Probleme im Detailbereich auf, da Knoten nun in Bereichen der Landkarte erscheinen, in denen keine Landmasse eingezeichnet ist. Zudem k¨onnen Knoten durch die Rasterung im Nachbarland erscheinen.

Eine adaptive Ver¨anderung der Rasterung je nach gew¨ahltem Zoombereich w¨are ebenso denkbar, ist jedoch mit Rechenaufwand verbunden. F¨ur den Betrachter k¨onnte es verwirrend sein, wenn er beispielsweise eine blaue Route heranzoomt und im Zoombereich statt der blauen Route drei gr¨une Routen erscheinen.

Bei der Spam-Visualisierung wurde bewusst eine semantische Rasterung auf L¨anderebene eingef¨uhrt. Diese Rasterung fasst alle Kanten des Graphen zusammen, welche als Start- und Endknoten die gleichen L¨ander haben. So k¨onnen Schlußfolgerungen auf die Ursprungsl¨ander des Spams gemacht werden. Vergleiche hierzu Abbildung 2.23 auf Seite 32.

(29)

2.3.5 Zoom

,,If the user sees an interesting pattern in the visualization window, a drag-and drop interface is available to drill-down to get details, explore context and take actions if neccessary. This provides an intuitive way of converting spatial information into detailed informations (...)” (Zitat entnommen aus [KNTK99])

Nach diesem Prinzip habe ich die Zoom-Funktion implementiert. Der Benutzer hat jederzeit die M¨oglichkeit, ¨uber eine Mausinteraktion einen Detailbereich der Visualisierung auszuw¨ahlen (vgl. Abbildung 2.20, Seite 28). ¨Uber die mittlere Maustaste kann er wieder aus dem Detail- bereich herauszoomen.

Abbildung 2.20: Zoom

Um den vom Benutzer ausgew¨ahlten Detailbereich anzuzeigen, m¨ussen zweierlei Transfor- mationen auf den 2D-Punkten ausgef¨uhrt werden (vgl. [FvFH96], Seite 201):

P0 = T +P Translation P00 = S · P0 Skalierung

Der Bildbereich ist so festgelegt, dass der Punkt P = (0|0) in der Mitte des Bildschirms dargestellt wird. Somit ergibt sich die Translation aus der Negierung der Koordinaten des Zoombereichmittelpunkts.

W¨ahlt man beispielsweise den Bereich (8|48) × (12|52), welcher in etwa Deutschland in der Equirectangular-Projektion entspricht, ¨uber eine Mausinteraktion aus, so ergibt sich die Translation T aus den folgenden Berechnungen:

xM itte = (8 + 12)÷2 = 10 (1) yM itte = (48 + 52)÷2 = 50 (2)

T =

−10

−50

(3)

(30)

Der Einfachheit halber sei der Bildbereich in diesem Rechenbeispiel auf die maximalen Ko- ordinatenwerte festgelegt, d.h. der x-Bereich variiert von -180 bis +180 und der y-Bereich von -90 bis +90. In der Implementierung wurde der vertikale Wertebereich etwas vergr¨oßert, um die Gr¨oße des Anwendungsfensters voll auszusch¨opfen und unerw¨unschte Verzerrungen zu vermeiden.

∆x = 12−8 = 4 (4)

∆y = 52−48 = 4 (5)

∆xBildschirm = 360 (6)

∆yBildschirm = 180 (7)

∆xBildschirm

x = 360

4 (8)

∆yBildschirm

y = 1804 (9)

Die Skalierung errechnet sich aus dem kleineren Verh¨altnis der x- und y-Bildbereichen (Glei- chungen (6) und (7)) zu den entsprechenden Zoombereichen (Gleichungen (4) und (5)). Somit wird garantiert, dass mindestens der ausgew¨ahlte Zoombereich auf dem Bildschirm sichtbar wird.

S = 180

4 0

0 1804

(10)

Somit kann f¨ur jeden Punkt P ein Bildpunkt P00 errechnet werden:

P00 =S · (P +T) = 180

4 0

0 1804

·

xp yp

+

−10

−50

Um einen Mehrfachzoom zu erm¨oglichen, m¨ussen die Translation und die Skalierung zwi- schengespeichert werden, da sie zur Berechnung des Zoomes im Zoombereich erneut ben¨otigt werden.

(31)

2.3.6 Kartogramm-Zoom

Das Grundprinzip eines Kartogramms ist, eine Karte entsprechend der Verteilung der geogra- phischen Datenwerte zu verzerren. Relevante Bereiche sollen vergr¨oßert und nicht relevante Bereiche verkleinert werden (vgl. Abbildung 2.21).

Zu beachten ist dabei, dass die Formerhaltung der L¨anderpolygone m¨oglichst hoch sein soll, damit der Betrachter sich auf der ungewohnten Karte orientieren kann.

Abbildung 2.21: Kartogramm-Zoom mit Routen-Frequenz gr¨oßer drei und logarithmischer Farbskalierung

Geplant war die Umsetzung der Kartogrammprojektion in der OpenGL-Visualisierung. Hier- bei sollte eine Taste gedr¨uckt werden und im Anschluß daran die Karte verzerrt werden.

Aufgrund der Kartogramm-Berechnung w¨urde der Betrachter jedoch erst nach mehreren Se- kunden ein Feedback bekommen. Zu Testzwecken wurde das Kartogramm daher ¨uber ein Shell-Kommando gestartet und der Einfachheit halber mit R, der freien Version des Statistik- Programms S-Plus geplottet.

Zur Berechnung des Kartogramms wurde der CartoDraw-Algorithmus (siehe [KNP03]) ver- wendet, der die Daten horizontal und vertikal in Bins einsortiert. Es erfolgt eine Optimierung, welche die Gr¨oße der Bins variiert, so dass in jedem Bin in etwa gleich viele Datenwerte vorhanden sind. Nun wird die Fl¨ache aller horizontalen und vertikalen Bins hingehend der Daten-Fl¨achen-Proportion optimiert.

Im konkreten Anwendungsfall wurden die L¨ander-Polgone und auch die E-Mail-Routen- Daten mit der Hammer-Aitoff-Projektion projeziert. Da bei der Verwendung von lediglich den E-mail Routen zu große Formverzerrungen auftraten, wurden in die Ellipse der Hammer-Aitoff- Projektion in einem regelm¨aßigen Raster Punkte eingef¨ugt. Zusammen mit den Punktdaten der E-mail Routen stellen diese die Berechnungsgrundlage des Kartogramms dar.

Die Anzahl der eingef¨ugten Punkte auf einer beliebigen Fl¨ache der Karte ist ann¨ahernd proportional zur tats¨achlichen Gr¨oße der Fl¨ache auf der Weltkugel, da es sich bei der Hammer- Aitoff Projektion um eine fl¨achentreue Projektion handelt. Ungenauigkeiten enstehen durch nicht parallelen Breitengrade. Ein genaueres Verfahren w¨are die Verwendung der Mollweide-

(32)

Projektion, deren Verwendung jedoch mit gr¨oßeren Formverzerrungen verbunden ist.

Im erstellten Kartogramm (Abbildung 2.21, Seite 30) wird Deutschland in starker Vergr¨oße- rung dargestellt. Dies ist der gew¨unscht Effekt des Kartogramm-Verzerrung. Der ungew¨unschte Effekt ist besonders gut an der Verzerrung von Afrika zu sehen. Die L¨angengrade, welche sich mit denjenigen Breitengraden von Deutschland ¨uberdecken, wurden extrem in die Breite ge- zogen, obwohl hier keinerlei E-mail Verkehrsaufkommen stattfand. Durch die Verwendung der projezierten Daten wurde auch Amerika in seltsamer Art und Weise verzerrt, so dass sich die Grenze zwischen den USA und Kanada in vertikaler Richtung ¨uber die halbe Karte ausdehnt.

(33)

2.4 Anwendung

Die Analyse der E-mails ergab, dass es mehr Teilrouten als E-mails gibt. Dies bedeutet, dass E-mails in der Regel nicht direkt auf den Zielserver ¨ubertragen werden, sondern meistens ¨uber andere E-mail Server weitergeleitet werden.

Besonders auff¨allig war hierbei, dass es sehr viele Deutschland-Deutschland-Routen gab, bei den regul¨aren E-mails etwa 1,70 mal so viele wie analysierte E-mails. Bei den Spam-E-mails lag dieser Faktor sogar bei 4,25. Daraus l¨asst sich schließen, dass mit großer Wahrscheinlichkeit Forwarder auf die untersuchten E-mail-Konten angelegt sind, die diese E-mails innerhalb von Deutschland weiterleiten.

Abbildung 2.22: Visualisierung regul¨arer E-mails

Abbildung 2.23: Spam-Visualisierung auf L¨anderebene

2.4.1 Regul¨ are E-mails

Es wurden 20 197 E-mails eines wissenschaftlichen Mitarbeiters untersucht. Diese 20 197 E- mail splitten sich wiederum in 41278 Teilrouten auf, die detailliert untersucht werden. Hierbei ist klar zu stellen, dass nicht jede reale E-mail Route aufgesplittet werden konnte.

Auff¨allig an diesen E-mails war, dass die am st¨arksten frequentierte Route eine Punktroute in Konstanz war (vlg. Abbildung 2.22, Seite 32). Dies bedeutet, dass sehr viel E-mail Verkehr von Konstanz nach Konstanz gesendet wurde. Daf¨ur gibt es zweierlei Erkl¨arungen. Zum einen l¨auft viel E-mail Verkehr innerhalb des Lehrstuhls oder der Universit¨at ab und zum anderen k¨onnen ein oder mehrere Forwarder innerhalb der Universit¨at aktiv sein.

Unter den 41278 Teilrouten waren bei einer 1×1 Grad-Rasterung 538 geographisch unter- schiedliche Routen feststellbar. Bei einer semantischen Rasterung auf L¨anderebene hingegen nur noch 161.

Herausstechend war bei der Analyse des regul¨aren E-mail Verkehrs, dass die Teilroute Deutschland - Deutschland 83,59 % des Verkehrsaufkommens ausmachte (siehe Tabelle 2.1 auf Seite 33). Es ist anzunehmen, dass ein Großteil dieser Teilrouten auch ohne Forwarder

(34)

pflegen, so z.B. der Kontakt zu den Studenten, anderen Mitarbeitern der Universit¨at und Ko- operationspartnern in Deutschland.

Die Route mit dem zweitmeisten Verkehrsaufkommen befindet sich innerhalb der USA und ist mit 9,31 % wesentlich bedeutender als die Route von der USA nach Deutschland mit ledig- lich 3,72 %. Hieraus entsteht die Vermutung, dass die E-mails von der USA nach Deutschland im Schnitt erst 212 mal weitergeleitet werden, bevor sie die USA verlassen. Bevor man jedoch voreilige Schl¨usse zieht, sollte in Betracht gezogen werden, dass die GeoIP-Datenbank (vgl.

[GeoIP03]) ca. 1,3 Milliarden IP-Adressen den USA zugeordnet hat. Als n¨achsth¨aufigstes Land wurden Japan jedoch nur 105 Millionen IP-Adressen zugeordnet.

Die vierth¨aufigste Route ist von der Schweiz in die Schweiz. Seltsam finde ich auch hier, dass im Schnitt jede E-mail von der Schweiz nach Deutschland 3,93 mal innerhalb der Schweiz weitergeleitet wird, bevor sie nach Deutschland gelangt. Dieser Berechnung liegt die Annahme zugrunde, dass E-mails von der Schweiz direkt nach Deutschland weitergeleitet werden und nicht ¨uber Amerika nach Deutschland gelangen.

Der Verkehr der weiteren L¨ander-Routen erschien mir zu gering, um ihn n¨aher zu untersu- chen und Folgerungen daraus abzuleiten. Dem interessierten Leser m¨ochte ich diese Routen jedoch nicht vorenthalten.

Rang Land1 Land2 Anzahl Anteil Teilrouten

1. Deutschland Deutschland 34505 83,59 %

2. USA USA 3842 9,31 %

3. USA Deutschland 1535 3,72 %

4. Schweiz Schweiz 471 1,14 %

5. Schweiz Deutschland 120 0,29 %

6. China Deutschland 60 0,15 %

7. Finnland Deutschland 56 0,14 %

8. Frankreich Frankreich 51 0,12 %

9. Kanada Deutschland 30 0,07 %

10. Großbritannien Deutschland 30 0,07 %

11. Schweden Deutschland 29 0,07 %

12. Großbritannien Großbritannien 29 0,07 %

13. S¨udkorea Deutschland 28 0,07 %

14. Frankreich USA 27 0,07 %

15. Osterreich¨ Deutschland 27 0,07 %

16. Brasilien Deutschland 26 0,06 %

17. Schweden Schweden 26 0,06 %

18. Kanada Kanada 25 0,06 %

19. Großbritannien USA 21 0,05 %

20. USA Osterreich¨ 21 0,05 %

Tabelle 2.1: Teilrouten der regul¨aren E-mails

Die visuelle Detailanalyse der Deutschlandrouten (siehe Abbildung 2.20, Seite (28) ergab fol-

(35)

gende Teilrouten, geordnet nach Verkehrsaufkommen: Konstanz - Konstanz, Hamburg - Ham- burg, Karlsruhe - Bremen, Karlsruhe - Konstanz, Karlsruhe - Hamburg, M¨unchen - M¨unchen, Leipzig/Halle - Hamburg, Frankfurt - Bremen.

2.4.2 Spam

Es wurden 408 Werbe-E-mails untersucht (siehe Abbildung 2.23, Seite 32), deren Routen sich in 1734 identifizierbare Teilrouten aufsplitten. Die Analyse ergab, dass 116 unterschiedliche Teilrouten benutzt wurden.

Rang Land1 Land2 Anzahl Anteil Teilrouten 1. Deutschland Deutschland 1115 64,30 %

2. USA Deutschland 109 6,29 %

3. China Deutschland 80 4,61 %

4. USA USA 72 4,15 %

5. S¨udkorea Deutschland 38 2,19 %

6. USA China 24 1,38 %

7. Brasilien Deutschland 19 1,10 %

8. Holland Deutschland 19 1,10 %

9. S¨udafrika Deutschland 16 0,92 %

10. Mexiko Deutschland 15 0,87 %

11. USA Korea 13 0,75 %

12. Italien Deutschland 11 0,63 %

13. Spanien Deutschland 10 0,58 %

14. USA Mexiko 9 0,52 %

15. Kanada Deutschland 8 0,46 %

16. Taiwan Deutschland 7 0,40 %

18. Brasilien USA 6 0,35 %

19. Großbritannien Deutschland 5 0,29 %

20. USA Taiwan 4 0,23 %

Tabelle 2.2: Teilrouten der Spam-E-mails

Der Anteil der Deutschland - Deutschland Routen liegt dieses Mal bei 64,30 % (vgl. Tabelle 2.2, Seite 34). Das sind 19,29 % weniger als in den regul¨aren E-mails. Die USA - Deutschland Route schneidet mit 6,29 % vergleichbar mit den 3,72 % der gleichen Routen in den normalen E-mails ab. Ebenso die USA - USA Route mit 4,15 % (9,31%).

Sehr auff¨allig hingegen ist die China - Deutschland Route (4,61 %), die sich von der gleichen Routen der regul¨aren E-mails (0,15 %) um den Faktor 30,7 unterscheidet. Ebenso die S¨udko- rea - Deutschland Route (2,19 % / 0,07 %), deren H¨aufigkeit um den Faktor 31,3 erh¨oht ist.

In ¨ahnlicher Weise verhalten sich die Routen Brasilien - Deutschland, Holland - Deutschland, S¨udafrika - Deutschland und Mexiko - Deutschland.

Eine weitere Eigenheit der Spam-E-mails ist, dass rund 1,38 % des gemessenen Verkehrsauf-

(36)

mit Ziel Deutschland einen Umweg von mehr als 15 000 Kilometern und ist daher in den nor- malen E-mails sehr rar frequentiert. Gleiches gilt f¨ur die Route USA - Korea - Deutschland.

Schlußfolgerungen

Aus der Analyse der E-mails geht hervor, dass die untersuchten Spam E-mails im Durchschnitt mehrere Teilrouten aufweisen als normale E-mails: Faktor 4,25 versus Faktor 2,04.

Des Weiteren fiel die deutlich erh¨ohte Nutzungsfrequenz der Routen China-Deutschland, S¨udkorea-Deutschland, Brasilien-Deutschland, Holland-Deutschland, S¨udafrika-Deutschland und Mexiko-Deutschland auf. Es w¨are jedoch falsch, E-mails aus diesen Ursprungsl¨andern generell als Spam auszusortieren, da auch normale E-mails ¨uber diese Routen verlaufen.

Sehr große geographische Umwege traten bei den Strecken USA-China-Deutschland sowie USA-Korea-Deutschland auf und deuten mit großer Wahrscheinlichkeit auf Spamrouten hin.

(37)

2.5 Evaluierung

2.5.1 Effektivit¨ at

Unter Effektivit¨at versteht man, ob der Benutzer alle relevanten Informationen erfassen kann.

Hierzu kann gesagt werden, dass beim Start der Visualisierung erst einmal alle verf¨ugbaren Routen auf der Weltkarte eingeblendet werden. Der Benutzer bestimmt den Grad der Aus- blendung selbst ¨uber Interaktion mit dem System.

Etwas problematisch ist hingegen die ¨Uberlagerung der Routen. Denjenigen Routen mit viel Verkehr wird eine h¨ohere Priorit¨at einger¨aumt. Sie werden ¨uber die anderen Routen gezeichnet.

Das ¨Uberlagerungsproblem wurde teilweise gel¨ost, indem der Benutzer die M¨oglichkeit be- sitzt, sequentiell die unwichtigen Routen auszublenden und indem er zwischen den Karten- projektionen umschalten kann. Betrachtet man beispielsweise die Routen von Amerika nach Deutschland, so stellt man fest, dass die Routen der amerikanischen Westk¨uste sich mit denje- nigen von der Ostk¨uste ¨uberlagern. Schaltet man nun von der Hammer-Aitoff Projektion zur Albers Equal-Area Conic Projektion um, so ¨uberschneiden sie sich weniger (siehe Abbildungen 2.24 und 2.25).

Abbildung 2.24: Amerika-Routen, Hammer- Aitoff Projektion

Abbildung 2.25: Amerika-Routen, Albers Equal-Area Conic Projekti- on

Die geographische Position der einzelnen Mailserver wurde analog auf die visuelle Varia- ble Position ¨ubertragen. Die erzeugten Weltkarten stellen f¨ur den Benutzer ein bekanntes Werkzeug dar und werden intuitiv und schnell aufgenommen. Die Visualisierung ist dadurch wesentlich aussagekr¨aftiger als eine Auflistung der Koordinaten der wichtigen Routen.

Hilfreich w¨aren jedoch Beschriftungen zu einzelnen Lokalit¨aten. Beispielsweise k¨onnte ¨uber einen Mouse-Over-Effekt an demjenigen Knoten, ¨uber dem sich die Maus befindet, ein Label zu der Lokalit¨at des Knotens angezeigt werden. Dies w¨urde die Identifizierung der Knoten in exotischen L¨andern erleichtern.

(38)

F¨ur den unge¨ubten Betrachter kann das logarithmische Mapping und das Wurzelmapping anfangs zu Verwirrung sorgen, da lineare Skalen weitaus verbreiteter sind. Durch Interaktion steht dem Benutzer jedoch die M¨oglichkeit offen, ein lineares Mapping auszuw¨ahlen.

2.5.2 Genauigkeit

Die geographische Zuordnung erscheint auf den ersten Blick als unproblematisch, da laut dem Hersteller Maxmind Inc. der GeoIP-Datenbank 95 % der IP-Adressen geographisch richtig zugeordnet werden.

Hierbei muss jedoch ber¨ucksichtigt werden, dass bei der Analyse der E-mails nicht nur aktu- elle E-mails untersucht werden, sondern teilweise sehr alte E-mails. Die im KapitelAnwendung untersuchten regul¨aren E-mails haben ein Alter von bis zu drei Jahren aufgewiesen.

Aufgrund der Information von Maxmind, dass sich ca. ein Prozent der Datenbank jeden Monat ¨andert, habe ich eine Formel zur Berechnung der Genauigkeit der geographischen Zu- ordnung in Abh¨angigkeit vom Alter der E-mail aufgestellt:

accuracy(t) = 95%∗0.9912t

t : Zeitdifferenz in Jahren zwischen dem Stand der Datenbank und dem Alter der Daten

Im konkreten Anwendungsfall bedeutet dies, dass die einzelnen Zuordnungen der Mailserver nach drei Jahren nur noch zu 74 % korrekt sind (siehe Tabelle 2.3). Besteht eine drei Jahre alte E-mail Route aus durchschnittlich drei Hops, so stimmt diese Route lediglich mit einer Wahrscheinlichkeit von p= 0,74633 = 0,4157.

t 1 Jahr 2 Jahre 3 Jahre 4 Jahre 5 Jahre 10 Jahre accuracy(t) 84,20% 74,63% 66,15% 58,64% 51,97% 28,44%

Tabelle 2.3: Genauigkeit der geographischen Zuordnung in Abh¨angigkeit von der Zeit Aus diesem Grund schlage ich die Einf¨uhrung einer zeitabh¨angigen Datenbank vor. Die einfachste Realisierung dieser Datenbank best¨ande aus der Kombination der monatlichen Up- dates der Datenbank. Je nach Alter der E-mail m¨ussten dann in der entsprechen historischen Datenbank die geographischen Zuordnungen der einzelnen Mailserver-IPs nachgefragt werden.

Hierdurch k¨onnte die Fehlerwahrscheinlichkeit einer E-mail mit drei Hops von palt = 0,4157 auf pneu = (accuracy(121))3 = 0,8319 verringert werden.

Die Visualisierung selbst betreffend bestimmt der Benutzer das sogenannte ,,Level of De- tail”, indem er den Zoom verwendet. Dadurch wird ein Teilbereich der Daten vergr¨oßert.

Ferner variiert der Benutzer das ,,Level of Detail”, indem er Routen mit geringem Verkehr

(39)

sequentiell ausblendet.

Als Kompromiss hingegen ist die statische Rasterung mit einem 1×1 Grad Raster zu sehen.

W¨urde das Raster je nach Detaillierungsgrad ver¨andert werden, so w¨urden die Informationen im Zoombereich genauer dargestellt werden. Es kann jedoch sehr verwirrend f¨ur den Betrach- ter sein, wenn die Routen sich durch die Zoomansicht farblich und geographisch ver¨andern w¨urden.

2.5.3 L¨ ugenfaktor

Unter dem L¨ugenfaktor ist der Quotienten aus der Gr¨oße eines visuellen Effekts und der Gr¨oße des Effekts innerhalb der Daten zu verstehen. Er ist ein Maß zur Beurteilung des Wahrheits- gehalts von Visualisierungen.

Aufgrund der geographischen Anordnung der Linien entstehen visuelle Effekte, die falsch interpretiert werden k¨onnen. Beispielsweise spannt eine Route von Brasilien nach Japan sich uber den ganz Bildbereich, eine Routen von Konstanz nach Z¨¨ urich hingegen nur ¨uber einen sehr kleinen Teilbereich des Bildschirms. Die Tatsache, dass die Japan-Brasilien Route we- sentlich auff¨alliger ist, hat jedoch nichts mit deren tats¨achlicher Relevanz zu tun.

Eine M¨oglichkeit, diesen L¨ugenfaktor auszuschalten, ist ein Rasterdisplay wie von Becker, Eick und Wilks vorgeschlagen (vgl. [BEW95]). Dabei geht jedoch die intuitive geographische Anordnung verloren. Des Weiteren muss man sich auf eine sehr eingeschr¨ankte Auswahl von Koordinaten oder L¨andern beschr¨anken und verliert somit interessante Detailinformationen.

2.5.4 Effizienz

Die Visualisierung ist insofern effizient, da der Benutzer sehr schnell die Hauptrouten der E- mail identifizieren kann. Die geographische Repr¨asentation erm¨oglicht im Vergleich zur rein statistischen Auswertung schneller eine exaktere Vorstellung von den Daten zu bekommen.

Da Karten im allt¨aglichen Gebrauch verwendet werden, kann davon ausgegangen werden, dass der Benutzer im Gebrauch von Karten ge¨ubt ist und auf etwas Bekanntes zur¨uckgegrif- fen werden kann. Dieses Zur¨uckgreifen erspart die Einarbeitungszeit in noch nicht bekannte Visualisierungs- und Darstellungskonzepte.

Ebenso gilt eine Linie als Verbindung zweier Punkte auf der Karte als ein bekanntes Kon- zept. Die Analogie hierzu ist eine Straßenkarte, bei der als Linien dargestellte Strecken einzelne St¨adte verbinden.

Zur Darstellung der Frequentierung einer Strecke wurden zwei visuelle Variablen kombi- niert. Zum einen die Helligkeit und zum anderen der Farbwert. Helle Routen bedeuten wenig E-mail-Verkehrsaufkommen auf der Route, wohingegen kr¨aftige dunkle Routen viel Verkehrs- aufkommen verdeutlichen sollen.

(40)

2.5.5 ¨ Asthetik

Bei der Wahl der Projektionen und der farblichen Gestaltung wurde besonders viel Wert auf Asthetik gelegt, da ansprechend gestaltete Visualisierungen mehr Aufmerksamkeit auf sich¨ ziehen.

Unter den Projektionen wurden die Mollweide und die Hammer-Aitoff Projektionen gew¨ahlt, da sie die Erde als eine Ellipse darstellen. Diese Form gilt als ¨asthetisch. Im Gegensatz dazu erscheint die nicht verwendete Eckert I Projektion aufgrund ihrer unnat¨urlichen sechseckigen Form eher un¨asthetisch.

Die Cosinusodial-Projektion hingegen wirkt durch ihre geschwungene Form und die Kon- traste zwischen den Rundungen und den beiden spitzen Polen sehr interessant und zieht die Aufmerksamkteit auf sich. Leider geht durch die spitze Form viel Platz f¨ur die Darstellung der L¨ander verloren.

In der Mitte der runden Albers Equal-Area Conic Projektion befindet sich der Nordpol, die einzelnen L¨ander befinden sich rund herum angeordnet. Hierbei handelt es sich um eine ungewohnte Perspektive auf die Erde, die ebenfalls Interesse beim Betrachter weckt.

Um die Visualisierung farblich interessant zu gestalten, wurde bewusst ein starker Kontrast zwischen Hintergrund und Vordergrund erzeugt. Die Weltkarte, welche sich im Hintergrund der Visualisierung befindet, ist ganz in Graut¨onen gehalten, die L¨ander etwas dunkler als die Meere. In Kontrast hierzu stehen die farbigen E-mail Routen, deren unterschiedliche Farben auch untereinander interessant wirkende Kontraste bilden.

2.5.6 Anpassbarkeit

Die entwickelte Visualisierung eignet sich sehr gut zur Darstellung des Netzwerkverkehrs, da dieser eine verallgemeinerte Form des E-mail-Verkehrs ist. Ebenso k¨onnen beliebige netzwerk- artige Strukturen mit geographischen Referenzen durch die Visualisierung dargestellt werden.

Referenzen

ÄHNLICHE DOKUMENTE

Generell waren Zugänge über langsame Modem-Verbin- dungen zu Servern bekannt (z. für Datenbankrecherchen), aber für uns nicht verfügbar.. Wir waren halt nicht vernetzt, wir

(1) Sie haben eine E-Mail geöffnet. Nun wollen Sie diese in einem Ordner ablegen. Dazu ist der Button hilfreich. Klicken Sie darauf, öffnet sich ein Fenster mit einer Auswahl