Visuelle Analyse von E-mail-Verkehr

(1)

von E-mail Verkehr

Florian Mansmann - Bachelorarbeit - Universit¨at Konstanz

27. August 2003

1. Gutachter: Prof. Dr. Daniel A. Keim

2. Gutachter: Prof. Dr. Oliver Deussen

(2)

1 Einleitung 2

1.1 Hintergrund . . . 2

1.2 Problemstellung . . . 3

1.3 Methodik . . . 4

1.4 Aufbau der Arbeit . . . 5

2 Visuelle Analyse des E-mail Verkehr 6 2.1 Related Work . . . 6

2.1.1 Visualisierungsstudie des NSFNET . . . 7

2.1.2 Visualisierung von Netzwerk-Daten . . . 7

2.1.3 VisualRoute . . . 9

2.2 Datenaufbereitung . . . 11

2.2.1 Filtern der E-mail Header . . . 11

2.2.2 Aufl¨osen der Mailserver-Hosts . . . 13

2.2.3 Geographische Zuordnung . . . 13

2.3 Visualisierung der E-mail Routen . . . 15

2.3.1 Color Mapping . . . 15

2.3.2 Kartenprojektionen . . . 18

2.3.3 Darstellung der Routen . . . 25

2.3.4 Rasterung . . . 27

2.3.5 Zoom . . . 28

2.3.6 Kartogramm-Zoom . . . 30

2.4 Anwendung . . . 32

2.4.1 Regul¨are E-mails . . . 32

2.4.2 Spam . . . 34

2.5 Evaluierung . . . 36

2.5.1 Effektivit¨at . . . 36

2.5.2 Genauigkeit . . . 37

2.5.3 L¨ugenfaktor . . . 38

2.5.4 Effizienz . . . 38

2.5.5 Asthetik . . . .¨ 39

2.5.6 Anpassbarkeit . . . 39

3 Zusammenfassung und Ausblick 40 3.1 Zusammenfassung . . . 40

3.2 Ausblick . . . 41

3.3 Danksagung . . . 42

(3)

1.1 Hintergrund

Im Jahr 2000 wurden schätzungsweise 11 285 Terabytes (vgl. [LVDSS00]) per E-mail ver- sendet. Das entspricht 610 Milliarden E-mails, wohingegen lediglich 2,1 Milliarden statische Seitenabrufe getätigt wurden. E-mail ist heutzutage nicht mehr aus dem alltäglichen Leben wegzudenken und wird von Andrew Odlyzko berechtigt als die ’killer app’ des Internets bezeichnet (siehe [Odl01]). Mit dem exponentiell wachsenden Volumen an E-mails, als auch durch die wirtschaftliche und gesellschaftliche Bedeutung von E-mail Verkehr, gewinnt die Visuali- sierung von E-mail-Daten zunehmend an Relevanz.

Im Rahmen dieser Arbeit ist der Begriff Visualisierung als ,,rechnergestützte, visuelle Präsen- tation von Daten, Informationen und Wissen in einer für den Menschen adäquaten und für die jeweilige Anwendung (...) sinnvollen Form zu verstehen” (vgl. [SM00]).

Aus technischer Sicht muss durch das ununterbrochene Wachstum des E-mail-Verkehrs die Hardware ständig nachgerüstet werden. Durch eine Visualisierung des E-mail-Verkehrs können Engpässe der Mailserver besser identifiziert beziehungsweise die Routing Tables derart opti- mieren werden, dass eine bessere Verteilung des Lastaufkommens erreicht wird.

Für kommerzielle Zwecke ergibt eine geographische Visualisierung des E-mail-Verkehrs Hin- weise darauf, an welchen Orten sich die Kunden und Partner befinden, mit denen das Unter- nehmen per E-mail kommuniziert. Beispielsweise könnte man dadurch Standpunkte möglicher neuer Filialen identifizieren. Des Weiteren ist es durch eine derartige Visualisierung möglich, eine voluminöse Abschätzung der Kommunikationsstrukturen vorzunehmen, welche wiederum relevante Indikatoren für Entscheidungen des Managements liefert.

Laut der Washington Post besteht der E-mail Verkehr in den USA bereits zu 40 Prozent aus Werbemails (siehe [Kri03]), sogenanntem Spam. Es stellt sich nun die Frage, ob sich normale E-mails von diesen Werbemails unterscheiden. Wenn ja, so könnte eine visuelle Auswertung solcher unerwünschter E-mails durch Vergleich mit dem normalen E-mail Verkehr Hinweise auf Besonderheiten von Spam-E-mails ergeben. Durch diese Hinweise kann eine gezielte statistische Untersuchung des Mailaufkommens angestoßen werden, mit deren Hilfe effektivere Spam-Filter geschaffen werden können.

Diese Arbeit soll als eine Einführung in die geographische Visualisierung von E-mail Verkehr verstanden werden, auf mögliche Problemfelder hinweisen und Lösungen anbieten. Des Weite- ren soll der interessierte Leser einen Einblick in die Strukturen von E-mail Routen bekommen.

(4)

1.2 Problemstellung

Tagtäglich treffen in einem vielbenutzen E-mail-Postfach circa 20 E-mails ein. Im Jahr sam- meln sich dadurch über 7000 E-mails in einem einzigen Postfach an. Bei der Flut an E-mails stellt sich beispielsweise die Frage, woher diese alle kommen. Bei näherer Betrachtung des Protokolls ist feststellbar, dass es möglich ist, den Weg von E-mails zu verfolgen. Aus dieser Möglichkeit heraus ergibt sich nun die Frage, auf welchen Wegen die E-mails zu ihrem Empfänger gelangen.

Zur Darstellung der E-mail Routen soll ein ungerichteter Graph G = (V, E) verwendet werden, dessen Kanten je nach Frequenz der Routen Gewichte tragen. Eine visuelle Relation zwischen den Kanten und der Gewichtung der Kanten soll erkennbar sein. Viel frequentierte Routen sollen hierbei als Hauptrouten ersichtlich sein. Es soll m¨oglich sein, ¨uber 10 000 E- mails durch Verwendung von Verfahren der Informationsvisualisierung anzueigen.

Die entwickelte Visualisierung soll in ¨asthetischer Weise die geographische Herkunft der E- mails pr¨asentieren. Zu diesem Zweck sollen Kartenprojektionen Π : (λ, ϕ)→(x, y) eingesetzt werden, welche die gesamte Weltkugel auf einer zweidimensionalen Ebene darstellen.

Um dem Anwender der Visualisierung ein mächtigeres Werkzeug zur Verfügung zu stellen, wird angestrebt, dass die Visualisierung durch Beutzerinteraktion gesteuert werden kann. Dies gäbe dem Benutzer die Möglichkeit, unwichtige Routen auszublenden, um sich auf die relevanten Daten zu fokussieren. Des Weiteren soll der Benutzer durch einen Zoom interessante Detailbereiche der Daten untersuchen können.

Da viel Verkehrsaufkommen zwischen den USA und Deutschland zu erwarten ist, soll eine alternative Darstellung der Amerikarouten möglich sein. Die Überlagerung der Routen der amerikanischen Westküste durch diejenigen der Ostküste soll dadurch verringert werden.

Ferner soll durch ein Kartogramm eine alternative Darstellung der E-mail Routen verwendet werden, welche die Weltkarte nach relevanten Bildbereichen verzerrt. Länder mit geringem E-mail Verkehr sollen hierbei verkleinert, Länder mit großen E-mail Verkehr vergrößert werden.

(5)

1.3 Methodik

Grunds¨atzlich wird eine 2-dimensionale Darstellung der Daten entwickelt, welche auf m¨oglichst effektive Weise dem Betrachter den geographischen Sachverhalt der E-mail Routen nahelegen soll.

Bertin (vgl. [Ber82]) unterscheidet in seinem Buch ,,Graphische Darstellungen und die gra- phisch Weiterverarbeitung der Information” acht visuelle Variablen, wobei zu beachten ist, dass die Position (x,y) als zwei dieser Variablen gesehen wird. Die Variablen werden wie folgt den einzelnen Elementen der Visualisierung zugeordnet:

Position (x,y) Geographische Zuordnung der Mailserver Gr¨oße L¨ange der Route

Helligkeitswert Anzahl der E-mails, welche ¨uber die Route transportiert wurden

Farbe Siehe Helligkeitswert

Musterung oder Textur Dient der Unterscheidung von Landmasse und Wasser Form des Elements Unterscheidung zwischen Routen, welche eine Strecke

zur¨uckgelegt haben und Routen, welche keine Strecke hinterlegen und nur lokal transportiert werden.

Richtung oder Orientierung Nicht verwendet

Die Effektivit¨at verschiedener graphischer Elemente und Attribute wurde von Mackinlay (siehe [Mac86]) in Bezug auf die drei Datenarten Quantitativ, Ordinal und Nominal, beur- teilt. Hierbei steht bei allen Datenarten die Position an erster Stelle. Da das Hauptziel der Visualisierung die Darstellung der E-mail Routen und deren Einordnung in Relevanzklassen ist, wird zur besseren Orientierung des Betrachters die Position den geographischen Koordi- naten der E-mail Server zugeordent.

Bei ordinalskalierten Datenwerten steht die Helligkeit an zweiter Stelle der Evaluierung.

Aus diesem Grund wurde sie zur Unterscheidung der Relevanz der jeweiligen E-mail Route verwendet.

(6)

1.4 Aufbau der Arbeit

Kapitel 1 dient der Hinführung des Lesers zum eigentlichen Thema. Dem Leser werden im Hintergrund die Motivationsgründe für die Visualisierung des E-mail Verkehrs gegeben. In der Problemstellung wird das zu lösende Problem definiert, welches im Laufe der Arbeit gelöst wird. Im UnterkapitelMethodikwird die wissenschaftliche Vorgehensweise im Detail erläutert.

Das zweite Kapitel besch¨aftigt sich mit der Visuellen Analyse des E-mail Verkehrs. Es ist in f¨unf Unterkapitel unterteilt. Das erste Unterkapitel geht auf bisherige Arbeiten auf dem Forschungsgebiet der Visualisierung von E-mail und Netzwerkverkehr ein. Die Auswahl fiel auf die Visualisierungsstudie des NSFNET, auf eine Forschungsarbeit zur Visualisierung von Netzwerk-Daten und auf ein kommerzielles Produkt, VisualRoute.

Im UnterkapitelDatenaufbereitungwird nun detailliert beschrieben, welche Schritte notwen- dig sind, um die zur Visualisierung ben¨otigten Daten aufzubereiten.

Im Anschluß daran wird im UnterkapitelVisualisierung der E-mail Routendie visuelle Dar- stellung der E-mail Routen erläutert. Hierbei wird auf verschiedene Skalenniveaus für das Colormapping eingegangen. Zur Darstellung der Weltkugel in einer zweidimensionalen Ebene auf dem Bildschrim werden verschiedeneKartenprojektionenverwendet. In diesen Karten werden nun die Routen als Linien eingezeichnet, wobei eine Aggregation der E-mail Routen durch Rasterungnotwendig ist. Ergänzend wird einZoom auf der Weltkarte vorgestellt. Ferner wird der Einsatz eines Kartogramms vorgestellt, welches die Weltkarte nach der geographischen Verteilung der Datenwerte verzerrt.

Das UnterkapitelAnwendung umfasst die Auswertung von normalen E-mails und von Wer- bemails. Hierbei wird ein besonderer Fokus auf die Unterschiede zwischen normalen E-mails und Spam gelegt.

Die entwickelte Visualisierung wird schließlich im UnterkapitelEvaluierungbewertet, indem die Schw¨achen dargelegt und St¨arken gezeigt werden.

Das Kapitel 3, Zusammenfassung und Ausblick, ist in drei Unterkapitel unterteilt. Im Un- terkapitel Zusammenfassung wird ein R¨uckblick auf die Arbeit gegeben. Der Ausblick weist nun auf weitere Probleme, Forschungsgebiete und Verbesserungen hin.

(7)

In dieser Arbeit wird eine visuelle Analyse des E-mail Verkehrs durchgeführt. Hierbei werden verschiedene Begrifflichkeiten verwendet. Unter einer E-mail Route verstehe ich den geographischen Weg, den eine E-mail einschlägt, um vom Absender zum Empfänger zu gelangen.

Dieser Weg wird durch die Lokalit¨at der einzelnen E-mail Server und der Lokalit¨at des Ver- senders bestimmt, welche E-mail Hops genannt werden.

Unter einer Weiterleitung verstehe ich hierbei keine Weiterleitung im Sinne des E-mail An- wendungsprogramms, sondern die T¨atigkeit der Mailserver, die E-mails weiter zu versenden, falls die Empf¨angeradresse nicht von ihnen selbst verwaltet wird. Ferner werden auf dem Ser- ver eingerichtete Forwarder, welche die Nachricht automatisch an eine andere E-mail Adresse versenden, ebenfalls als Weiterleitungen bezeichnet.

Jeder Mailserver ist durch eine IP-Adresse eindeutig identifizierbar. Meistens werden der jeweiligen IP-Adresse ein oder mehrere Hostnamen zugewiesen.

Ein Traceroute ist eine spezielle Methode der Geschwindigkeits- und Routenmessung einzelner Pakete des IP-Protokolls. Hierbei sendet man mehrere spezielle IP-Pakete an den Empfänger. Die Pakete sind derartig manipuliert, das jedes folgende Paket jeweils einen Hop weiter kommt als das vorherige. Danach wird es zusammen mit den Informationen über die besuchten Hops und den Zeitmessungen zwischen den einzelnen Hops zurück an den Versender geschickt.

2.1 Related Work

Aus technischem Interesse heraus wurden schon vielfältig Netzwerkdaten visualisiert. So haben zum Beispiel Cox und Patterson (vgl. [CP92]) bereits 1993 das Wachstum des Internets während einer zweijährigen Periode anhand eines Videos mit 3D-Animationen visualisiert.

Becker, Eick und Wilks (siehe [BEW95]) hingegen haben 1995 in ihrem Paper ihre Software Seenet vorgestellt, welche darauf ausgelegt ist, Daten des AT&T Long Distance Telefonnetz- werks darzustellen. Hierbei wurden mehrere 2D Displays entwickelt, die von Analysten manipuliert werden konnten.

Bei der dritten Arbeit handelt es sich um ein aktuelles kommerzielles Produkt, VisualRoute von Visualware (vgl. [Visw03]). Diese Software erlaubt es, einen Traceroute visuell auf einer Weltkarte zu verfolgen. Durch Zuhilfenahme eines weiteren Produkts der Firma, emailTracer,

(8)

ist es m¨oglich, einzelne E-mail Routen zu verfolgen.

Neu an dieser Arbeit ist, dass der gesamte E-mail Verkehr aus Anwendersicht nach geographischen Gegebenheiten visualisiert wird. Im Vordergrund stehen hierbei nicht die technischen, sondern die durch die Visualisierung erkennbaren semantischen Zusammenh¨ange.

2.1.1 Visualisierungsstudie des NSFNET

Abbildung 2.1: Inbound Traffic des NSFNET T1 Backbones, September 1991 (vgl. [CP92]) Cox und Patterson vom National Center for Supercomputing Applications (NCSA) stellen in ihrer Arbeit den Internetverkehr des Backbones des National Science Foundation Netzwerks (NSFNET) dar (vgl. [CP92]).

Hierbei verwenden sie eine Animation, um die Entwicklung und das exponentielle Wachstum des NSFNET innerhalb eines Zeitraumes von zwei Jahren zu verdeutlichen. Durch 3D-Effekte haben die Forscher das Backbone oberhalb der Erde dargestellt, um den enormen Datenaus- tausch zwischen den einzelnen Backbone-Knoten hervorzuheben (siehe 2.1, Seite 7).

2.1.2 Visualisierung von Netzwerk-Daten

Netzwerke sind von entscheidender Bedeutung für die moderne Gesellschaft. Becker, Eick und Wilks (siehe [BEW95]) zeigen in ihrer Studie zur Visualisierung von Netzwerkdaten, wie diese Daten visuell repräsentiert werden können. Dadurch erwarten sie ein gesteigertes Verständnis für das Netzwerk und dessen Daten, um eine effiziente Handhabung sicherzustellen.

Die hierzu von ihnen entwickelte Software Seenet erm¨oglicht die Visualisierung von ge- richtetem Netzwerkverkehr in vielf¨altiger Art und Weise. Hierbei kommen statische Displays,

(9)

Abbildung 2.2: Visualisierung von Netzwerk-Verkehr mit Seenet (vgl. [BEW95])

interaktive Manipulationsm¨oglichkeiten und Animationen zum Einsatz.

Bei den visualisierten Daten handelt es sich zum größten Teil um Benutzungsdaten des AT&T Long Distance Telefonnetzwerks. Hierbei wurden Daten an 110 Netzwerkknoten erho- ben, welche jeweils eine geographische Referenz haben. Besonders herausfordernd war laut den Autoren, dass über 12 000 Links und deren Veränderung im Laufe der Zeit dargestellt werden mussten.

Des Weiteren wurde in dem Paper der Internetverkehr zwischen verschiedenen L¨andern, als auch der E-mail Verkehr innerhalb des Forschungsinstituts visuell untersucht. Die visuelle Analyse des E-mail Verkehrs wurde jedoch nicht nach geographischen Gegebenheiten durchgef¨uhrt. Stattdessen wurde die Anordnung nach dem Verkehrsaufkommen optimiert.

In dem Paper werden Methoden vorgestellt, welche die Daten in vielfacher Art und Wei- se darstellen. Die einfachste und intuitivste Darstellung sind sogenannte Linkdaten, welche als Linie oder Teillinie Verbindungsdaten zweier Knoten darstellen. Zum einen besteht die Möglichkeit, von jedem Knoten aus auf der Hälfte der Strecke zum nächsten Knoten die Daten des Ausgangsknotens darzustellen. Zum anderen können durch sogenanntes Line Shortening die Überlagerungen der Linien verringert werden. Vergleiche hierzu Abbildung 2.2 auf Seite 8.

Eine weitere M¨oglichkeit zur visuellen Repr¨asentation der Daten sind Rechtecke. Die Auto- ren haben in der horizontalen Dimension der Recktecke die einkommenden Daten kodiert und in der vertikalen Dimension die ausgehenden Daten. Beispielsweise bedeutet ein 500 × 1000 Rechteck bei linear skalierter vertikaler und horizentaler Dimension, dass 500 eingehende An- rufe und 1000 ausgehende Anrufe gemessen wurden. Bei dieser Visualisierung gehen allerdings Richtungsinformationen zwischen den Knoten verloren.

(10)

Matrix Displays hingegen lösen das Problem der Überlagerung visueller Datenrepräsenatio- nen auf eine andere Art und Weise. Sie lassen geographische Informationen der Netzwerkknoten aus. Hierbei werden zweierlei Probleme gelöst. Zum einen wird den langen Linien zwischen weit auseinander liegenden Netzwerkknoten nicht zuviel visuelle Aufmerksamkeit geschenkt und zum anderen wird das Überlagerungsproblem gelöst.

Um interessante Visualisierungen der Daten zu erzeugen, müssen die unterschiedlichen Para- meter der Visualisierung geeignet gewählt werden. Durch dynamische Parametereinstellungen kann dieser langwierige Prozess erheblich beschleunigt werden. Becker, Eick und Wilks verwenden hierzu vor allem Direct Manipulation. Durch Auswahl einzelner Netzwerkknoten mit der Maus und durch Variation der anderen Parameter durch Slider stellen sie dem Analysten mächtige Werkzeuge zum Durchstöbern eines großen Suchraumes zur Verfügung.

2.1.3 VisualRoute

Abbildung 2.3: VisualRoute von Visualware [Visw03]

Die Firma Visualware (siehe [Visw03]) vertreibt die Software VisualRoute, welche es ermöglicht, visuell auf einer Weltkarte einen einzelnen Traceroute zu verfolgen (vgl. Abbildung 2.3, Seite 9). Hierbei werden die traversierten IP-Adressen mit Informationen zur jeweiligen Lokalität angezeigt. Des Weiteren erscheinen Informationen zur Netzwerkzugehörigkeit der jeweiligen IP-Adresse.

Für jeden Hop wird ein Knoten auf der Landkarte gezeichnet. Die einzelnen Knoten der Routen sind durch Linien verbunden. Zusätzlich erscheinen an den Knoten Labels wie ,,Ger- many” oder Städtenamen für Knoten in den USA.

(11)

Es besteht zusätzlich die Möglichkeit, über Mausinteraktion in die Landkarte hineinzuzoo- men, um Detailbereiche anzusehen.

Visualware hat ferner eine Software ,,emailTracerPro” entwickelt, welche einzelne E-mail Header analysiert und über VisualRoute darstellt. Über ein Microsoft Outlook Plug-in kann man direkt aus dem E-mail-Programm heraus die Herkunft einer Nachricht als auch die einge- schlagene Route überprüfen. Laut Visualware deckt die Software sogar übliche Irreführungs- taktiken auf.

Leider ist es mit der Software von Visualware in der aktuellen Version 2.0 nicht m¨oglich simultan mehrere E-mails zu analysieren.

(12)

2.2 Datenaufbereitung

Die Datenaufbereitung nimmt in der Regel 70 Prozent der Arbeitszeit eines Visualisierungs- Projekts in Anspruch. Hierbei werden Rohdaten bearbeitet und mit anderen Datenquellen zusammengef¨uhrt. Die Datenmenge wird nun auf die zur Visualisierung ben¨otigten Daten re- duziert.

Die Datenaufbereitung wurde technisch in der Programmiersprache Perl realisiert, da sie sich besonders gut zum Parsen von Daten eignet. Hierbei werden dem Anwender zwei Möglichkei- ten der Datengewinnung zur Verfügung gestellt. Einerseits kann das Perlskript vom Benutzer durch Angabe der Accountdaten seines IMAP-Accounts veranlasst werden, direkt die Hea- der zu scannen. Andererseits steht den Anwendern, welche nicht über einen IMAP-Account verfügen, die Möglichkeit offen, das Perlscript die Netscape Mail-Datei scannen zu lassen.

Abbildung 2.4: UML-Klassendiagramm des E-Mail Filters

Im IP-Filter wird die Datenaufbereitung initialisiert. Es wird eine Verbindung zum IMAP Server aufgebaut und eine Liste von E-mails abgefragt. Diese werden vom HeaderAnalyzer geparst. ¨Uber einen DNS-Lookup werden die vom HeaderAnalyser gefundenen Hostadressen der Mailserver aufgel¨ost, so dass jede Route nur aus IP-Adressen besteht.

Nun werden die Daten zurück an den IPfilter gegeben. Dieser startet den GeoLocator, welcher die Aufgabe hat, jeder gefundenen IP-Adresse eine geographische Koordinate zuzu- ordnen. Hierzu werden zweierlei Datenbestände abgefragt, zum einen die Datenbank selbst, welche geographische Informationen auf Länderebene zur Verfügung stellt und zum anderen den GeoCache, welcher den Zugriff auf eine Auswahl von Koordinaten auf Städteebene erlaubt.

2.2.1 Filtern der E-mail Header

Der E-mail Header beinhaltet technische Informationen ¨uber die E-mail, wie beispielsweise Versandzeitpunkt, Ankunftszeitpunkt als auch die E-mail-Server, welche die E-mail weitergeleitet haben. Unter Zuhilfenahme des Attributs ,,Received” (vgl. Abbildung 2.5,12) habe ich

(13)

die Hostadressen bzw. direkt die IP-Adressen der traversierten Hosts herausgefiltert.

Das Perl-Skript verbindet sich ¨uber das Perl-Modul Mail::IMAPClient (siehe [Ker03]) mit dem IMAP-Server. Durch Angabe eines Benutzernamens und eines Passworts kann nun auf die E-mails zugegriffen werden.

Return-Path: <FRIDOLIN.MANSMANN@Roche.COM>

Delivered-To: mansmann@cservices.de

Received: (qmail 15871 invoked from network); 11 Dec 2002 08:35:17 -0000 Received: from unknown (HELO mx02.web.de) ([217.72.192.152])

(envelope-sender <FRIDOLIN.MANSMANN@Roche.COM>) by twister.ispgateway.de (qmail-ldap-1.03) with SMTP

for <mansmann@cservices.de>; 11 Dec 2002 08:35:17 -0000 Received: from [196.3.50.241] (helo=rbadb2.rbacpxclu.bas.roche.com)

by mx02.web.de with esmtp (WEB.DE(Exim) 4.93 #56) id 18M2KO-0002I1-00

for Florian.Mansmann@web.de; Wed, 11 Dec 2002 09:34:48 +0100 Received: from CONVERSION-DAEMON.Roche.COM by Roche.COM

(PMDF V6.0-025 #47170)

id <01KPWG6PF3Q89774AT@Roche.COM>

for Florian.Mansmann@web.de; Wed, 11 Dec 2002 09:33:01 +0100 Received: from rbamsemcn1.emea.roche.com

(rbamsemcn1.emea.roche.com [145.245.211.139])

by Roche.COM (PMDF V6.0-025 #47170) with ESMTP id <01KPWG6CV74I9889VO@Roche.COM>

for Florian.Mansmann@web.de; Wed, 11 Dec 2002 09:32:42 +0100 Received: from rkamsem1.emea.roche.com ([145.245.247.233])

by rbamsemcn1.emea.roche.com

with Microsoft SMTPSVC(5.0.2195.2966);

Wed, 11 Dec 2002 09:32:40 +0100 Date: Wed, 11 Dec 2002 09:32:37 +0100 From: ”Mansmann, Fridolin PGID Kaiseraugst

<FRIDOLIN.MANSMANN@Roche.COM>”

Subject: RE: Adresse

To: Florian Mansmann <Florian.Mansmann@web.de>

Abbildung 2.5: Auszug aus dem Header einer E-mail

Lediglich die relevanten Information werden herausgefiltert, d.h. f¨ur jede E-mail wird eine Route angelegt, welche aus IP-Adressen, wie beispielsweise [134.34.240.38], oder Hostadres- sen, wie popserver.uni-konstanz.de, besteht. F¨ur Animationen, welche den zeitlichen Verlauf des E-mail Verkehrs darstellen, ist es hilfreich, zu jeder E-mail Route eine Zeitinformation zu speichern. Diese kann aus dem Attribut ,,Date” ausgelesen werden, das den Versandzeitpunkt der E-mail dokumentiert.

(14)

Zur Einschätzung der Validität einer geographischen Zuordnung könnte man die Zeitanga- ben der ,,Received” Attribute analysieren. Zum Beispiel bedeutet die Angabe ,,Tue, 14 Jan 2003 11:27:37 +0100 (CET)”, dass die E-mail am Dienstag, den 14. Januar 2003 um 11:27 Uhr Zentraleuropäischer Zeit empfangen wurde. Die Zahl +0100 bedeutet, dass die Zeiteinstellung des Servers um +1 Stunde von der Greenwich Mean Time (GMT) abweicht. Durch ein Map- ping, welches jedem Land ein oder mehrere Zeitzonen zuordnet, könnte man nun einen Hinweis erhalten, ob eine Zuordnung richtig ist, oder mit hoher Wahrscheinlichkeit falsch ist. Hierbei treffe ich die Annahme, dass die Server jeweils auf die Zeitzone, in der sie aufgestellt sind, konfiguriert sind. Selbstverständlich müsste diese Annahme zuerst empirisch belegt werden.

2.2.2 Aufl¨ osen der Mailserver-Hosts

Die E-mail Routen bestehen bis jetzt aus einzelnen Hosts und IP-Adressen. Während der Arbeit mit der GeoIP-Datenbank von Maxmind (siehe [GeoIP03]) habe ich festgestellt, dass Anfragen auf IP-Adressen innerhalb von wenigen Millisekunden beantwortet werden, wohingegen Anfragen auf Hostnames mehrere Sekunden zur Beantwortung benötigen und des öfteren von der Software nicht lokalisierbar sind.

Durch Verwendung eines Nameserver Lookups kann man im Perl-Skript wesentlich schneller die Hosteinträge in IP-Adresse umwandeln. Besonders auffällig an den Realdaten war, dass sehr viele Hosts mehrmals abgefragt wurden. Folglich konnte ich über einen Cache der bereits abgefragten Domainnamen die Anfragezeit noch einmal deutlich reduzieren.

2.2.3 Geographische Zuordnung

Zur geographischen Zuordnung der IP-Adressen habe ich die GeoIP-Datenbank der Firma Maxmind (siehe [GeoIP03]) verwendet. Die kostenlose Länderversion konnte direkt von der Homepage des Herstellers heruntergeladen werden. Zu Forschungszwecken stellte uns die Firma Maxmind 10 000 kostenlose Lookups auf Städteebene zur Verfügung. Mithilfe dieser Lookups erfährt man eine Welt-Koordinate zu jeder IP-Adresse und kann die E-mail Routen dann entsprechend auf einer Weltkarte darstellen. Da die Anzahl an Lookups begrenzt war, wurden uber einen Cache bereits bekannte Zuordnungen gespeichert.¨

Leider erfuhr ich von Maxmind LLC nicht, wie sie die geographischen Zuordnungen der Datenbank erheben. Die Webseite teilte lediglich mit, dass die Datenbank erheblich genauer sei, als Datenbanken, welche lediglich aus Eintr¨agen der WHOIS-Datenbanken bestehen.

Für einige Anwendungen, wie beispielsweise die Beobachtung von Spam E-mails, ist es sinnvoll, die Lookups auf Länderebene durchzuführen, da hierdurch bereits eine Klassifizierung der geographischen Information vorgenommen wird. Durch diese Klassifizierung kann anschließend untersucht werden, ob Spam E-Mails häufiger als normale E-mails gewisse Routen einschlagen.

Die GeoIP-Datenbank mit Länderauflösung verwendet zur eindeutigen Zuordnung der Länder nach ISO 3166 genormte Ländernamen und -kürzel. Zur Arbeit mit der Visualisierung habe ich die Länderkürzel der Polygon-Weltkarte ebenfalls auf ISO 3166-Norm gebracht, um die

(15)

Daten kompatibel zu machen.

Laut Maxmind (http://www.maxmind.com/app/faq, 10. August 2003) beläuft sich die Ge- nauigkeit der Datenbank auf 95 Prozent. Des Weiteren ändern sich jeden Monat ca. ein Prozent der Daten. Daraus lässt sich eine Formel zur Berechnung der Genauigkeit in Abhängigkeit von der Zeit ableiten:

accuracy(t) = 95%∗0.99^12t

t : Zeitdifferenz in Jahren zwischen dem Stand der Datenbank und dem Alter der Daten

Eine alternative und exaktere Methode der geographischen Ausmessung von IP-Adressen wurde 2002 von Neil Spring, Ratul Mahajan und David Wetherall vorgestellt (vgl. [SMW02]).

Durch Traceroutes von ¨uber 750 ¨offentlichen Traceroute Servern haben die Autoren die Back- bones der großen amerikanischen Internet Service Provider ausgemessen.

(16)

2.3 Visualisierung der E-mail Routen

Laut Schumann und Müller (vgl. [SM00], Seite 5) dient die wissenschaftlich-technische Visua- lisierung vor allem der ,,Analyse”, dem ,,Verständnis” und der ,,Kommunikation” von ,,Mo- dellen, Konzepten und Daten”. Hierbei soll darauf geachtet werden, die Dinge so dazustellen, wie sie tatsächlich vorliegen und sie nicht zu verfälschen.

Die Visualisierung des E-mail Verkehr wurde von mir in C++ entwickelt. Die OpenGL- Bibliothek wurde hierbei zur visuellen Darstellung verwendet. Nähere Informationen zu Soft- wareentwicklung in OpenGL findet sich im OpenGL Redbook (siehe [WNDS99]). Die Wahl der Entwicklungsumgebung fiel auf C++ und OpenGL, da die OpenGL-Grafikroutinen sehr performant implementiert sind und auch C++ gegenüber Java einen deutlichen Performance- Vorteil bietet. Für eine rein statische Visualisierung ohne Benutzerinteraktion wären die Performance-Einbußen weniger ins Gewicht gefallen.

Ferner wurde bei der Entwicklung darauf geachtet, dass die Applikation sowohl unter Unix- /Linux-Systemen als auch unter Microsoft Windows-Systemen ausf¨uhrbar ist.

Abbildung 2.6: Darstellung von 16.800 E-mail Routen mit logarithmischem Color Mapping

2.3.1 Color Mapping

Das von Keim entwickelte HSI-Farbmodell (vgl. [Kei95], Seiten 95-100) ist ein speziell f¨ur Visualisierungen entwickeltes Farbmodell. Durch das HSI-Modell kann ein farbiger Colormap erzeugt werden, dessen Helligkeitswerte monoton absteigend geordnet sind (vgl. Abbildung 2.8 auf Seite 17). Erzeugt man mit dem HSV-Modell einen Colormap durch Interpolation zwischen dem Ausgangs- und Endfarbwert, so erh¨alt man hingegen einen Colormap, dessen Helligkeitswerte nicht in monoton absteigendender Reihenfolge geordnet sind (vgl. Abbildung 2.9 auf Seite 17).

(17)

Abbildung 2.7: HSI- und HSV-Modell, entnommen aus [Kei95], Seite 97

Für die Visualisierung wurde ein Unicolormap verwendet, welcher aus mehreren Farbübergängen besteht. Die Farben sind hierbei der Helligkeit nach geordnet. Grau wurde als Hintergrundfar- be der Visualisierung gewählt, um die Farben des Colormaps möglichst gut sichtbar zu machen.

Definitionen

S : Menge statistischer Datenwerte min :min∈S∧ ∀u∈S :min≤u max :max∈S∧ ∀u∈S:max≥u

f_x(s) : [min, max]→[0,1] (Normalisierungsfunktion) D : Verteilung der Datenwerte aus S

c_size : Anzahl der Farbwerte eines Colormaps

c(f_x(s)) : [0,1]→[1, c_size]∈IN (Farbzuordnungsfunktion) Lineares Mapping

Lineares Mapping eignet sich für Daten, die gleichmäßig über ein Intervall verteilt sind, da die Daten hierdurch linear auf das Intervall [0,1] gemappt werden. Der kleinste Wert min entspricht hierbei dem Wert 0, der größte Wert max der 1.

f_lin(s) = s − min max − min Wurzel-Mapping

Das Wurzel-Mapping ist sehr gut f¨ur Daten geeignet, die viele kleine Werte und viele große Werte besitzen. Ein lineares Mapping w¨urde bei einer derartigen Verteilung einen großen fast leeren Zwischenraum produzieren. Durch das Wurzel-Mapping wird dieser Bereich jedoch kom- primiert dargestellt.

f (s) =

√s − √

√ √min

(18)

Abbildung 2.8: HSI-Colormap mit Wurzel-Skala, Schwarz-Weiß-Ansicht Logarithmisches Mapping

Abbildung 2.9: HSV-Colormap mit Logarithmischer Skala, Schwarz-Weiß-Ansicht Beim logarithmischen Mapping muss man die Datenmenge S gegebenenfalls auf den Werte- bereich S⁰ transformieren, da die Logarithmus-Funktionen nur ¨uber den Wertebereich S⁰ :=

{s⁰ ∈IR|s⁰ >0}definiert ist. Das logarithmische Mapping eignet sich ebenfalls f¨ur Datenmen- gen, mit vielen kleinen Werten und vielen großen Werten. Die St¨arken des Mappings liegen insbesonders bei weit auseinander liegenden hohen Datenwerten.

f_ln(s) = ln(s) − ln(min) ln(max) − ln(min) α-Quantil Mapping

Beim α-Quantil Mapping werden die Datenwerte sortiert und anschließend aufsteigend den Quantilen zugeordnet. Die Zuordnung geschieht hierbei in Proportion zu den vorhandenen Da- tenwerten, d.h. jedes Quantil repräsentiert in etwa gleich viele Datenwerte. Problematisch ist hierbei, dass zwischen zwei benachbarten Quantilen riesige Unterschiede in den statistischen Werten sein können und die Visualisierung keine Hinweise darauf gibt. Im Extremfall können sogar statistische Werte mit sehr großen Unterschieden dem selben Farbwert zugeordnet werden.

α−Quantil(D) ={x: Z x

−∞

f_x(D) =α}

(19)

2.3.2 Kartenprojektionen

In der E-mail Visualisierung wurden Kartenprojektionen verwendet. Die mathematisch einfachste Kartenprojektion ist die Equirectangular Projektion, welche die Koordinaten eins zu eins in einem Rechteck auf dem Bildschirm darstellt.

Schaltet man zwischen den Projektionen um, so stellt man insbesonders bei der Albers Projektion (Definition siehe Seite 23) fest, dass E-mail Routen sichtbar werden, welche zuvor von anderen Routen ¨uberlagert werden. Diesen Effekt sieht man sehr gut beim Vergleich der Amerika-Routen in der Hammer-Aitoff Projektion (Definition siehe Seite 21) mit denen in der Albers Projektion. Vergleiche hierzu Abbildung 2.24 und Abbildung 2.25 auf Seite 36.

Des Weiteren können je nach angewendeter Projektion Distanz-, Flächen- und Formfehler der Länderpolygone verringert, bzw. vollständig ausgeschlossen werden.

Aufgrund der Tatsache, dass Routen auf der ganzen Welt dargestellt werden sollen, war die Auswahl der Kartenprojektionen auf Projektionen beschr¨ankt, die gleichzeitig beide He- misph¨aren darstellen.

Eine Kartenprojektion sei definiert als Π : (λ, ϕ)→(x, y). Um sie auf den Anzeigebereich zu normieren m¨ussen λ und ϕ mit einem konstanten Faktor multipliziert werden. Dabei handelt es sich um das Produkt aus dem Erdradius und dem verwendeten Maßstab.

Datenformat

Das Datenformat für Längengrade ist auf das Intervall [−180,180] festgelegt, wobei negative Werte für westliche Grade und positive Werte für östliche Grade stehen. Analog dazu sind Breitengrade auf dem Intervall [−90,90] definiert, wobei negative Werte für südliche Grade und positive Werte für nördliche Grade verwendet werden.

Azimuthalprojektion Kegelprojektion Zylinderprojektion Abbildung 2.10: Projektionsarten, entnommen aus Guszlev: Map Projections (vgl. [Gus03])

(20)

Begriffserl¨auterungen

Die Erl¨auterungen zu den Begrifflichkeiten der Geographie-Wissenschaften wurden in Anleh- nung an [Sny87] und [Gus03] erstellt.

f lächentreu Eine Kartenprojektion wird als flächentreu bezeichnet, wenn beispielsweise eine Münze beliebigen Ausmaßes auf einem Teil der Kar- te genau die gleiche Fläche auf der Erdkugel bedeckt, wie wenn man die Münze auf einen anderen Teil der Karte legt. Hierbei werden Formen, Winkel und Größenverhältnisse verzerrt.

konf orm Unter konform versteht man, dass die relativen lokalen Winkel auf jedem Punkt einer Karte korrekt dargestellt werden. Obwohl große Flächen immer noch flächenverzerrt dargestellt werden, werden die Details dieser Fläche ausreichend korrekt dargestellt.

Standardparallele Unter Standardparallele versteht man diejenigen Parallelen der Erdkugel, auf denen die Distanz maßstabsgetreu auf der Karte ab- gelesen werden kann. Hierbei handelt es sich bei den meisten Pro- jektionen um eine oder zwei Breitengrade, f¨ur welche die Bedingung gilt.

Azimuthalprojektion Azimuthalprojektionen bestehen aus einer Projektion des Gradnet- zes auf eine Ebene. Hierbei wird die Projektionsebene normalerweise über dem Nord- oder Südpol plaziert und die darunterliegen- de Erdhalbkugel wird auf die Ebene projeziert. In der Regel wird nur eine Hemisphäre dargestellt. Vergleiche hierzu Abbildung 2.10, Azumuthalprojektion auf Seite 18.

Kegelprojektion Bei der Kegelprojektion wird ein Kegel über die Erdkugel gestülpt, der tangential oder sekant anliegt. Breitengrade werden als Kreise um den Projektionsmittelpunkt dargestellt, Längengrade als von diesem Mittelpunkt ausgehende Geraden. Kegelprojektionen werden wegen ihrem relativ kleinen Genauigkeitsbereich selten für Kar- ten mit kleinem Maßstab verwendet. Selbst wenn man durch die Projektion zwei Sekanten erzeugt, auf denen keine Verzerrung feststellbar ist, so nimmt die Verzerrung sehr rapide zu, sobald man sich von diesen Standardparallelen entfernt. Kegelprojektionen sind wegen dieser Problematik am besten für Karten der mittleren Brei- tenregionen angemessen. Vergleiche hierzu Abbildung 2.10, Kegel- projektion auf Seite 18.

Zylinderprojektion Eine Zylinderprojektion kann man sich in seiner einfachsten Versi- on wie eine Ebene vorstellen, die wie ein Zylinder um den Äquator gelegt wurde. Jeder Punkt des Globus wird nun nach außen auf den Zylinder projiziert. Eine derartige Projektion wird in der Regel dazu verwendet, um die gesamte Erdoberfläche darzustellen. Die meisten Zylinderprojektionen sind winkeltreu. Die Längen- und Breitengra- de stehen orthogonal zueinander. Vergleiche hierzu Abbildung 2.10, Zylinderprojektion auf Seite 18.

(21)

Symbolerl¨auterungen

In engster Anlehnung an Guszlev, Map Projections, Explanation of the symbols (vgl. [Gus03]).

ϕ Phi repr¨asentiert in Radianten gemessene Breitengrade. Beispielsweise entsprichen 30^◦ Nord 0,52359877 und 60^◦ S¨ud -1,04719755.

λ Lambda repr¨asentiert in Radianten gemessene L¨angengrade. Beispiels- weise entspricht 90^◦ Ost 1,57079632 und 180^◦ West -3,14159265.

x x bezieht sich auf den Wert eines auf der horizontalen Axe gemessenen Punktes einer zweidimensionalen Karte.

y y bezieht sich auf den Wert eines auf der vertikalen Axe gemessenen Punktes einer zweidimensionalen Karte.

β =π−ϕ Beta repr¨asentiert die in Radianten gemessene Winkeldistanz zum Pol.

Das Maß ist ¨ahnlich den Breitengraden, welche allerdings vom ¨Aquator aus gemessen werden. Beta kann keinen negativen Wert annehmen.

ϕ₀ Phi 0 repr¨asentiert den in Radianten gemessenen Breitengrad der Standardparallele.

β₀ =π−ϕ₀ Beta 0 repr¨asentiert die Winkeldistanz in Radianten vom Pol zum Breitengrad der Standardparallele.

β₁, β₂ Gibt es zwei Standardparallelen, so werden sie normalerweise mit Beta 1 und Beta 2 referenziert.

Equirectangular Projektion

Die Equirectangular Projektion (vgl. [Gus03], Cylindrical Projections) gilt als eine der ¨altesten und einfachsten Projektionen.

Bei dieser Projektion handelt es sich um eine Zylinderprojektion. Die Besonderheit der Pro- jektion ist, dass sowohl L¨angen- als auch Breitengrade gleichverteilt sind. Sie weist sehr starke Fl¨achenverzerrungen auf.

Abbildung 2.11: Equirectangular Projektion

(22)

x =λ y =ϕ

Die Kugelkoordinaten werden bei dieser Projektion eins zu eins auf eine rechteckige Projek- tionsfl¨ache ¨ubertragen.

Hammer-Atioff Projektion

Die Hammer-Aitoff (vgl. [Sny87]) Projektion ist eine Verbesserung der Aitoff-Projektion in Bezug auf die Fl¨achentreue. Optisch ist sie der Aitoff-Projektion sehr ¨ahnlich und kann nur durch Ausmessung von Teilbereichen unterschieden werden, da der Unterschied mit bloßem Auge kaum zu erkennen ist.

Die ellipsische Form gilt als sehr ¨asthetisch und gibt dem Betrachter einen Hinweis auf die Kugelform der Erde.

Abbildung 2.12: Hammer-Aitoff Projektion x= 2√

2 cos ϕ sin^λ₂ (1 +cos ϕ cosλ

2)¹² y =

√2sin ϕ (1 +cos ϕ cosλ

2)¹² Mollweide Projektion

Die Mollweide Equal-Area Pseudocylindrical Projektion stellt die Erde in Form einer Ellipse dar. Aufgrund ihrer ¨Asthetik eignet sie sich besonders f¨ur Weltkarten.

Die Projektion wird als pseudozylindrisch bezeichnet, da die Breitengrade parallel zueinander dargestellt werden, die Projektion selbst jedoch nicht ¨uber einen Zylinderk¨orper erstellt werden kann.

(23)

Abbildung 2.13: Mollweide Projektion

Weisstein erl¨autert auf der Internetseite von Mathworld (vlg. [Wei99]), wie man die Moll- weide Projektion berechnet.

x = 2√

2 (λ−λ₀)cos θ

π (1)

y = 2¹² sin θ (2)

2θ+sin(2θ) = π sin ϕ (3)

Umθ zu erhalten, wird das Newton-Verfahren zur L¨osung der Gleichung (3) angewendet:

∆θ⁰ =−θ⁰+sin θ⁰ −π sin ϕ 1 +cos θ⁰ (4)

θ = ¹₂θ⁰ (5)

θ⁰ = 2sin⁻¹2ϕ π

(6)

Dabei wird pro Iterationsschritt die Ver¨anderung ∆θ⁰ durch die Gleichung (4) berechnet.

Der Startwert f¨ur θ⁰ wird in (6) festgelegt. Das Verfahren terminiert, sobald|∆θ⁰| kleiner als ein Wert ist.

Cosinusodial Projektion

Die Cosinusodial Projektion (vgl. [Sny87]) gilt als einfache und schnell zu berechnende Pro- jektion. Sie ist durch ihre bizarre Form sehr auff¨allig und ist in Teilbereichen durchaus ver- wendbar. Wie die Mollweide Projektion ist auch sie wegen ihrer parallelen Breitengrade eine pseudozylindrische Projektion.

Erstaunlicherweise ist sie eine fl¨achentreue Projektion.

(24)

Abbildung 2.14: Cosinusodial Projektion x = λ×cos ϕ

y = ϕ

Albers Equal-Area Conic Projektion

Die Albers Equeal-Area Conic Projektion (vgl. [Gus03]) ist eine fl¨achentreue Kegelprojektion.

Proportionen und Richtungen werden dabei entlang der Standardparallelenβ₁ undβ₂erhalten.

Wählt man die Standardparallelen als β₁ =β₂ = ¹₂π, so erhält man bei Projektion der ge- samten Erdoberfläche auf die Projektionsfläche eine kreisförmige Weltkarte mit dem Nordpol im Kartenmittelpunkt.

Abbildung 2.15: Albers Equal-Area Conic Projektion mitβ₁ =β₂ = ¹₂π

Werden die Standardparallelen anders gewählt, so erhält man die Weltkarte auf einem Aus- schnitt der Seitenfläche eines aufgeklappten Kegels mit abgeschnittener Kegelspitze.

(25)

n = cos β₁+cos β₂ 2 p =

r

n4 ×sinπ 2−ϕ

2

+ 4n² × sinβ₁

2 2

× sinβ₂

2 2

x = p

sin(n×λ)

y =− p

cos(n×λ)

Lambert Cylindrical Projektion

Bei der Lambert Cylindrical Projektion (vgl. [Gus03], Cylindrical Projections) werden die Abst¨ande der Breitengrade zu den Polen hin enger. Sie wurde 1772 von J.H. Lambert erfun- den und ist sowohl durch ihre einfachen Formeln als auch durch ihre rechteckige Form sehr gut handzuhaben.

Abbildung 2.16: Lambert Cylindrical Projektion x =cos ϕ0×λ

y = sin ϕ cosϕ0

(26)

2.3.3 Darstellung der Routen

Eine E-mail erreicht ihren Zielhost, indem sie vom Starthost ¨uber einen oder mehrere Mailser- ver weitergeleitet wird. Die Position eines solchen Mailservers wird hierbei als Knoten v ∈V eines ungerichteten Graphen G = (V, E) modelliert. Die Kante e ={v₁, v₂};e ∈E;v₁, v₂ ∈V stellt eine Teilstrecke der E-mail Route r dar. Eine Route sei definiert als r := (e₁, e₂, ..., e_n), wobei n die Anzahl der Teilstrecken von r ist.R sei die Menge der Routen.

Ist die Lokalität eines Knoten v₂ ∈V einer Route r= ({v₁, v₂},{v₂, v₃}) nicht feststellbar, so werden die zu v2 adjazenten Kanten {v1, v2} und {v2, v3} aus r gelöscht und statt dessen die Kante {v₁, v₃} eingefügt. Ist die Lokalität eines Start- oder Endknotens nicht definiert, so wird nur die adjazente Kante gelöscht. Der Fall, dass eine Lokalität nicht feststellbar ist, tritt erstens ein, wenn der Hostname eines Mailservers vom DNS-Server nicht aufgelöst werden kann. Zweitens kann es passieren, dass die Datenbank einer IP-Adresse keine Lokalität zuweisen kann.

Jeder Kante e ={v₁, v₂} wird ein Gewicht w(e) zugewiesen, das der Anzahl an Routen r⁰ aus R_e, R_e⊂R entspricht.R_e sei definiert als ∀r⁰ ∈R :e∈r⁰. Daher gilt: w(e) = |R_e|.

Besteht eine Kante e = {v₁, v₂} aus zwei unterschiedlichen Knoten v₁ und v₂, so wird sie als Linie zwischen der Projektion der beiden Knoten, Π(v₁) und Π(v₂), auf dem Bildschirm dargestellt. Kanten e⁰ ={v1, v1} werden als kleine Quadrate dargestellt, da Linien der L¨ange 0 nicht auf dem Bildschirm erscheinen.

Die Anwendung der Normalisierungs-Funktion auf das Gewicht w(e) einer Kante e resultiert in einem Wert a=f_x(w(e)). Durch eine lineare Funktion c(a) erh¨alt man nun den Index der entsprechenden Farbe im Colormap.

Abbildung 2.17: Alle Routen Abbildung 2.18: Routen, die mindestens 10 mal frequentiert wurden

Auf Routen ¨uber die Datumsgrenze wurde verzichtet, da diese durch die verwendeten Kar- tenprojektionen sehr schwer verfolgbar sind. Durch Verwendung von Kartenprojektionen, wie beispielsweise der Hammer-Aitoff Projektion, wird die Weltkugel als Ellipse dargestellt. Auf-

(27)

grund der rechteckigen Beschaffenheit von Anwendungsfenstern entstehen an den Ecken des Fensters Bereiche, die nicht zur Darstellung der Projektion verwendet werden. Wird nun eine Route über die Datumsgrenze eingezeichnet, so verläuft sie vom Startknoten bis zur Außenkan- te der Ellipse und auf der anderen Seite von der Außenkante der Ellipse hin zum Zielknoten. Im Bereich zwischen Fenster und Ellipse dürften jedoch keine Linien eingezeichnet werden. Der Einfachheit halber werden die Routen über die Datumsgrenze als direkte Verbindungslinie zweier Knoten dargestellt. Im konkreten Anwendungsfall entstanden dadurch wenige störende Uberlagerungen.¨

Der Einsatz von Line Shortening (vgl. Abbildung 2.2, Seite 8; [BEW95]) wäre durchaus sinnvoll bei Darstellungen mit sehr viel Überlagerungen. Die Problematik wurde jedoch gelöst, indem Routen mit geringer Bedeutung durch den Benutzer ausgeblendet werden können.

Ausblenden der Routen mit geringem Verkehr

Der Übersichtlichkeit halber lassen sich über ,,-” Routen mit geringem Verkehr sequentiell ausblenden und über ,,+” wieder einblenden. Durch diese Interaktion kann der Benutzer selbst entscheiden, ob er alle Routen betrachten will, oder nur diejenigen mit einem von ihm selbst festgelegten Mindestverkehr. Vergleiche hierzu Abbildungen 2.17 und 2.18 auf Seite 25.

(28)

2.3.4 Rasterung

Das sequentielle Zeichnen aller Einzelrouten macht wenig Sinn, da alle Routen die gleiche Wertigkeit hätten und gleiche Teilstrecken überlagert werden würden. Des Weiteren sind für den Betrachter zwei Routen, deren Koordinaten der Start- und Endknoten nur um wenige Sekunden voneinander differenzieren, nicht unterscheidbar.

Abbildung 2.19: Rasterung mit Aufl¨osung von 1× 1 Grad

Zur Lösung dieses Problems wurde eine Rasterung eingeführt, welche die Menge aller mögli- cher Knoten auf IG 3 [−180,180]×[−90,90] ∈ IG eingeschränkt (vgl. Abbildung 2.19, Seite 27). Hierbei treten allerdings Probleme im Detailbereich auf, da Knoten nun in Bereichen der Landkarte erscheinen, in denen keine Landmasse eingezeichnet ist. Zudem können Knoten durch die Rasterung im Nachbarland erscheinen.

Eine adaptive Veränderung der Rasterung je nach gewähltem Zoombereich wäre ebenso denkbar, ist jedoch mit Rechenaufwand verbunden. Für den Betrachter könnte es verwirrend sein, wenn er beispielsweise eine blaue Route heranzoomt und im Zoombereich statt der blauen Route drei grüne Routen erscheinen.

Bei der Spam-Visualisierung wurde bewusst eine semantische Rasterung auf Länderebene eingeführt. Diese Rasterung fasst alle Kanten des Graphen zusammen, welche als Start- und Endknoten die gleichen Länder haben. So können Schlußfolgerungen auf die Ursprungsländer des Spams gemacht werden. Vergleiche hierzu Abbildung 2.23 auf Seite 32.

(29)

2.3.5 Zoom

,,If the user sees an interesting pattern in the visualization window, a drag-and drop interface is available to drill-down to get details, explore context and take actions if neccessary. This provides an intuitive way of converting spatial information into detailed informations (...)” (Zitat entnommen aus [KNTK99])

Nach diesem Prinzip habe ich die Zoom-Funktion implementiert. Der Benutzer hat jederzeit die Möglichkeit, über eine Mausinteraktion einen Detailbereich der Visualisierung auszuwählen (vgl. Abbildung 2.20, Seite 28). Über die mittlere Maustaste kann er wieder aus dem Detail- bereich herauszoomen.

Abbildung 2.20: Zoom

Um den vom Benutzer ausgewählten Detailbereich anzuzeigen, müssen zweierlei Transfor- mationen auf den 2D-Punkten ausgeführt werden (vgl. [FvFH96], Seite 201):

P⁰ = T +P Translation P⁰⁰ = S · P⁰ Skalierung

Der Bildbereich ist so festgelegt, dass der Punkt P = (0|0) in der Mitte des Bildschirms dargestellt wird. Somit ergibt sich die Translation aus der Negierung der Koordinaten des Zoombereichmittelpunkts.

W¨ahlt man beispielsweise den Bereich (8|48) × (12|52), welcher in etwa Deutschland in der Equirectangular-Projektion entspricht, ¨uber eine Mausinteraktion aus, so ergibt sich die Translation T aus den folgenden Berechnungen:

x_{M itte} = (8 + 12)÷2 = 10 (1) yM itte = (48 + 52)÷2 = 50 (2)

T =

−10

−50

(3)

(30)

Der Einfachheit halber sei der Bildbereich in diesem Rechenbeispiel auf die maximalen Ko- ordinatenwerte festgelegt, d.h. der x-Bereich variiert von -180 bis +180 und der y-Bereich von -90 bis +90. In der Implementierung wurde der vertikale Wertebereich etwas vergrößert, um die Größe des Anwendungsfensters voll auszuschöpfen und unerwünschte Verzerrungen zu vermeiden.

∆x = 12−8 = 4 (4)

∆y = 52−48 = 4 (5)

∆xBildschirm = 360 (6)

∆y_Bildschirm = 180 (7)

∆x_Bildschirm

x = 360

4 (8)

∆y_Bildschirm

y = 1804 (9)

Die Skalierung errechnet sich aus dem kleineren Verh¨altnis der x- und y-Bildbereichen (Glei- chungen (6) und (7)) zu den entsprechenden Zoombereichen (Gleichungen (4) und (5)). Somit wird garantiert, dass mindestens der ausgew¨ahlte Zoombereich auf dem Bildschirm sichtbar wird.

S = ₁₈₀

4 0

0 ¹⁸⁰₄

(10)

Somit kann f¨ur jeden Punkt P ein Bildpunkt P⁰⁰ errechnet werden:

P⁰⁰ =S · (P +T) = ₁₈₀

4 0

0 ¹⁸⁰₄

·

x_p yp

+

−10

−50

Um einen Mehrfachzoom zu ermöglichen, müssen die Translation und die Skalierung zwi- schengespeichert werden, da sie zur Berechnung des Zoomes im Zoombereich erneut benötigt werden.

(31)

2.3.6 Kartogramm-Zoom

Das Grundprinzip eines Kartogramms ist, eine Karte entsprechend der Verteilung der geographischen Datenwerte zu verzerren. Relevante Bereiche sollen vergr¨oßert und nicht relevante Bereiche verkleinert werden (vgl. Abbildung 2.21).

Zu beachten ist dabei, dass die Formerhaltung der L¨anderpolygone m¨oglichst hoch sein soll, damit der Betrachter sich auf der ungewohnten Karte orientieren kann.

Abbildung 2.21: Kartogramm-Zoom mit Routen-Frequenz gr¨oßer drei und logarithmischer Farbskalierung

Geplant war die Umsetzung der Kartogrammprojektion in der OpenGL-Visualisierung. Hier- bei sollte eine Taste gedr¨uckt werden und im Anschluß daran die Karte verzerrt werden.

Aufgrund der Kartogramm-Berechnung w¨urde der Betrachter jedoch erst nach mehreren Se- kunden ein Feedback bekommen. Zu Testzwecken wurde das Kartogramm daher ¨uber ein Shell-Kommando gestartet und der Einfachheit halber mit R, der freien Version des Statistik- Programms S-Plus geplottet.

Zur Berechnung des Kartogramms wurde der CartoDraw-Algorithmus (siehe [KNP03]) verwendet, der die Daten horizontal und vertikal in Bins einsortiert. Es erfolgt eine Optimierung, welche die Größe der Bins variiert, so dass in jedem Bin in etwa gleich viele Datenwerte vorhanden sind. Nun wird die Fläche aller horizontalen und vertikalen Bins hingehend der Daten-Flächen-Proportion optimiert.

Im konkreten Anwendungsfall wurden die Länder-Polgone und auch die E-Mail-Routen- Daten mit der Hammer-Aitoff-Projektion projeziert. Da bei der Verwendung von lediglich den E-mail Routen zu große Formverzerrungen auftraten, wurden in die Ellipse der Hammer-Aitoff- Projektion in einem regelmäßigen Raster Punkte eingefügt. Zusammen mit den Punktdaten der E-mail Routen stellen diese die Berechnungsgrundlage des Kartogramms dar.

Die Anzahl der eingefügten Punkte auf einer beliebigen Fläche der Karte ist annähernd proportional zur tatsächlichen Größe der Fläche auf der Weltkugel, da es sich bei der Hammer- Aitoff Projektion um eine flächentreue Projektion handelt. Ungenauigkeiten enstehen durch nicht parallelen Breitengrade. Ein genaueres Verfahren wäre die Verwendung der Mollweide-

(32)

Projektion, deren Verwendung jedoch mit gr¨oßeren Formverzerrungen verbunden ist.

Im erstellten Kartogramm (Abbildung 2.21, Seite 30) wird Deutschland in starker Vergröße- rung dargestellt. Dies ist der gewünscht Effekt des Kartogramm-Verzerrung. Der ungewünschte Effekt ist besonders gut an der Verzerrung von Afrika zu sehen. Die Längengrade, welche sich mit denjenigen Breitengraden von Deutschland überdecken, wurden extrem in die Breite gezogen, obwohl hier keinerlei E-mail Verkehrsaufkommen stattfand. Durch die Verwendung der projezierten Daten wurde auch Amerika in seltsamer Art und Weise verzerrt, so dass sich die Grenze zwischen den USA und Kanada in vertikaler Richtung über die halbe Karte ausdehnt.

(33)

2.4 Anwendung

Die Analyse der E-mails ergab, dass es mehr Teilrouten als E-mails gibt. Dies bedeutet, dass E-mails in der Regel nicht direkt auf den Zielserver ¨ubertragen werden, sondern meistens ¨uber andere E-mail Server weitergeleitet werden.

Besonders auffällig war hierbei, dass es sehr viele Deutschland-Deutschland-Routen gab, bei den regulären E-mails etwa 1,70 mal so viele wie analysierte E-mails. Bei den Spam-E-mails lag dieser Faktor sogar bei 4,25. Daraus lässt sich schließen, dass mit großer Wahrscheinlichkeit Forwarder auf die untersuchten E-mail-Konten angelegt sind, die diese E-mails innerhalb von Deutschland weiterleiten.

Abbildung 2.22: Visualisierung regul¨arer E-mails

Abbildung 2.23: Spam-Visualisierung auf L¨anderebene

2.4.1 Regul¨ are E-mails

Es wurden 20 197 E-mails eines wissenschaftlichen Mitarbeiters untersucht. Diese 20 197 E- mail splitten sich wiederum in 41278 Teilrouten auf, die detailliert untersucht werden. Hierbei ist klar zu stellen, dass nicht jede reale E-mail Route aufgesplittet werden konnte.

Auffällig an diesen E-mails war, dass die am stärksten frequentierte Route eine Punktroute in Konstanz war (vlg. Abbildung 2.22, Seite 32). Dies bedeutet, dass sehr viel E-mail Verkehr von Konstanz nach Konstanz gesendet wurde. Dafür gibt es zweierlei Erklärungen. Zum einen läuft viel E-mail Verkehr innerhalb des Lehrstuhls oder der Universität ab und zum anderen können ein oder mehrere Forwarder innerhalb der Universität aktiv sein.

Unter den 41278 Teilrouten waren bei einer 1×1 Grad-Rasterung 538 geographisch unterschiedliche Routen feststellbar. Bei einer semantischen Rasterung auf L¨anderebene hingegen nur noch 161.

Herausstechend war bei der Analyse des regul¨aren E-mail Verkehrs, dass die Teilroute Deutschland - Deutschland 83,59 % des Verkehrsaufkommens ausmachte (siehe Tabelle 2.1 auf Seite 33). Es ist anzunehmen, dass ein Großteil dieser Teilrouten auch ohne Forwarder

(34)

pflegen, so z.B. der Kontakt zu den Studenten, anderen Mitarbeitern der Universit¨at und Ko- operationspartnern in Deutschland.

Die Route mit dem zweitmeisten Verkehrsaufkommen befindet sich innerhalb der USA und ist mit 9,31 % wesentlich bedeutender als die Route von der USA nach Deutschland mit lediglich 3,72 %. Hieraus entsteht die Vermutung, dass die E-mails von der USA nach Deutschland im Schnitt erst 2¹₂ mal weitergeleitet werden, bevor sie die USA verlassen. Bevor man jedoch voreilige Schl¨usse zieht, sollte in Betracht gezogen werden, dass die GeoIP-Datenbank (vgl.

[GeoIP03]) ca. 1,3 Milliarden IP-Adressen den USA zugeordnet hat. Als n¨achsth¨aufigstes Land wurden Japan jedoch nur 105 Millionen IP-Adressen zugeordnet.

Die vierth¨aufigste Route ist von der Schweiz in die Schweiz. Seltsam finde ich auch hier, dass im Schnitt jede E-mail von der Schweiz nach Deutschland 3,93 mal innerhalb der Schweiz weitergeleitet wird, bevor sie nach Deutschland gelangt. Dieser Berechnung liegt die Annahme zugrunde, dass E-mails von der Schweiz direkt nach Deutschland weitergeleitet werden und nicht ¨uber Amerika nach Deutschland gelangen.

Der Verkehr der weiteren Länder-Routen erschien mir zu gering, um ihn näher zu untersuchen und Folgerungen daraus abzuleiten. Dem interessierten Leser möchte ich diese Routen jedoch nicht vorenthalten.

Rang Land1 Land2 Anzahl Anteil Teilrouten

1. Deutschland Deutschland 34505 83,59 %

2. USA USA 3842 9,31 %

3. USA Deutschland 1535 3,72 %

4. Schweiz Schweiz 471 1,14 %

5. Schweiz Deutschland 120 0,29 %

6. China Deutschland 60 0,15 %

7. Finnland Deutschland 56 0,14 %

8. Frankreich Frankreich 51 0,12 %

9. Kanada Deutschland 30 0,07 %

10. Großbritannien Deutschland 30 0,07 %

11. Schweden Deutschland 29 0,07 %

12. Großbritannien Großbritannien 29 0,07 %

13. S¨udkorea Deutschland 28 0,07 %

14. Frankreich USA 27 0,07 %

15. Osterreich¨ Deutschland 27 0,07 %

16. Brasilien Deutschland 26 0,06 %

17. Schweden Schweden 26 0,06 %

18. Kanada Kanada 25 0,06 %

19. Großbritannien USA 21 0,05 %

20. USA Osterreich¨ 21 0,05 %

Tabelle 2.1: Teilrouten der regul¨aren E-mails

Die visuelle Detailanalyse der Deutschlandrouten (siehe Abbildung 2.20, Seite (28) ergab fol-

(35)

gende Teilrouten, geordnet nach Verkehrsaufkommen: Konstanz - Konstanz, Hamburg - Ham- burg, Karlsruhe - Bremen, Karlsruhe - Konstanz, Karlsruhe - Hamburg, M¨unchen - M¨unchen, Leipzig/Halle - Hamburg, Frankfurt - Bremen.

2.4.2 Spam

Es wurden 408 Werbe-E-mails untersucht (siehe Abbildung 2.23, Seite 32), deren Routen sich in 1734 identifizierbare Teilrouten aufsplitten. Die Analyse ergab, dass 116 unterschiedliche Teilrouten benutzt wurden.

Rang Land1 Land2 Anzahl Anteil Teilrouten 1. Deutschland Deutschland 1115 64,30 %

2. USA Deutschland 109 6,29 %

3. China Deutschland 80 4,61 %

4. USA USA 72 4,15 %

5. S¨udkorea Deutschland 38 2,19 %

6. USA China 24 1,38 %

7. Brasilien Deutschland 19 1,10 %

8. Holland Deutschland 19 1,10 %

9. S¨udafrika Deutschland 16 0,92 %

10. Mexiko Deutschland 15 0,87 %

11. USA Korea 13 0,75 %

12. Italien Deutschland 11 0,63 %

13. Spanien Deutschland 10 0,58 %

14. USA Mexiko 9 0,52 %

15. Kanada Deutschland 8 0,46 %

16. Taiwan Deutschland 7 0,40 %

18. Brasilien USA 6 0,35 %

19. Großbritannien Deutschland 5 0,29 %

20. USA Taiwan 4 0,23 %

Tabelle 2.2: Teilrouten der Spam-E-mails

Der Anteil der Deutschland - Deutschland Routen liegt dieses Mal bei 64,30 % (vgl. Tabelle 2.2, Seite 34). Das sind 19,29 % weniger als in den regul¨aren E-mails. Die USA - Deutschland Route schneidet mit 6,29 % vergleichbar mit den 3,72 % der gleichen Routen in den normalen E-mails ab. Ebenso die USA - USA Route mit 4,15 % (9,31%).

Sehr auffällig hingegen ist die China - Deutschland Route (4,61 %), die sich von der gleichen Routen der regulären E-mails (0,15 %) um den Faktor 30,7 unterscheidet. Ebenso die Südko- rea - Deutschland Route (2,19 % / 0,07 %), deren Häufigkeit um den Faktor 31,3 erhöht ist.

In ¨ahnlicher Weise verhalten sich die Routen Brasilien - Deutschland, Holland - Deutschland, S¨udafrika - Deutschland und Mexiko - Deutschland.

Eine weitere Eigenheit der Spam-E-mails ist, dass rund 1,38 % des gemessenen Verkehrsauf-

(36)

mit Ziel Deutschland einen Umweg von mehr als 15 000 Kilometern und ist daher in den normalen E-mails sehr rar frequentiert. Gleiches gilt f¨ur die Route USA - Korea - Deutschland.

Schlußfolgerungen

Aus der Analyse der E-mails geht hervor, dass die untersuchten Spam E-mails im Durchschnitt mehrere Teilrouten aufweisen als normale E-mails: Faktor 4,25 versus Faktor 2,04.

Des Weiteren fiel die deutlich erhöhte Nutzungsfrequenz der Routen China-Deutschland, Südkorea-Deutschland, Brasilien-Deutschland, Holland-Deutschland, Südafrika-Deutschland und Mexiko-Deutschland auf. Es wäre jedoch falsch, E-mails aus diesen Ursprungsländern generell als Spam auszusortieren, da auch normale E-mails über diese Routen verlaufen.

Sehr große geographische Umwege traten bei den Strecken USA-China-Deutschland sowie USA-Korea-Deutschland auf und deuten mit großer Wahrscheinlichkeit auf Spamrouten hin.

(37)

2.5 Evaluierung

2.5.1 Effektivit¨ at

Unter Effektivit¨at versteht man, ob der Benutzer alle relevanten Informationen erfassen kann.

Hierzu kann gesagt werden, dass beim Start der Visualisierung erst einmal alle verf¨ugbaren Routen auf der Weltkarte eingeblendet werden. Der Benutzer bestimmt den Grad der Aus- blendung selbst ¨uber Interaktion mit dem System.

Etwas problematisch ist hingegen die Überlagerung der Routen. Denjenigen Routen mit viel Verkehr wird eine höhere Priorität eingeräumt. Sie werden über die anderen Routen gezeichnet.

Das Überlagerungsproblem wurde teilweise gelöst, indem der Benutzer die Möglichkeit be- sitzt, sequentiell die unwichtigen Routen auszublenden und indem er zwischen den Karten- projektionen umschalten kann. Betrachtet man beispielsweise die Routen von Amerika nach Deutschland, so stellt man fest, dass die Routen der amerikanischen Westküste sich mit denjenigen von der Ostküste überlagern. Schaltet man nun von der Hammer-Aitoff Projektion zur Albers Equal-Area Conic Projektion um, so überschneiden sie sich weniger (siehe Abbildungen 2.24 und 2.25).

Abbildung 2.24: Amerika-Routen, Hammer- Aitoff Projektion

Abbildung 2.25: Amerika-Routen, Albers Equal-Area Conic Projekti- on

Die geographische Position der einzelnen Mailserver wurde analog auf die visuelle Varia- ble Position übertragen. Die erzeugten Weltkarten stellen für den Benutzer ein bekanntes Werkzeug dar und werden intuitiv und schnell aufgenommen. Die Visualisierung ist dadurch wesentlich aussagekräftiger als eine Auflistung der Koordinaten der wichtigen Routen.

Hilfreich wären jedoch Beschriftungen zu einzelnen Lokalitäten. Beispielsweise könnte über einen Mouse-Over-Effekt an demjenigen Knoten, über dem sich die Maus befindet, ein Label zu der Lokalität des Knotens angezeigt werden. Dies würde die Identifizierung der Knoten in exotischen Ländern erleichtern.

(38)

Für den ungeübten Betrachter kann das logarithmische Mapping und das Wurzelmapping anfangs zu Verwirrung sorgen, da lineare Skalen weitaus verbreiteter sind. Durch Interaktion steht dem Benutzer jedoch die Möglichkeit offen, ein lineares Mapping auszuwählen.

2.5.2 Genauigkeit

Die geographische Zuordnung erscheint auf den ersten Blick als unproblematisch, da laut dem Hersteller Maxmind Inc. der GeoIP-Datenbank 95 % der IP-Adressen geographisch richtig zugeordnet werden.

Hierbei muss jedoch ber¨ucksichtigt werden, dass bei der Analyse der E-mails nicht nur aktu- elle E-mails untersucht werden, sondern teilweise sehr alte E-mails. Die im KapitelAnwendung untersuchten regul¨aren E-mails haben ein Alter von bis zu drei Jahren aufgewiesen.

Aufgrund der Information von Maxmind, dass sich ca. ein Prozent der Datenbank jeden Monat ¨andert, habe ich eine Formel zur Berechnung der Genauigkeit der geographischen Zu- ordnung in Abh¨angigkeit vom Alter der E-mail aufgestellt:

accuracy(t) = 95%∗0.99^12t

t : Zeitdifferenz in Jahren zwischen dem Stand der Datenbank und dem Alter der Daten

Im konkreten Anwendungsfall bedeutet dies, dass die einzelnen Zuordnungen der Mailserver nach drei Jahren nur noch zu 74 % korrekt sind (siehe Tabelle 2.3). Besteht eine drei Jahre alte E-mail Route aus durchschnittlich drei Hops, so stimmt diese Route lediglich mit einer Wahrscheinlichkeit von p= 0,7463³ = 0,4157.

t 1 Jahr 2 Jahre 3 Jahre 4 Jahre 5 Jahre 10 Jahre accuracy(t) 84,20% 74,63% 66,15% 58,64% 51,97% 28,44%

Tabelle 2.3: Genauigkeit der geographischen Zuordnung in Abhängigkeit von der Zeit Aus diesem Grund schlage ich die Einführung einer zeitabhängigen Datenbank vor. Die einfachste Realisierung dieser Datenbank bestände aus der Kombination der monatlichen Up- dates der Datenbank. Je nach Alter der E-mail müssten dann in der entsprechen historischen Datenbank die geographischen Zuordnungen der einzelnen Mailserver-IPs nachgefragt werden.

Hierdurch k¨onnte die Fehlerwahrscheinlichkeit einer E-mail mit drei Hops von p_alt = 0,4157 auf pneu = (accuracy(₁₂¹))³ = 0,8319 verringert werden.

Die Visualisierung selbst betreffend bestimmt der Benutzer das sogenannte ,,Level of De- tail”, indem er den Zoom verwendet. Dadurch wird ein Teilbereich der Daten vergr¨oßert.

Ferner variiert der Benutzer das ,,Level of Detail”, indem er Routen mit geringem Verkehr

(39)

sequentiell ausblendet.

Als Kompromiss hingegen ist die statische Rasterung mit einem 1×1 Grad Raster zu sehen.

Würde das Raster je nach Detaillierungsgrad verändert werden, so würden die Informationen im Zoombereich genauer dargestellt werden. Es kann jedoch sehr verwirrend für den Betrach- ter sein, wenn die Routen sich durch die Zoomansicht farblich und geographisch verändern würden.

2.5.3 L¨ ugenfaktor

Unter dem Lügenfaktor ist der Quotienten aus der Größe eines visuellen Effekts und der Größe des Effekts innerhalb der Daten zu verstehen. Er ist ein Maß zur Beurteilung des Wahrheits- gehalts von Visualisierungen.

Aufgrund der geographischen Anordnung der Linien entstehen visuelle Effekte, die falsch interpretiert werden können. Beispielsweise spannt eine Route von Brasilien nach Japan sich uber den ganz Bildbereich, eine Routen von Konstanz nach Z¨¨ urich hingegen nur über einen sehr kleinen Teilbereich des Bildschirms. Die Tatsache, dass die Japan-Brasilien Route wesentlich auffälliger ist, hat jedoch nichts mit deren tatsächlicher Relevanz zu tun.

Eine Möglichkeit, diesen Lügenfaktor auszuschalten, ist ein Rasterdisplay wie von Becker, Eick und Wilks vorgeschlagen (vgl. [BEW95]). Dabei geht jedoch die intuitive geographische Anordnung verloren. Des Weiteren muss man sich auf eine sehr eingeschränkte Auswahl von Koordinaten oder Ländern beschränken und verliert somit interessante Detailinformationen.

2.5.4 Effizienz

Die Visualisierung ist insofern effizient, da der Benutzer sehr schnell die Hauptrouten der E- mail identifizieren kann. Die geographische Repr¨asentation erm¨oglicht im Vergleich zur rein statistischen Auswertung schneller eine exaktere Vorstellung von den Daten zu bekommen.

Da Karten im alltäglichen Gebrauch verwendet werden, kann davon ausgegangen werden, dass der Benutzer im Gebrauch von Karten geübt ist und auf etwas Bekanntes zurückgegrif- fen werden kann. Dieses Zurückgreifen erspart die Einarbeitungszeit in noch nicht bekannte Visualisierungs- und Darstellungskonzepte.

Ebenso gilt eine Linie als Verbindung zweier Punkte auf der Karte als ein bekanntes Kon- zept. Die Analogie hierzu ist eine Straßenkarte, bei der als Linien dargestellte Strecken einzelne St¨adte verbinden.

Zur Darstellung der Frequentierung einer Strecke wurden zwei visuelle Variablen kombi- niert. Zum einen die Helligkeit und zum anderen der Farbwert. Helle Routen bedeuten wenig E-mail-Verkehrsaufkommen auf der Route, wohingegen kr¨aftige dunkle Routen viel Verkehrs- aufkommen verdeutlichen sollen.

(40)

2.5.5 ¨ Asthetik

Bei der Wahl der Projektionen und der farblichen Gestaltung wurde besonders viel Wert auf Asthetik gelegt, da ansprechend gestaltete Visualisierungen mehr Aufmerksamkeit auf sich¨ ziehen.

Unter den Projektionen wurden die Mollweide und die Hammer-Aitoff Projektionen gewählt, da sie die Erde als eine Ellipse darstellen. Diese Form gilt als ästhetisch. Im Gegensatz dazu erscheint die nicht verwendete Eckert I Projektion aufgrund ihrer unnatürlichen sechseckigen Form eher unästhetisch.

Die Cosinusodial-Projektion hingegen wirkt durch ihre geschwungene Form und die Kon- traste zwischen den Rundungen und den beiden spitzen Polen sehr interessant und zieht die Aufmerksamkteit auf sich. Leider geht durch die spitze Form viel Platz f¨ur die Darstellung der L¨ander verloren.

In der Mitte der runden Albers Equal-Area Conic Projektion befindet sich der Nordpol, die einzelnen L¨ander befinden sich rund herum angeordnet. Hierbei handelt es sich um eine ungewohnte Perspektive auf die Erde, die ebenfalls Interesse beim Betrachter weckt.

Um die Visualisierung farblich interessant zu gestalten, wurde bewusst ein starker Kontrast zwischen Hintergrund und Vordergrund erzeugt. Die Weltkarte, welche sich im Hintergrund der Visualisierung befindet, ist ganz in Graut¨onen gehalten, die L¨ander etwas dunkler als die Meere. In Kontrast hierzu stehen die farbigen E-mail Routen, deren unterschiedliche Farben auch untereinander interessant wirkende Kontraste bilden.

2.5.6 Anpassbarkeit

Die entwickelte Visualisierung eignet sich sehr gut zur Darstellung des Netzwerkverkehrs, da dieser eine verallgemeinerte Form des E-mail-Verkehrs ist. Ebenso k¨onnen beliebige netzwerk- artige Strukturen mit geographischen Referenzen durch die Visualisierung dargestellt werden.