• Keine Ergebnisse gefunden

Auf dem Weg zu Website-Fingerprinting in der Praxis

N/A
N/A
Protected

Academic year: 2022

Aktie "Auf dem Weg zu Website-Fingerprinting in der Praxis"

Copied!
13
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Auf dem Weg zu

Website-Fingerprinting in der Praxis

Identifizierung von Webseiten mit dem multinomialen Na¨ıve-Bayes-Klassifizierer

Dominik Herrmann

Lehrstuhl Management der Informationssicherheit Universit¨at Regensburg

11.02.2008

(2)

Uberblick ¨

Website-Fingerprinting Idee und Zielsetzung

Verbessertes Website-Fingerprinting-Verfahren Multinomialer Naive-Bayes-Klassifizierer Transformation der H¨aufigkeitsvektoren

Evaluation und Analyse Versuchsaufbau

Evaluation mit OpenSSH

Schutz durch JonDonym und Tor Forschungsfragen

(3)

Ziel: Identifizierung verschl¨ usselt ¨ ubertragener Webseiten

Wie sicher sind datenschutzfreundliche ¨Ubertragungsverfahren?

I Weitverbreitete Annahmen:

I Abruf von Webseiten ¨uber verschl¨usselnde Tunnel (z. B.

OpenSSH, VPNs, JonDonym, Tor) gew¨ahrleistet Vertraulichkeit

I Angreifermodell solcher Dienste: Schutz der Inhalte (auch URLs!) vorlokalem Angreifer

I Mit Website-Fingerprinting kann auch ein lokaler Angreifer die abgerufenen URLs ermitteln

I Verschiedene Motive denkbar:

I User-Profiling:Welche Webseiten wurden abgerufen?

I Strafverfolgung:Wurde WebseiteXabgerufen?

(4)

Charakteristischer Traffic beim Abruf einer Webseite

Website-Fingerprinting basiert auf der Erkennung typischer Muster im Datenverkehr

I IP-Paketgr¨oßen als robustes Merkmal

I Pakete in Senderichtung (Client → Server): negative Gr¨oße

I Netzwerk-Traces f¨ur www.amazon.de und www.ebay.de:

0 50 100 150 200 250 300 350 400 450

0 100 200 300 400 500 600 700 800

cumulative size [kilobyte]

packet # www.ebay.de www.amazon.de

-1500 -1000 -500 0 500 1000 1500 2000

0 100 200 300 400 500 600 700 800

packet size [byte]

packet # www.ebay.de www.amazon.de

(5)

Idee: Anwendung von Data-Mining-Techniken

Data-Mining-Know-How und Verfahren f¨ur Website-Fingerprinting nutzen

I Aber: Korrelation von Netzwerk-Traces nicht trivial

→ Vielversprechendes Anwendungsfeld f¨ur Data-Mining

I Website-Fingerprinting als Klassifizierungsproblem

I Klassen: Webseiten (URLs)

I Instanzen:tcpdump-Netzwerk-Traces

I Attribute: H¨aufigkeiten der IP-Paketgr¨oßen

I Im Text-Mining verbreitet:

Multinomialer Na¨ıve-Bayes Klassifizierer

(6)

Basis f¨ ur Na¨ıve-Bayes: Termh¨ aufigkeitsvektoren

Netzwerk-Traces lassen sich als (Term-)H¨aufigkeitsvektoren darstellen

1. Ermittlung des Vokabulars V aller Trainingsinstanzen 2. Erzeugung der H¨aufigkeitsvektoren f

d1 = ”−152 1500 −52 1050 1500 −80”

d2 = ”−148 476 1500 −80”

V = {−152,1500,−52,1050,−80,−148,476}

f = hf−152,f1500,f−52,f1050,f−80,f−148,f476i

fd1 = h1,2,1,1,1,0,0i fd2 = h0,1,0,0,1,1,1i

(7)

Multinomialer Na¨ıve-Bayes-Klassifizierer

Trotz naiver Annahmen (positional/conditional independence) gute Erkennungsraten

d geh¨ort zuc:P(c|d) = P(c)P(d)P(d|c) hier: P(c|d)∝P(d|c)

Wie gut wirdc durchd repr¨asentiert?→ Wie wahrscheinlich ist es, d’s Terme in Dokumenten, die zur Klassec geh¨oren, anzutreffen?

P(d|c) =P(f|c) = Cmulti·Y

t∈V

P(t|c)ft,d

Pˆ(t|c) = ft,c P

t0∈V ft0,c

(nach [Manning])

(8)

Transformation der H¨ aufigkeitsvektoren

Durch Transformation der H¨aufigkeitsvektoren l¨asst sich die Erkennungsleistung steigern

I TF-Transformation: ft,d = log(1 + ft,d) nach [Manning]

I Normalisierung: ft,dnorm = f

t,d

D

ft

1,d,...,ftn,d E‚

= f

t,d

qP

t0∈V(ft0,d)2

0 50 100 150 200 250

−1500 −1000 −500 0 500 1000 1500

Paketgröße [Byte]

0 1 2 3 4 5 6

−1500 −1000 −500 0 500 1000 1500 Paketgröße [Byte]

(9)

Versuchsaufbau f¨ ur Evaluation

Versuchsaufbau vergleichbar mit bisherigen Ver¨offentlichungen

I 775 popul¨are Webseiten, Abruf mit Firefox [JSSh]

I Aufzeichnung der IP-Paket-Header mittcpdump

I 25 Stichproben pro Versuch, jeweils 10 Testinstanzen

I Getestete Systeme: OpenSSH, Tor, JonDonym

I Benchmark: 70 % korrekt klassifizierte Instanzen bei OpenSSH [Liberatore 2006]

(10)

Vergleich mit anderen Website-Fingerprinting-Verfahren

Multinomialer Na¨ıve-Bayes-Klassifizierer ist schneller und besser als etablierte Verfahren

TF−normalisiert normalisiert Rohdaten

0%

80%

100%

Jaccard NormalNB MultinNB

Anteil korrekt klassifizierter Testinstanzen

40%

20%

60%

Testzeit Trainingszeit

10 1,000 10,000

Jaccard NormalNB MultinNB Zeit bei 4 Trainings−/Testinstanzen [s] 1

100

I Multinomialer-Na¨ıve-Bayes-Klassifizierer:

94 % Erkennungsrate bei 4 Trainingsinstanzen

(11)

Evaluierung mit JonDonym und Tor

Heutige Anonymisierer bieten bereits guten Schutz gegen Website-Fingerprinting

ohne TF−IDF IDF TF

0%

100%

normalisiert Rohdaten

Anteil korrekt klassifizierter Trainingsinstanzen

60%

40%

20%

80%

ohne TF−IDF IDF TF

0%

100%

normalisiert Rohdaten

Anteil korrekt klassifizierter Trainingsinstanzen

60%

40%

20%

80%

Tor JonDonym

(12)

Offene Forschungsfragen

Herausforderungen f¨ur Verwendung von Website-Fingerprinting in der Praxis

Effiziente Gegenmaßnahmen Padding ist wirksam, aber teuer.

Alternativen denkbar: z. B. Burst-Proxy Gezielte Erleichterung Kann Betreiber einer Webseite

Identifizierung mutwillig erleichtern?

Uberbr¨¨ uckung von Anonymisierern Verteilter Angriff; lassen sich Anonymisierer damit ¨uberbr¨ucken?

Einfluss von Caching Funktioniert Fingerprinting bei aktiviertem Browser-Cache?

Einsatz in Praxis Unterstellung von Denkpausen ist idealistisch; bei Hintergrundtraffic ¨uberhaupt durchf¨uhrbar?

Bedeutung der False Positive Rate Bislang Fokus auf True Positives; False Positives ebenso relevant!

Robustheit Einfluss von Browser, Plugins, ISP?

(13)

Zusammenfassung

I Text-Mining-Verfahren auf Netzwerk-Traces anwendbar

I Vorgestelltes Verfahren hat hohe Erkennungsleistung bei OpenSSH

I Existierende Anonymisierer erschweren Fingerprinting

Referenzen

M. Liberatore and B. N. Levine: Inferring the source of encrypted HTTP connections. In CCS ’06: Proc. of the 13th ACM conference on Computer and communications security, p. 255-263, New York, 2006.

JSSh – TCP/IP JS Shell Server for Mozilla (http://croczilla.com/jssh)

C. D. Manning, P. Raghavan, and H. Sch¨utze: Introduction to Information Retrieval (draft; Nov. 17, 2007).

Cambridge University Press, 2007 (http://nlp.stanford.edu/IR-book/pdf/irbookprint.pdf).

Referenzen

ÄHNLICHE DOKUMENTE

Website erhalten durch solche Nach- richten nicht nur Informationen über aktuelle Entwicklungen in Zahnmedizin und Implantologie, sondern auch eine weitere

Sofern eine der oben genannten Voraussetzungen gegeben ist und Sie die Einschränkung von personenbezogenen Daten, die bei uns gespeichert sind, verlangen möchten, können Sie

In www.denkmalpflegediskussion.de wird der gegenwaertige Stand der Denkmalpflege ein Jahr nach Publikation der Streitschrift von Dieter Hoffmann-Axthelm diskutiert.. Wir

Sie haben das Recht, Daten, die wir auf Grundlage Ihrer Einwilligung oder in Erfüllung eines Vertrags automatisiert verarbeiten, an sich oder an einen Dritten in einem..

Computer mit Internetzugang Enzyklopädien und Lexika Kopien von Material M 1, M 2 und M 43 in Klassenstärke eine Kopie der möglichen Antworten zum Material M 1 in der

Bei der Berechnung der Position des Smartphone Nutzers wurde die Nearest Neigbour Methode angewandt. Dazu wurde zuerst die euklidische Vektordistanz für jeden Fingerprint in

The Directive provides some requirements for gender related asylum claims: gender-based prosecution has to be taken into account in granting international protection

Zahnme- dizinische Expertise wurde durch die DGAZ, die Deutsche Gesellschaft für Zahnerhaltung (DGZ), die Deutsche Gesellschaft für Implantologie (DGI), den