Auf dem Weg zu Website-Fingerprinting in der Praxis

(1)

Auf dem Weg zu

Website-Fingerprinting in der Praxis

Identifizierung von Webseiten mit dem multinomialen Na¨ıve-Bayes-Klassifizierer

Dominik Herrmann

Lehrstuhl Management der Informationssicherheit Universit¨at Regensburg

11.02.2008

(2)

Uberblick ¨

Website-Fingerprinting Idee und Zielsetzung

Verbessertes Website-Fingerprinting-Verfahren Multinomialer Naive-Bayes-Klassifizierer Transformation der H¨aufigkeitsvektoren

Evaluation und Analyse Versuchsaufbau

Evaluation mit OpenSSH

Schutz durch JonDonym und Tor Forschungsfragen

(3)

Ziel: Identifizierung verschl¨ usselt ¨ ubertragener Webseiten

Wie sicher sind datenschutzfreundliche ¨Ubertragungsverfahren?

I Weitverbreitete Annahmen:

I Abruf von Webseiten ¨uber verschl¨usselnde Tunnel (z. B.

OpenSSH, VPNs, JonDonym, Tor) gew¨ahrleistet Vertraulichkeit

I Angreifermodell solcher Dienste: Schutz der Inhalte (auch URLs!) vorlokalem Angreifer

I Mit Website-Fingerprinting kann auch ein lokaler Angreifer die abgerufenen URLs ermitteln

I Verschiedene Motive denkbar:

I User-Profiling:Welche Webseiten wurden abgerufen?

I Strafverfolgung:Wurde WebseiteXabgerufen?

(4)

Charakteristischer Traffic beim Abruf einer Webseite

Website-Fingerprinting basiert auf der Erkennung typischer Muster im Datenverkehr

I IP-Paketgr¨oßen als robustes Merkmal

I Pakete in Senderichtung (Client → Server): negative Gr¨oße

I Netzwerk-Traces f¨ur www.amazon.de und www.ebay.de:

0 50 100 150 200 250 300 350 400 450

0 100 200 300 400 500 600 700 800

cumulative size [kilobyte]

packet # www.ebay.de www.amazon.de

-1500 -1000 -500 0 500 1000 1500 2000

0 100 200 300 400 500 600 700 800

packet size [byte]

packet # www.ebay.de www.amazon.de

(5)

Idee: Anwendung von Data-Mining-Techniken

Data-Mining-Know-How und Verfahren f¨ur Website-Fingerprinting nutzen

I Aber: Korrelation von Netzwerk-Traces nicht trivial

→ Vielversprechendes Anwendungsfeld f¨ur Data-Mining

I Website-Fingerprinting als Klassifizierungsproblem

I Klassen: Webseiten (URLs)

I Instanzen:tcpdump-Netzwerk-Traces

I Attribute: H¨aufigkeiten der IP-Paketgr¨oßen

I Im Text-Mining verbreitet:

Multinomialer Na¨ıve-Bayes Klassifizierer

(6)

Basis f¨ ur Na¨ıve-Bayes: Termh¨ aufigkeitsvektoren

Netzwerk-Traces lassen sich als (Term-)H¨aufigkeitsvektoren darstellen

1. Ermittlung des Vokabulars V aller Trainingsinstanzen 2. Erzeugung der H¨aufigkeitsvektoren f

d1 = ”−152 1500 −52 1050 1500 −80”

d2 = ”−148 476 1500 −80”

V = {−152,1500,−52,1050,−80,−148,476}

f = hf₋₁₅₂,f₁₅₀₀,f−52,f₁₀₅₀,f−80,f−148,f₄₇₆i

fd1 = h1,2,1,1,1,0,0i fd2 = h0,1,0,0,1,1,1i

(7)

Multinomialer Na¨ıve-Bayes-Klassifizierer

Trotz naiver Annahmen (positional/conditional independence) gute Erkennungsraten

d geh¨ort zuc:P(c|d) = ^P(c)_P(d)^P(d|c) hier: P(c|d)∝P(d|c)

Wie gut wirdc durchd repr¨asentiert?→ Wie wahrscheinlich ist es, d’s Terme in Dokumenten, die zur Klassec geh¨oren, anzutreffen?

P(d|c) =P(f|c) = C_multi·Y

t∈V

P(t|c)^f^t,d

Pˆ(t|c) = f_t,c P

t⁰∈V ft⁰,c

(nach [Manning])

(8)

Transformation der H¨ aufigkeitsvektoren

Durch Transformation der H¨aufigkeitsvektoren l¨asst sich die Erkennungsleistung steigern

I TF-Transformation: f_t,d^∗ = log(1 + f_t,d) nach [Manning]

I Normalisierung: f_t,d^norm = ^f

∗ t,d

‚

‚ D

f_t^∗

1,d,...,f_tn,d^∗ E‚

‚

= ^f

∗ t,d

qP

t0∈V(f_t^∗0,d)²

0 50 100 150 200 250

−1500 −1000 −500 0 500 1000 1500

Paketgröße [Byte] →

0 1 2 3 4 5 6

−1500 −1000 −500 0 500 1000 1500 Paketgröße [Byte]

(9)

Versuchsaufbau f¨ ur Evaluation

Versuchsaufbau vergleichbar mit bisherigen Ver¨offentlichungen

I 775 popul¨are Webseiten, Abruf mit Firefox [JSSh]

I Aufzeichnung der IP-Paket-Header mittcpdump

I 25 Stichproben pro Versuch, jeweils 10 Testinstanzen

I Getestete Systeme: OpenSSH, Tor, JonDonym

I Benchmark: 70 % korrekt klassifizierte Instanzen bei OpenSSH [Liberatore 2006]

(10)

Vergleich mit anderen Website-Fingerprinting-Verfahren

Multinomialer Na¨ıve-Bayes-Klassifizierer ist schneller und besser als etablierte Verfahren

TF−normalisiert normalisiert Rohdaten

0%

80%

100%

Jaccard NormalNB MultinNB

Anteil korrekt klassifizierter Testinstanzen

40%

20%

60%

Testzeit Trainingszeit

10 1,000 10,000

Jaccard NormalNB MultinNB Zeit bei 4 Trainings−/Testinstanzen [s] 1

100

I Multinomialer-Na¨ıve-Bayes-Klassifizierer:

94 % Erkennungsrate bei 4 Trainingsinstanzen

(11)

Evaluierung mit JonDonym und Tor

Heutige Anonymisierer bieten bereits guten Schutz gegen Website-Fingerprinting

ohne TF−IDF IDF TF

0%

100%

normalisiert Rohdaten

Anteil korrekt klassifizierter Trainingsinstanzen

60%

40%

20%

80%

ohne TF−IDF IDF TF

0%

100%

normalisiert Rohdaten

Anteil korrekt klassifizierter Trainingsinstanzen

60%

40%

20%

80%

Tor JonDonym

(12)

Offene Forschungsfragen

Herausforderungen f¨ur Verwendung von Website-Fingerprinting in der Praxis

Effiziente Gegenmaßnahmen Padding ist wirksam, aber teuer.

Alternativen denkbar: z. B. Burst-Proxy Gezielte Erleichterung Kann Betreiber einer Webseite

Identifizierung mutwillig erleichtern?

Uberbr¨¨ uckung von Anonymisierern Verteilter Angriff; lassen sich Anonymisierer damit ¨uberbr¨ucken?

Einfluss von Caching Funktioniert Fingerprinting bei aktiviertem Browser-Cache?

Einsatz in Praxis Unterstellung von Denkpausen ist idealistisch; bei Hintergrundtraffic ¨uberhaupt durchf¨uhrbar?

Bedeutung der False Positive Rate Bislang Fokus auf True Positives; False Positives ebenso relevant!

Robustheit Einfluss von Browser, Plugins, ISP?

(13)

Zusammenfassung

I Text-Mining-Verfahren auf Netzwerk-Traces anwendbar

I Vorgestelltes Verfahren hat hohe Erkennungsleistung bei OpenSSH

I Existierende Anonymisierer erschweren Fingerprinting

Referenzen

M. Liberatore and B. N. Levine: Inferring the source of encrypted HTTP connections. In CCS ’06: Proc. of the 13th ACM conference on Computer and communications security, p. 255-263, New York, 2006.

JSSh – TCP/IP JS Shell Server for Mozilla (http://croczilla.com/jssh)

C. D. Manning, P. Raghavan, and H. Sch¨utze: Introduction to Information Retrieval (draft; Nov. 17, 2007).

Cambridge University Press, 2007 (http://nlp.stanford.edu/IR-book/pdf/irbookprint.pdf).