• Keine Ergebnisse gefunden

Definition „Spam“

N/A
N/A
Protected

Academic year: 2021

Aktie "Definition „Spam“"

Copied!
17
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Spam Filtering Algorithmen

Referent: Stephan Ziegenaus

(2)

Index

• Definition „Spam“

• Zahlen

• Adressquellen der Spamversender

• Whitelisting

• Blacklisting

• Content Filtering

• Distributed Checksum Clearinghouse (DCC)

• Statistical Token Analysis (STA) durch Bayes´sche Filter

• künstliches neuronales Netz (KNN)

• Beispiel: SpamAssassin

• 10 Goldene Regeln gegen Spam

(3)

Definition „Spam“

• „Spam“ ist die Abkürzung für Spiced Pork And Meat der Firma Hormel Foods

• Junk-Mail, Bulk-Mail

• UBE - Unsolicited Bulk E-Mail

• UCE - Unsolicited Commercial Electronic Mail

(4)

Zahlen

• Bundesverband Verbraucherzentrale:

500 Millionen Spam-Mails pro Woche in Deutschland

• MessageLabs:

55.1% der registrierten E-Mails waren Spam Dezember 2003 wurden 463.1 Mio. E-Mail registriert, 290.4 Mio. waren Spam

Allein der Download von Spam verursachte im Jahr 2003 weltweit Kosten von über 12 Milliarden Euro

(5)

Adressquellen der Spamversender

• Kauf von E-Maillisten

• Öffentliche Diskussionsforen

• Online-Gewinnspiele

• Per Brute Force (Trial and Error) werden die SMTP- Server mit geeigneten Tools gescannt.

• Harvester-Tools durchsuchen das WWW nach gültigen Adressen

(6)

Whitelisting

• Liste mit vertrauenswürdigen E-Mailadressen

• Akkreditierungsfunktion bittet per Antwortmail um Verifizierung des unbekannten Senders

Nachteil:

• hoher Verwaltungsaufwand bei Sender und Empfänger

• Missverständnisse und Fehler bei der Akkreditierung können zu Nachrichtenverlusten führen

(7)

Blacklisting

Lokale Blacklists:

• Liste mit nicht gewünschten Absenderadressen

• zu hoher Verwaltungsaufwand Öffentliche Blacklists:

Real-Time Black Lists (RBLs) mit bekannten Spam-Quellen – Ursprung der Mail wird ausgewertet

– IP-Adressen – Domains Nachteil:

RBLs sind öffentlich, also auch für Spamer zugänglich

(8)

Content Filtering

• E-Mails nach Schlüsselwörtern durchsuchen

• Codierung der E-Mail untersuchen

Nachteil:

• Umgehen durch "unsichtbare" HTML-

Kommentare und Steuerzeichen

(9)

Distributed Checksum Clearinghouse

Funktionsprinzip:

• Anti Spam Software ermittelt über „Fuzzy Checksums“ (unscharfe Prüfsummen welche so angelegt sind, dass sie für nur gering

unterschiedliche E-Mails dasselbe Ergebnis liefern) eine Prüfsumme und sendet diese an einen Server (Clearinghouse).

• Dieser antwortet mit der Angabe wie oft diese Mail bereits registriert wurde.

• Eine E-Mail mit hohem „Bulk count“ ist entweder Spam oder z.B. aus einer Mailingliste. Für letztere führen die DCC Server Freigabelisten (White List).

• DCC-Server tauschen wieder untereinander die Bulk Mail Listen aus. Auf Basis der Antwort kann der Client selbst entscheiden ob der Schwellwert für eine Kategorisierung als Spam Mail erreicht ist.

(10)

Statistical Token Analysis durch Bayes´sche Filter

Funktionsprinzip:

• Aufteilen der Mail in Bruchstücke, so genannte „Token“

• Lernphase:

– Einlesen von Spam und normaler Email

– Häufigkeit des Auftretens der Token in Spam und Ham bestimmen – Häufigkeitswerte in Tabellen abspeichern

• Produktionsphase

– Spam-Wahrscheinlichkeit für jedes Token bestimmen

– Gesamtwahrscheinlichkeit berechnen, ab Schwellwert als Spam kennzeichnen

(11)

Statistical Token Analysis durch Bayes´sche Filter

Bayesische Analyse

• Bayesische Regel; entdeckt vom Mathematiker Thomas Bayes im 18. Jahrhundert

• Beispiel: Unterstellt man bei einem Menschen eine Größe von über 2,15 Meter, handelt es sich mit einer 60-prozentigen

Wahrscheinlichkeit (a) um einen Basketballspieler, hat er einen

Basketball unterm Arm, steigt die Wahrscheinlichkeit auf 72 Prozent

• Bayesischen Regel: ab /( ab + (1-a)(1-b))(b).

• Formel: (0.6 x 0.72)/((0.6 x 0.72) + (1-0.6) x (1-0.72)) = 0.79

• Woraus sich die kombinierte Wahrscheinlichkeit von 79% ergibt, dass ein 2,15 großer Mensch mit Basketball unterm Arm ein

Basketballer ist.

(12)

Statistical Token Analysis durch Bayes´sche Filter

Statistical Token Analysis

• Die Statistical Token Analysis identifiziert Spam und legitime E- Mails durch eine Wort- und Zeichenanalyse der jeweiligen E-Mail mit Hilfe von Frequenzwerten und statistischen Vergleichen.

• Eine Datenbank speichert sämtliche Zeichen (Worte und

Buchstabensequenzen), zählt und bewertet anschließend die

Häufigkeit, mit der sie bisher entweder in analysiertem Spam oder Ham aufgetreten sind.

• Mit Hilfe dieser Datenbank ist es möglich, für jedes Zeichen sehr schnell einen Wert zu ermitteln, der eine zuverlässige Einschätzung von E-Mails als Spam oder Ham erlaubt.

• Hat STA die 15 interessantesten Zeichenfolgen in jeder Nachricht ausgemacht, liegt hier der Wahrscheinlichkeitswert für Spam über 50 Prozent.

• Kombiniert man die Bayesischen Analysemethoden mit der Spam- Wahrscheinlichkeit dieser identifizierten Token, erhält man einen Wahrscheinlichkeitswert in Richtung Spam oder Ham für die

gesamte E-Mail-Nachricht.

(13)

Statistical Token Analysis durch Bayes´sche Filter

Vorteil des Bayesischen Filter gegenüber Content Filtering:

1. ganze Nachricht wird in betracht gezogen 2. Anpassungsfähig

3. Sprachenübergreifend einsetzbar 4. schwer auszutricksen

(14)

künstliches neuronales Netz KNN

• Einfaches Modell des zentralen Nervensystem

• Vorteilhafte Eigenschaften:

Lernfähigkeit

Selbstorganisation Generalisierung

Anpassungsfähigkeit

Die Lernregel ist ein Algorithmus der dem KNN für eine vorgegebene Eingabe eine gewünschte Ausgabe produziert.

Lernvorgang:

• überwacht

• bestärkt

• unüberwacht

(15)

SpamAssassin

• Perl Implementierung eines Mail-Analyse Systems, durch Module vielseitig erweiterbar (Text, Statistic Token & Headeranalyse, DCC, Blacklisting usw.)

• Setzt, wenn es eine E-mail als Spam identifiziert, einen Header, durch den man die Mail dann vom E-Mailclient des Users

herausgefiltert werden kann

• SpamAssasin ist der Hauptbestandteil des GMX-Spamfilters

(16)

SpamAssassin

Ein Beispiel:

X-Spam-Status: Yes, hits=121.3 required=5.4

tests=BAYES_90,DATE_IN_FUTURE_06_12, MANY_EXCLAMATIONS, NO_REAL_NAME, RCVD_IN_BL_SPAMCOP_NET,

RCVD_IN_OPM, RCVD_IN_OSIRUSOFT_COM, USER_IN_BLACKLIST

Userspezifische Einstellungen:

• Anpassen einzelner Scores

• Freischalten und Sperren einzelner Adressen

whitelist_from my@friend.com *@informatik.uni-ulm.de blacklist_from evil@spammer.org

• usw…

(17)

10 Goldene Regeln gegen Spam

1. Vermeiden Sie E-Mail-Adressen, deren Alias nur aus 3 oder 4 Buchstaben besteht!

2. Benutzen Sie 2 E-Mail-Adressen!

3. Verwenden Sie Ihre private Hauptadresse nur, wenn Sie tatsächlich mit jemandem kommunizieren wollen!

4. Reagieren Sie niemals auf eine Spam-Mail!

5. Klicken Sie niemals auf einen Link in einer Spam-Mail!

6. Schicken Sie Kettenbriefe oder Virenwarnungen nicht weiter!

7. Verwenden Sie Verteilerlisten oder das Bcc-Feld, wenn Sie eine E-Mail an mehrere Empfänger versenden!

8. Meiden Sie öffentliche Adressverzeichnisse!

9. Tarnen Sie Ihre E-Mail-Adresse auf Homepages!

10. Nutzen Sie einen E-Mail-Dienst mit einem guten Spamschutz.

Referenzen

ÄHNLICHE DOKUMENTE

➞ Next time when the spam mail is not originating from an IP listed on a RBL – the mail is completely unknown in the learning system – so no reputation, no hash data, no neural

➞ Normale Spammer stoppen wir nach ~250-500 Mails. ➞ Wie hoch das Limit ist, ist eigentlich gar nicht

➞ Gilt auch, wenn vorgeschalteter Provider/Dienstleister falsch gefiltert hat.. ➞

Um diese erkennen zu k¨onnen, wird die Grammatik um zwei Token zum Erkennen von E-Mail- Adressen und URLs erweitert, ¨uber die sich die in den Nachrichten enthaltenen URLs

Er zeigt den Zustellweg der E-Mail chronologisch rückwärts an: Im Header sind Sender und Empfänger der E-Mail sowie Name und IP-Adresse der Server eingetragen, über die die

Die Angaben in der From:- bzw.To:-Zeile sind beliebig fälsch- bar, weil die Zustellung von E-Mails an- hand von Adressen vorgenommen wird, die auf dem fiktiven Umschlag (envelope)

Den Begriff Social Engineering verstehen und dessen Ziele erkennen, wie: Informationen sammeln, Betrug, Zugriff auf

Würden Sie also 50€ einzahlen, würden Sie von uns zusätzliche 100€ gratis erhalten, das heißt, Sie würden Ihre Reise im Bet2day mit einem Kontostand von 150€ beginnen.