Seminar Internet-Dienste im Sommersemester 2003
E-Mail-spam,
Möglichkeiten der Abwehr und Filterung
Referent: Thomas Verchow
spam – Missbrauch des Mediums E-Mail
http://www.spam.com: „[…] it should be used in all lower-case letters to distinguish it from our trademark SPAM, […]“
Duden: „Spam, das:
• eine unaufgefordert an viele Internetnutzer auf einmal versandte E-Mail (zu Werbezwecken u. Ä.)“
Junk-mail, Bulk-mail, sowie „Sending Personally Annoying Mail“
UBE „Unsolicited bulk email“
UCE „Unsolicited commercial emails“
MMF „Make Money Fast“
MLM „Multi Level Marketing“
spam – quantitativer Rückblick
spam – „Themen“
spam – Gefahren und Kosten
• Belästigung, Verletzung der Privatsphäre
• Ethische Aspekte, Jugendschutz (!)
• Onlinekosten, Speicherkapazität
• Schnelle Verbreitung von Viren, Dialer
• Zeitaufwand, Verlust teuerer Arbeitszeiten
• Erhöhte Kosten bei ISP und Firmen
• Nutzeneinbußen beim erwünschten Mailverkehr
• usw.
Ungerechte Kostenverteilung Zeitaufwand
Ressourcendiebstahl
spam – eine Prognose
Mails pro Tag
42,6 30,6
21,1 14,5
57,6
0 10 20 30 40 50 60 70
2003 2004 2005 2006 2007
Anzahl in Milliarden
Quelle: Radicati Group
Weltweiter Verlust durch spam wird sich verzehnfachen!
Kosten pro Mailbox
189 134
86 49
257
0 50 100 150 200 250 300
2003 2004 2005 2006 2007
pro M ailbox in $
Kosten weltweit
123,7 74,6
20,5 41,6
198,3
0 50 100 150 200 250
2003 2004 2005 2006 2007
in Milliarden $
spam – Abwehr: Private Vorsorge
Generell
- Spammer nie „füttern“ (nie antworten oder beworbenes kaufen) - Sorgsamer Umgang mit Adressen
- Aufwand für Spammer erhöhen Techniken im Usenet
- gefälschte Absender
- verschiedene Absender (Reply-To‘s verwenden)
- extra Adresse für Usenet (in Groups lesen und antworten) Techniken im Web
- Adresse mittels JScript, klick-Buttons oder Grafiken angeben - Adresssammler behindern (z.B. falsch Adressen generieren) - Dynamische Adressen (für Nachforschungen)
… viele Methoden sind umstritten!
• Gesetze:
• nationales Recht gilt nicht für „internationales Internet“
• EU-Richtlinie von Juli 2002 („Opt-In“): „Verbot unerbetener Massenpost an Privatpersonen“ muss bis 31. Oktober 2003 in nationales Recht umgesetzt werden.
• Spammen ist schon heute unzulässig
• Politiker müssen international durchsetzbare Lösung anstreben
• Interessenverbände (Beispiele):
spam – Abwehr: Öffentliches Umfeld
E-Mail – so funktioniert ‘s technisch
„Eine Postkarte, die mittels Umschlag transportiert wird.“
SMTP-Envelope (Umschlag) Header
(Adressfeld) Body
(Nachricht)
• Envelope-From
• Envelope-To
• DATA (ganze Postkarte) SMTP
• Absender
• Empfänger
• Datum
• Betreff
E-Mail – so funktioniert ‘s technisch
„Die E-Mail findet ihren Weg über viele Poststellen.“
MTA* SMTP MTA
Empfänger zuständig?
SMTP
„Poststelle“
*) Die Mail Transfer Agents (MTA) tragen „Zustellver- merke“ auf die Karte (!) auf.
E-Mail – ein Header (komplett)
Return-Path: <asanders_jx@uol.com.ar>
X-Flags: 0000
Delivered-To: GMX delivery to thomas.verchow@gmx.de
Received: (qmail 21022 invoked by uid 65534); 16 Jul 2003 22:01:34 -0000 Received: from mail3.netbeat.de (HELO mail3.netbeat.de) (62.208.140.20) by mx0.gmx.net (mx030-rz3) with SMTP; 17 Jul 2003 00:01:34 +0200 Received: (qmail 27971 invoked by uid 507); 16 Jul 2003 21:27:01 -0000 Delivered-To: verchow.de-thomas@verchow.de
Received: (qmail 27912 invoked by uid 101); 16 Jul 2003 21:26:59 -0000
Received: from 12-227-78-37.client.attbi.com (HELO nbnet.nb.ca) (ueav@12.227.78.37) by mail3.netbeat.de with SMTP; 16 Jul 2003 21:26:59 -0000
Message-ID: <9df101c34be1$a728817c$be405799@3giyq42>
From: "Adrianna A. Sanders" <asanders_jx@uol.com.ar>
To: thomas@verchow.de Subject: The server is down
Date: Wed, 16 Jul 2003 21:29:57 +0000 MIME-Version: 1.0
Content-Type: text/html
Content-Transfer-Encoding: 8bit
X-GMX-Antivirus: -1 (not scanned, may not use virus scanner) X-GMX-Antispam: 0 (Mail was not recognized as spam)
E-Mail – ein Header (gekürzt)
Return-Path: <asanders_jx@uol.com.ar>
Received: from mail3.netbeat.de (HELO mail3.netbeat.de) (62.208.140.20) by mx0.gmx.net (mx030-rz3) with SMTP; 17 Jul 2003 00:01:34 +0200
Received: from 12-227-78-37.client.attbi.com (HELO nbnet.nb.ca) (ueav@12.227.78.37) by mail3.netbeat.de with SMTP; 16 Jul 2003 21:26:59 -0000
Message-ID: <9df101c34be1$a728817c$be405799@3giyq42>
From: "Adrianna A. Sanders" <asanders_jx@uol.com.ar>
To: thomas@verchow.de Subject: The server is down
Date: Wed, 16 Jul 2003 21:29:57 +0000 MIME-Version: 1.0
Content-Type: text/html
Content-Transfer-Encoding: 8bit
E-Mail – ein Header (Verlässliches)
Received: from mail3.netbeat.de (HELO mail3.netbeat.de) (62.208.140.20) by mx0.gmx.net (mx030-rz3) with SMTP; 17 Jul 2003 00:01:34 +0200
Received: from 12-227-78-37.client.attbi.com (HELO nbnet.nb.ca) (ueav@12.227.78.37) by mail3.netbeat.de with SMTP; 16 Jul 2003 21:26:59 -0000
Vom Absender „frei wählbare“ Einträge wurden entfernt – die Zustellvermerke der „Poststellen“ bleiben übrig.
Vom Absender ist nur die IP 12.227.78.37 geblieben.
spam – Abwehr: Provider
• Sichere Konfiguration der Software
• Keine offenen Relays (SMTP after POP, SMTP-Auth)
• Sicheres System als Voraussetzung
• AGB verbieten Spam
• ISP bearbeitet Beschwerden von Kunden
• geht gegen Spammer vor
• Kunden aufklären
spam – Abwehr: Provider
• Teergrubing (MTA ist eine Teergrube)
• Spammer anhand IP erkennen
• „Offenhalten“ der Ports mittels „Fortsetzungszeilen“ in SMTP
• Dezentralität: viele Teergruben, ein Spammer
• … wenn es zu spät ist: Filtern von Mails
• Tarpitting
• Spammer anhand Anzahl versendeter Mails erkennen
• Verzögern der SMTP-Session während Angabe der Empfänger
• Ausliefern vieler Mails dauert sehr lange
spam – Filter: zentrale Fragen
• Wo werden die Mails gefiltert?
• Wer filtert Sie?
• Datenschutz?
• Wie wird gefiltert?
• Was passiert mit den ausgefilterten Mails?
• Wer finanziert das?
spam – Filter: Blacklist
„Nichts ist spam, bis auf …“
• online einsehbare Listen von Servern, die spammen
• MTA kann IP-Adressen vom Sender vergleichen
• schlecht für Dial-In-Systeme (dynamisch IP‘s)
• geeignet für Filter auf ISP Andere Arten von Blacklists:
• Adressliste, die man filtert (wie Killfile im Usenet) - nutzlos
• Liste von Wörtern, die man filtert
• Bestimmte Zeichensätze
• „Vipul's Razor“-Fingerprints (Netzwerk, Teilnehmer melden spam)
• … man kann auf alles was in einer E-Mail vorkommt so filtern
Statisch festgelegte Filter erfordern viel Aufwand.
„Alles ist spam, bis auf …“
• man pflegt meist die Absender (Adressbuch)
• alles andere muss trotzdem kontrolliert werden
• Implementierung weiterer Features möglich
• automatische Antwort auf spam: „Bitte bestätigen …“
• generierte Adressen zum Antworten („Tagged Massages“)
• geeignet für lokale Filter
spam – Filter: Whitelist
Statisch festgelegte Filter erfordern viel Aufwand.
spam – Filter: weitere Analyse
Header:
• Zustellvermerke schlüssig?
• „Abschicker“ (Umschlag) und Absender (Header) gleich
• … Body:
• GROSS-Schreibungen
• Anzahl HTML-Tags
• Sprache
• …
Scoring-Systeme:
• mehrere Filter übereinander
• viele Score-Werte ergeben einen Gesamt-Score-Wert
• User/Admin definiert Schwelle für spam
• … Problem: Was bedeutet ein Score-Wert von x?
spam – Filter: Bayes-Filter
Erkennung von spam mittels Wahrscheinlichkeiten
Beispiel: 0,99 für „sexy“ „sexy Lady“ spam zu 99,97%
0,97 für „Lady“ „sexy Herr“ zu 83,9%
0,05 für „Herr“ „Herr Lady“ zu 62,99%
… weil, man weiß genau, was 99% bedeutet.
• Grundlage: eigene spam- und Nicht-spam-Mails
• Berechung Wahrscheinlichkeiten für spam anhand Wörter
• Ergebnis: „xxx“ ist mit x% „gut“, „yyy“ mit y% schlecht
• statistisch ist dann eine Mail zu z% spam
+ erkennen „V1agra“ oder „CL!CK“ mit genauer Wahrscheinlichkeit + lernfähig (berechnet neue Wahrscheinlichkeiten)
- erfordert einen „gepflegten“ spam-Bestand
- Anfällig für „kurze“ Mails: „Watch this http://xxx.xxx“
Mehr Infos: siehe http://www.paulgraham.com/spam.html
spam – Filter: Künstliche Neuronale Netze
KNN: einfaches Modell des Zentralen Nervensystems
• lernfähig, anpassungsfähig
• generalisierend
• robust gegen verrauschte Daten
• …
+ hohe Erkennungsrate
- benötigt persönlichen spam-Bestand
- KNN muss trainiert werden
spam – Was kann ich heute Abend tun?
Zu einem Mail-Anbieter mit Spam-Filter wechseln
• gmx, web.de, arcor, hotmail, lycos, yahoo, …
Umleiten der Mails über einen Filterdienst
• http://despammed.com soll gut sein …
• E1even (http://spamfence.net), deutsch
Filtersoftware installieren
• Spamassassin, PoPFile, …
MUA mit Filter einsetzen
• mozilla-Mail
• TheBat! mit Plug-In‘s
spam – Mein Fazit
Filter sind nicht die Lösung!
spam darf sich
nicht lohnen!
spam – Filter: Wer filtert wo?
ISP filtert vor der Auslieferung an das Postfach des Kunden:
+ wenig Traffic für Kunden
+ spart Ressourcen (Plattenplatz) - „False Positives“ für immer verloren
- Postfach „gehört“ nicht dem spam, dafür dem ISP ISP sortiert in das Postfach des Kunden (spam / nicht spam):
+ wenig Traffic für Kunden, wenn spam nicht abgerufen wird + „False Positives“ nicht verloren (Berichtigung aufwendig) - spam wird gespeichert (Plattenplatz)
ISP markiert die Mails mit speziellen Headerzeilen (scoring-Wert):
+ viel Traffic, da spam mit übertragen wird
+ „False Positives“ nicht verloren (sogar lokal vorhanden) +/- lokales Filtern zwar leicht, aber nötig
- „Mail User Agent“ muss auf Header filtern können
Backup
spam – Filter: Wer filtert wo?
User filtert/sortiert lokal selbst:
+ Selbstbestimmung, was gefiltert wird + Know-How, Erfahrung
- Platzverbrauch beim ISP („Postfach voll“) - Traffic, Onlinekosten
- Pflege der Filter, Know-How, Zeitaufwand
- Webinterface nur ungefilterte Mailbox (Urlaub, PDA) Spammer filtert oder markiert
+ z. Bsp: Subject: „ADV: Werbung für dich“
+ aufgrund gesetzlicher Vorgaben - praxisfern
Backup
E-Mail – SMTP: Bill G. schreibt mir eine Mail
220 thales.mathematik.uni-ulm.de Sendmail ready.
HELO microsoft.com
250 thales.mathematik.uni-ulm.de pleased to meet you, microsoft.com MAIL FROM: bill@microsoft.com
250 sender is bill@microsoft.com, sender OK RCPT TO: verchow@mathematik.uni-ulm.de
250 recipient verchow@mathematik.uni-ulm.de, recipient OK […] mehr „RCPT TO:“
DATA
354 OK End with <CRLF>.<CRLF>
Subject: Lieber Anwender Organization: Microsoft From: bill@microsoft.com
Hi Thomas. How are You? Yours, Bill G.
.
250 Message accepted for delivery QUIT
Backup
E-Mail – SMTP: Post von Bill G.
Return-Path: bill@microsoft.com
Delivered-To: verchow@turing.mathematik.uni-ulm.de
Received: from thales.mathematik.uni-ulm.de(134.60.66.5)
via SMTP by turing.mathematik.uni-ulm.de, id smtpdGraGBO;
Sat Jul 19 12:26:10+2003
Delivered-To: verchow@mathematik.uni-ulm.de
Received: from ulm9-d9bb5339.pool.mediaWays.net(217.187.83.57), claiming to be+"microsoft.com"
via SMTP by thales.mathematik.uni-ulm.de, id smtpdobaqST;
Sat Jul 19 12:24:06+2003 Subject: Lieber Anwender
From: bill@microsoft.com Organization: Microsoft
Hi Thomas. How are You? Yours, Bill G.
Kein Absender (From) wäre möglich! Hier kein Empfänger!
Backup