E-Mail-Spam, M¨oglichkeiten der Abwehr und Filterung

(1)

M¨oglichkeiten der Abwehr und Filterung

Thomas Verchow

Seminar Internetdienste Sommersemester 2003 Fakult¨ at f¨ ur Mathematik und Wirtschaftswissenschaften

10. Oktober 2003

(2)

Inhaltsverzeichnis

1 ,,Sie haben Post . . . und Spam” 3

1.1 Ursprung der Bezeichnung ,,Spam” . . . 3

1.2 Historisches und Ausblicke . . . 5

1.3 Gefahren und Kosten . . . 5

2 Eind¨ammung von Spam 9 2.1 Abwehr durch Pr¨avention . . . 9

2.2 Offentliches Umfeld . . . .¨ 10

2.3 Die E-Mail technisch . . . 11

2.3.1 SMTP – Das Protokoll zum Versenden . . . 11

2.3.2 Header – Die Kopfzeilen . . . 12

3 Abwehr von Spam 13 3.1 M¨oglichkeiten der Provider . . . 13

3.1.1 Spam-Datenbanken . . . 13

3.1.2 Teergrubing . . . 14

3.1.3 Tarpitting . . . 14

3.2 Filtern von Spam . . . 15

3.2.1 Blacklists . . . 15

3.2.2 Whitelists . . . 16

3.2.3 Header- und Body-Analysen . . . 16

3.2.4 Kombinierte Filter und Scoring-Systeme . . . 17

3.2.5 Bayes-Filter . . . 17

3.2.6 Filtern mit KNN’s . . . 18

4 Schlusswort 19

1

(3)

1.1 SPAM, Dosenfleisch der Hormel Food Cooperation . . . 4

Quelle:http://www.hormel.com . . . 4

1.2 Spamaufkommen, gemessen von Brightmail . . . 6

Quelle:http://www.brightmail.com . . . 6

1.3 Spam-,,Themen” im Juni 2003 . . . 7

Quelle:http://www.brightmail.com . . . 7

1.4 Gesch¨atzte Spamentwicklung . . . 8

Quelle: Radicati Group,http://www.radicati.com . . . 8

1.5 Spamkosten . . . 8

Quelle: Radicati Group,http://www.radicati.com . . . 8

2

(4)

Kapitel 1

,,Sie haben Post . . . und Spam”

Das Medium E-Mail zählt neben dem World Wide Web zu dem meist genutzten Diensten im Internet. Dies gilt sowohl im privaten wie auch im geschäftlichen Bereich. Insgesamt sind weltweit ca. 580 Millionen Menschen online [15], privat nutzen ca. 400 Millionen Men- schen das Internet [16]. Und diese Zahlen werden wohl in den kommenden Jahren weiter steigen. E-Mails sind zuverlässig und schnell zugestellt, bei vorhandenem Computer fast kostenlos und die Anzahl der Empfänger ist theoretisch unbeschränkt.¹ Binnen Sekunden kann eine Nachricht an viele Menschen in der ganzen Welt gesendet werden. Aufgrund dieser Eigenschaft wird das Medium E-Mail auch immer häufiger missbraucht: Man nennt diesen Missbrauch ,,Spam”.

1.1 Ursprung der Bezeichnung ,,Spam”

Der Begriff ,,Spam” hat bereits Einzug in unseren Wortschatz gehalten: Der Duden [23]

definiert Spam wie folgt:

Spam, das:

1. unaufgefordert an viele Internetnutzer auf einmal versandte E-Mail (zu Werbezwecken u. ¨A.)

2. an viele Newsgroups gleichzeitig ¨ubermittelte Nachricht (mit belanglosem Inhalt)²

1Die maximale Anzahl an Empf¨angern kann jedoch durch das E-Mail-Programm oder den Internet- Service-Provider beschr¨ankt sein. Siehe hierzu auch [RFC-SMTP], Abschnitt 4.5.3.

2Auf das Spamming in Newsgroups werde ich hier nicht eingehen.

3

(5)

SPAM³ ist schon lange eine Bezeichnung f¨ur ,,Spiced Ham”, eine Art Dosenfleisch. Das als

Abbildung 1.1: SPAM, Dosenfleisch der Hormel Food Cooperation

Name für unverlangt erhaltene und massenhaft versendete E-Mails dieser Begriff verwendet wird, ist unter anderem auf die britischen Gruppe ,,Monty Python” zurückzuführen.

Im Jahr 1970, in einer ihrer Folgen von der TV-Serie ,,The Monty Python’s Flying Cir- cus” zeigte ein Sketch⁴ ein Paar in einem Restaurant, welches eine Bestellung aufzugeben versucht [17]. Anscheinend gibt es nur Gerichte, in denen Spam enthalten ist. Dabei fällt das Wort ,,Spam” unverhältnismäßig oft, was in einem Sketch allerdings eher lusig als ner- vend empfunden wird. Dazu singt ein Wikingerchor immerzu ein Loblied auf das geliebte ,,SPAM”. In einem Chatsystem im Internet wurde daraufhin der Begriff Spam verwendet, um ständige Wiederholungen zu bezeichnen, die einem anderen Chatteilnehmer den Bildschirm voll schrieben. Selbiges meint man heute umgangssprachlich, wenn man von Spam spricht: unverlangte E-Mails, die den Postkasten verstopfen.

Auch werden Spam-Mails häufig als ,,Junk-Mail” oder ,,Bulk-Mail” bezeichnet. Weiterhin sind folgende Abkürzungen gängig:

• UBE - Unsolicited Bulk Email

• UCE - Uncolicited Commercial Email

• MMF - Make Money Fast

• MLM - Multi Level Marketing

3Der Name ,,SPAM” ist eine gesch¨utzte Marke der Hormel Food Cooperation (Austin, Minnesota) und soll nur in diesem Zusammenhang in Grossbuchstaben geschrieben werden.

4Der Sketch ist zum Beispiel unterhttp://cs.berkeley.edu/%7Eddgarcia/spam.htmlzu finden.

(6)

KAPITEL 1. ,,SIE HABEN POST . . . UND SPAM” 5

Das ,,Spam” eine Abkürzung für ,,Sending personally annoying mail” sein soll, ist sowohl inhaltlich nicht ganz korrekt⁵ als auch nach obigen Ausführungen historisch nicht haltbar.

1.2 Historisches und Ausblicke

Was früher eher eine Randerscheinung war, entwickelte sich in letzter Zeit zunehmend zum Problem. Die Anfänge vom ,,Spamming” liegen in den USA. Dank starker Verbreitung von günstigen Internetzugängen und Heimcomputern lassen sich heute mehr Menschen denn je per E-Mail erreichen. Nielsen//NetRatings⁶ schätzt, dass im Juli 2003 ca. 400 Millionen Privatleute das Internet nutzen - 250 Millionen davon aktiv [16]. Und die Ten- denz ist weiter steigend: Die Schätzungen liegen zwischen 710 Millionen (eMarketer) und 945 Millionen (Computer Industry Almanac) [19].

Das Aufkommen von Spam lässt sich global allerdings schlecht quantifizieren, da es keine zentrale Instanz zur Erfassung gibt und nicht überall Messungen durchgeführt werden.

Diese gibt es lediglich in bestimmten Bereichen (siehe Abbildung 1.2).

Dabei verteilen sich die Inhalte auf wenige Bereiche und sind selten seri¨os. Abbildung 1.3 zeigt f¨ur Juni 2003 eine Aufteilung der Spam-Themen.

Es gibt mehr als eine Prognose über die Anzahl bzw. das Verhältnis von erwünschter Mail zu Spam.⁷ Oft liest man Angaben wie ,,51 per cent af all messages”⁸ [20] sind Spam. Da das Internet keine zentrale ,,Poststelle” hat, können solche Aussagen nur für bestimmt Bereiche Gültigkeit haben. Prognosen verschiedener Agenturen bestätigen jedoch diese Größe. Einig ist man sich auch, dass dieses Verhältnis weiter steigen wird.

1.3 Gefahren und Kosten

Eine E-Mail scheint auf den ersten Blick harmlos. Tritt sie jedoch in Massen auf, wie dies bei Spam der Fall ist, kann es passieren, dass man die erwünschten Mails ⁹ zwischen den unerwünschten übersieht. Spam kann das Medium, auf dem es beruht, somit für andere Zwecke unbrauchbar machen. Auch wenn es noch nicht so weit ist, stellt jedes Spam im

5Das massenhafte Versenden von Postings an Usenet-Gruppen wird auch Spam genannt.

6http://www.nielsen-netratings.com

7In diversen angegebenen Quellen, sowie immer ¨ofter in der Tagespresse.

8Dies kann allerdings nur bedingt auf einzelne Personen zutreffen: Jemand, der in der Woche 10 erwünschte und 10 unerwünschte Mails bekommt, hat 50% Spam. Möchte dieselbe Person aber in einem stark genutzten Newsletter mitlesen und erhält somit 80 Mails mehr pro Woche, so hat man nur noch einen Spamanteil von 10%.

9Häufig werden in Anlehnung an unerwünschten Spam, die erwünschten Mails als ,,Ham” bezeichnet.

(7)

Abbildung 1.2: Spamaufkommen, gemessen von Brightmail

Postkorb eine Nutzeneinbuße dar.

Oft wird vergessen, dass die immer jünger werdenden Internet-Nutzer nicht nur mit dem WWW in Kontakt kommen, sondern auch E-Mails versenden und empfangen. Dabei lässt es sich ohne zusätzliche Maßnahmen nicht vermeiden, dass auch Mails mit pornographi- schen oder kriminellen Inhalten gelesen werden. Dem Jugendschutz ist auch beim Medium E-Mail Bedeutung zu schenken.

Mit vielen, an zahlreiche E-Mail-Konten verschickte Nachrichten, lässt sich nicht nur wer- ben. Viren, Trojaner oder Hoaxes¹⁰ können sich dank tausender Empfänger besonders schnell verbreiten. Auch wenn diese Mails vom Absender meist nicht absichtlich versendet werden, ist es eine Form von Spam. Generell lässt sich feststellen, dass Spam eine immer größer werdende Verletzung der Privatsphäre darstellt. Viele E-Mail-Nutzer sor- tieren ihren Postkorb per Hand. Das Aussortieren von Spam-Mails stellt mit steigender Anzahl einen immer aufwendiger werdenden Prozess dar. Was privat lästig ist, kann für eine Firma den Verlust von teuren Arbeitskapazitäten darstellen. Hinzu kommen Kosten für das Installieren und Warten eines Filters, sowie zusätzliche Personalkosten. In beiden Fällen erhöhen Aufwendungen für die Bereitstellung von Speicherkapazität und Internet- verbindung zusätzlich die Ausgaben.

10Siehe hierzu:http://www.tu-berlin.de/www/software/hoax.shtml.

(8)

KAPITEL 1. ,,SIE HABEN POST . . . UND SPAM” 7

Abbildung 1.3: Spam-,,Themen” im Juni 2003

Die weltweiten Kosten verursacht durch Spam, werden von der Radicati Group im Jahr 2003 auf ca. 20 Mrd. US $ gesch¨atzt. Abbildung 1.5 aus gleicher Quelle prognostiziert den Verlauf der Kosten in den folgenden 4 Jahren. Leider ist dem Autor nicht bekannt, welchen wirtschaftlichen Erfolg bzw. welchen Gewinn Spam an anderen Stellen generiert.

Es ist jedoch anzunehmen, dass diese die Aufwendungen nicht kompensieren k¨onnen. Da das Versenden tausender E-Mails bei vorhandenem PC und Internetzugang dem Absender keine Kosten verursacht, wohl aber den Empf¨angern, stellt das Spamming eine ungerechte Kostenverteilung und einen Ressourcendiebstahl dar.

(9)

Abbildung 1.4: Gesch¨atzte Spamentwicklung

Abbildung 1.5: Spamkosten

(10)

Kapitel 2

Eind¨ ammung von Spam

2.1 Abwehr durch Pr¨ avention

Um Spam versenden zu können braucht der Spammer E-Mail-Adressen. Hält man seine Adresse geheim, kann man zwar kein Spam bekommen – allerdings auch keine Mails von anderen Netzteilnehmern. Um diesen Spagat, seine Adresse nur vor bestimmten Personen geheim zu halten, anderen aber zugänglich zu machen, etwas besser bewältigen zu können, ist es gut, wenn man weiß, wie Spammer sich Adressen besorgen.

Dies geschieht meist mittels kleiner Programme, die im WWW oder Usenet alles, was nach einer Adresse aussieht, speichern. Diese Programme sind den Robots der Suchmaschinen sehr ähnlich und werden Harvester genannt. In letzter Zeit war im Usenet¹ zu lesen, dass zudem so genannte ,,Wörterbuchattacken” stattfinden. Dabei wird vom Spammer der Lo- kalpart² einer Adresse frei aus den Eintragungen eines speziellen Wörterbuches generiert.

Somit müssen vom Spammer nur geeignete Domains gefunden werden, wodurch sich deren Aufwand reduziert. Würde man den Aufwand für den Spammer erhöhen, so wird es ab einem gewissen Punkt unrentabel und er würde aufhören, zu spammen. Auf dieser Annahme basieren die meisten Techniken, um dem Spamaufkommen vorzubeugen.

Leicht kommen Spammer an Adressen, die der Anwender bereitwillig bekannt gibt; zum Beispiel bei Gewinnspielen im WWW. Aber auch viele kostenlose Dienste finanzieren sich durch den Weiterverkauf der Adressen seiner Nutzer. Ist die Angabe einer E-Mail-Adresse unumg¨anglich, so kann durch eine zweite, extra daf¨ur angelegte Adresse³ die eigentlich genutzte von Spam freigehalten werden.

Da die Harvester nur den Quelltext im WWW auswerten ohne ihn zu interpretieren, hilft

1Diskussionen rund um den Missbrauch von E-mailnews://de.admin.net-abuse.mail.

2Der Lokalpart einer E-Mail-Adresse ist der Teil, der vor dem @-Zeichen steht.

3Kostenlose Adressen gibt es bei fast vielen Freemailern.

9

(11)

es, E-Mail-Adressen weder als Text noch als Link direkt zu vermerken. Stattdessen könn- ten Grafiken oder Buttons zur Darstellung genutzt werden. Ebenso ist es möglich, per JavaScript die Adressen erst beim Aufrufen durch einen Browser zu generieren – Harve- ster interpretieren JavaScript nicht, da dies Rechenkapazität und vor allem Zeit kostet.

Häufig werden auch Adressen wie ,,adresse-REMOVETHIS-@home.com” oder ,,adresse- (at)-home” verwendet, was den Aufwand beim Antwortenden erhöht. Da erstere Adresse gültig ist, wird wohl Spam an diese Adresse versendet und von einem Dritten bearbeitet werden müssen.⁴ Gleiches gilt für das Betreiben so genannter ,,Honey-Pods”, die Harve- ster in Listen mit unzähligen falschen Adressen auflaufen lassen, um so den Datenbestand vom Spammer zu schädigen.

Ebenso ist die dynamische Generierung von Adressen m¨oglich, in der die IP des Aufru- fenden und die Urzeit im Lokal-Part enthalten sind. Bekommt man eine E-Mail an eine solche Adresse, so l¨asst sich nachvollziehen, woher der Absender sie hat.⁵ Allerdings ist damit noch nicht gesagt, dass der ,,Einsammler” auch der Versender der Mails ist.

2.2 Offentliches Umfeld ¨

Viele Menschen glauben, das Internet sei ein rechtsfreier Raum – dies ist nicht der Fall.

Problematisch ist jedoch die Durchsetzbarkeit des jeweils geltenden Rechts. So hat jeder Staat seine eigenen nationalen Gesetze, die das grenzenlose Internet unterteilen. Es machen also auch nur internationale L¨osungen wirklich Sinn.

Die EU hat im Juli 2002 eine Richtlinie [1] zum Umgang mit unerw¨unschter Massenpost erlassen: Das Verbot des Versenden von Spam an Privatpersonen muss bis Ende Oktober 2003 in jedem Mitgliedstaat der EU umgesetzt und angewendet werden. Generell ist die Richtline eine Entscheidung der EU zur ,,Opt-in-Reglung”: Nur mit dem Einverst¨andnis des Verbrauchers darf ihm Werbung zugesendet werden.⁶

In Deutschland ist das Spamming nach bisherigen Gerichtsentscheidungen [2] schon jetzt unzulässig. Da Gesetzte keine Menschen, sondern Menschen Gesetze machen, muss sich auch das öffentliche Bewusstsein der Menschen in Bezug auf Spam ändern. Dies haben sich diverse Interessenverbände zum Ziel gemacht. Als Vertreter sei hier die ,,Coalition Against

4Die Verwendung von gefälschten E-Mail-Adressen ist nicht unumstritten. Die Diskussion darüber soll hier allerdings nicht geführt werden. Ich verweise auf die Mini-FAQ: Falsche E-Mail-Adressen [21].

5Der Fall der Teleinfo AG sorgte im Juli 2004 f¨ur Aufsehen. Einzelheiten k¨onnen unter [22] nachgelesen werden.

6Das Pendant zu ,,Opt-in” ist ,,Opt-out”: Jeder darf jedem Verbraucher solange Werbung zusenden, bis dieser Widerspricht.

(12)

KAPITEL 2. EIND ¨AMMUNG VON SPAM 11

Unsolicited Commercial E-Mail”⁷, kurz CAUCE, genannt. Diese Organisation hat welt- weite Ableger, so zum Beispiel in Europa EuroCAUCE⁸. Ein weiterer Zusammenschluss von Spam-Gegnern ist die ,,SpamCon foundation”⁹.

2.3 Die E-Mail technisch

Um besser verstehen zu können, wie man sich gegen Spam schützen kann, ist es wichtig zu wissen, wie das Versenden von E-Mails genau funktioniert. Ich möchte hier jedoch nur einen kurzen Einblick vermitteln.

Die beste Analogie zur E-Mail ist wohl das Versenden von herkömmlicher Post.¹⁰ Man kann sagen, dass eine E-Mail einer Postkarte ähnelt, welche in einem Umschlag versendet wird. Der Überbringer verwendet dabei das SMT-Protokoll (siehe 2.3.1).

Auf diesem Umschlag, dem SMTP-Envelope, wird der Name desjenigen vermerkt, der die Mail auf den Weg gebracht hat – der des ,,Einlieferden”. Ebenso wird der Empfänger darauf vermerkt und die eigentliche Mail, also die Postkarte, kommt hinein.¹¹ Auf der Postkarte stehen unter anderem ein Absender, ein Empfänger, das Datum und der Be- treff. Diese Angaben ergeben die Kopfzeilen (Header) einer Mail, die zusammen mit der eigentlichen Nachricht (Body) dem Empfänger zugestellt werden.

2.3.1 SMTP – Das Protokoll zum Versenden

SMTP ist eine Abkürzung und steht für ,,Simple Mail Transfer Protokoll” [3]. Es beginnt damit, dass der ,,einliefernde” Computer sich bei einem Mailserver¹² mit seinem Namen bekanntmacht (als HELO bezeichnet). Dabei kann der auch falsche Angaben machen. Der MTA speichert jedoch die IP-Adresse des Senders. Diese Informationen bleiben nicht nur der ersten ,,Poststelle” bekannt, sondern werden auch in den Kopfzeilen vermerkt. Danach werden weitere für den Versand relevanten Daten übertragen (Absender, Empfänger) und letztlich die Nachricht an sich (DATA). Danach geht die E-Mail in den Zuständigkeitsbe- reich des empfangenden Systems über.

Fühlt sich dieser MTA für die Auslieferung an den Empfänger zuständig, so legt er sie in seinem Postfach ab. Dabei entfernt er den SMTP-Envelope. Ist er nicht zuständig, leitet

7http://www.cauce.org

8http://www.euro.cauce.org

9http://www.spamcon.org.

10In letzter Zeit auch oft scherzhaft als ,,Snail-Mail” bezeichnet.

11Den Umschlag sieht man nie, da er quasi nur aus den relevanten Informationen zur Zustellung der E-Mail besteht.

12Genauer: MTA – Mail Transport Agent.

(13)

er sie an den zust¨andigen MTA weiter - per SMTP. Dabei tragen alle beteiligten ihre Vermerke ¨uber den Empfang in den Headern ein.

2.3.2 Header – Die Kopfzeilen

Möchte man den Weg einer E-Mail nachvollziehen, kann man dies anhand der Kopfzei- len tun. Die Eintragungen können jedoch sehr vielseitig sein.¹³ Da alle Angaben in den Kopfzeilen frei erfunden sein können, ist es schwer, verlässliche Informationen über den Absender zu erhalten. Vertraut man den übermittelnden MTA’s, insbesondere dem, der die E-Mail vom ersten Absender empfangen hat, so hat man die IP-Adresse des Absen- ders. Wurde diese jedoch von einem Einwahl-Provider dynamisch vergeben, so ist ohne dessen Hilfe der Absender nicht ausfindig zu machen. Da die IP-Adresse das einzige ist, worauf man sich verlässt, wird sie später auch beim Filtern von Spam eine Rolle spielen.

Hingewiesen sein noch einmal darauf, dass die Angaben zum Absender und Empfänger ebenso nicht korrekt sein müssen. Insbesondere müssen sie nicht mit dem Angaben im SMTP-Envelope übereinstimmen. So kommt es vor, dass man E-Mails bekommt, die anscheinend nicht einmal an einen selbst adressiert sind.

13Einen guten Einstieg bieten die Header-FAQ’s [4].

(14)

Kapitel 3

Abwehr von Spam

3.1 M¨ oglichkeiten der Provider

Als unmittelbares Bindeglied zwischen Spammern und Spam-Opfern stehen die Provider, also die Anbieter von Internetdiensten. Da die Spammer ihre Mails direkt an die Provider ausliefern, kommt diesen beim Kampf gegen Spam auch eine bedeutende Rolle zu.

In den Allgemeinen Geschäftsbedingungen der Provider wird das Versenden von Spam meist untersagt. Wird dagegen verstoßen, merkt das der Provider meist erst dann, wenn sich jemand darüber beschwert.¹ Damit sich die Kunden beschweren, müssen sie wissen, was man gegen Spam tun kann und auch sollte. Hier ist zwar jeder Kunde selbst gefor- dert, doch sehe ich auch die Provider bei dieser Aufklärung in der Pflicht. Letztlich muss auch von ihrer Seite konsequent gegen Spammer vorgegangen werden - auch wenn dies ein Interessenskonflikt für Provider darstellt, da Spammer auch zahlende Kunden sind.

Grundvoraussetzung für jeden Schutz sind natürlich gut konfigurierte und gewartete Ser- ver. Jeder Provider sollte nur E-Mails zur Auslieferung von seinen eigenen Kunden oder für seine Kunden entgegennehmen. Ist dies nicht der Fall und kann jeder E-Mails über diesen Server absenden, so spricht man von einem ,,offenen Relay”. Um nicht ungewollt zu einem solchen offenen Relay zu werden, müssen die Server der Provider einbruchsicher gehalten werden.

3.1.1 Spam-Datenbanken

Provider und ihre Mitarbeiter k¨onnen sich im Kampf gegen Spam gegenseitig helfen. So gibt es mehrere Dienste im Internet, die Listen von spammenden Servern bereitstellen.

1Beschweren kann man sich außer beim Provider selbst zum Beispiel bei europ¨aischem Spam bei der Wettbewerbszentrale (http://www.wettbewerbszentrale.de).

13

(15)

Diese Listen werden von vielen Administratoren gepflegt und genutzen. Privatanwendern stellen die Betreiber der Datenbanken ihre Dienste meist kostenlos zur Verfühgung. Stell- vertretend seien hier die ,,Open Relay Database”² und ,,Spam and Open Relay Blockin Service”³ genannt. Eine gute Übersicht über weitere dieser Datenbanken findet man unter [5].

Ein ¨ahnliches Netz von Usern hat auch ,,Vipul’s Razor” [8]. Es arbeitet jedoch nicht mit IP-Adressen von Servern, sondern generiert Signaturen von E-Mails, die als Spam gemeldet wurden und legt sie in einer Datenbank ab. Jeder kann danach von seinen ein- treffenden Mails mit gleichem Algorithmus eine Signatur erzeugen und mit den Eintr¨agen in der Datenbank vergleichen.

3.1.2 Teergrubing

Um das Ausliefern von Spam zu erschweren, können die MTA’s modifiziert werden. Dabei wird der Spammer anhand von online gepflegten Datenbanken (siehe oben) identifiziert und die zum Versenden der E-Mails aufgebaute Verbindung offen gehalten. Dies geschieht mittels Fortsetzungszeilen des SMT-Protokolls 2.3.1. Dabei lässt der empfangende MTA den sendenden auf seine Antwort warten. Da ein Server nur maximal 65500 Verbindungen offenhalten kann (meist sind es jedoch weit weniger), wird ihm diese Ressource knapp, wenn er in vielen Teergruben [6] ,,hängt”. Der Vorteil dabei ist die Dezentralität der Teergruben: Viele Teergruben können mehr Verbindungen zu einem spammenden Server aufrecht erhalten, als dieser verkraftet. Spammende Server schaden sich so quasi selbst.

3.1.3 Tarpitting

Den gleichen Gedanken, die Auslieferung von Spam zu erschweren, verfolgt auch das Tarpitting. Dabei wird der Spammer anhand der Anzahl der zu versendenden Mails identifiziert. Der MTA nimmt nur eine bestimmte Anzahl E-Mails verz¨ogerungsfrei entgegen.

Sollen mehr Mails versendet werden, wird dies durch die Fortsetzungszeilen eine bestimmte Zeit hinausgez¨ogert. Diese Zeit steigt mit der Anzahl der zu versendenden Mails weiter:

Wer viel E-Mails versenden will muss lange warten - Zeit, die der Spammer aus Rentabi- lit¨atsgr¨unden nicht hat.

2ORDB:http://www.ordb.org

3SORBS:http://us.sorbs.net

(16)

KAPITEL 3. ABWEHR VON SPAM 15

3.2 Filtern von Spam

Sind die Spam-Mails bereits kurz vor der Zustellung in das Postfach des Adressaten, k¨onnen nur noch Filter helfen, das Postfach spamfrei zu halten. Dabei gilt es diverse Fragen zu beantworten um die jeweils passende Technik einzusetzen:

• Wo werden die Mails gefiltert?

• Wer filtert die Mails?

• Wie werden die Mails gefiltert?

• Wer pflegt die Filter?

• Was ist mit dem Datenschutz? Wer ließt meine E-Mails?

• Was passiert mit ausgefilterten Mails?

• Wer finanziert den h¨oheren Aufwand der Mailzustellung?

• . . .

Dabei haben bestimmte Entscheidungen sowohl Vor- als auch Nachteile. Filtert zum Be- spiel der ISP die E-Mails vor der Auslieferung, so spart dies Ressourcen (Downloadtraffic, Festplattenplatz) beim Kunden.⁴ Allerdings werden falsch erkannte E-Mails dem Kunden auch nicht mehr zugestellt. Das E-Mail-Postfach ist zwar frei von Spam, jedoch w¨urde es vom ISP ,,kontrolliert” werden. Zwischenl¨osungen, wie das Markieren der Spam-Mails durch den ISP, lassen den Ressourcenverbrauchs beim Kunden wieder ansteigen. Filtert hingegen jeder Kunde seine Mails selbst, muss er auch die Pflege und Wartung der Filter

¨

ubernehmen.

Man sieht, dass es auf die Fragen keine generellen Antworten geben kann. Lediglich die Frage der langfristigen Finanzierung scheint lösbar: Der Spammer wird die Kosten nicht tragen – es werden die Kunden entweder direkt oder indirekt, über die Gebühren für den ISP, den Mehraufwand bezahlen.

3.2.1 Blacklists

Bei Filtern mittels ,,Schwarzer Listen” ist zu Beginn jede E-Mail kein Spam. Sie wird erst zu Spam, wenn sie ein Merkmal aufweist, welches auf der Blacklist vorhanden ist. Da es

4Dabei wird unterstellt, dass der Kunde sich seine E-Mails mittels POP3 dann auf seinen Rechner l¨adt.

(17)

mehrere Merkmale gibt (zum Beispiel die IP-Adresse des Einliefernden, der Absender, der Betreff, etc.), kann man auch auf jedes einzelne filtern. Sehr häufig wird auf die IP-Adresse des Absenders gefiltert. Dafür werden online Datenbanken mit Adressen von Spammern gepflegt (siehe 3.1.1). Werden jedoch vom Spammer Dial-In-Zugänge zum Internet verwendet, die dynamisch vergeben werden, so ist es dem Kunden, der als nächstes diese IP bekommt, quasi unmöglich, E-Mails zu versenden: Er kann sie zwar abschicken, jedoch werden sie beim nächsten filternden MTA als Spam aussortiert.

Die Pflege der Blacklists erfordert jedoch einiges an Aufwand - sie selbst lokal zu betreiben ist meist nicht sehr effizient. Deshalb werden diese Art der Filter h¨aufig vom ISP betrieben.

3.2.2 Whitelists

Ahnlich wie die Blacklists arbeiten die ,,Weißen Listen” auch mit vorher festgelegten¨ Merkmalen der E-Mails. Jedoch ist jede eintreffende E-Mail zu Beginn Spam - es sei denn, sie weist ein bestimmtes Merkmal einer Whitelist auf, welches sie als Ham, also Nicht-Spam, identifiziert. Diese Art der Filter k¨onnen gut lokal eingesetzt werden. Pflegt man sein Adressbuch in seinem Mail-Client, so hat man schon eine Whitelist. Mails von Absendern, die nicht im Adressbuch eingetragen sind, werden separat abgelegt und m¨ussen kontrolliert werden. Wer nur mit einem bestimmten Personenkreis in Kontakt steht, kann sich des Spams auf diese Art schnell entledigen.

Dabei lassen sich auch noch weitere Funktionen in die Whitelist-Filter integrieren. So können die Absender der Mails, die nicht als Ham eingestuft worden sind, automatisch generierte Antworten erhalten. In diesen kann dann auf den Filter hingewiesen und Links zum ,,Bestätigen” der E-Mail können angeboten werden. Diese Links lassen die E-Mail dann durch den Filter und sie wird zugestellt. Spammer werden aufgrund gefälschter Absender diese ,,Nachfrage-E-Mails” nie erhalten. Kritisch sei bemerkt, dass diese Ver- fahrensweise ein erhöhtes Aufkommen von E-Mails und somit eine Mehrbelastung der Systeme bedeutet.

3.2.3 Header- und Body-Analysen

Da es im Header (siehe 2.3.2 und [4]) viele Informationen gibt, können diese auch auf ,,Echtheit” und ,,Schlüssigkeit” geprüft werden. So lässt sich ermitteln, welche MTA’s zu welcher Zeit für die Zustellung zuständig waren – also welchen Weg die E-Mail hinter sich hat. Spammer fügen oft solche Zeilen ein, um unerfahrene Empfänger zu täuschen. Dabei sind die Zeitstempel jedoch nicht korrekt – was die E-Mail als Spam enttarnt.

(18)

KAPITEL 3. ABWEHR VON SPAM 17

Ebenso eine Filterung auf Grundlage der Header-Zeilen ist die Überprüfung der angegebenen Absenderdomain im HELO: Ist sie keine gültige Domain, wird die E-Mail abgelehnt.

Möglich wäre auch die Prüfung, ob die Domain mit der IP-Adresse übereinstimmt.

Wer keine Mails mit arabischen oder chinesischen Zeichensätzen lesen kann, kann diese anhand von Headerzeilen auch leicht aussortieren. Ein weiteres Beispiel wäre die Analyse des Subjects: die Anzahl der Grossbuchstaben oder bestimmte Wörter könnten markante Merkmale für Spam sein.

Auch die eigentliche Nachricht, der Body einer Mail, beinhaltet Merkmale, die sie als Spam identifizieren. HTML-Mails mit eingebetteten Bildern und vielen Links wären ein Beispiel. Aber auch auf das Auftreten von diversen Wörtern kann gefiltert werden. An- hand von mehreren Wörtern kann festgestellt werden, um welche Sprache es sich handelt – sind sie nicht erwünscht, werden betroffene E-Mails aussortiert.

Weitere M¨oglichkeiten, die die Analysen von Headern und Body bieten, sind auf der Ho- mepage der Filtersoftware ,,spamassassin” zu finden [9].

3.2.4 Kombinierte Filter und Scoring-Systeme

Werden die E-Mails nach mehreren Merkmalen untersucht, so können diese Ergebnisse miteinander kombiniert werden. Dabei wird jedem Merkmal ein bestimmtes Gewicht zu- gewiesen. Anschließend wird aus allen Gewichten und den jeweiligen Ausprägungen ein einziger Score-Wert bestimmt. Überschreitet er einen vom Anwender vorgegeben Wert, so wird die E-Mail als Spam behandelt.

Anstelle von Merkmalen, können auch mehrere Filter angewendet werden, deren Ergeb- nisse dann gewichtet zum Score-Wert führen. Bekanntester Vertreter von Spamsoftware, die mit Scorewerten arbeitet, ist wohl ,,spamassassin” [10]. Diese freie Software ist auch das Kernstück der Filter des bekannten Freemailers GMX [18].

Problematisch ist dabei jedoch die genaue Gewichtung der einzelnen Merkmale – welche Gewichtung ist zum Beispiel dem Auftreten des Wortes ,,urgent” zuzuweisen?

3.2.5 Bayes-Filter

Um das Problem der Scoring-Systeme mit der Zuweisung der Gewichtung zu umgehen, arbeiten Bayes-Filter [11] mit kombinierten bedingten Wahrscheinlichkeiten. Dabei ana- lysiert der Filter bestehende Datenbestände von Spam- und Ham-Mails: Anstatt jedoch Merkmale vorzugeben, liest der Filter die komplette E-Mail als Text ein und zählt, wie oft ein Wort in Spam- und in Ham-Mails auftaucht. Daraus ergibt sich die Wahrschein- lichkeit für eine Mail, die nur dieses Wort beinhaltet, Spam zu sein. Da E-Mails mehrere

(19)

Worte beinhalten, m¨ussen diese Wahrscheinlichkeiten miteinander kombiniert werden.⁵ Man erh¨alt somit die genaue ,,Spam-Wahrscheinlichkeit”.

Vorteilhaft ist, dass Wortneuschöpfungen wie ,,V1agra” oder ,,Cl!ick” automatisch berück- sichtigt werden. Auch macht die Analyse keinen Unterschied zwischen Header und Body oder HTML- und ASCII-Mails. Somit werden zum Bespiel viele externe Links über die Wörter ,,http” oder ,,href” berücksichtigt.

Diese Art des Filterns ben¨otigt jedoch einen gepflegten Bestand an Spam- und Ham-E- Mails und eignet sich somit sehr gut f¨ur lokale Filter im Mailprogramm des Anwenders.

Implementiert ist der Bayes-Filter zum Beispiel in MozillaMail [13]. Andere Filter sind unter [12] aufgef¨uhrt.

3.2.6 Filtern mit KNN’s

KNN steht für ,,Künstliche Neuronale Netze” und ist ein Versuch, das menschliche Ner- vensystem abzubilden. Dabei soll das Modell folgende Eigenschafen eines Gehirns über- nehmen [14]:

• Lernf¨ahigkeit

• Generalisierung

• Anpassungsf¨ahigkeit

• Robustheit

Ein KNN besteht aus vielen kleinen Neuronen, die miteinander durch gewichtete Verbin- dungen ein Netz aufspannen. Jedes Neuron hat mehrere Ein- und einen Ausgang über die Signale gesendet oder empfangen werden. Als Eingang dienen zuvor festgelegte Merkmale der E-Mails. Aus allen Signaleingängen wird durch eine Aktivierungsfunktion bestimmt, ob das Neuron aktiv wird und das Ausgangssignal anliegt. Als Ergebnis im Zusammen- spiel vieler solcher Neuronen – also eines KNN – erhält man in der Ausgabe einen Wert, der die Entscheidung des Netzes zur gegebenen Eingabe liefert.

Ein KNN wird mittels eines gepflegten Datensatzes an Spam- und Ham-E-Mails trainiert, d. h. es wird zu jeder E-Mail mitgeteilt, um was es sich handelt. Dabei werden die einzelnen Gewichte der Verbindungen bestimmt, um die E-Mails des Trainingsdatensatzes korrekt in Spam und Ham unterteilen zu k¨onnen.

Einem derart trainierten KNN ist es danach m¨oglich, auch E-Mails, die es nicht kennt, einzuordnen.

5F¨ur die genaue Herleitung empfiehlt sichhttp://www.mathpages.com/home/kmath267.htm.

(20)

Kapitel 4 Schlusswort

Filter werden das Problem Spam wohl nicht lösen können. Allenfalls eine Linderung des Problems ist durch sie zu erreichen. Sehr ärgerlich sind natürlich E-Mails, die aufgrund von Filtern den Empfänger nicht erreichen – und der Absender bekommt davon nichts mit.

Wer nicht all zuviel Spam bekommt, für den lohnt meist der Aufwand zur Implemen- tierung und Pflege eines lokalen Filters nicht. Es gibt aber auch genügend kostenlose Angebote¹, die das Filtern übernehmen – man zahlt jedoch den Preis, eventuell falsch erkannte E-Mails nie zu bekommen.

Solange es Menschen gibt, die die in Spam beworbenen Produkte konsumieren, wird es Anbieter geben, die Spam für ihr ,,Direktmarketing” einsetzen und den Spammer bezahlen. Das heißt, solange es sich für die Spammer lohnt, massenhaft E-Mails zu verschicken, wird er nicht aufhören. Fazit:

Spammen darf sich nicht lohnen!

1Fast alle kostenlosen E-Mail-Anbieter haben Filtertechniken implementiert. Kostenlose Filterung ohne E-Mail-Account bekommt man zum Beispiel bei E1even (http://www.spamfence.net) oder bei De- spammed (http://www.despammed.com).

19

(21)

[1] Gemeinsamer Standpunkt des Rates im Hinblick auf den Erlass der Richtlinie des Europäischen Parlamentes und des Rates über die Verarbeitung personenbezogener Daten und den Schutz der Privatsphäre in der elektronischen Kommunikation, Rat der Europäischen Union, 15396/02.

[2] Einen guten Überblick über Möglichkeiten, sich juristisch gegen Spam zur Wehr zu setzen, bietethttp://www.dr-ackermann.de/spam/.

[3] Der RFC f¨ur SMTP ist 821, zu finden unter: http://www.faqs.org/rfcs/.

[4] FAQ E-Mail-Header lesen und verstehen, zu finden unter:

http://www.th-h.de/faq/headerfaq.html

[5] DNS-basierte Spam Datenbanken:

http://www.declude.com/junkmail/support/ip4r.htm

[6] Teergruben-FAQ:

http://www.iks-jena.de/mitarb/lutz/usenet/teergrube.html

[7] Brightmail Inc., San Francisco, http://www.brightmail.com [8] Vipul’s Razor, http://razor.sourceforge.net

[9] Die Analysen, die die Filtersoftware spamassassin auf Header oder Body anwenden sind zu finden unter:http://www.spamassassin.org/tests.html.

[10] Homepage von Spamassassin: http://www.spamassassin.org

[11] Bekannteste Seite f¨ur Bayes-Filter: http://www.paulgraham.com/spam.html [12] Software, die Bayes-Filter nutzt:http://www.paulgraham.com/filters.html [13] Bayes-Filter in Mozilla’s Mailclient:

http://www.mozilla.org/mailnews/spam.html

20

(22)

LITERATURVERZEICHNIS 21

[14] Diplomarbeit von Matthias Alexander Rupp: Konzepte und Abwehr unerbetener E-Mails (Spams), Integration eines Filters in ein bestehendes Mailsystem, Oktober 2002, Universit¨at Ulm

[15] NUA.com Internet Surveys By Category,

http://www.nua.ie/surveys/how-many-online/index.html(01.10.2003) [16] NielsenNetRatings,

http://www.nielsen-netratings.com/news.jsp?section=dat gi (01.10.2003) [17] Meldung aus n-tv,

http://www.n-tv.de/3161893.html (18.06.2003) [18] Heise online News,

http://www.heise.de/newsticker/data/hob-13.05.03-000/ (26.06.2003) [19] ,,Population Explosion!”,

http://cyberatlas.internet.com/big picture/...

...geographics/aricle/0.1323.5911 151151.00.html (02.10.2003) [20] Silion.com - Industry react to email diet of 50 per cent . . . ,

http://swww.silicon.com/news/165/14/4460.html (08.07.2003) [21] Mini-FAQ: Falsche E-Mail-Adressen,

http://www.doberstein.com/spam/falsche-email-adressen.html (08.07.2003) [22] Pressemitteilung von Daniel Rehbein bzgl. der Spam-Aussendung von Teleinfo,

http://rehbein.net/teleinfo.html

[23] Dieter B¨ar, DUDEN - Das große Fremdw¨orterbuch, 2. Auflage, Dudenverlag 2000