• Keine Ergebnisse gefunden

E-Mail-Spam, M¨oglichkeiten der Abwehr und Filterung

N/A
N/A
Protected

Academic year: 2021

Aktie "E-Mail-Spam, M¨oglichkeiten der Abwehr und Filterung"

Copied!
22
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

M¨oglichkeiten der Abwehr und Filterung

Thomas Verchow

Seminar Internetdienste Sommersemester 2003 Fakult¨ at f¨ ur Mathematik und Wirtschaftswissenschaften

10. Oktober 2003

(2)

Inhaltsverzeichnis

1 ,,Sie haben Post . . . und Spam” 3

1.1 Ursprung der Bezeichnung ,,Spam” . . . 3

1.2 Historisches und Ausblicke . . . 5

1.3 Gefahren und Kosten . . . 5

2 Eind¨ammung von Spam 9 2.1 Abwehr durch Pr¨avention . . . 9

2.2 Offentliches Umfeld . . . .¨ 10

2.3 Die E-Mail technisch . . . 11

2.3.1 SMTP – Das Protokoll zum Versenden . . . 11

2.3.2 Header – Die Kopfzeilen . . . 12

3 Abwehr von Spam 13 3.1 M¨oglichkeiten der Provider . . . 13

3.1.1 Spam-Datenbanken . . . 13

3.1.2 Teergrubing . . . 14

3.1.3 Tarpitting . . . 14

3.2 Filtern von Spam . . . 15

3.2.1 Blacklists . . . 15

3.2.2 Whitelists . . . 16

3.2.3 Header- und Body-Analysen . . . 16

3.2.4 Kombinierte Filter und Scoring-Systeme . . . 17

3.2.5 Bayes-Filter . . . 17

3.2.6 Filtern mit KNN’s . . . 18

4 Schlusswort 19

1

(3)

1.1 SPAM, Dosenfleisch der Hormel Food Cooperation . . . 4

Quelle:http://www.hormel.com . . . 4

1.2 Spamaufkommen, gemessen von Brightmail . . . 6

Quelle:http://www.brightmail.com . . . 6

1.3 Spam-,,Themen” im Juni 2003 . . . 7

Quelle:http://www.brightmail.com . . . 7

1.4 Gesch¨atzte Spamentwicklung . . . 8

Quelle: Radicati Group,http://www.radicati.com . . . 8

1.5 Spamkosten . . . 8

Quelle: Radicati Group,http://www.radicati.com . . . 8

2

(4)

Kapitel 1

,,Sie haben Post . . . und Spam”

Das Medium E-Mail z¨ahlt neben dem World Wide Web zu dem meist genutzten Diensten im Internet. Dies gilt sowohl im privaten wie auch im gesch¨aftlichen Bereich. Insgesamt sind weltweit ca. 580 Millionen Menschen online [15], privat nutzen ca. 400 Millionen Men- schen das Internet [16]. Und diese Zahlen werden wohl in den kommenden Jahren weiter steigen. E-Mails sind zuverl¨assig und schnell zugestellt, bei vorhandenem Computer fast kostenlos und die Anzahl der Empf¨anger ist theoretisch unbeschr¨ankt.1 Binnen Sekunden kann eine Nachricht an viele Menschen in der ganzen Welt gesendet werden. Aufgrund dieser Eigenschaft wird das Medium E-Mail auch immer h¨aufiger missbraucht: Man nennt diesen Missbrauch ,,Spam”.

1.1 Ursprung der Bezeichnung ,,Spam”

Der Begriff ,,Spam” hat bereits Einzug in unseren Wortschatz gehalten: Der Duden [23]

definiert Spam wie folgt:

Spam, das:

1. unaufgefordert an viele Internetnutzer auf einmal versandte E-Mail (zu Werbezwecken u. ¨A.)

2. an viele Newsgroups gleichzeitig ¨ubermittelte Nachricht (mit belanglosem Inhalt)2

1Die maximale Anzahl an Empf¨angern kann jedoch durch das E-Mail-Programm oder den Internet- Service-Provider beschr¨ankt sein. Siehe hierzu auch [RFC-SMTP], Abschnitt 4.5.3.

2Auf das Spamming in Newsgroups werde ich hier nicht eingehen.

3

(5)

SPAM3 ist schon lange eine Bezeichnung f¨ur ,,Spiced Ham”, eine Art Dosenfleisch. Das als

Abbildung 1.1: SPAM, Dosenfleisch der Hormel Food Cooperation

Name f¨ur unverlangt erhaltene und massenhaft versendete E-Mails dieser Begriff verwen- det wird, ist unter anderem auf die britischen Gruppe ,,Monty Python” zur¨uckzuf¨uhren.

Im Jahr 1970, in einer ihrer Folgen von der TV-Serie ,,The Monty Python’s Flying Cir- cus” zeigte ein Sketch4 ein Paar in einem Restaurant, welches eine Bestellung aufzugeben versucht [17]. Anscheinend gibt es nur Gerichte, in denen Spam enthalten ist. Dabei f¨allt das Wort ,,Spam” unverh¨altnism¨aßig oft, was in einem Sketch allerdings eher lusig als ner- vend empfunden wird. Dazu singt ein Wikingerchor immerzu ein Loblied auf das geliebte ,,SPAM”. In einem Chatsystem im Internet wurde daraufhin der Begriff Spam verwen- det, um st¨andige Wiederholungen zu bezeichnen, die einem anderen Chatteilnehmer den Bildschirm voll schrieben. Selbiges meint man heute umgangssprachlich, wenn man von Spam spricht: unverlangte E-Mails, die den Postkasten verstopfen.

Auch werden Spam-Mails h¨aufig als ,,Junk-Mail” oder ,,Bulk-Mail” bezeichnet. Weiterhin sind folgende Abk¨urzungen g¨angig:

• UBE - Unsolicited Bulk Email

• UCE - Uncolicited Commercial Email

• MMF - Make Money Fast

• MLM - Multi Level Marketing

3Der Name ,,SPAM” ist eine gesch¨utzte Marke der Hormel Food Cooperation (Austin, Minnesota) und soll nur in diesem Zusammenhang in Grossbuchstaben geschrieben werden.

4Der Sketch ist zum Beispiel unterhttp://cs.berkeley.edu/%7Eddgarcia/spam.htmlzu finden.

(6)

KAPITEL 1. ,,SIE HABEN POST . . . UND SPAM” 5

Das ,,Spam” eine Abk¨urzung f¨ur ,,Sending personally annoying mail” sein soll, ist sowohl inhaltlich nicht ganz korrekt5 als auch nach obigen Ausf¨uhrungen historisch nicht haltbar.

1.2 Historisches und Ausblicke

Was fr¨uher eher eine Randerscheinung war, entwickelte sich in letzter Zeit zunehmend zum Problem. Die Anf¨ange vom ,,Spamming” liegen in den USA. Dank starker Verbreitung von g¨unstigen Internetzug¨angen und Heimcomputern lassen sich heute mehr Menschen denn je per E-Mail erreichen. Nielsen//NetRatings6 sch¨atzt, dass im Juli 2003 ca. 400 Millionen Privatleute das Internet nutzen - 250 Millionen davon aktiv [16]. Und die Ten- denz ist weiter steigend: Die Sch¨atzungen liegen zwischen 710 Millionen (eMarketer) und 945 Millionen (Computer Industry Almanac) [19].

Das Aufkommen von Spam l¨asst sich global allerdings schlecht quantifizieren, da es keine zentrale Instanz zur Erfassung gibt und nicht ¨uberall Messungen durchgef¨uhrt werden.

Diese gibt es lediglich in bestimmten Bereichen (siehe Abbildung 1.2).

Dabei verteilen sich die Inhalte auf wenige Bereiche und sind selten seri¨os. Abbildung 1.3 zeigt f¨ur Juni 2003 eine Aufteilung der Spam-Themen.

Es gibt mehr als eine Prognose ¨uber die Anzahl bzw. das Verh¨altnis von erw¨unschter Mail zu Spam.7 Oft liest man Angaben wie ,,51 per cent af all messages”8 [20] sind Spam. Da das Internet keine zentrale ,,Poststelle” hat, k¨onnen solche Aussagen nur f¨ur bestimmt Bereiche G¨ultigkeit haben. Prognosen verschiedener Agenturen best¨atigen jedoch diese Gr¨oße. Einig ist man sich auch, dass dieses Verh¨altnis weiter steigen wird.

1.3 Gefahren und Kosten

Eine E-Mail scheint auf den ersten Blick harmlos. Tritt sie jedoch in Massen auf, wie dies bei Spam der Fall ist, kann es passieren, dass man die erw¨unschten Mails 9 zwischen den unerw¨unschten ¨ubersieht. Spam kann das Medium, auf dem es beruht, somit f¨ur andere Zwecke unbrauchbar machen. Auch wenn es noch nicht so weit ist, stellt jedes Spam im

5Das massenhafte Versenden von Postings an Usenet-Gruppen wird auch Spam genannt.

6http://www.nielsen-netratings.com

7In diversen angegebenen Quellen, sowie immer ¨ofter in der Tagespresse.

8Dies kann allerdings nur bedingt auf einzelne Personen zutreffen: Jemand, der in der Woche 10 erw¨unschte und 10 unerw¨unschte Mails bekommt, hat 50% Spam. M¨ochte dieselbe Person aber in einem stark genutzten Newsletter mitlesen und erh¨alt somit 80 Mails mehr pro Woche, so hat man nur noch einen Spamanteil von 10%.

9aufig werden in Anlehnung an unerw¨unschten Spam, die erw¨unschten Mails als ,,Ham” bezeichnet.

(7)

Abbildung 1.2: Spamaufkommen, gemessen von Brightmail

Postkorb eine Nutzeneinbuße dar.

Oft wird vergessen, dass die immer j¨unger werdenden Internet-Nutzer nicht nur mit dem WWW in Kontakt kommen, sondern auch E-Mails versenden und empfangen. Dabei l¨asst es sich ohne zus¨atzliche Maßnahmen nicht vermeiden, dass auch Mails mit pornographi- schen oder kriminellen Inhalten gelesen werden. Dem Jugendschutz ist auch beim Medium E-Mail Bedeutung zu schenken.

Mit vielen, an zahlreiche E-Mail-Konten verschickte Nachrichten, l¨asst sich nicht nur wer- ben. Viren, Trojaner oder Hoaxes10 k¨onnen sich dank tausender Empf¨anger besonders schnell verbreiten. Auch wenn diese Mails vom Absender meist nicht absichtlich versen- det werden, ist es eine Form von Spam. Generell l¨asst sich feststellen, dass Spam eine immer gr¨oßer werdende Verletzung der Privatsph¨are darstellt. Viele E-Mail-Nutzer sor- tieren ihren Postkorb per Hand. Das Aussortieren von Spam-Mails stellt mit steigender Anzahl einen immer aufwendiger werdenden Prozess dar. Was privat l¨astig ist, kann f¨ur eine Firma den Verlust von teuren Arbeitskapazit¨aten darstellen. Hinzu kommen Kosten f¨ur das Installieren und Warten eines Filters, sowie zus¨atzliche Personalkosten. In beiden F¨allen erh¨ohen Aufwendungen f¨ur die Bereitstellung von Speicherkapazit¨at und Internet- verbindung zus¨atzlich die Ausgaben.

10Siehe hierzu:http://www.tu-berlin.de/www/software/hoax.shtml.

(8)

KAPITEL 1. ,,SIE HABEN POST . . . UND SPAM” 7

Abbildung 1.3: Spam-,,Themen” im Juni 2003

Die weltweiten Kosten verursacht durch Spam, werden von der Radicati Group im Jahr 2003 auf ca. 20 Mrd. US $ gesch¨atzt. Abbildung 1.5 aus gleicher Quelle prognostiziert den Verlauf der Kosten in den folgenden 4 Jahren. Leider ist dem Autor nicht bekannt, welchen wirtschaftlichen Erfolg bzw. welchen Gewinn Spam an anderen Stellen generiert.

Es ist jedoch anzunehmen, dass diese die Aufwendungen nicht kompensieren k¨onnen. Da das Versenden tausender E-Mails bei vorhandenem PC und Internetzugang dem Absender keine Kosten verursacht, wohl aber den Empf¨angern, stellt das Spamming eine ungerechte Kostenverteilung und einen Ressourcendiebstahl dar.

(9)

Abbildung 1.4: Gesch¨atzte Spamentwicklung

Abbildung 1.5: Spamkosten

(10)

Kapitel 2

Eind¨ ammung von Spam

2.1 Abwehr durch Pr¨ avention

Um Spam versenden zu k¨onnen braucht der Spammer E-Mail-Adressen. H¨alt man seine Adresse geheim, kann man zwar kein Spam bekommen – allerdings auch keine Mails von anderen Netzteilnehmern. Um diesen Spagat, seine Adresse nur vor bestimmten Personen geheim zu halten, anderen aber zug¨anglich zu machen, etwas besser bew¨altigen zu k¨onnen, ist es gut, wenn man weiß, wie Spammer sich Adressen besorgen.

Dies geschieht meist mittels kleiner Programme, die im WWW oder Usenet alles, was nach einer Adresse aussieht, speichern. Diese Programme sind den Robots der Suchmaschinen sehr ¨ahnlich und werden Harvester genannt. In letzter Zeit war im Usenet1 zu lesen, dass zudem so genannte ,,W¨orterbuchattacken” stattfinden. Dabei wird vom Spammer der Lo- kalpart2 einer Adresse frei aus den Eintragungen eines speziellen W¨orterbuches generiert.

Somit m¨ussen vom Spammer nur geeignete Domains gefunden werden, wodurch sich de- ren Aufwand reduziert. W¨urde man den Aufwand f¨ur den Spammer erh¨ohen, so wird es ab einem gewissen Punkt unrentabel und er w¨urde aufh¨oren, zu spammen. Auf dieser Annahme basieren die meisten Techniken, um dem Spamaufkommen vorzubeugen.

Leicht kommen Spammer an Adressen, die der Anwender bereitwillig bekannt gibt; zum Beispiel bei Gewinnspielen im WWW. Aber auch viele kostenlose Dienste finanzieren sich durch den Weiterverkauf der Adressen seiner Nutzer. Ist die Angabe einer E-Mail-Adresse unumg¨anglich, so kann durch eine zweite, extra daf¨ur angelegte Adresse3 die eigentlich genutzte von Spam freigehalten werden.

Da die Harvester nur den Quelltext im WWW auswerten ohne ihn zu interpretieren, hilft

1Diskussionen rund um den Missbrauch von E-mailnews://de.admin.net-abuse.mail.

2Der Lokalpart einer E-Mail-Adresse ist der Teil, der vor dem @-Zeichen steht.

3Kostenlose Adressen gibt es bei fast vielen Freemailern.

9

(11)

es, E-Mail-Adressen weder als Text noch als Link direkt zu vermerken. Stattdessen k¨onn- ten Grafiken oder Buttons zur Darstellung genutzt werden. Ebenso ist es m¨oglich, per JavaScript die Adressen erst beim Aufrufen durch einen Browser zu generieren – Harve- ster interpretieren JavaScript nicht, da dies Rechenkapazit¨at und vor allem Zeit kostet.

H¨aufig werden auch Adressen wie ,,adresse-REMOVETHIS-@home.com” oder ,,adresse- (at)-home” verwendet, was den Aufwand beim Antwortenden erh¨oht. Da erstere Adresse g¨ultig ist, wird wohl Spam an diese Adresse versendet und von einem Dritten bearbeitet werden m¨ussen.4 Gleiches gilt f¨ur das Betreiben so genannter ,,Honey-Pods”, die Harve- ster in Listen mit unz¨ahligen falschen Adressen auflaufen lassen, um so den Datenbestand vom Spammer zu sch¨adigen.

Ebenso ist die dynamische Generierung von Adressen m¨oglich, in der die IP des Aufru- fenden und die Urzeit im Lokal-Part enthalten sind. Bekommt man eine E-Mail an eine solche Adresse, so l¨asst sich nachvollziehen, woher der Absender sie hat.5 Allerdings ist damit noch nicht gesagt, dass der ,,Einsammler” auch der Versender der Mails ist.

2.2 Offentliches Umfeld ¨

Viele Menschen glauben, das Internet sei ein rechtsfreier Raum – dies ist nicht der Fall.

Problematisch ist jedoch die Durchsetzbarkeit des jeweils geltenden Rechts. So hat jeder Staat seine eigenen nationalen Gesetze, die das grenzenlose Internet unterteilen. Es ma- chen also auch nur internationale L¨osungen wirklich Sinn.

Die EU hat im Juli 2002 eine Richtlinie [1] zum Umgang mit unerw¨unschter Massenpost erlassen: Das Verbot des Versenden von Spam an Privatpersonen muss bis Ende Oktober 2003 in jedem Mitgliedstaat der EU umgesetzt und angewendet werden. Generell ist die Richtline eine Entscheidung der EU zur ,,Opt-in-Reglung”: Nur mit dem Einverst¨andnis des Verbrauchers darf ihm Werbung zugesendet werden.6

In Deutschland ist das Spamming nach bisherigen Gerichtsentscheidungen [2] schon jetzt unzul¨assig. Da Gesetzte keine Menschen, sondern Menschen Gesetze machen, muss sich auch das ¨offentliche Bewusstsein der Menschen in Bezug auf Spam ¨andern. Dies haben sich diverse Interessenverb¨ande zum Ziel gemacht. Als Vertreter sei hier die ,,Coalition Against

4Die Verwendung von gef¨alschten E-Mail-Adressen ist nicht unumstritten. Die Diskussion dar¨uber soll hier allerdings nicht gef¨uhrt werden. Ich verweise auf die Mini-FAQ: Falsche E-Mail-Adressen [21].

5Der Fall der Teleinfo AG sorgte im Juli 2004 f¨ur Aufsehen. Einzelheiten k¨onnen unter [22] nachgelesen werden.

6Das Pendant zu ,,Opt-in” ist ,,Opt-out”: Jeder darf jedem Verbraucher solange Werbung zusenden, bis dieser Widerspricht.

(12)

KAPITEL 2. EIND ¨AMMUNG VON SPAM 11

Unsolicited Commercial E-Mail”7, kurz CAUCE, genannt. Diese Organisation hat welt- weite Ableger, so zum Beispiel in Europa EuroCAUCE8. Ein weiterer Zusammenschluss von Spam-Gegnern ist die ,,SpamCon foundation”9.

2.3 Die E-Mail technisch

Um besser verstehen zu k¨onnen, wie man sich gegen Spam sch¨utzen kann, ist es wichtig zu wissen, wie das Versenden von E-Mails genau funktioniert. Ich m¨ochte hier jedoch nur einen kurzen Einblick vermitteln.

Die beste Analogie zur E-Mail ist wohl das Versenden von herk¨ommlicher Post.10 Man kann sagen, dass eine E-Mail einer Postkarte ¨ahnelt, welche in einem Umschlag versendet wird. Der ¨Uberbringer verwendet dabei das SMT-Protokoll (siehe 2.3.1).

Auf diesem Umschlag, dem SMTP-Envelope, wird der Name desjenigen vermerkt, der die Mail auf den Weg gebracht hat – der des ,,Einlieferden”. Ebenso wird der Empf¨anger darauf vermerkt und die eigentliche Mail, also die Postkarte, kommt hinein.11 Auf der Postkarte stehen unter anderem ein Absender, ein Empf¨anger, das Datum und der Be- treff. Diese Angaben ergeben die Kopfzeilen (Header) einer Mail, die zusammen mit der eigentlichen Nachricht (Body) dem Empf¨anger zugestellt werden.

2.3.1 SMTP – Das Protokoll zum Versenden

SMTP ist eine Abk¨urzung und steht f¨ur ,,Simple Mail Transfer Protokoll” [3]. Es beginnt damit, dass der ,,einliefernde” Computer sich bei einem Mailserver12 mit seinem Namen bekanntmacht (als HELO bezeichnet). Dabei kann der auch falsche Angaben machen. Der MTA speichert jedoch die IP-Adresse des Senders. Diese Informationen bleiben nicht nur der ersten ,,Poststelle” bekannt, sondern werden auch in den Kopfzeilen vermerkt. Danach werden weitere f¨ur den Versand relevanten Daten ¨ubertragen (Absender, Empf¨anger) und letztlich die Nachricht an sich (DATA). Danach geht die E-Mail in den Zust¨andigkeitsbe- reich des empfangenden Systems ¨uber.

F¨uhlt sich dieser MTA f¨ur die Auslieferung an den Empf¨anger zust¨andig, so legt er sie in seinem Postfach ab. Dabei entfernt er den SMTP-Envelope. Ist er nicht zust¨andig, leitet

7http://www.cauce.org

8http://www.euro.cauce.org

9http://www.spamcon.org.

10In letzter Zeit auch oft scherzhaft als ,,Snail-Mail” bezeichnet.

11Den Umschlag sieht man nie, da er quasi nur aus den relevanten Informationen zur Zustellung der E-Mail besteht.

12Genauer: MTA – Mail Transport Agent.

(13)

er sie an den zust¨andigen MTA weiter - per SMTP. Dabei tragen alle beteiligten ihre Vermerke ¨uber den Empfang in den Headern ein.

2.3.2 Header – Die Kopfzeilen

M¨ochte man den Weg einer E-Mail nachvollziehen, kann man dies anhand der Kopfzei- len tun. Die Eintragungen k¨onnen jedoch sehr vielseitig sein.13 Da alle Angaben in den Kopfzeilen frei erfunden sein k¨onnen, ist es schwer, verl¨assliche Informationen ¨uber den Absender zu erhalten. Vertraut man den ¨ubermittelnden MTA’s, insbesondere dem, der die E-Mail vom ersten Absender empfangen hat, so hat man die IP-Adresse des Absen- ders. Wurde diese jedoch von einem Einwahl-Provider dynamisch vergeben, so ist ohne dessen Hilfe der Absender nicht ausfindig zu machen. Da die IP-Adresse das einzige ist, worauf man sich verl¨asst, wird sie sp¨ater auch beim Filtern von Spam eine Rolle spielen.

Hingewiesen sein noch einmal darauf, dass die Angaben zum Absender und Empf¨anger ebenso nicht korrekt sein m¨ussen. Insbesondere m¨ussen sie nicht mit dem Angaben im SMTP-Envelope ¨ubereinstimmen. So kommt es vor, dass man E-Mails bekommt, die an- scheinend nicht einmal an einen selbst adressiert sind.

13Einen guten Einstieg bieten die Header-FAQ’s [4].

(14)

Kapitel 3

Abwehr von Spam

3.1 M¨ oglichkeiten der Provider

Als unmittelbares Bindeglied zwischen Spammern und Spam-Opfern stehen die Provider, also die Anbieter von Internetdiensten. Da die Spammer ihre Mails direkt an die Provider ausliefern, kommt diesen beim Kampf gegen Spam auch eine bedeutende Rolle zu.

In den Allgemeinen Gesch¨aftsbedingungen der Provider wird das Versenden von Spam meist untersagt. Wird dagegen verstoßen, merkt das der Provider meist erst dann, wenn sich jemand dar¨uber beschwert.1 Damit sich die Kunden beschweren, m¨ussen sie wissen, was man gegen Spam tun kann und auch sollte. Hier ist zwar jeder Kunde selbst gefor- dert, doch sehe ich auch die Provider bei dieser Aufkl¨arung in der Pflicht. Letztlich muss auch von ihrer Seite konsequent gegen Spammer vorgegangen werden - auch wenn dies ein Interessenskonflikt f¨ur Provider darstellt, da Spammer auch zahlende Kunden sind.

Grundvoraussetzung f¨ur jeden Schutz sind nat¨urlich gut konfigurierte und gewartete Ser- ver. Jeder Provider sollte nur E-Mails zur Auslieferung von seinen eigenen Kunden oder f¨ur seine Kunden entgegennehmen. Ist dies nicht der Fall und kann jeder E-Mails ¨uber diesen Server absenden, so spricht man von einem ,,offenen Relay”. Um nicht ungewollt zu einem solchen offenen Relay zu werden, m¨ussen die Server der Provider einbruchsicher gehalten werden.

3.1.1 Spam-Datenbanken

Provider und ihre Mitarbeiter k¨onnen sich im Kampf gegen Spam gegenseitig helfen. So gibt es mehrere Dienste im Internet, die Listen von spammenden Servern bereitstellen.

1Beschweren kann man sich außer beim Provider selbst zum Beispiel bei europ¨aischem Spam bei der Wettbewerbszentrale (http://www.wettbewerbszentrale.de).

13

(15)

Diese Listen werden von vielen Administratoren gepflegt und genutzen. Privatanwendern stellen die Betreiber der Datenbanken ihre Dienste meist kostenlos zur Verf¨uhgung. Stell- vertretend seien hier die ,,Open Relay Database”2 und ,,Spam and Open Relay Blockin Service”3 genannt. Eine gute ¨Ubersicht ¨uber weitere dieser Datenbanken findet man unter [5].

Ein ¨ahnliches Netz von Usern hat auch ,,Vipul’s Razor” [8]. Es arbeitet jedoch nicht mit IP-Adressen von Servern, sondern generiert Signaturen von E-Mails, die als Spam gemeldet wurden und legt sie in einer Datenbank ab. Jeder kann danach von seinen ein- treffenden Mails mit gleichem Algorithmus eine Signatur erzeugen und mit den Eintr¨agen in der Datenbank vergleichen.

3.1.2 Teergrubing

Um das Ausliefern von Spam zu erschweren, k¨onnen die MTA’s modifiziert werden. Dabei wird der Spammer anhand von online gepflegten Datenbanken (siehe oben) identifiziert und die zum Versenden der E-Mails aufgebaute Verbindung offen gehalten. Dies geschieht mittels Fortsetzungszeilen des SMT-Protokolls 2.3.1. Dabei l¨asst der empfangende MTA den sendenden auf seine Antwort warten. Da ein Server nur maximal 65500 Verbindungen offenhalten kann (meist sind es jedoch weit weniger), wird ihm diese Ressource knapp, wenn er in vielen Teergruben [6] ,,h¨angt”. Der Vorteil dabei ist die Dezentralit¨at der Teergruben: Viele Teergruben k¨onnen mehr Verbindungen zu einem spammenden Server aufrecht erhalten, als dieser verkraftet. Spammende Server schaden sich so quasi selbst.

3.1.3 Tarpitting

Den gleichen Gedanken, die Auslieferung von Spam zu erschweren, verfolgt auch das Tarpitting. Dabei wird der Spammer anhand der Anzahl der zu versendenden Mails iden- tifiziert. Der MTA nimmt nur eine bestimmte Anzahl E-Mails verz¨ogerungsfrei entgegen.

Sollen mehr Mails versendet werden, wird dies durch die Fortsetzungszeilen eine bestimm- te Zeit hinausgez¨ogert. Diese Zeit steigt mit der Anzahl der zu versendenden Mails weiter:

Wer viel E-Mails versenden will muss lange warten - Zeit, die der Spammer aus Rentabi- lit¨atsgr¨unden nicht hat.

2ORDB:http://www.ordb.org

3SORBS:http://us.sorbs.net

(16)

KAPITEL 3. ABWEHR VON SPAM 15

3.2 Filtern von Spam

Sind die Spam-Mails bereits kurz vor der Zustellung in das Postfach des Adressaten, k¨onnen nur noch Filter helfen, das Postfach spamfrei zu halten. Dabei gilt es diverse Fragen zu beantworten um die jeweils passende Technik einzusetzen:

• Wo werden die Mails gefiltert?

• Wer filtert die Mails?

• Wie werden die Mails gefiltert?

• Wer pflegt die Filter?

• Was ist mit dem Datenschutz? Wer ließt meine E-Mails?

• Was passiert mit ausgefilterten Mails?

• Wer finanziert den h¨oheren Aufwand der Mailzustellung?

• . . .

Dabei haben bestimmte Entscheidungen sowohl Vor- als auch Nachteile. Filtert zum Be- spiel der ISP die E-Mails vor der Auslieferung, so spart dies Ressourcen (Downloadtraffic, Festplattenplatz) beim Kunden.4 Allerdings werden falsch erkannte E-Mails dem Kunden auch nicht mehr zugestellt. Das E-Mail-Postfach ist zwar frei von Spam, jedoch w¨urde es vom ISP ,,kontrolliert” werden. Zwischenl¨osungen, wie das Markieren der Spam-Mails durch den ISP, lassen den Ressourcenverbrauchs beim Kunden wieder ansteigen. Filtert hingegen jeder Kunde seine Mails selbst, muss er auch die Pflege und Wartung der Filter

¨

ubernehmen.

Man sieht, dass es auf die Fragen keine generellen Antworten geben kann. Lediglich die Frage der langfristigen Finanzierung scheint l¨osbar: Der Spammer wird die Kosten nicht tragen – es werden die Kunden entweder direkt oder indirekt, ¨uber die Geb¨uhren f¨ur den ISP, den Mehraufwand bezahlen.

3.2.1 Blacklists

Bei Filtern mittels ,,Schwarzer Listen” ist zu Beginn jede E-Mail kein Spam. Sie wird erst zu Spam, wenn sie ein Merkmal aufweist, welches auf der Blacklist vorhanden ist. Da es

4Dabei wird unterstellt, dass der Kunde sich seine E-Mails mittels POP3 dann auf seinen Rechner adt.

(17)

mehrere Merkmale gibt (zum Beispiel die IP-Adresse des Einliefernden, der Absender, der Betreff, etc.), kann man auch auf jedes einzelne filtern. Sehr h¨aufig wird auf die IP-Adresse des Absenders gefiltert. Daf¨ur werden online Datenbanken mit Adressen von Spammern gepflegt (siehe 3.1.1). Werden jedoch vom Spammer Dial-In-Zug¨ange zum Internet ver- wendet, die dynamisch vergeben werden, so ist es dem Kunden, der als n¨achstes diese IP bekommt, quasi unm¨oglich, E-Mails zu versenden: Er kann sie zwar abschicken, jedoch werden sie beim n¨achsten filternden MTA als Spam aussortiert.

Die Pflege der Blacklists erfordert jedoch einiges an Aufwand - sie selbst lokal zu betrei- ben ist meist nicht sehr effizient. Deshalb werden diese Art der Filter h¨aufig vom ISP betrieben.

3.2.2 Whitelists

Ahnlich wie die Blacklists arbeiten die ,,Weißen Listen” auch mit vorher festgelegten¨ Merkmalen der E-Mails. Jedoch ist jede eintreffende E-Mail zu Beginn Spam - es sei denn, sie weist ein bestimmtes Merkmal einer Whitelist auf, welches sie als Ham, also Nicht-Spam, identifiziert. Diese Art der Filter k¨onnen gut lokal eingesetzt werden. Pflegt man sein Adressbuch in seinem Mail-Client, so hat man schon eine Whitelist. Mails von Absendern, die nicht im Adressbuch eingetragen sind, werden separat abgelegt und m¨ussen kontrolliert werden. Wer nur mit einem bestimmten Personenkreis in Kontakt steht, kann sich des Spams auf diese Art schnell entledigen.

Dabei lassen sich auch noch weitere Funktionen in die Whitelist-Filter integrieren. So k¨onnen die Absender der Mails, die nicht als Ham eingestuft worden sind, automatisch generierte Antworten erhalten. In diesen kann dann auf den Filter hingewiesen und Links zum ,,Best¨atigen” der E-Mail k¨onnen angeboten werden. Diese Links lassen die E-Mail dann durch den Filter und sie wird zugestellt. Spammer werden aufgrund gef¨alschter Absender diese ,,Nachfrage-E-Mails” nie erhalten. Kritisch sei bemerkt, dass diese Ver- fahrensweise ein erh¨ohtes Aufkommen von E-Mails und somit eine Mehrbelastung der Systeme bedeutet.

3.2.3 Header- und Body-Analysen

Da es im Header (siehe 2.3.2 und [4]) viele Informationen gibt, k¨onnen diese auch auf ,,Echtheit” und ,,Schl¨ussigkeit” gepr¨uft werden. So l¨asst sich ermitteln, welche MTA’s zu welcher Zeit f¨ur die Zustellung zust¨andig waren – also welchen Weg die E-Mail hinter sich hat. Spammer f¨ugen oft solche Zeilen ein, um unerfahrene Empf¨anger zu t¨auschen. Dabei sind die Zeitstempel jedoch nicht korrekt – was die E-Mail als Spam enttarnt.

(18)

KAPITEL 3. ABWEHR VON SPAM 17

Ebenso eine Filterung auf Grundlage der Header-Zeilen ist die ¨Uberpr¨ufung der angegebe- nen Absenderdomain im HELO: Ist sie keine g¨ultige Domain, wird die E-Mail abgelehnt.

M¨oglich w¨are auch die Pr¨ufung, ob die Domain mit der IP-Adresse ¨ubereinstimmt.

Wer keine Mails mit arabischen oder chinesischen Zeichens¨atzen lesen kann, kann diese anhand von Headerzeilen auch leicht aussortieren. Ein weiteres Beispiel w¨are die Analyse des Subjects: die Anzahl der Grossbuchstaben oder bestimmte W¨orter k¨onnten markante Merkmale f¨ur Spam sein.

Auch die eigentliche Nachricht, der Body einer Mail, beinhaltet Merkmale, die sie als Spam identifizieren. HTML-Mails mit eingebetteten Bildern und vielen Links w¨aren ein Beispiel. Aber auch auf das Auftreten von diversen W¨ortern kann gefiltert werden. An- hand von mehreren W¨ortern kann festgestellt werden, um welche Sprache es sich handelt – sind sie nicht erw¨unscht, werden betroffene E-Mails aussortiert.

Weitere M¨oglichkeiten, die die Analysen von Headern und Body bieten, sind auf der Ho- mepage der Filtersoftware ,,spamassassin” zu finden [9].

3.2.4 Kombinierte Filter und Scoring-Systeme

Werden die E-Mails nach mehreren Merkmalen untersucht, so k¨onnen diese Ergebnisse miteinander kombiniert werden. Dabei wird jedem Merkmal ein bestimmtes Gewicht zu- gewiesen. Anschließend wird aus allen Gewichten und den jeweiligen Auspr¨agungen ein einziger Score-Wert bestimmt. ¨Uberschreitet er einen vom Anwender vorgegeben Wert, so wird die E-Mail als Spam behandelt.

Anstelle von Merkmalen, k¨onnen auch mehrere Filter angewendet werden, deren Ergeb- nisse dann gewichtet zum Score-Wert f¨uhren. Bekanntester Vertreter von Spamsoftware, die mit Scorewerten arbeitet, ist wohl ,,spamassassin” [10]. Diese freie Software ist auch das Kernst¨uck der Filter des bekannten Freemailers GMX [18].

Problematisch ist dabei jedoch die genaue Gewichtung der einzelnen Merkmale – welche Gewichtung ist zum Beispiel dem Auftreten des Wortes ,,urgent” zuzuweisen?

3.2.5 Bayes-Filter

Um das Problem der Scoring-Systeme mit der Zuweisung der Gewichtung zu umgehen, arbeiten Bayes-Filter [11] mit kombinierten bedingten Wahrscheinlichkeiten. Dabei ana- lysiert der Filter bestehende Datenbest¨ande von Spam- und Ham-Mails: Anstatt jedoch Merkmale vorzugeben, liest der Filter die komplette E-Mail als Text ein und z¨ahlt, wie oft ein Wort in Spam- und in Ham-Mails auftaucht. Daraus ergibt sich die Wahrschein- lichkeit f¨ur eine Mail, die nur dieses Wort beinhaltet, Spam zu sein. Da E-Mails mehrere

(19)

Worte beinhalten, m¨ussen diese Wahrscheinlichkeiten miteinander kombiniert werden.5 Man erh¨alt somit die genaue ,,Spam-Wahrscheinlichkeit”.

Vorteilhaft ist, dass Wortneusch¨opfungen wie ,,V1agra” oder ,,Cl!ick” automatisch ber¨uck- sichtigt werden. Auch macht die Analyse keinen Unterschied zwischen Header und Body oder HTML- und ASCII-Mails. Somit werden zum Bespiel viele externe Links ¨uber die W¨orter ,,http” oder ,,href” ber¨ucksichtigt.

Diese Art des Filterns ben¨otigt jedoch einen gepflegten Bestand an Spam- und Ham-E- Mails und eignet sich somit sehr gut f¨ur lokale Filter im Mailprogramm des Anwenders.

Implementiert ist der Bayes-Filter zum Beispiel in MozillaMail [13]. Andere Filter sind unter [12] aufgef¨uhrt.

3.2.6 Filtern mit KNN’s

KNN steht f¨ur ,,K¨unstliche Neuronale Netze” und ist ein Versuch, das menschliche Ner- vensystem abzubilden. Dabei soll das Modell folgende Eigenschafen eines Gehirns ¨uber- nehmen [14]:

• Lernf¨ahigkeit

• Generalisierung

• Anpassungsf¨ahigkeit

• Robustheit

Ein KNN besteht aus vielen kleinen Neuronen, die miteinander durch gewichtete Verbin- dungen ein Netz aufspannen. Jedes Neuron hat mehrere Ein- und einen Ausgang ¨uber die Signale gesendet oder empfangen werden. Als Eingang dienen zuvor festgelegte Merkmale der E-Mails. Aus allen Signaleing¨angen wird durch eine Aktivierungsfunktion bestimmt, ob das Neuron aktiv wird und das Ausgangssignal anliegt. Als Ergebnis im Zusammen- spiel vieler solcher Neuronen – also eines KNN – erh¨alt man in der Ausgabe einen Wert, der die Entscheidung des Netzes zur gegebenen Eingabe liefert.

Ein KNN wird mittels eines gepflegten Datensatzes an Spam- und Ham-E-Mails trainiert, d. h. es wird zu jeder E-Mail mitgeteilt, um was es sich handelt. Dabei werden die ein- zelnen Gewichte der Verbindungen bestimmt, um die E-Mails des Trainingsdatensatzes korrekt in Spam und Ham unterteilen zu k¨onnen.

Einem derart trainierten KNN ist es danach m¨oglich, auch E-Mails, die es nicht kennt, einzuordnen.

5ur die genaue Herleitung empfiehlt sichhttp://www.mathpages.com/home/kmath267.htm.

(20)

Kapitel 4 Schlusswort

Filter werden das Problem Spam wohl nicht l¨osen k¨onnen. Allenfalls eine Linderung des Problems ist durch sie zu erreichen. Sehr ¨argerlich sind nat¨urlich E-Mails, die aufgrund von Filtern den Empf¨anger nicht erreichen – und der Absender bekommt davon nichts mit.

Wer nicht all zuviel Spam bekommt, f¨ur den lohnt meist der Aufwand zur Implemen- tierung und Pflege eines lokalen Filters nicht. Es gibt aber auch gen¨ugend kostenlose Angebote1, die das Filtern ¨ubernehmen – man zahlt jedoch den Preis, eventuell falsch erkannte E-Mails nie zu bekommen.

Solange es Menschen gibt, die die in Spam beworbenen Produkte konsumieren, wird es Anbieter geben, die Spam f¨ur ihr ,,Direktmarketing” einsetzen und den Spammer bezah- len. Das heißt, solange es sich f¨ur die Spammer lohnt, massenhaft E-Mails zu verschicken, wird er nicht aufh¨oren. Fazit:

Spammen darf sich nicht lohnen!

1Fast alle kostenlosen E-Mail-Anbieter haben Filtertechniken implementiert. Kostenlose Filterung oh- ne E-Mail-Account bekommt man zum Beispiel bei E1even (http://www.spamfence.net) oder bei De- spammed (http://www.despammed.com).

19

(21)

[1] Gemeinsamer Standpunkt des Rates im Hinblick auf den Erlass der Richtlinie des Europ¨aischen Parlamentes und des Rates ¨uber die Verarbeitung personenbezogener Daten und den Schutz der Privatsph¨are in der elektronischen Kommunikation, Rat der Europ¨aischen Union, 15396/02.

[2] Einen guten ¨Uberblick ¨uber M¨oglichkeiten, sich juristisch gegen Spam zur Wehr zu setzen, bietethttp://www.dr-ackermann.de/spam/.

[3] Der RFC f¨ur SMTP ist 821, zu finden unter: http://www.faqs.org/rfcs/.

[4] FAQ E-Mail-Header lesen und verstehen, zu finden unter:

http://www.th-h.de/faq/headerfaq.html

[5] DNS-basierte Spam Datenbanken:

http://www.declude.com/junkmail/support/ip4r.htm

[6] Teergruben-FAQ:

http://www.iks-jena.de/mitarb/lutz/usenet/teergrube.html

[7] Brightmail Inc., San Francisco, http://www.brightmail.com [8] Vipul’s Razor, http://razor.sourceforge.net

[9] Die Analysen, die die Filtersoftware spamassassin auf Header oder Body anwenden sind zu finden unter:http://www.spamassassin.org/tests.html.

[10] Homepage von Spamassassin: http://www.spamassassin.org

[11] Bekannteste Seite f¨ur Bayes-Filter: http://www.paulgraham.com/spam.html [12] Software, die Bayes-Filter nutzt:http://www.paulgraham.com/filters.html [13] Bayes-Filter in Mozilla’s Mailclient:

http://www.mozilla.org/mailnews/spam.html

20

(22)

LITERATURVERZEICHNIS 21

[14] Diplomarbeit von Matthias Alexander Rupp: Konzepte und Abwehr unerbetener E-Mails (Spams), Integration eines Filters in ein bestehendes Mailsystem, Oktober 2002, Universit¨at Ulm

[15] NUA.com Internet Surveys By Category,

http://www.nua.ie/surveys/how-many-online/index.html(01.10.2003) [16] NielsenNetRatings,

http://www.nielsen-netratings.com/news.jsp?section=dat gi (01.10.2003) [17] Meldung aus n-tv,

http://www.n-tv.de/3161893.html (18.06.2003) [18] Heise online News,

http://www.heise.de/newsticker/data/hob-13.05.03-000/ (26.06.2003) [19] ,,Population Explosion!”,

http://cyberatlas.internet.com/big picture/...

...geographics/aricle/0.1323.5911 151151.00.html (02.10.2003) [20] Silion.com - Industry react to email diet of 50 per cent . . . ,

http://swww.silicon.com/news/165/14/4460.html (08.07.2003) [21] Mini-FAQ: Falsche E-Mail-Adressen,

http://www.doberstein.com/spam/falsche-email-adressen.html (08.07.2003) [22] Pressemitteilung von Daniel Rehbein bzgl. der Spam-Aussendung von Teleinfo,

http://rehbein.net/teleinfo.html

[23] Dieter B¨ar, DUDEN - Das große Fremdw¨orterbuch, 2. Auflage, Dudenverlag 2000

Abbildung

Abbildung 1.1: SPAM, Dosenfleisch der Hormel Food Cooperation
Abbildung 1.2: Spamaufkommen, gemessen von Brightmail
Abbildung 1.3: Spam-,,Themen” im Juni 2003
Abbildung 1.4: Gesch¨ atzte Spamentwicklung

Referenzen

ÄHNLICHE DOKUMENTE

Seit dem Wintersemester 96/97 brauchst Du für die Benutzung der Ausbildungsrechner in den EDV-Subzentren unbedingt einen persönlichen Benutzernamen (ein sog. Account

(Al le Netzdienstleistungen b ieten keine Herstellerunabhängigkeit, und Bildschirmtext wird als Dienst erst 1 984 eingefüh rt werden.) Die Herstellerunabhängigkeit

Editorial Vor zehn Jahren wusste ich von Internet noch nichts und bin fast der irrigen Meinung erlegen, dass ich mein restliches Leben auch ohne Com- putertechnologie

Concast – ein Empfänger einer Gruppe von Sendern Multicast – ein Sender an eine Gruppe von Empfängern Multipeer – eine Sendergruppe an eine Empfängergruppe Anycast

teilnehmende Zombie-PCs hatte jüngst das sehr aktive Botnetz „Rustock“... Wer sind

Würden Sie also 50€ einzahlen, würden Sie von uns zusätzliche 100€ gratis erhalten, das heißt, Sie würden Ihre Reise im Bet2day mit einem Kontostand von 150€ beginnen.

Nun h¨ atte ein bloßer Hinweis auf dieses fehlende Mittelglied das Problem der betreffenden ProbandInnen kaum gel¨ ost (bekanntermaßen erwiesen sich diese in den Interviews als

Zugleich sind diese hohen Korrelationen ein weiterer Beleg dafür, dass problematische Aspekte der neuen Medien am Arbeitsplatz als neuartige Stressoren wirken können.. Eine