2.4 Website-Klassifikation
2.4.1 Auswahl der Merkmale
Es werden sowohl strukturelle als auch textuelle Merkmale verwendet. W¨ ah-rend einige Kategorien durch ihre besonderen strukturellen Eigenschaften bestimmt werden k¨onnen, kann bei anderen Klassen aufgrund der strukturel-len Eigenschaften noch keine Entscheidung getroffen werden. Bei der Klas-sifikation basierend auf strukturellen Merkmalen werden einfache Heuristi-ken verwendet. Bei der textuellen Kategorisierung wird dieNaive Bayes’sche Klassifikationsmethode eingesetzt.
2.4.1.1 Strukturelle Merkmale
Jede Website-Kategorie hat eigene Eigenschaften. Dazu geh¨oren auch die strukturelle Eigenschaften. Es k¨onnen sehr viele strukturrelevante Merkmale aus der Einstiegsseite gefunden werden. Die Merkmale sollen aber aussage-kr¨aftig sein. F¨ur die Klassifikation der Websites werden f¨ur unseren Zweck die folgenden strukturellen Merkmale betrachtet:
• Strukturelle Merkmale
- Anzahl der Subdomains der Links - Anzahl der internen Links
- Anzahl der externen Links
- Durchschnittliche Pfadanzahl von internen Links - L¨ange der internen Anchor-Texte
- L¨ange der jeweiligen Meta-Daten der Meta-Keywords und -Besch-reibung, des Meta-Copyrights, -Authors und -Publishers
- L¨ange des Body-Textes
- Verh¨altnis der Anzahl von internen und externen Links - Verh¨altnis von Bildern und internen Links
- Verh¨altnis der L¨ange der internen Anchor-Texte zur Textl¨ange Ist eine URL gegeben, dann wird zuerst nach der Einstiegsseite, d.h. Home-page, gesucht. Dort werden alle strukturellen Merkmale bestimmt.
Subdomains werden durch die Analyse der internen Links, die auf der Ein-stiegsseite zu finden sind, erkannt. Dabei wird der im Abschnitt 2.1.1 etablier-te regul¨are Ausdruck genutzt. Er zerlegt die URLs in Teile mit semantischem Gehalt. Nachdem der Host-Teil einer URL identifiziert wurde, wird er durch das DNS-System zerlegt. Die Subdomains sind somit die Teile, welche links der SLD vorkommen.
Akademische Websites zeichnen sich oft durch viele Subdomains aus, w¨ahrend Firmen-Websites kaum oder sehr wenige Subdomains haben. Von den Sub-domains auf Firmen-Websites ist oft nur die Informationsseite relevant, wie die Subdomain
”impressum“ der SLD
”adeos“. Akademische Subdomains verweisen oft auf separate Webserver.
Links und Abbildungen werden aus den entsprechenden HTML-Tags ex-trahiert. Informations-Sites haben oft sehr viele externe Links (hinweisende Informations-Sites) oder sehr lange Texte (inhaltliche Informations-Sites).
Shopsites sind oft mit vielen Abbildungen ausgestattet und das Verh¨altnis der Abbildungen zu den internen Links ist sehr hoch.
Meta-Daten sind oft bei einer Firma zu finden, w¨ahrend sie bei einer Privat-Site selten angegeben werden. Die L¨ange der Meta-Daten einer Informations-Site oder einer Shopping-Informations-Site ist oft sehr groß.
2.4.1.2 SLD als erster Hinweis
Die URL spielt bei verschiedenen Web-Mining-Aufgaben eine wichtige Rolle.
Kavalec & Sv´atek (2002) [73] haben z.B. URLs f¨ur die Erstellung einer Onto-logie benutzt. Dabei haben sie die Pfadstruktur analysiert. Falls die niedrigen Pfade den gleichen Elternpfad haben, dann geh¨oren sie zu derselben Klasse.
Devi & Selvakuberan (2005) [33] haben URLs zur Webseitenkategorisierung verwendet. Sie haben daf¨ur URLs in ihre inhaltstragenden Teile zerlegt.
Obwohl sie nur die drei Kategorien
”Student, Project, Faculty“ der Uni-Webseiten in Betracht gezogen haben, k¨onnten sie zeigen, dass die Analyse der URLs auf bestimmten Bereichen bei der Kategorisierung von Webseiten konkurrenzf¨ahig ist.
Auch bei unserer Klassifizierung der Websites wird dieser Hinweis genutzt.
Aus der Sicht des Domain-Inhabers ist es wahrscheinlich, dass er einen m¨ og-lichst zutreffenden Namen f¨ur sich selbst aussuchen wird.
Dies ist auch f¨ur eine Branche der Fall. Z.B. haben viele Universit¨aten
”uni“
in ihren SLDs;
”uni-muenchen, uni-ulm, uni-dortmund, ...“. Nachdem die URL in ihre inhaltstragenden Teile segmentiert wurde, wird nach der m¨ og-lichen Branchenkennzeichnung gesucht.
Diese kann jedoch nicht als ein fester Beweis f¨ur eine Kategorie angesehen werden, da etwa mit der Silbe
”uni“ auch andere Namen zusammengesetzt werden k¨onnen, z.B.: http://www.uni-sex.info/.
Eine gut segmentierte SLD kann einen starken Hinweis f¨ur eine Kategorie liefern. Aber dieser Hinweis muss mit den anderen Merkmalen kombiniert werden, um eine endg¨ultige Entscheidung zu treffen.
2.4.1.3 Textuelle Merkmale
Pierre (2001) hat betont, dass Meta-Informationen gute Indizien f¨ur die Klas-sifikation von Websites liefern k¨onnen. Auch Golub & Ard¨o (2005) [56] und Fathi et al. (2004) [45] betrachten die Meta-Daten bei der Webdokument-klassifikation als wichtigen Faktor.
Meta-Daten wie
”Keywords“ oder
”Beschreibung“ (
”description“) enthalten oft die relevantesten Informationen zu Domain-Namen. Aus diesen Gr¨unden sind Meta-Ddaten ein gutes Indiz f¨ur die Kategorisierung einer Website.
Auch der
”Titel“ spielt eine wichtige Rolle bei einem Webauftritt. Oft bein-haltet der Titel einer Website den Namen des Betreibers. Zwischen Domain-Namen und Titel verbirgt sich oft eine Kongruenz. So ist die Relation zwi-schen dem Titel
”BMW Deutschland“ und der Website
”http://www.bmw.
de/“ sichtbar.
”Anchor-Texte“ sind nicht nur bei der bin¨aren Klassifikation einer Website wie bei Bsiri (2007), sondern auch in vielen anderen Bereichen, wie Such-maschinentechniken, gewichtet. Sie sind meistens stichwortartig und daher f¨ur den Charakter einer Website besser geeignet. Selbst Amitay et al. (2003) erw¨ahnen, dass die Klassifikation ¨uber Hypertexte wie
”shopping cart“ f¨ur Shopping-Sites bessere Ergebnisse liefern kann.
Insgesamt werden die folgenden textuellen Merkmale f¨ur die Naive Bayes’sche Klassifikation verwendet:
• Textuelle Merkmale - Titel
- Meta-Keywords - Meta-Beschreibung
- Meta-Copyright, -Author und -Publisher - Anchor-Texte
Bei den textuellen Merkmalen muss eine Stoppwortliste verwendet werden, um eine reine Textmenge zu bilden. Stoppw¨orter wie
”hier, weiter, home, up, oben, ...“ sind wenig relevant, um eine Website zu charakterisieren. Aus diesem Grund wurde eine Stoppwortliste aus den Trainingsdaten zusammen-gestellt.