Auswahl der Merkmale - Website-Klassifikation

2.4 Website-Klassifikation

2.4.1 Auswahl der Merkmale

Es werden sowohl strukturelle als auch textuelle Merkmale verwendet. W¨ ah-rend einige Kategorien durch ihre besonderen strukturellen Eigenschaften bestimmt werden k¨onnen, kann bei anderen Klassen aufgrund der strukturel-len Eigenschaften noch keine Entscheidung getroffen werden. Bei der Klas-sifikation basierend auf strukturellen Merkmalen werden einfache Heuristi-ken verwendet. Bei der textuellen Kategorisierung wird dieNaive Bayes’sche Klassifikationsmethode eingesetzt.

2.4.1.1 Strukturelle Merkmale

Jede Website-Kategorie hat eigene Eigenschaften. Dazu geh¨oren auch die strukturelle Eigenschaften. Es k¨onnen sehr viele strukturrelevante Merkmale aus der Einstiegsseite gefunden werden. Die Merkmale sollen aber aussage-kr¨aftig sein. F¨ur die Klassifikation der Websites werden f¨ur unseren Zweck die folgenden strukturellen Merkmale betrachtet:

• Strukturelle Merkmale

- Anzahl der Subdomains der Links - Anzahl der internen Links

- Anzahl der externen Links

- Durchschnittliche Pfadanzahl von internen Links - L¨ange der internen Anchor-Texte

- L¨ange der jeweiligen Meta-Daten der Meta-Keywords und -Besch-reibung, des Meta-Copyrights, -Authors und -Publishers

- L¨ange des Body-Textes

- Verh¨altnis der Anzahl von internen und externen Links - Verh¨altnis von Bildern und internen Links

- Verh¨altnis der L¨ange der internen Anchor-Texte zur Textl¨ange Ist eine URL gegeben, dann wird zuerst nach der Einstiegsseite, d.h. Home-page, gesucht. Dort werden alle strukturellen Merkmale bestimmt.

Subdomains werden durch die Analyse der internen Links, die auf der Ein-stiegsseite zu finden sind, erkannt. Dabei wird der im Abschnitt 2.1.1 etablier-te regul¨are Ausdruck genutzt. Er zerlegt die URLs in Teile mit semantischem Gehalt. Nachdem der Host-Teil einer URL identifiziert wurde, wird er durch das DNS-System zerlegt. Die Subdomains sind somit die Teile, welche links der SLD vorkommen.

Akademische Websites zeichnen sich oft durch viele Subdomains aus, w¨ahrend Firmen-Websites kaum oder sehr wenige Subdomains haben. Von den Sub-domains auf Firmen-Websites ist oft nur die Informationsseite relevant, wie die Subdomain

”impressum“ der SLD

”adeos“. Akademische Subdomains verweisen oft auf separate Webserver.

Links und Abbildungen werden aus den entsprechenden HTML-Tags ex-trahiert. Informations-Sites haben oft sehr viele externe Links (hinweisende Informations-Sites) oder sehr lange Texte (inhaltliche Informations-Sites).

Shopsites sind oft mit vielen Abbildungen ausgestattet und das Verh¨altnis der Abbildungen zu den internen Links ist sehr hoch.

Meta-Daten sind oft bei einer Firma zu finden, w¨ahrend sie bei einer Privat-Site selten angegeben werden. Die L¨ange der Meta-Daten einer Informations-Site oder einer Shopping-Informations-Site ist oft sehr groß.

2.4.1.2 SLD als erster Hinweis

Die URL spielt bei verschiedenen Web-Mining-Aufgaben eine wichtige Rolle.

Kavalec & Sv´atek (2002) [73] haben z.B. URLs f¨ur die Erstellung einer Onto-logie benutzt. Dabei haben sie die Pfadstruktur analysiert. Falls die niedrigen Pfade den gleichen Elternpfad haben, dann geh¨oren sie zu derselben Klasse.

Devi & Selvakuberan (2005) [33] haben URLs zur Webseitenkategorisierung verwendet. Sie haben daf¨ur URLs in ihre inhaltstragenden Teile zerlegt.

Obwohl sie nur die drei Kategorien

”Student, Project, Faculty“ der Uni-Webseiten in Betracht gezogen haben, k¨onnten sie zeigen, dass die Analyse der URLs auf bestimmten Bereichen bei der Kategorisierung von Webseiten konkurrenzf¨ahig ist.

Auch bei unserer Klassifizierung der Websites wird dieser Hinweis genutzt.

Aus der Sicht des Domain-Inhabers ist es wahrscheinlich, dass er einen m¨ og-lichst zutreffenden Namen f¨ur sich selbst aussuchen wird.

Dies ist auch f¨ur eine Branche der Fall. Z.B. haben viele Universit¨aten

”uni“

in ihren SLDs;

”uni-muenchen, uni-ulm, uni-dortmund, ...“. Nachdem die URL in ihre inhaltstragenden Teile segmentiert wurde, wird nach der m¨ og-lichen Branchenkennzeichnung gesucht.

Diese kann jedoch nicht als ein fester Beweis f¨ur eine Kategorie angesehen werden, da etwa mit der Silbe

”uni“ auch andere Namen zusammengesetzt werden k¨onnen, z.B.: http://www.uni-sex.info/.

Eine gut segmentierte SLD kann einen starken Hinweis f¨ur eine Kategorie liefern. Aber dieser Hinweis muss mit den anderen Merkmalen kombiniert werden, um eine endg¨ultige Entscheidung zu treffen.

2.4.1.3 Textuelle Merkmale

Pierre (2001) hat betont, dass Meta-Informationen gute Indizien f¨ur die Klas-sifikation von Websites liefern k¨onnen. Auch Golub & Ard¨o (2005) [56] und Fathi et al. (2004) [45] betrachten die Meta-Daten bei der Webdokument-klassifikation als wichtigen Faktor.

Meta-Daten wie

”Keywords“ oder

”Beschreibung“ (

”description“) enthalten oft die relevantesten Informationen zu Domain-Namen. Aus diesen Gr¨unden sind Meta-Ddaten ein gutes Indiz f¨ur die Kategorisierung einer Website.

Auch der

”Titel“ spielt eine wichtige Rolle bei einem Webauftritt. Oft bein-haltet der Titel einer Website den Namen des Betreibers. Zwischen Domain-Namen und Titel verbirgt sich oft eine Kongruenz. So ist die Relation zwi-schen dem Titel

”BMW Deutschland“ und der Website

”http://www.bmw.

de/“ sichtbar.

”Anchor-Texte“ sind nicht nur bei der bin¨aren Klassifikation einer Website wie bei Bsiri (2007), sondern auch in vielen anderen Bereichen, wie Such-maschinentechniken, gewichtet. Sie sind meistens stichwortartig und daher f¨ur den Charakter einer Website besser geeignet. Selbst Amitay et al. (2003) erw¨ahnen, dass die Klassifikation ¨uber Hypertexte wie

”shopping cart“ f¨ur Shopping-Sites bessere Ergebnisse liefern kann.

Insgesamt werden die folgenden textuellen Merkmale f¨ur die Naive Bayes’sche Klassifikation verwendet:

• Textuelle Merkmale - Titel

- Meta-Keywords - Meta-Beschreibung

- Meta-Copyright, -Author und -Publisher - Anchor-Texte

Bei den textuellen Merkmalen muss eine Stoppwortliste verwendet werden, um eine reine Textmenge zu bilden. Stoppw¨orter wie

”hier, weiter, home, up, oben, ...“ sind wenig relevant, um eine Website zu charakterisieren. Aus diesem Grund wurde eine Stoppwortliste aus den Trainingsdaten zusammen-gestellt.

Im Dokument Website-Klassifikation und Informationsextraktion aus Informationsseiten einer Firmenwebsite - Centrum für Informations- und Sprachverarbeitung - LMU Munich (Seite 47-50)