• Keine Ergebnisse gefunden

2.4 Website-Klassifikation

2.4.3 Experimentelle Evaluation

sondern bestehen großenteils aus Stichworten und Auflistungen. Lediglich einige Anchor-Texte wie

”Uber uns“ oder¨

”Rechtliche Hinweise“ und Meta-Beschreibungen k¨onnen eine Rolle spielen. Trotz dieser sinnvollen N-Gramm-Ausdr¨ucke kann die Bildung von N-Grammen aus allen textuellen Merkma-len sehr viele irrsinnige Ausdr¨ucke produzieren. Deshalb wird die N-Gramm-Strategie hier nicht weiter verfolgt.

Morphologische Merkmale wie Plural oder Kasus spielen bei den ge-w¨ahlten textuellen Merkmalen nur eine untergeordnete Rolle. Eine m¨ogliche Optimierung w¨are die Normalisierung morphologischer Varianten wie

” Kon-takt“ und

”Kontakte“, die als Anchor-Texte gleichbedeutend sind. Die Nor-malisierung solcher Variationen k¨onnen die Wahrscheinlichkeit f¨ur eine Klasse erh¨ohen. Diese Arbeit wurde nicht gemacht, weil daf¨ur linguistische Mittel ben¨otigt werden.

Meta-Copyright, L¨ange von Meta-Author, L¨ange von Meta-Publisher, An-zahl interner Links, AnAn-zahl externer Links, L¨ange des Texts, L¨ange interner Anchor-Texte, L¨ange externe Anchor-Texte, Anzahl von Img-Tags und An-zahl von Subdomains.

http://www.heltech.de

7, 39, 0, 0, 0, 0, 0, 1, 0, 10, 10, 0, 1, 0

Wie das Beipiel zeigt, gibt es keine Meta-Daten f¨ur eine nicht aktive Website.

Es gibt nur einen internen Link. Die Website ist zur Zeit nur f¨ur eine Internet-Pr¨asenz reserviert.

Eine Website wurde falsch als

”Privat-Site“ klassifiziert. Die strukturellen Merkmale sind unten aufgelistet.

http://www.doctorand.de

9, 9, 0, 0, 0, 0, 0, 0, 1, 149, 0, 37, 1, 0

Von den Merkmalen her ist die Site eine typische Privat-Site. Sie hat keine Meta-Daten, nur einen externen Link und einen Image-Tag. Selbst bei ma-nueller Inspektion ist sie nicht leicht zu klassifizieren. Sie k¨onnte entweder als

”Informations-Site“ oder

”Forum“, d.h.

”Privat-Site“, klassifiziert werden.

Zwei Websites aus

”Organisation“ stammen von politischen Parteien. Sie werden haupts¨achlich durch die SLD-Analyse klassifiziert. Ein Beispiel:

http://www.cdu-walluf.de

10, 38, 43, 60, 26, 12, 26, 3, 0, 48, 26, 0, 0, 0 W¨ahrend des Experiments ergab sich, dass

”Organisations-Sites“ viele Merk-male mit

”Firmen-Websites“ teilen. Sie haben Meta-Daten, gewisse interne Links und Anchor-Texte. Ohne die Analyse der SLD ist die Entscheidung f¨ur

”Organisation“ sehr schwer gefallen. Zur Analyse der SLD f¨ur die deutsche

”Organisation“ wurden bislang 15 typische Organisationsbezeichnungen auf-genommen. Es ist aber zu bemerken, dass aufgrund der Analyse der SLD keine Entscheidung f¨ur die Klasse getroffen werden kann. Es m¨ussen gewisse strukturelle Merkmale f¨ur eine Klasse berechnet werden, um sie als solche klassifizieren zu k¨onnen.

F¨unf Websites wurden als

”Informations-Site“ klassifiziert. Eine davon war falsch. Ihre Merkmale sind unten angegeben.

http://www.schaper-apartment.de

17, 58, 1954, 309, 0, 17, 17, 74, 2, 8624, 2163, 48, 2, 0

Die Merkmale sind typisch f¨ur eine Informations-Site: Viele Meta-Keywords, ein langer Body-Text, sehr viele interne Links und sehr viele Anchor-Texte.

Bei manueller Inspektion ergab sich, dass die Site eine Sammelangebots-Site f¨ur Apartment-Hotels ist.

Zwei Websites wurden als

”Shopping-Site“ klassifziert, davon war eine falsch.

Die Merkmale sind unten zu sehen.

http://www.atv-touren.de

10, 14, 0, 0, 0, 0, 0, 69, 0, 4890, 1075, 0, 231, 0

Wie die Daten zeigen, hat die Site viele interne Links und Anchortexte.

Außerdem hat die Anzahl der Image-Tags bei der Entscheidung eine große Rolle gespielt, so dass die Site eher eine Informations-Site ist.

Alle andere 47 Sites wurden als

”Firmen-Site“ klassifiziert. Davon waren vier Sites falsch klassifiziert. Drei Websites sind eine

”Organisation“ und eine Site eine

”Informations-Site“. Wie schon erw¨ahnt, ist die Entscheidung f¨ur

”Organisation“ nicht einfach, weil diese Sites oft fast die gleichen struktu-rellen Merkmale wie

”Firmen-Websites“ aufweisen. Auch die Merkmale der Informations-Site waren sehr ¨ahnlich zu jenen der

”Firmen-Site“. Hierf¨ur werden drei Beispiele angegeben. Das erste ist eine Firmen-Site, das zweite ist vom Typ

”Organisation“ und das letzte ist

”Information“.

http://www.abbruch-hipp.de

12, 54, 581, 44, 12, 18, 24, 4, 0, 155, 27, 0, 0, 0

http://www.astronomie-in-berlin.de 20, 23, 691, 54, 13, 13, 13, 5, 0, 96, 34, 0, 0, 0

http://www.zentrum-pfaelzerwald.de

20, 115, 236, 195, 0, 37, 37, 4, 0, 562, 27, 0, 0, 0

Wie diese Beispiele zeigen, weisen alle drei Sites fast die gleichen strukturellen Merkmale auf: Sie haben alle Meta-Daten, gewisse Interne Links und Anchor-Texte. So wurden sie alle als

”Firmen-Website“ klassifiziert.

Nachdem alle F¨alle der Klassifikation durch die strukturellen Merkmale ver-anschaulicht wurden, muss einger¨aumt werden, dass die Trainingsdaten nicht objektiv gew¨ahlt wurden. Dies liegt daran, dass viele zug¨angliche Websites offizielle Websites sind. Daher wurden nur wenige Privat-Websites aufge-nommen. Dadurch wurde die strukturelle Evaluation der Privat-Sites nicht gerecht durchgef¨uhrt. Dies gilt auch f¨ur die

”Gesundheits-Sites“.

Die Evaluation des Klassifikationssystems mit strukurellen Merkmalen wird durch Pr¨azision und Recall durchgef¨uhrt. Es muss angenommen werden, dass der Recall nicht als entscheidender Faktor f¨ur das System bewertet werden soll. Eher ist die Pr¨azision ein Entscheidungsfaktor. Der Sinn der struktu-rellen Merkmale liegt f¨ur das System darin, schnell eine hohe Pr¨azision zu erzielen.

Von allen Websites waren sechs Sites falsch. Das sind 10%. Die Pr¨azision liegt damit bei 90%. Der Recall liegt dann bei 100∗54/102 = 52,94%.

2.4.3.2 Klassifikation mit textuellen Merkmalen

Das System mit den strukturellen Merkmalen klassifizierte 42 Websites nicht.

Diese wurden aber durch die

”Naive Bayes’sche Klassifikation“ klassifiziert.

Zwei Websites wurden korrekt als

”Organisation“ klassifiziert.

Sechs Websites wurden als

”Information“ klassifiziert. Davon waren drei Websites ein Gemeindeverein. Die falsche Klassifizierung ist auf die Gemein-deinformationen zur¨uckzuf¨uhren. Eine Website war eine

”Firmen-Website“.

Sie hat auf der Startseite sehr wenige Meta-Daten und Anchor-Text und war die Site f¨ur ein Musikgesch¨aft.

Alle anderen Websites wurden als

”Firmen-Site“ klassifiziert. Davon waren drei Websites falsch klassifiziert. Zwei Sites waren eine

”Organisation“ und eine war eine

”Information“.

Somit liegt die Pr¨azision der

”Naive Bayes’s Klassifikation“ bei 100∗36/42 = 85%.

2.4.3.3 Gesamte Bewertung des Systems

Insgesamt wird das System anhand 102 Websites durch die Pr¨azision bewer-tet, wie es bei der Klassifizierung ¨ublich ist. Die Pr¨azision liegt bei 100∗(54 + 36)/102 = 88,23%.

Das System hat gezeigt, dass eine Einstiegsseite einer Website alle m¨oglichen Merkmale f¨ur die Website-Klassifikation liefern kann.

Zum Schluss muss allerdings einger¨aumt werden, dass das System aufgrund der gew¨ahlten Trainings- und Test-Daten, die ¨uberwiegend aus Firmen-Web-sites bestehen, nicht uneingeschr¨ankt auf die andere Test-Daten ¨ubertragen werden kann.

Aber gerade diese Tatsache l¨asst auch vermuten, dass das System mit erwei-terten Trainingsdaten besser ¨ubertragbar sein wird. Insbesondere liefern die strukturellen Merkmale auf der Homepage einer Site wertvolle Indizien f¨ur die Charakterisierung einer Website.

Firmen-Homepages

Eine Firmen-Homepage zeichnet sich durch syntaktische und semantische Besonderheiten aus. Eine gut strukturierte Firmen-Homepage verf¨ugt ¨uber einen erkennbaren Aufbaustil und spezielle semantische Eigenschaften.

Websites und -seiten k¨onnen von verschiedenen Personen oder Gruppen er-stellt werden. Danach kann jede Webseite verschieden organisiert werden.

Der Zweck des Webauftritts ist jedoch die Pr¨asentaion ¨uber sich selbst. Das ist besonders bei einer Firmenwebseite der Fall.

Eine Firma, die sich f¨ur einen Webauftritt entschieden hat, ¨uberlegt sich auch, wie sie sich selbst am besten pr¨asentieren kann. Diese ¨Uberlegungen haben dazu beigetragen, dass eine Firmen-Homepage strukturell und fachse-mantisch weitgehend ¨ahnlich gestaltet wird.

In der Regel bekommt eine Firmen-Homepage einen besonderen Status, da sie die Einstiegsseite eines Webauftritts ist. Deshalb m¨ussen die wesentli-chen Informationen und weiterf¨uhrende Hinweise auf alle weiteren Webseiten sichtbar gemacht werden, um den Besuchern einen m¨oglichst guten Eindruck vermitteln zu k¨onnen.

Des Weiteren bringen viele Firmen Meta-Informationen wie Meta-Keywords oder Meta-Beschreibungen h¨aufiger in die Homepage als in die anderen Web-seiten wie Kontakt- oder Impressumseite ein. Die Statistik in Abbildung 3.1 zeigt die allgemeine Verteilung der Meta-Daten, die in Firmen-Homepages zu finden sind.

Die Informationen von den Meta-Daten in Abbildung 3.1 sind insbesondere f¨ur die Website-Klassifikation und Firmennamenerkennung relevant.

Meta-Firmen-Url

Meta-Keywords

Meta-De-scription Meta-Author

Meta-Copy-right

Meta- Publis-0

500 1000 1500 2000

2500 2214 Metadaten-Statistk

1323 1277

1013

623 549

her

Abbildung 3.1: Statistik zur Verteilung der Metadaten auf Homepages Keywords und -Beschreibungen werden bei der Naiven Bayes’schen Klas-sifikation genutzt, w¨ahrend

”Meta-Copyright, -Author, -Publisher“ f¨ur die Erkennung des Firmennamens relevant sind.

Abgesehen von Werbe- und firmenexternen Texten wie Pressemitteilungen lassen sich die Daten auf einer Firmen-Homepage in vier Abschnitte grup-pieren.

• Daten auf Firmen-Homepage - Titel

- Meta-Informationen: Schl¨usselw¨orter, Beschreibung, Urheber-recht, Autor, Herausgeber, ...

- Anchor-Texte: Firmenprofil, Produkte, Stellenangebote, Kon-taktinformation, Rechtliche Hinweise, Referenzen, Kundenservice, ...

- Body-Text: Willkommenstexte, Firmenprofil, ...