CRAWL-LEXIKA 65 - Methoden der lexikalischen Nachkorrektur OCR-erfasster Dokumente

Abbildung 4.5: Crawler-Architektur.

einer Information aufzeichnen m¨ochte, die auf einer Web-Seite zeitlich auf-gefrischt publiziert wird, wie z. B. Wetterwerte oder B¨orsenkurse.

• Hacking. Hacking-Crawler lassen sich in zwei Sorten unterteilen. Zum einen Crawler, die systematisch nach Web-Servern Ausschau halten, die bekannte Sicherheitsl¨ocher noch nicht beseitigt haben. Zum anderen Craw-ler, deren einziger Zweck die Erzeugung von Last durch wiederholte Sei-tenanfragen auf einem Web-Server ist. Solche Angriffe werden von zahl-reichen Parallelinstallationen eines Crawlers zusammen ausgef¨uhrt (distri-buted denial of service attack, DDOS).

4.3.2 Architektur eines Crawlers

In den vielen unterschiedlichen Crawler-Implementierungen findet man mehr oder weniger folgende Architektur wieder (vgl. dazu [5], Kapitel 8):

Retrieving-Modul

Solange der URL-Manager noch weitere URLs liefert, arbeitet das Retrieving-Modul folgende Schrittfolge zyklisch ab:

1. Der URL-Manager wird nach der n¨achsten zu verfolgenden Adresse ge-fragt.

2. Das Dokument wird aus dem Web geholt.

3. Alle im Dokument enthaltenen URLs werden an den URL-Manager ¨ uber-geben.

4. Das Dokument wird an das Processing-Modul ¨ubergeben.

Die Zeitverz¨ogerung zwischen Anfrage und Erhalt eines Dokuments ist auf Grund der Unw¨agbarkeiten im Web nicht exakt a priori bestimmbar. Techni-sche Probleme, fehlerhafte URLs und die Volatilit¨at des Webs k¨onnen sogar verursachen, dass eine Anfrage unbeantwortet bleibt. Um eine bessere Rechen-zeitauslastung zu erzielen, ist es sinnvoll, das Retrieving-Modul in mehreren parallelen Threads zu organisieren. Mit Timern kann verhindert werden, dass das Retrieving-Modul durch ewiges Warten gestoppt wird. Schritt 3 ist nur notwendig, wenn der Crawler rekursiv arbeiten soll, d. h. wenn nicht schon zu Beginn alle zu besuchenden URLs bekannt sind.

URL-Manager

Das ¨offentliche Interface des URL-Managers enth¨alt prim¨ar zwei Methoden: ei-ne, die die n¨achste zu besuchende URL benennt und eine zum Einf¨ugen neuer URLs. Auch die URLs von denen aus der Crawler startet, genannt Saat (seed), werden ¨uber diese Standardmethode gesetzt. Das interne Herzst¨uck ist eine Da-tenstruktur zum Verwalten der URLs zusammen mit Meta-Informationen.

Beim Einf¨ugen der URLs wird die Syntax gepr¨uft und relative URLs werden in absolute ¨uberf¨uhrt. Je nach Anwendung werden evtl. bereits enthaltene, bzw. bereits besuchte URLs ausgefiltert. An Hand des URL-Aufbaus werden evtl. anwendungsabh¨angig weitere URLs ausgefiltert. Aber nicht nur auf der Sei-te des Clients (Crawler) werden URLs ausgeschlossen, sondern auch ein Server hat Kennzeichnungsm¨oglichkeiten f¨ur URLs, die nicht besucht werden sollen, wie etwa tempor¨are oder dynamisch erzeugte Web-Seiten. Der HTML-Standard [82]

nennt dazu zwei Optionen: ein File namens robots.txt im Wurzelverzeichnis der Web-Site, das angibt, welche URLs auf einer Site vom Crawling auszuschlie-ßen sind und einmeta Tag mit dem Attributrobots, mit dem gekennzeichnet werden kann, dass die aktuelle Seite oder auch Subseiten nicht von einem Craw-ler besucht werden sollen. Auf CrawCraw-ler-Seite verwaltet der URL-Manager diese Filterregeln. Die Einhaltung dieser Benimmregeln l¨asst sich von Servern tech-nisch jedoch nicht erzwingen.

Konzeptionell besteht der URL-Manager aus einer sortierten Liste. Die Eintr¨age sind URLs zusammen mit Meta-Informationen wie z. B. Zeitstempel eines letz-ten Besuchs der Seite oder die beobachtete Anzahl der Links auf eine Seite. Diese Meta-Informationen werden f¨ur die Sortierung der URLs eingesetzt. In großen Anwendungen wie etwa einem Web-Indexierungs-Crawler ist der URL-Manager in einer Datenbank organisiert.

Processing-Modul

Ein Crawler wird durch das Retrieving-Modul und dem URL-Manager am Lau-fen gehalten. Das Processing-Modul bestimmt, wie die Dokumente

weiterver-4.3. CRAWL-LEXIKA 67 arbeitet werden. Im einfachsten Fall, bei einem Downloading-Crawler, werden die Dokumente nur lokal gespeichert. Bei einem Web-Indexierungs-Crawler wird z. B. der invertierte Wort-Index aufgebaut.

Falls Parsing der HTML-Dokumente ohnehin Aufgabe des Processing-Moduls ist, kann die Extraktion weitere URLs, Schritt 3 des Retrieval-Moduls, in das Processing-Modul verlagert werden.

4.3.3 Aufbau meines Lexikon-Crawlers

Retrieving-Modul

Mein Retrieval-Modul habe ich in der Skriptsprache WebL ([41]) verfasst. WebL bietet sowohl Hochsprachkonstrukte f¨ur Crawling als auch f¨ur Wrapping³. In [46] wird f¨ur eine Text-Mining-Aufgabe die Verwendung einer vergleichbaren Sprache beschrieben (TPL, Text Parsing Language), die noch besser auf Voka-bularextraktion zugeschnitten w¨are, allerdings nicht verf¨ugbar ist. Ein WebL-Hochsprachkonstrukt f¨ur Crawling ist bspw. der Timer f¨ur die Seitenanforde-rung, der in Form eines try/catch-Blocks zur Verf¨ugung steht. In meiner Im-plementierung wird auf jede Seite maximal 10 Sekunden gewartet. Im Fehlerfall wird die Seite einfach ignoriert. Auch in Fehlerf¨allen der anderen beiden Module, bei der Bearbeitung von URLs bzw. Seiten werden diese nicht weiter beachtet.

Diese pragmatische Vorgehensweise ist m¨oglich, da der Lexikon-Crawler nicht an gewissen Einzelseiten, sondern an einem Gesamtvokabular interessiert ist.

Der Schwund an URLs bzw. Seiten kann bei einer Parametrisierung des Craw-lers miteingerechnet werden, d. h. es kann z. B. die zu sammelnde Textmenge bzw. Lexikongr¨oße vorgegeben werden. Auf eine Parallelisierung der Seitenan-fragen habe ich verzichtet, da keine zeitkritischen Anforderungen vorliegen; f¨ur den Aufbau eines Crawl-Lexikons werden nur in der Gr¨oßenordnung von 10³ Seiten geladen. Das WebL-Skript ¨ubernimmt die Steuerung des Crawlers und ruft den URL-Manager zur Anfrage der n¨achsten URL sowie das Processing-Modul in einer einfachen while-Schleife wiederholt auf. Der Crawler arbeitet nicht rekursiv. Dem URL-Manager wird initial eine Liste an URLs ¨ubergeben, die er filtert und Schritt f¨ur Schritt in der Schleife zur¨uckgibt. Die initiale Liste der zu besuchenden Seiten wird aus einer automatisierten Suchmaschinenanfra-ge Suchmaschinenanfra-gewonnen (siehe Kapitel 9). In meinen Experimenten habe ich dazu folSuchmaschinenanfra-gende Einstellungen vorgenommen:

• Aus dem zu korrigierenden Text wurden die 25 h¨ochstfrequentesten W¨orter exklusive der Funktionsw¨orter bestimmt. An die Suchmaschine wurde eine disjunktive Anfrage dieser 25 W¨orter gesendet. Die Auswahl der Anfra-gew¨orter ¨uber die Frequenz bedient parallel zwei Strategien: Bestimmung einschl¨agiger Stichw¨orter der Dom¨ane sowie Ausschluss etwaiger OCR-Lesefehler von der Anfrage.

• Das gew¨unschte Format der Dokumente wurde auf HTML beschr¨ankt.

Das Processing-Modul muss daher nur den Umgang mit einem Format

3In 9.4 wird die Verwendung von WebL als Wrapper-Sprache kurz vorgestellt.

Themengebiet Deutsch Englisch Bauern 553 481 132 699 Informatik 376 361 78 222 Fische 557 403 505 678 Holocaust 411 696 227 446

Jagd 622 907 114 730

Kochen 616 982 79 513 Meteorologie 415 657 257 573 Mittelalter 581 178 196 351 Mykologie 328 348 423 860 Neurologie 364 094 283 530

Oper 574 177 156 479

Philosophie 588 742 136 824

Rom 502 117 374 062

Speisepilze 458 787 330 597

Tabelle 4.2: Crawl-Lexika mit Anzahl der Eintr¨age.

beherrschen. Eine Ausdehnung auf Dokumentenformate wie PDF oder Textverarbeitungsformate wie DOC (Microsoft Word) ist sinnvoll, da von Dokumenten dieses Formats zu erwarten ist, dass sie textintensive Inhalte besitzen. Da dies z. T. jedoch prozedurale Formate sind, ist Vorsicht bei der Textextraktion geboten. Bedingt durch Worttrennung am Zeilenum-bruch kann man z. B. die beiden Tokens Zuk- und ker erhalten. Um ein Lexikon nicht zu verunreinigen, sind in solchen F¨allen m¨achtige Heuri-stiken zur Erkennung notwendig. Wenngleich selten, k¨onnen solche F¨alle auch in HTML-Dokumenten auftreten.

• Es wurde die Sprache des zu korrigierenden Texts in der Suchmaschine eingestellt, d. h. in meinem Fall Deutsch bzw. Englisch.

• Da von langen Texten ein breiteres Vokabular zu erwarten ist, wurde die minimale Seitengr¨oße mit 100KB festgelegt.

• Es wurden Seiten, die Audio-Files, Video-Files oder aktive Elemente (Applets, Flash, JavaScript oder VBScript) enthalten von der Suche ausgeschlossen, da deren Fokus offensichtlich nicht auf Text- sondern Multimedia-Inhalten liegt.

• Die L¨ange der R¨uckgabeliste wurde auf 1000 URLs festgelegt.

Die gew¨ahlten Parameter sind nur eine Ad-hoc-Belegung der vorgefundenen Einstellungsm¨oglichkeiten. Es ist sinnvoll die einzelnen Parametereinstellungen mit Hilfe weiterer Experimente zu optimieren. In der Evaluation wird jedoch gezeigt, dass damit schon gute Korrekturresultate erzielt werden.

4.3. CRAWL-LEXIKA 69

Im Dokument Methoden der lexikalischen Nachkorrektur OCR-erfasster Dokumente - Centrum für Informations- und Sprachverarbeitung - LMU Munich (Seite 65-69)