1
Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen109
Form und Darstellung von Informationen
1. Computermetaphern2. Beschreibungssprachen für Texte
3. Grammatiken zur Beschreibung syntaktischer Strukturen 4. Beispiel einer Textbeschreibungssprache: HTML 5. Übersicht über Textsysteme
6. Schablonen und Generierung von Texten (z.B. Serienbriefe) 7. Nützliche Hilfsmittel in Textsystemen
8. Das World Wide Web als Hyperdokument 9. Funktionsweise von Suchmaschinen 10. XML
Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen110
Funktionsweise von Suchmaschinen
Finden von Informationen im Internet:•Zugangstechniken: Suche und Browsen
•Umfrageunter 1000 Leuten, die Informationen suchen:
–10 % Nur Browsen
–23 % Hauptsächlich Browsen –37 % Browsen und Suchen –20 % hauptsächlich Suchen –10 % Suchen
•Vorteil Browsen:Linklisten werden meist manuell gepflegt und haben daher eine hohe Qualität, allerdings nur beschränkter Suchhorizont.
•Vorteil Suchen:Viel größere Auswahl, aber auch viel Unwichti- ges; gewisses Geschick bei Definition der Suchanfrage nötig.
Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen111
Browsing-Varianten: Link-Verfolgung + Klapphierarchie
Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen112
Suchmaschinen: Beispiel
Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen113
Erweiterte Suche in Suchmaschinen
Boolsche Suche:AND (alle Wörter), OR (irgendein Wort), NOT (ohne) Attributsuche:sprachlich, strukturell, zeitlich, geografisch
Phrasensuche:„Wordsequenzen in Hochkommata“
(Wildcardsuche):? für einzeln? Zeichen, * für beliebig viele Zeich*
Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen114
Suchanfrage mit Boolschen Operatoren
Die Anfrage in Google entspricht:
"Geschichte des WWW" UNDMEMEX UNDARPRA UND (Hypertext ODERHypermedia) UND(NICHTXML) Weitere Operatoren sind z.B. NEARoder FAR, die sich auf die Distanz der Suchbegriffe im Dokument beziehen.
2
Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen115
Aufbau eines Index für Suchmaschinen
•Aufgaben eines Web-Roboters (Web Crawlers):
–Aufbau von Indizes
–Überwachen von Änderungen auf Web-Seiten
–intelligente Informationsbeschaffung (z.B. Preisvergleiche)
•Arbeitsweise:
–WWW kann wegen Hypertextstruktur als gerichteter Graph betrachtet werden (Dokumente = Knoten, Links zu anderen Dokumenten = gerichtete Kanten)
–Web-Roboter erkennen Links und durchlaufen sie meist gemäß Breitensuche
–Extrahieren Wörter aus den Dokumenten, die in Index eingefügt werden
Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen116
Beispiel für Suchindex
•Für Dokumente werden Wortvektorengespeichert
•Suchindex (inverted file)ordnet jedem Wort das Vorkommen in den Wortvektoren zu.
•Beispiel:gegeben seien 4 Dokumente:
(1) I love you (2) love is in the air (3) love is blind (4) blind justice
Dann ist der Suchindex der Art: Wort (Dokument,Wortposition)*) –blind(3,3) (4,1)
–in(2,3) –the(2,4) –I(1,1) –is(2,2) (3,2) –justice(4,2) –love(1,2) (2,1) (3,1) –you(1,3)
Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen117
Generierung der Suchantworten
•Vergleich der Suchanfrage mit den Dokumentwortvekto- ren, deren Kandidatenmenge über Index ermittelt werden, und anschließendes Ranking der Treffer.
•Zusätzliches Wissen:
–Synonymliste –Akronymliste
–Stemming-Algorithmus (Standardi- sierung von Wortformen)
–Stoppwortliste (Entfernen sehr häufiger Wörter, z.B. "der") –fremdsprachiges Wörterbuch –Lexikon
–Thesaurus
Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen118
Ausgabe der Retrievalergebnisse
• Häufigkeit (Frequency)
• Position (Location)
• Abstand
• Linkpopularität
• Klickpopularität
• Top-Level-Domain
• Domain
Ranking ohne Zusatzwissen Ranking mit Zusatzwissen
Meist Einbeziehen mehrerer Kriterien bei der Berechnung des Rankingwerts
Einführung in die Informatik für Hörer aller Fakultäten 1. Puppe: Form & Darstellung von Informationen119