Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen
Seminar Web Suchmaschinen - WS0304
I. Was gab es vor den WWW Suchmaschinen II. Die Geschichte der WWW Suchmaschinen III. Zusammenfassung und Fragen der Hörer
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
I. Was gab es vor den WWW Suchmaschinen
• Internettimeline (bis 1990)
• Archie (1990)
• Gopher (1991)
• Veronica (1992)
• Das WWW kommt (ab 1991)
Internettimeline (bis 1990)
• ARPANET startet mit 4 Knoten (Hosts, 1969)
• NCP – erstes host-to-host protocol (1970)
• 23 Hosts (1971)
• RFC‘s für telnet und email (1972)
• RFC für ftp (1973)
• RFC für TCP (1974)
• TCP wird geteilt in TCP/IP (1978)
• Domain Name System (DNS, 1984); hosts > 1,000
• Internet Engineering Task Force (1986)
• hosts > 10,000 (1987)
• IRC (1988)
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Archie
• „Archiver“ , ab 1990 von Deutsch, Emtage, Heelan
• McGill University, Montreal
• Idee: Ein Verzeichnis von „Anonymen“ FTP-Server
• Dazu Programm, dass nach FTP-Servern sucht
• 3 Möglichkeiten, um Programme zu bekommen
• Dienst, um Programme über FTP zu bekommen
• Index jedoch größtenteils manuell gepflegt
Gopher
• 1991 von McCahill, University of Minnesota
• Protokoll zum Bereitstellen von Textdokumenten
• Menüstruktur
• Später Dateien direkt zu finden (Archiefunktionalität)
• Index manuell gepflegt
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Veronica
• 1992, University of Nevada
• Wie Archie aber für Gopherserver
• Über Veronica konnte man den „Gopherspace“
absuchen
• Bedienung wie bei Gopher
•Index jedoch größtenteils manuell gepflegt
Das WWW entsteht
• 1991, Tim Berners-Lee, CERN
• http Protokoll und html Format
• Dokument können mit multimedialen Inhalten,
miteinander Verknüpft für alle bereitgestellt werden
• 1993 Mosaic der erste grafische Browser für das WWW
• Riesen Vorteil: Informationen können für alle bereitgestellt werden
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
II. Die Geschichte der WWW Suchmaschinen
• Systeme um Informationen anzubieten
• Websuchmaschinen
• Metasuchmaschinen
• Wer mit wem und wo kommt die Antwort einer Suchanfrage heute her
Wie erfasst man das World Wide Web?
• Generell zwei Techniken:
• Robots/Spiders:
• Programm das automatisch Daten im Netz aufspürt
• Waren am Anfang des WWW „verpönt“
• Directory
• Die Einträge im Index werden manuell eingetragen
• Heute meist Kombination von beiden
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
World Wide Web Wanderer
• 1993, Matthew Gray, MIT
• erster WWW-Robot
• erst nur Erfassung von Servern, dann auch URLs
• Entstandener Index durchsuchbar
• Diskussion kam auf: Sind Robots gut oder schlecht?
Aliweb
• 1993, Martijn Koster
• „Archie fürs WWW“
• Manuell aufgebaut
• Webmaster schicken besondere Datei Nachteil:
• Indexdatei war schwer aufzubauen
• Nicht viele Einträge Vorteil:
• Beschreibungen zu den Einträgen
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Jump Station
• Neben URL auch Titel und Header indiziert
• Index linear durchsucht World Wide Web Worm
• URL und Titel indiziert
• Index linear durchsucht
Repository-Based Software Engineering (RBSE)
• Suche mit „ranking system“ des Suchstrings Die nächsten Robots
Excite (Architext)
• Anfang 1993 in Stanford begonnen
• Idee: Durch Statische Analyse von Ausdrücken bessere Suchergebnisse
• Ab 1995 für Webmaster verfügbar
• Suche auf eigenen Seiten
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Yahoo!
• 1994, Filo und Yang, Stanford
• Aus „Meine Links“-Seiten entstanden
• sehr beliebt
• durchsuchbares Verzeichnis entsteht
• später: robots unterstützen Verzeichnisaufbau
WebCrawler
• 1994, Pinkerton, University of Washington
• Dokumente werden komplett indiziert
• so beliebt, dass Bandbreitenprobleme an Uni
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Lycos
• 1994, Mauldin, Carnegie Mellon University
• schnellster wachsender Index dieser Jahre
• Suche unterstützte „prefix matching“ und
„word proximity“
AltaVista
• 1995, DEC
• sehr schnell
• viele Neuerungen, darunter
• „natural language queries“
• bool‘sche Operatoren
• andere Medien (Bilder, Newsgroups, Java Applets)
• Tipps für Benutzer auf der Suchseite
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
GoTo (Overture)
• 1997, Gross
• auf das reine Indizieren fokussiert
• einfache Suche im Index
• seit 1998 Verkauf von Platzierungen im Index
• Seitdem Fokus darauf
Open Directory
• 1998
• offener Katalog
• komplett manuell gepflegt von Freiwilligen
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
• 1998, Page und Brin, Stanford
• PageRank als neue Technik
• Leistungsfähige Textsuche
• Leistungsfähige Indizierung des WWW
MetaCrawler
• 1995, Selburg, University of Washington
• Interface, um mehrere Suchmaschinen abzufragen Probleme:
• nicht alle Suchmaschinen einverstanden
• Formatierung der Suchanfragen Vorteil:
• Man durchsucht mehrere Indexe
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Und Heute?
• Extreme Verflechtungen untereinander
• Nur noch wenige „große“ Seiten
• „Ergebniskauf“ vs. Eigene Indexergebnisse
• „Portale“ vs. reine Suchseiten
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Rechneraufwand am Beispiel AltaVista
• 1 GB Text / pro Stunde
• 40 GB Gesamtindex
• 3 Mio. Seiten / Tag gescannt
• 16 Maschinen für Index und Suche im Index
• je: 8 GB RAM, 10 parallele Alphaproz., 260 GB HDD
Zusammenfassung
• Es gab Suchmaschinen vor dem WWW
• Fast alle Suchmaschinen an Unis entwickelt
• daraus Firmen entstanden
• Bezahlte (fremde) Ergebnisse vs. Indexergebnisse
Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de
Benutzte Quellen
• A History of Search Engines
http://www.wiley.com/legacy/compbooks/sonnenreich/history.html
• Hobbes' Internet Timeline - the definitive ARPAnet & Internet history http://www.zakon.org/robert/internet/timeline/
• NetHistory: Search
http://nethistory.urldir.com/search.php
• History of Search Engines and Directories
http://www.seoconsultants.com/search-engines/history.asp
• Die Suchfibel
http://www.suchfibel.de/5technik/suchmaschinen_beziehungen.htm
• History of Search Engines - Evolution & Revolution
http://webhome.idirect.com/~glenjenn/search/history1.htm
• A Brief History of the Internet
http://www.walthowe.com/navnet/history.html
• EFF's (Extended) Guide to the Internet
http://www.eff.org/Net_culture/Net_info/EFF_Net_Guide/EEGTTI_HTML/eeg_toc.html#SEC204