Noch Fragen ?

(1)

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de

Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen

Seminar Web Suchmaschinen - WS0304

(2)

I. Was gab es vor den WWW Suchmaschinen II. Die Geschichte der WWW Suchmaschinen III. Zusammenfassung und Fragen der Hörer

(3)

I. Was gab es vor den WWW Suchmaschinen

• Internettimeline (bis 1990)

• Archie (1990)

• Gopher (1991)

• Veronica (1992)

• Das WWW kommt (ab 1991)

(4)

Internettimeline (bis 1990)

• ARPANET startet mit 4 Knoten (Hosts, 1969)

• NCP – erstes host-to-host protocol (1970)

• 23 Hosts (1971)

• RFC‘s für telnet und email (1972)

• RFC für ftp (1973)

• RFC für TCP (1974)

• TCP wird geteilt in TCP/IP (1978)

• Domain Name System (DNS, 1984); hosts > 1,000

• Internet Engineering Task Force (1986)

• hosts > 10,000 (1987)

• IRC (1988)

(5)

Archie

• „Archiver“ , ab 1990 von Deutsch, Emtage, Heelan

• McGill University, Montreal

• Idee: Ein Verzeichnis von „Anonymen“ FTP-Server

• Dazu Programm, dass nach FTP-Servern sucht

• 3 Möglichkeiten, um Programme zu bekommen

• Dienst, um Programme über FTP zu bekommen

• Index jedoch größtenteils manuell gepflegt

(6)

Gopher

• 1991 von McCahill, University of Minnesota

• Protokoll zum Bereitstellen von Textdokumenten

• Menüstruktur

• Später Dateien direkt zu finden (Archiefunktionalität)

• Index manuell gepflegt

(7)

Veronica

• 1992, University of Nevada

• Wie Archie aber für Gopherserver

• Über Veronica konnte man den „Gopherspace“

absuchen

• Bedienung wie bei Gopher

•Index jedoch größtenteils manuell gepflegt

(8)

Das WWW entsteht

• 1991, Tim Berners-Lee, CERN

• http Protokoll und html Format

• Dokument können mit multimedialen Inhalten,

miteinander Verknüpft für alle bereitgestellt werden

• 1993 Mosaic der erste grafische Browser für das WWW

• Riesen Vorteil: Informationen können für alle bereitgestellt werden

(9)

II. Die Geschichte der WWW Suchmaschinen

• Systeme um Informationen anzubieten

• Websuchmaschinen

• Metasuchmaschinen

• Wer mit wem und wo kommt die Antwort einer Suchanfrage heute her

(10)

Wie erfasst man das World Wide Web?

• Generell zwei Techniken:

• Robots/Spiders:

• Programm das automatisch Daten im Netz aufspürt

• Waren am Anfang des WWW „verpönt“

• Directory

• Die Einträge im Index werden manuell eingetragen

• Heute meist Kombination von beiden

(11)

World Wide Web Wanderer

• 1993, Matthew Gray, MIT

• erster WWW-Robot

• erst nur Erfassung von Servern, dann auch URLs

• Entstandener Index durchsuchbar

• Diskussion kam auf: Sind Robots gut oder schlecht?

(12)

Aliweb

• 1993, Martijn Koster

• „Archie fürs WWW“

• Manuell aufgebaut

• Webmaster schicken besondere Datei Nachteil:

• Indexdatei war schwer aufzubauen

• Nicht viele Einträge Vorteil:

• Beschreibungen zu den Einträgen

(13)

Jump Station

• Neben URL auch Titel und Header indiziert

• Index linear durchsucht World Wide Web Worm

• URL und Titel indiziert

• Index linear durchsucht

Repository-Based Software Engineering (RBSE)

• Suche mit „ranking system“ des Suchstrings Die nächsten Robots

(14)

Excite (Architext)

• Anfang 1993 in Stanford begonnen

• Idee: Durch Statische Analyse von Ausdrücken bessere Suchergebnisse

• Ab 1995 für Webmaster verfügbar

• Suche auf eigenen Seiten

(15)

Yahoo!

• 1994, Filo und Yang, Stanford

• Aus „Meine Links“-Seiten entstanden

• sehr beliebt

• durchsuchbares Verzeichnis entsteht

• später: robots unterstützen Verzeichnisaufbau

(16)

WebCrawler

• 1994, Pinkerton, University of Washington

• Dokumente werden komplett indiziert

• so beliebt, dass Bandbreitenprobleme an Uni

(17)

Lycos

• 1994, Mauldin, Carnegie Mellon University

• schnellster wachsender Index dieser Jahre

• Suche unterstützte „prefix matching“ und

„word proximity“

(18)

AltaVista

• 1995, DEC

• sehr schnell

• viele Neuerungen, darunter

• „natural language queries“

• bool‘sche Operatoren

• andere Medien (Bilder, Newsgroups, Java Applets)

• Tipps für Benutzer auf der Suchseite

(19)

GoTo (Overture)

• 1997, Gross

• auf das reine Indizieren fokussiert

• einfache Suche im Index

• seit 1998 Verkauf von Platzierungen im Index

• Seitdem Fokus darauf

(20)

Open Directory

• 1998

• offener Katalog

• komplett manuell gepflegt von Freiwilligen

(21)

Google

• 1998, Page und Brin, Stanford

• PageRank als neue Technik

• Leistungsfähige Textsuche

• Leistungsfähige Indizierung des WWW

(22)

MetaCrawler

• 1995, Selburg, University of Washington

• Interface, um mehrere Suchmaschinen abzufragen Probleme:

• nicht alle Suchmaschinen einverstanden

• Formatierung der Suchanfragen Vorteil:

• Man durchsucht mehrere Indexe

(23)

Und Heute?

• Extreme Verflechtungen untereinander

• Nur noch wenige „große“ Seiten

• „Ergebniskauf“ vs. Eigene Indexergebnisse

• „Portale“ vs. reine Suchseiten

(24)

(25)

Rechneraufwand am Beispiel AltaVista

• 1 GB Text / pro Stunde

• 40 GB Gesamtindex

• 3 Mio. Seiten / Tag gescannt

• 16 Maschinen für Index und Suche im Index

• je: 8 GB RAM, 10 parallele Alphaproz., 260 GB HDD

(26)

Zusammenfassung

• Es gab Suchmaschinen vor dem WWW

• Fast alle Suchmaschinen an Unis entwickelt

• daraus Firmen entstanden

• Bezahlte (fremde) Ergebnisse vs. Indexergebnisse

(27)

Benutzte Quellen

• A History of Search Engines

http://www.wiley.com/legacy/compbooks/sonnenreich/history.html

• Hobbes' Internet Timeline - the definitive ARPAnet & Internet history http://www.zakon.org/robert/internet/timeline/

• NetHistory: Search

http://nethistory.urldir.com/search.php

• History of Search Engines and Directories

http://www.seoconsultants.com/search-engines/history.asp

• Die Suchfibel

http://www.suchfibel.de/5technik/suchmaschinen_beziehungen.htm

• History of Search Engines - Evolution & Revolution

http://webhome.idirect.com/~glenjenn/search/history1.htm

• A Brief History of the Internet

http://www.walthowe.com/navnet/history.html

• EFF's (Extended) Guide to the Internet

http://www.eff.org/Net_culture/Net_info/EFF_Net_Guide/EEGTTI_HTML/eeg_toc.html#SEC204

(28)