• Keine Ergebnisse gefunden

Noch Fragen ?

N/A
N/A
Protected

Academic year: 2022

Aktie "Noch Fragen ?"

Copied!
28
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de

Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen

Seminar Web Suchmaschinen - WS0304

(2)

I. Was gab es vor den WWW Suchmaschinen II. Die Geschichte der WWW Suchmaschinen III. Zusammenfassung und Fragen der Hörer

(3)

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de

I. Was gab es vor den WWW Suchmaschinen

• Internettimeline (bis 1990)

• Archie (1990)

• Gopher (1991)

• Veronica (1992)

• Das WWW kommt (ab 1991)

(4)

Internettimeline (bis 1990)

• ARPANET startet mit 4 Knoten (Hosts, 1969)

• NCP – erstes host-to-host protocol (1970)

• 23 Hosts (1971)

• RFC‘s für telnet und email (1972)

• RFC für ftp (1973)

• RFC für TCP (1974)

• TCP wird geteilt in TCP/IP (1978)

• Domain Name System (DNS, 1984); hosts > 1,000

• Internet Engineering Task Force (1986)

• hosts > 10,000 (1987)

• IRC (1988)

(5)

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de

Archie

• „Archiver“ , ab 1990 von Deutsch, Emtage, Heelan

• McGill University, Montreal

• Idee: Ein Verzeichnis von „Anonymen“ FTP-Server

• Dazu Programm, dass nach FTP-Servern sucht

• 3 Möglichkeiten, um Programme zu bekommen

• Dienst, um Programme über FTP zu bekommen

• Index jedoch größtenteils manuell gepflegt

(6)

Gopher

• 1991 von McCahill, University of Minnesota

• Protokoll zum Bereitstellen von Textdokumenten

• Menüstruktur

• Später Dateien direkt zu finden (Archiefunktionalität)

• Index manuell gepflegt

(7)

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de

Veronica

• 1992, University of Nevada

• Wie Archie aber für Gopherserver

• Über Veronica konnte man den „Gopherspace“

absuchen

• Bedienung wie bei Gopher

•Index jedoch größtenteils manuell gepflegt

(8)

Das WWW entsteht

• 1991, Tim Berners-Lee, CERN

• http Protokoll und html Format

• Dokument können mit multimedialen Inhalten,

miteinander Verknüpft für alle bereitgestellt werden

• 1993 Mosaic der erste grafische Browser für das WWW

• Riesen Vorteil: Informationen können für alle bereitgestellt werden

(9)

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de

II. Die Geschichte der WWW Suchmaschinen

• Systeme um Informationen anzubieten

• Websuchmaschinen

• Metasuchmaschinen

• Wer mit wem und wo kommt die Antwort einer Suchanfrage heute her

(10)

Wie erfasst man das World Wide Web?

• Generell zwei Techniken:

• Robots/Spiders:

• Programm das automatisch Daten im Netz aufspürt

• Waren am Anfang des WWW „verpönt“

• Directory

• Die Einträge im Index werden manuell eingetragen

• Heute meist Kombination von beiden

(11)

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de

World Wide Web Wanderer

• 1993, Matthew Gray, MIT

• erster WWW-Robot

• erst nur Erfassung von Servern, dann auch URLs

• Entstandener Index durchsuchbar

• Diskussion kam auf: Sind Robots gut oder schlecht?

(12)

Aliweb

• 1993, Martijn Koster

• „Archie fürs WWW“

• Manuell aufgebaut

• Webmaster schicken besondere Datei Nachteil:

• Indexdatei war schwer aufzubauen

• Nicht viele Einträge Vorteil:

• Beschreibungen zu den Einträgen

(13)

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de

Jump Station

• Neben URL auch Titel und Header indiziert

• Index linear durchsucht World Wide Web Worm

• URL und Titel indiziert

• Index linear durchsucht

Repository-Based Software Engineering (RBSE)

• Suche mit „ranking system“ des Suchstrings Die nächsten Robots

(14)

Excite (Architext)

• Anfang 1993 in Stanford begonnen

• Idee: Durch Statische Analyse von Ausdrücken bessere Suchergebnisse

• Ab 1995 für Webmaster verfügbar

• Suche auf eigenen Seiten

(15)

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de

Yahoo!

• 1994, Filo und Yang, Stanford

• Aus „Meine Links“-Seiten entstanden

• sehr beliebt

• durchsuchbares Verzeichnis entsteht

• später: robots unterstützen Verzeichnisaufbau

(16)

WebCrawler

• 1994, Pinkerton, University of Washington

• Dokumente werden komplett indiziert

• so beliebt, dass Bandbreitenprobleme an Uni

(17)

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de

Lycos

• 1994, Mauldin, Carnegie Mellon University

• schnellster wachsender Index dieser Jahre

• Suche unterstützte „prefix matching“ und

„word proximity“

(18)

AltaVista

• 1995, DEC

• sehr schnell

• viele Neuerungen, darunter

• „natural language queries“

• bool‘sche Operatoren

• andere Medien (Bilder, Newsgroups, Java Applets)

• Tipps für Benutzer auf der Suchseite

(19)

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de

GoTo (Overture)

• 1997, Gross

• auf das reine Indizieren fokussiert

• einfache Suche im Index

• seit 1998 Verkauf von Platzierungen im Index

• Seitdem Fokus darauf

(20)

Open Directory

• 1998

• offener Katalog

• komplett manuell gepflegt von Freiwilligen

(21)

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de

Google

• 1998, Page und Brin, Stanford

• PageRank als neue Technik

• Leistungsfähige Textsuche

• Leistungsfähige Indizierung des WWW

(22)

MetaCrawler

• 1995, Selburg, University of Washington

• Interface, um mehrere Suchmaschinen abzufragen Probleme:

• nicht alle Suchmaschinen einverstanden

• Formatierung der Suchanfragen Vorteil:

• Man durchsucht mehrere Indexe

(23)

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de

Und Heute?

• Extreme Verflechtungen untereinander

• Nur noch wenige „große“ Seiten

• „Ergebniskauf“ vs. Eigene Indexergebnisse

• „Portale“ vs. reine Suchseiten

(24)
(25)

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de

Rechneraufwand am Beispiel AltaVista

• 1 GB Text / pro Stunde

• 40 GB Gesamtindex

• 3 Mio. Seiten / Tag gescannt

• 16 Maschinen für Index und Suche im Index

• je: 8 GB RAM, 10 parallele Alphaproz., 260 GB HDD

(26)

Zusammenfassung

• Es gab Suchmaschinen vor dem WWW

• Fast alle Suchmaschinen an Unis entwickelt

• daraus Firmen entstanden

• Bezahlte (fremde) Ergebnisse vs. Indexergebnisse

(27)

Internet: http://page.mi.fu-berlin.de/~sliwa E-Mail: sliwa@inf.fu-berlin.de

Benutzte Quellen

• A History of Search Engines

http://www.wiley.com/legacy/compbooks/sonnenreich/history.html

• Hobbes' Internet Timeline - the definitive ARPAnet & Internet history http://www.zakon.org/robert/internet/timeline/

• NetHistory: Search

http://nethistory.urldir.com/search.php

• History of Search Engines and Directories

http://www.seoconsultants.com/search-engines/history.asp

• Die Suchfibel

http://www.suchfibel.de/5technik/suchmaschinen_beziehungen.htm

• History of Search Engines - Evolution & Revolution

http://webhome.idirect.com/~glenjenn/search/history1.htm

• A Brief History of the Internet

http://www.walthowe.com/navnet/history.html

• EFF's (Extended) Guide to the Internet

http://www.eff.org/Net_culture/Net_info/EFF_Net_Guide/EEGTTI_HTML/eeg_toc.html#SEC204

(28)

Noch Fragen ?

Referenzen

ÄHNLICHE DOKUMENTE

Tout cela parce que, dans les années soixante, par économie et manque de place, on a abrégé les dates dans les ordinateurs?. On a ainsi résumé l’année à ses deux

D’autres ser- veurs de nouvelles peuvent également être utilisés si l’offre du ser- veur de nouvelles standard ne devait pas vous suffire, ils peuvent simplement être ajoutés

Seit immer mehr Menschen die elektronischen Medien zu ihrem Hauptwerkzeug im Büro und in ihrer privaten Korrespondenz ge- wählt haben, seit sich die Menschen zu Tausenden auf den

(Es ist allerdings zu beachten, dass die mei- sten Programme nur auf CD-ROM geliefert werden!) Haben Sie einen Computer in Betrieb, aber ohne Modem ein- gerichtet, können Sie

E-Mail kann zur internen Kommunikation zwischen verschiedenen Compu- tern innerhalb eines Betriebes (die dann meist in Form eines Intranets oder auch mittels eines Servers

Offline: Bezeichnung für den Zustand nach einer beendeten oder abgebrochenen Verbindung mit einem Online-Dienst oder ei- ner Mailbox.. Online: Bedeutet wörtlich: Aktive Leitung und

HTTP ist eine Bezeichnung für ein Protokoll auf der Basis von TCP/IP, nach dem im Internet Informationen zwischen Web-Servern und Web-Clients übertragen werden.. Hyperlink:

Vielleicht werden Sie sich früher oder später einen Zweitcompu- ter zum Arbeiten (oder auch für Freizeitaktivitäten) ausserhalb der Praxis, zuhause oder auch unterwegs, kaufen..