Quellen finden
!"#$
%&'
Information Discovery
(
Lynch, C. (1995). Networked Information Resource Discovery: An Overview of Current Issues (Invited paper). IEEE Journal on Selected Areas of
Communications, 13(8):1505–1522:
"information discovery is a complex collection of
activities that can range from simply locating a well- specified digital object on the network through
lengthy iterative research activities which involve the identification of a set of potentially relevant
networked information resources, the organization and ranking resources in this candidate set, and the repeated expansion or restriction of this set based on characteristics of the identified resources and
exploration of specific resources."
*+
,
-./0123.4567.189
:014;<
Crawling
>?
@
ABCDEFGBHIJKBELM
NDEHOP
Information Discovery
Q
Das Web ist
R
Verteilt
S
Dezentral organisiert
S
Dynamisch
T
Resource Discovery Problem: Wo sind Informationsquellen (von Interesse)
U
Lösungsidee:
V
Automatisches Navigieren über Seiten
V
Indexierung der gefundenen Seiten
V
Crawler (auch Spider, Robot , etc.)
XY
Z
[\]^_`a\bcde\_fg
h^_bij
WebCrawler
k
Eines der ersten Systeme: WebCrawler [Pinkerton94]
k
Zwei Funktionen
l
Indexierung des Web
l
Automatische Navigation nach Bedarf
m
WebCrawler in 94:
n
50000 Dokumente von 9000 Quellen indexiert
n
6000 Anfragen täglich
o
Updates wöchentlich
p
Suchmaschinen heute:
[Searchenginewatch]
rs
t
uvwxyz{v|}~vy
xy|
Größenverhältnisse heute
Google 10/02: 2500m
¡
¢
£ ¢ ¡ £
¤
¥
¢ ¢ ¦ ¢
§ ¨ª© « £ ¢« £
§ ¬
«¯® ° ° ±² ² ° ¤
´µ
¶
·¸¹º»¼½¸¾¿ÀÁ¸»ÂÃ
ĺ»¾ÅÆ
Crawling Algorithmus
Ç
Das Web als traversierbarer Graph von Seiten die über Links als Kanten verbunden sind
È
<a>, <link>, <meta>, <img>, <object>, <frameset>
É
FTP-Server, Adressen in nicht-HTML Dokumenten
É
..
Ê ËÍÌ ÎÏ ÐÑ Ð Ò ÓÔÕ ÖØ× ÙÚÛ ÜÞÝ ßÛ Ü Ùà Ô áâã á
× Ù
Û Ùä áå æã à Ô áâã á
× Ùèçé Ùê
Ê ËÍÌ ÎÏ Ð Ö á Ó
× Ù Ò
é ëíì î Ò
Ï ï Ùð å æã × Ù Ò
é ë Ùä áå æã à Ô áâã á
× Ùèçé Ùð Ô áã Öñò ã
Ö Ó áÔÕ
Õ ñð
ó× Ù Îô Ò
é Ùê Ê ËÍÌ ÎÏ Ð Ö á Ó× Ù ëé ç Ò Ðç Òì î Ò
Ï ï Ùð å æã × Ù ëé ç Ò Ðç Ò Ù
ä áå æã à Ô áâã á
× Ùèçé Ùð Ô áã Öñò ã Ö Ó á
ÔÕ Õ ñð
ó× Ù Îô Ò
é Ù
æå á
óñð
õñ âö ÷× ÙÚÛ Ù æå á
óñð
÷
ã ñ ó ÷ö × ÙÚÛ Ùê
Êø ëï
ÎÑ Ñ × ô ø ê Ê Î îÌ Ð Ë
× Ù î Ò Ò
øù ú úÍû û û ì Ë
ôü ý ÐÌ ïþ ç ì ÿ Ð ú Ùê ä Ì Ð
þ Ð
ç þ ÐÌ Ñ þ Ò Îô Ï ï
Òà
ÐÌ ïþç Ê ú Îê Ê ýÌê Ê Î îÌ Ð Ë
× Ù î Ò Ò
øù ú úÍû û û ìÏ Î Ò îì Ë
ôü
ý ÐÌ ïþç ì ÿ Ð ú Ùê ä Î ë î ý ÐÌ Ð
þ ë î æ Î Ò î ÐÏ Î
Òþ
ô ç ÿ ñ ç Ë
é ÌÏ Î
Òþ
Ê ú Îê Ê ú
ø ê
Ê î ê ñ ç Ñ Òþ Ò
ô Ò Ë
ô ô Ï ï Ì ñ ç Ë
é ÌÏ Î Òþ Ê ú î ê Êø ëï ÎÑ Ñ × ï
Îç ë î
Îç
Ðê Ê Î
îÌ Ð Ë
× Ù î Ò Ò
øù
ú úÍû û û ì þç Ë
ì Ë
ôü ý ÐÌ ïþç ì ÿ Ð
úþ
ç ÿ Ð Ðç ì î Ò
Ï ï Ùê ÷
é Ï Ðø Î Ð þç
ã ç ïþ Ñ î Ê ú Îê ì Ê ú
ø ê
Ê Ò Î ýï Ð
õñ âö ÷× Û Û Üà Ô áâã á
×Û ê Ê ÒÌ ê Ê Ò ÿê ÊþÏ Ö á Ó× Ù ú
ø þ ëÑ
úþ
ç Ë
ü
ï
é é ü ï Ð
þç ì þ Ë Ù åÕ ö ×
Ùñ
ç Ñ Òþ Ò
ô ÒÑ ï
é é Ù åÕ ñ ó
ð ×Õ ã äö ê Ê ú Ò ÿê Ê Ò ÿê
ÊÑ
Ï Îïïê Ê Î ÷ áã ä × Ù î Ò Ò
øù ú úÍû û û ì Ë
ôü ý ÐÌ ïþç ì ÿ Ð ú Ùê ä Ì Ð
þ Ð ç þ
ÐÌ Ñ þ Ò Îô Ï ï Ò
à ÐÌ ïþ ç Ê ú Îê Ý Ê Î ÷ áã ä × Ù î Ò Ò
øù ú úÍû û û ìÏ Î Ò îì Ë
ôü ý ÐÌ ïþç ì ÿ Ð ú Ùê â Ðø ÎÌ Ò
Ï Ðç
Ò
é Ë æ Î Ò î ÐÏ Î
Òþ
ëÑ Îç ÿ Ó
é Ï ø ô Ò ÐÌ Ö ë
þ
Ðç ë Ð Ê ú Îê Ê úèÑ Ï Îïïê Ê î ê ñ ç Ñ
Òþ Ò
ô Ò Ð
é Ë Ó
é Ï ø ô Ò ÐÌ Ö ë
þ Ðç ë Ð Ê ú î ê
Crawling Algorithmus URL-Liste initial füllen
!
Nehme URL aus Liste und teste
"
schon besucht?
#
passender Medientyp (html/ps/pdf/gif/…)?
#
andere Kriterien (Ort/…)?
$&%
hole Seite
'
%
extrahiere URLs und schreibe sie in URL-Liste
(%
extrahiere und indexe Seiteninhalt
)
%
extrahiere und speichere Metadaten
*
%
gehe nach 2
,-
.
/0123450678903:;
<236=>
Einfache Architektur
URL Liste Crawl-Koordinator
Web-Seiten Netzclient
T T T T… Netzclient
T T T T… Netzclient T T T T…
Link- extraktor
besuchte URLs
Link- extraktor Link-
extraktor
Inhalts- extraktor Inhalts-
extraktor Inhalts-
extraktor Metadaten-
extraktor Metadaten-
extraktor Metadaten-
extraktor
Index Metadaten
DB
@AB
C
DEFGHIJEKLMNEHOP
QGHKRS
Designoptionen
T
Wie wird die URL Liste abgearbeitet?
U
Depth-First, LIFO Schlange:
"Enge" Suche in die Tiefe einzelner Sites
V
Breadth-First, FIFO Schlange:
"Breite" Suche über viele Sites, übliches Vorgehen
V
Breadth-First pro Site, FIFO-Schlagen
Nicht mehr beliebig, aber "breit" genug
XXY
Z
[\]^_`a\bcde\_fg
h^_bij
Designoptionen
k
Crawl-Koordinator
l
Schon gesehen?
m
Eigenschaften der URL
n
aus .de?
m
Verarbeitbarer Filetyp?
n
HTML
o
PDF, Postscript, Word
o
Excel?
o
MP3?
p
Serverzugriff zurückstellen?
q
Kurz vorher schon zugegriffen?
q
Schon zu viel von Server geholt?
q
Zu tief von / entfernt?
stu
v
wxyz{|}x~x{
z{~
Designoptionen
Netzzugriffe
Wieviele Zugriffe parallel?
Welche Timeouts?
Umgang mit Fehlern
Verteilte Zugriffe?
Erste Google-Versionen ca. 1997/8 (http://google.stanford.edu):
3 Netzclients
je ca. 300 Verbindungen
mit 4 Clients ca. 100 Web Seiten/Minute crawlbar
(144000/Tag, 6944 Tage für 1 Milliarde Seiten = 19 Jahre)
ca. 600K / Sekunde Netzlast
¡
Designoptionen
¢
Link Extraktion
£
Welche Links verfolgen?
¤
Art (<a>, <link>, <meta>, <img>, <object>,
<frameset> etc)
¤
Relevanz der Seite die sie enthält?
¤
Entfernung von /
¤
Angenommener Medientyp
¤
Ankertext?
¦§¨
©
ª«¬®¯°«±²³´«®µ¶
·®±¸¹
Designoptionen
º
Inhaltsextraktion
»
Welche Teile des Inhalts indexieren?
¼
Überschriften
¼
Nur Ankertexte
¼
Titel
¼
Gesamtdokument
¾¿À
Á
ÂÃÄÅÆÇÈÃÉÊËÌÃÆÍÎ
ÏÅÆÉÐÑ
Designoptionen
Ò
Metadatenermitteln
Ó
Welche Metadaten speichern?
Ô
Titel
Ô
Besucht
Ô
<meta> Tag
Ô
Klassifikation?
Ö×Ø
Ù
ÚÛÜÝÞßàÛáâãäÛÞåæ
çÝÞáèé
Diverse Probleme
ê
Relative Pfade in URLs / Gleichheit von URLs?
<A HREF="../../../quotes/">Hamlet</A>
ê
Framesets
ê
Unterschiedliche URLs für dieselbe Seite Sitzungsids, dynamisch erzeugte Pfade
ê
Errechnete Links ("Next year" auf einem Kalender)
ê
Dynamische Seiteninhalte (Javascript etc.)
ê
Fehlerhafte Seiten
ê
Transportprobleme durch Netz
ê
Transportprobleme durch Größe
ìíî
ï
ðñòóôõöñ÷øùúñôûü
ýóô÷þÿ
Focused Crawling
Nach S. Chakrabarti and B. Dom, and M. van den Berg. Focused Crawling: A
New Approach for Topic-Specific
Resource Discovery. Proceedings of the
8th World Wide Web conference, 1999.
Focused crawling
Ziel: Seiten sammeln, die relevant bezogen auf bestimmte Themen sind
Themen werden durch Beispieldokumente beschrieben
Analyse: Macht es Sinn, in einem Teil des Web noch weiter zu suchen?
Komponenten
Classifier: Relevanz bestimmen
Distiller: Startpunkt zu Navigation zu relevanten
dokumenten festlegen
!"#$%&'(
)#*+
Ausgangslage
,
"Alta Vista’s crawler called the Scooter, runs on a 1.5 GB memory, 30 GB RAID disk, 4 533 MHz
AlphaServer 4100-5=300 with 1 GB/s I/O bandwidth.
Scooter connects to the indexing engine Vista, which is a 2 GB memory, 180 GB RAID disk, 2 533 MHz
AlphaServer 4100-5/300."
,
"Inktomi uses a cluster of hundreds of Sun Sparc workstations with 75 GB of RAM and over 1 TB of spinning disk, and it crawls over 10 million pages a day."
,
Aber: Nur 30-40% Abdeckung des Web Inhalts
./0
1
234567839:;<36=>
?569@A
Motivation
B
Allgemeines Crawling ist nicht notwendig und nicht ausreichend
B
Focused Crawling:
C
Crawler erfasst nur Seiten in einem thematisch bestimmten Segment des Web
D
Erheblich kleinere Aufgabe
D
Erheblich weniger Ressourcenaufwand notwendig
E
Ergebnis: Themenspezifische Suchmaschine
GHI
J
KLMNOPQLRSTULOVW
XNORYZ
Ablauf
[
Taxonomie für Klassifierung bereitstellen
[
Beispieldokumente anliefern und einordnen
[
Taxonomie verfeinern
[
Dokumente "nahe" zu Beispielen untersuchen
[
Training
[
Resource discovery starten
]]^
_
`abcdefaghijadkl
mcdgno
Architektur Focused Crawler
qrs
t
uvwxyz{v|}~vy
xy|
Modell
Graph G: das Web
Themenhierarchie C: Yahoo! o.ä.
Thema verweist auf Seiten aus G
Beispiele für das Thema c: D(c)
Nutzerinteresse: als "good" markiert
Kein gutes Thema ist Nachfahre eines anderen guten Themas
-> Interesse so genau wie möglich beschrieben
Die Nachfahren eines guten Themas heissen path
Themen
Modell
Für ein Dokument q muss System die Relevanz ermitteln
R ist Wahrscheinlichkeit:
Bei allgemeinstem Interesse sind alle Seiten relevant:
Wenn direkte Kinder von sind, dann
Relevanz verteilt sich auf die Kinder
¡
¢£¤¥¦§¨£©ª«¬£¦®
¯¥¦©°±
Vorgehen
²
System besucht alle Seiten in
also alle Beispielseiten für alle relevanten Themen
²
In jedem Schritt wird eine neue Seite zum Crawlen ausgewählt
²
Auf eine solche Seite zeigt ein Link aus den schon besuchten Seiten V
²
Ziel: Finden von
so dass maximiert ist
(nach 1 geht und die besuchten Seiten sollten
maximal relevante sein)
´µ¶
·
¸¹º»¼½¾¹¿ÀÁ¹¼ÃÄ
Å»¼¿ÆÇ
Idee
È
Menge wäre schwer auffindbar, wenn sie über das Web verteilt wäre
È
Aber: "Nähe" zu relevantem Dokument legt Relevanz nahe
È
Und: Von einem Dokument verwiesene Seiten sind wahrscheinlich semantisch verwandt
È
Also: Crawling auf relevante Seite fokussieren und
diese Entscheidung am "Rand" des übersehenen
Web-Teils treffen
ÊËÌ
Í
ÎÏÐÑÒÓÔÏÕÖ×ØÏÒÙÚ
ÛÑÒÕÜÝ
Þ
Relevanz eines Dokument d wird durch die
Wahrscheinlichkeit bestimmt, dass es in die Kategorie c der Taxonomie eingeordnet wird: Pr[c|d]
ß
Pr[root|d]=1, da alles vom allgemeinsten Thema ist
ß
Damit ein Dokument in die Kategorie c eingeordnet wird, muss es
à
im darüberliegenden Themenzweig liegen, also für den Elternknoten eingeordnet werden können
(notiert: parent(c))
à
spezieller eingeordnet werden als der Elternknoten, nämlich
auch in c
âãä
å
æçèéêëìçíîïðçêñò
óéêíôõ
ö
Wahrscheinlichkeit, dass eine Dokument d in c klassifiziert wird:
Pr[c|d]=Pr[parent(c)|d] * Pr[c|parent(c), d]
÷
Pr[parent(c)|d] läßt sich durch Rekursion bis zum bekannten Pr[root|d] auflösen
÷
Pr[c|parent(c), d] läßt sich umformen
ùúû
ü
ýþÿþþ
Umformung
mit Bayes Regel
mit
weil
!"
Einordnungswahrscheinlichkeit
#
Läßt sich mit Modell der Erzeugung von Dokumenten errechnen (Dokumente werden zusammengewürfelt)
#
Kategorie mit der höchsten Wahrscheinlichkeit wird für Dokument gesucht
#
Hard-focus rule:
$
In welche Kategorie wird ein Dokument wahrscheinlich eingeordnet
$
Wenn Vorgänger good war, werden enthaltene URLs weiterverfolgt
%
Soft-focus rule:
&
Relevanz einer Seite ist die Summe der
Wahrscheinlichkeiten, dass es in gute Themen eingeordnet wird
'
Relevanz ist Wahrscheinlichkeit, dass Seite ein guter Weg
zu anderen Seiten ist
)*+
,
-./0123.4567.189
:014;<
Crawling aus Server-Sicht
>?@
A
BCDEFGHCIJKLCFMN
OEFIPQ
Crawler Last
R
Crawler erzeugen Last beim Server
S
Verarbeitung der Anfragen
T
Auslieferung der Ergebnisse
U
"Freundliche" Crawler versuchen das zu vermeiden
V
Keine fortlaufenden Anfragen zum Indexieren einer gesamten Site auf einen Schlag
W
Beachtung des Robot Exclusion Protokolls
W
Beachtung der <meta>-Tags zum Steuern von Robotern
YYZ
[
\]^_`ab]cdef]`gh
i_`cjk
Robots Exclusion Protokol
l
Definiert einen Mechanismus mit dem ein Server festlegt, ob er von einem Crawler besucht werden will
l
Daten /robots.txt auf Server
l
http://www.inf.fu-berlin.de/robots.txt:
# robots.txt for http://www.inf.fu-berlin.de/
User-agent: *
Disallow: /tec/net/
Disallow: /tec/rechner/
Disallow: /tec/software/packages/
Disallow: /cgi-bin/
User-agent: MOMspider/1.00 Disallow: /cgi-bin/
Disallow: /tec/software/packages/
nop
q
rstuvwxsyz{|sv}~
uvy
robots.txt
User-agent: bezeichnet den Roboter, für die die folgenden Regeln gelten sollen
Namen wie (s. http://www.robotstxt.org/wc/active.html)
Googlebot
Grapnel/0.01 Experiment
InfoSeek Robot 1.0
Platzhalter * für alle Roboter
Bezeichnet jeweils einen Teil der Dokumentenraums, der nicht besucht werden soll
Eintrag
Disallow: /tec/net/
http://www.inf.fu-berlin.de/tec/net soll nicht
besucht werden
robots.txt
Alle Roboter ausschließen:
User-agent: * Disallow: /
Einzelne Roboter ausschließen:
User-agent: Roverdog Disallow: /
Einzelne Seiten schützen:
User-agent: googlebot Disallow: cheese.htm
Nur einen Crawler zulassen:
User-agent: WebCrawler Disallow:
User-agent: *
Disallow: /
¢£¤
¥
¦§¨©ª«¬§®¯°§ª±²
³©ª´µ
<meta>-Element
¶
Das HTML <meta>-Tag kann ebenfalls zur Roboter- Steuerung genutzt werden
<html>
<head>
<meta name="robots"
content="noindex,nofollow">
<title>...</title>
</head>
·
Verbreitung bei Robots unklar
¹º»
¼
½¾¿ÀÁÂþÄÅÆǾÁÈÉ
ÊÀÁÄËÌ
<meta>-Element
Í
index : Diese Seite soll indexiert werden
Í
noindex : Diese Seite soll nicht indexiert werden
Í
follow : Die Links dieser Seite weiterverfolgen
Í
nofollow : Die Links dieser Seite nicht weiterverfolgen
Í
all = index,follow
Í
none = noindex,nofollow
Í
Keine Möglichkeit, Verhalten für bestimmte Crawler zu bestimmen
Î
Kein Zugriff auf robots.txt notwendig
ÐÑÒ
Ó
ÔÕÖ×ØÙÚÕÛÜÝÞÕØßà
á×ØÛâã
"Deep Web" Problematik
Nach: Michael K. Bergman. The Deep Web: Surfacing Hidden Value. The Journal of Electronic Publishing August,
2001 Volume 7, Issue 1 und
http://www.brightplanet.com/deepcontent/tutorials/DeepWeb
åæç
è
éêëìíîïêðñòóêíôõ
öìíð÷ø
"Deep Web"-Argumentation
ù
Traversierung des Web über Links
führt nur zu einem Bruchteil der Informationen
ù
"Deep Web" wird von Datenbankinhalten gebildet
ù
Umfang 400-500 mal größer als "normales"
Web
ù
500Mrd Dokumente vs. 1 Mrd Dokumente
ù
Zugriff aber nur
durch Datenbank-
anfragen möglich
ûüý
þ
ÿ
Deep Web Studie
100 Sites analysiert
Schätzung der enthaltenen Datensätze oder Dokumente
Abfrage von Stichprobe von 10 Dokumenten zu Größenabschätzung durch Mittelwertbildung
Indexierung und Klassifizierung des Suchformulars
Größenschätzung
Nachfrage bei Betreibern
Aussagen auf Site
Aussagen über Site in anderen Berichte
Zahlen bei Suchantworten, z.B. Treffer für "NOT sfgjsljffjd"
Ausschluss aus Untersuchung
Schätzung: Durchschnittlich 74,4 MB pro Site
!"#$%&'
(")*
Größenschätzung Sites des Deep Web
+ + +
+ + +
+ + + ,- .0/ 1 2-354 67 8 , 1:9 - ;<=?> @ 64 67 8 A5B B C D7 EB F =4 > G HB E IKJ LM N
O5P P
QSR T U?V P W X YZS[ \] ^ _Z5` ] acb YZ5d Z ^e a f5e g a ^ h iKj k l l
m \ \
n \` \e a?o d p?q e ` ] \r ^
[ p
b ] o s t lj uv lm \ \
YZ e a?o d t wj w l lm \ \
x \y Z rq z \y Z r { lj k l l
m \ \
Y| } ~
`
aZ5`
\ 0
?
S ¡¢ £ ¤?¥ ¦§ ¨
¢ ¦¡©
ª¡?« ¬ ¦ ®K¯ °± ²S ¡¢ £ ³´ « «
µ ¦ ¨
¢ ¶· ¦¡ ¸ £« ¦· ¶¹ § ¦¥
º
¢ £ ¤ £ ¶» ¢ · « ¼ ½
¢ ¨ º
¾
« ¶¥ ºÀ¿ Á
¢ £ ¦¡©  ¦ ¨ ¦ Ã
« · ¨
« § ¤ µ ¸ ª ª© ® Ä °
¯ Å ² ²
S ¡¢ £
µ ª Æ ªÇ ¸ Æ ÂÈ Æ Å Å
¯ ² ² ²
S ¡¢ £
µ ¦ ¨¢ ¶· ¦¡ ᢠ» ¦ ¨¢ £  ¦ ¨ ¦ Ã
« · ¨
« § ¤ µ ¸ ª ª
© É5Ê ËÌ ÍÀÎ Ê ÏÐ Ñ5Ò Ó
ÔSÕ ÖÊ
×5Ø
ÙÊ
ÛÜÝ
Þ
ßàáâãäåàæçèéàãêë
ìâãæíî
Anzahl von Sites des Deep Web
ï
Manuell und teilweise automatisch unterstützt:
ð
53220 URL-Hinweise aus anderen Sites
ñ
45732 ohne Duplikate
ñ
43348 nochzugängige
ñ
17579 anscheinend suchbare
ñ
13,6% davon nicht suchbar
ò óôõ
ö
÷øùúûüýøþÿøû
úûþ
Overlap analysis: Gesucht N - Größe des Deep Web
n
, n Abdeckung durch je eine Suchmaschine
/ ein Verzeichnis
n
Überlappung
|A|, |B|: Größe von A, B
p(A): Wahrscheinlichkeit, Seite von A gefunden wird
p(A ∩ B)=p(A)*p(B)
|A|=N*p(A), |B|=N*p(B), |A ∩ B|=N*p(A ∩ B)
N=|A|*|B|/|A ∩ B|
Da Verzeichnisse nicht zufällig: Untere Genze
N
|A| n
|B|
!
Schätzung Anzahl der Sites
"
Schätzung: Ca. 100000 Deep Web Sites
# $&% ' ()
$&% # # *
+&, + ' *
$&% -) .
- $ #
-% * ( *
/10 243 5 6
0 7
$&% # # *
/10 8 79 0 7 8;: * (&% ' + -.<% += )+&, + . $#<% * - .) . (-% * ( */10 243 5 6
0 7
.<% += )
>4?
@3 : #<% = - . +&, + ' # .<% += ) (= % # . .
- . (
$&% # # *
/10 8 79 0 7 8;:
.<% += )
>4?
@3 : ABC DE
FG
AB4H D
FGI1JK L
CNM
O1P B1Q M
RST
T1U V
W4X YZ
[ T T
RU V
W4X YZ
[ T R \ V ]
^Z ]
[1_ _ Y
`
_ a
[ T R
cde
f
ghijklmhnopqhkrs
tjknuv
Inhaltsanalyse
w
Inhaltsüberprüfung durch Anfragen aus 20 Gebieten
w
Typanalyse durch Handauswertung von 700 Sites
yz{
|
}~~ ~
Inhaltsklassifikation
3.9%
Law/Politics 13.5%
Humanities
3.2%
Shopping 5.5%
Health
3.4%
Travel 3.9%
Government
4.0%
Science, Math 3.1%
Engineering
4.5%
References 4.1%
Employment
3.5%
Recreation, Sports 4.3%
Education
4.9%
People, Companies 6.9%
Computing/Web
12.2%
News, Media 5.9%
Business
4.0%
Lifestyles 6.6%
Arts
3.9%
Law/Politics 2.7%
Agriculture
¡
Site-Klassifikation
£¤¥
¦
§¨©ª«¬¨®¯°±¨«²³
´ª«®µ¶
Vergleiche
·
Deep Web: 7500 Terabytes, Web: 19 Terabytes
·
Deep Web: 550 Mrd Docs, Web: 1 Mrd Docs
·
Mehr Traffic auf Deep Web Sites (50%)
·
Mehr Wachstum im Deep Web
·
Deep Web Sites mehr inhaltliche Tiefe und weniger inhaltliche Breite
·
95% des Deep Web frei zugänglich
·
Probleme:
¸
Intention der Deep Web Studie
¸
Erschließung?
º»¼
½
¾¿ÀÁÂÃÄ¿ÅÆÇÈ¿ÂÉÊ
ËÁÂÅÌÍ
Literatur
Î
Brian Pinkerton. Finding What People Want:
Experiences with the WebCrawler. Second
International World-Wide Web Conference: Mosaic and the Web, Chicago, IL, October 17--20 1994.
http://www.ncsa.uiuc.edu/SDG/IT94/Proceedings/Se arching/pinkerton/WebCrawler.html
Î
www.searchenginewatch.com
Î