• Keine Ergebnisse gefunden

Information Discovery

N/A
N/A
Protected

Academic year: 2022

Aktie "Information Discovery"

Copied!
49
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Quellen finden

(2)

!"#$

%&'

Information Discovery

(

Lynch, C. (1995). Networked Information Resource Discovery: An Overview of Current Issues (Invited paper). IEEE Journal on Selected Areas of

Communications, 13(8):1505–1522:

"information discovery is a complex collection of

activities that can range from simply locating a well- specified digital object on the network through

lengthy iterative research activities which involve the identification of a set of potentially relevant

networked information resources, the organization and ranking resources in this candidate set, and the repeated expansion or restriction of this set based on characteristics of the identified resources and

exploration of specific resources."

(3)

*+

,

-./0123.4567.189

:014;<

Crawling

(4)

>?

@

ABCDEFGBHIJKBELM

NDEHOP

Information Discovery

Q

Das Web ist

R

Verteilt

S

Dezentral organisiert

S

Dynamisch

T

Resource Discovery Problem: Wo sind Informationsquellen (von Interesse)

U

Lösungsidee:

V

Automatisches Navigieren über Seiten

V

Indexierung der gefundenen Seiten

V

Crawler (auch Spider, Robot , etc.)

(5)

XY

Z

[\]^_`a\bcde\_fg

h^_bij

WebCrawler

k

Eines der ersten Systeme: WebCrawler [Pinkerton94]

k

Zwei Funktionen

l

Indexierung des Web

l

Automatische Navigation nach Bedarf

m

WebCrawler in 94:

n

50000 Dokumente von 9000 Quellen indexiert

n

6000 Anfragen täglich

o

Updates wöchentlich

p

Suchmaschinen heute:

[Searchenginewatch]

(6)

rs

t

uvwxyz{v|}~vy€

‚xy|ƒ„

Größenverhältnisse heute

…

Google 10/02: 2500m

† ‡ ‡‰ˆ ‡‹Š Š Œ Ž  ‘’ “” ˆ ‘’ “”  ’ •

ˆ ’ – — •˜š™ – —  ›œ 

ˆ ›šž Ÿ

– Š  ˜  œ ¡

ˆ œ Š ¢

– £Ž ¢ž ¡˜ Œ £–

¤

“˜‹¥

Ž ™ — ¢Ž —™ ¢Ž ¦Š ¢

– Ž § ¨ª© Ž —« £™ Ž — ¢« £ Ž ž Œ˜ ž Ž —ž

§ —™ Š ¬ ­

Ž «¯® ° °  ±² ² ° ¤

(7)

´µ

·¸¹º»¼½¸¾¿ÀÁ¸»ÂÃ

ĺ»¾ÅÆ

Crawling Algorithmus

Ç

Das Web als traversierbarer Graph von Seiten die über Links als Kanten verbunden sind

È

<a>, <link>, <meta>, <img>, <object>, <frameset>

É

FTP-Server, Adressen in nicht-HTML Dokumenten

É

..

Ê ËÍÌ ÎÏ ÐÑ Ð Ò ÓÔÕ ÖØ× ÙÚÛ ÜÞÝ ßÛ Ü Ùà Ô áâã á

× Ù

Û Ùä áå æã à Ô áâã á

× Ùèçé Ùê

Ê ËÍÌ ÎÏ Ð Ö á Ó

× Ù Ò

é ëíì î Ò

Ï ï Ùð å æã × Ù Ò

é ë Ùä áå æã à Ô áâã á

× Ùèçé Ùð Ô áã Öñò ã

Ö Ó áÔÕ

Õ ñð

ó× Ù Îô Ò

é Ùê Ê ËÍÌ ÎÏ Ð Ö á Ó× Ù ëé ç Ò Ðç Òì î Ò

Ï ï Ùð å æã × Ù ëé ç Ò Ðç Ò Ù

ä áå æã à Ô áâã á

× Ùèçé Ùð Ô áã Öñò ã Ö Ó á

ÔÕ Õ ñð

ó× Ù Îô Ò

é Ù

æå á

óñð

õñ âö ÷× ÙÚÛ Ù æå á

óñð

÷

ã ñ ó ÷ö × ÙÚÛ Ùê

Êø ëï

ÎÑ Ñ × ô ø ê Ê Î îÌ Ð Ë

× Ù î Ò Ò

øù ú úÍû û û ì Ë

ôü ý ÐÌ ïþ ç ì ÿ Ð ú Ùê ä Ì Ð

þ Ð

ç þ ÐÌ Ñ þ Ò Îô Ï ï

Òà

ÐÌ ïþç Ê ú Îê Ê ýÌê Ê Î îÌ Ð Ë

× Ù î Ò Ò

øù ú úÍû û û ìÏ Î Ò îì Ë

ôü

ý ÐÌ ïþç ì ÿ Ð ú Ùê ä Î ë î ý ÐÌ Ð

þ ë î æ Î Ò î ÐÏ Î

Òþ

ô ç ÿ ñ ç Ë

é ÌÏ Î

Òþ

Ê ú Îê Ê ú

ø ê

Ê î ê ñ ç Ñ Òþ Ò

ô Ò Ë

ô ô Ï ï Ì ñ ç Ë

é ÌÏ Î Òþ Ê ú î ê Êø ëï ÎÑ Ñ × ï

Îç ë î

Îç

Ðê Ê Î

îÌ Ð Ë

× Ù î Ò Ò

øù

ú úÍû û û ì þç Ë

ì Ë

ôü ý ÐÌ ïþç ì ÿ Ð

úþ

ç ÿ Ð Ðç ì î Ò

Ï ï Ùê ÷

é Ï Ðø Î Ð þç

ã ç ïþ Ñ î Ê ú Îê ì Ê ú

ø ê

Ê Ò Î ýï Ð

õñ âö ÷× Û Û Üà Ô áâã á

×Û ê Ê ÒÌ ê Ê Ò ÿê ÊþÏ Ö á Ó× Ù ú

ø þ ëÑ

úþ

ç Ë

ü

ï

é é ü ï Ð

þç ì þ Ë Ù åÕ ö ×

Ùñ

ç Ñ Òþ Ò

ô ÒÑ ï

é é Ù åÕ ñ ó

ð ×Õ ã äö ê Ê ú Ò ÿê Ê Ò ÿê

ÊÑ

Ï Îïïê Ê Î ÷ áã ä × Ù î Ò Ò

øù ú úÍû û û ì Ë

ôü ý ÐÌ ïþç ì ÿ Ð ú Ùê ä Ì Ð

þ Ð ç þ

ÐÌ Ñ þ Ò Îô Ï ï Ò

à ÐÌ ïþ ç Ê ú Îê Ý Ê Î ÷ áã ä × Ù î Ò Ò

øù ú úÍû û û ìÏ Î Ò îì Ë

ôü ý ÐÌ ïþç ì ÿ Ð ú Ùê â Ðø ÎÌ Ò

Ï Ðç

Ò

é Ë æ Î Ò î ÐÏ Î

Òþ

ëÑ Îç ÿ Ó

é Ï ø ô Ò ÐÌ Ö ë

þ

Ðç ë Ð Ê ú Îê Ê úèÑ Ï Îïïê Ê î ê ñ ç Ñ

Òþ Ò

ô Ò Ð

é Ë Ó

é Ï ø ô Ò ÐÌ Ö ë

þ Ðç ë Ð Ê ú î ê

(8)

Crawling Algorithmus URL-Liste initial füllen

!

Nehme URL aus Liste und teste

"

schon besucht?

#

passender Medientyp (html/ps/pdf/gif/…)?

#

andere Kriterien (Ort/…)?

$&%

hole Seite

'

%

extrahiere URLs und schreibe sie in URL-Liste

(%

extrahiere und indexe Seiteninhalt

)

%

extrahiere und speichere Metadaten

*

%

gehe nach 2

(9)

,-

.

/0123450678903:;

<236=>

Einfache Architektur

URL Liste Crawl-Koordinator

Web-Seiten Netzclient

T T T T… Netzclient

T T T T… Netzclient T T T T…

Link- extraktor

besuchte URLs

Link- extraktor Link-

extraktor

Inhalts- extraktor Inhalts-

extraktor Inhalts-

extraktor Metadaten-

extraktor Metadaten-

extraktor Metadaten-

extraktor

Index Metadaten

DB

(10)

@AB

C

DEFGHIJEKLMNEHOP

QGHKRS

Designoptionen

T

Wie wird die URL Liste abgearbeitet?

U

Depth-First, LIFO Schlange:

"Enge" Suche in die Tiefe einzelner Sites

V

Breadth-First, FIFO Schlange:

"Breite" Suche über viele Sites, übliches Vorgehen

V

Breadth-First pro Site, FIFO-Schlagen

Nicht mehr beliebig, aber "breit" genug

(11)

XXY

Z

[\]^_`a\bcde\_fg

h^_bij

Designoptionen

k

Crawl-Koordinator

l

Schon gesehen?

m

Eigenschaften der URL

n

aus .de?

m

Verarbeitbarer Filetyp?

n

HTML

o

PDF, Postscript, Word

o

Excel?

o

MP3?

p

Serverzugriff zurückstellen?

q

Kurz vorher schon zugegriffen?

q

Schon zu viel von Server geholt?

q

Zu tief von / entfernt?

(12)

stu

v

wxyz{|}x~€x{‚ƒ

„z{~…†

Designoptionen

‡

Netzzugriffe

ˆ

Wieviele Zugriffe parallel?

‰

Welche Timeouts?

‰

Umgang mit Fehlern

‰

Verteilte Zugriffe?

Š

Erste Google-Versionen ca. 1997/8 (http://google.stanford.edu):

‹

3 Netzclients

Œ

je ca. 300 Verbindungen

Œ

mit 4 Clients ca. 100 Web Seiten/Minute crawlbar

(144000/Tag, 6944 Tage für 1 Milliarde Seiten = 19 Jahre)

Œ

ca. 600K / Sekunde Netzlast

(13)

Ž

‘

’“”•–—˜“™š›œ“–ž

Ÿ•–™ ¡

Designoptionen

¢

Link Extraktion

£

Welche Links verfolgen?

¤

Art (<a>, <link>, <meta>, <img>, <object>,

<frameset> etc)

¤

Relevanz der Seite die sie enthält?

¤

Entfernung von /

¤

Angenommener Medientyp

¤

Ankertext?

(14)

¦§¨

©

ª«¬­®¯°«±²³´«®µ¶

·­®±¸¹

Designoptionen

º

Inhaltsextraktion

»

Welche Teile des Inhalts indexieren?

¼

Überschriften

¼

Nur Ankertexte

¼

Titel

¼

Gesamtdokument

(15)

¾¿À

Á

ÂÃÄÅÆÇÈÃÉÊËÌÃÆÍÎ

ÏÅÆÉÐÑ

Designoptionen

Ò

Metadatenermitteln

Ó

Welche Metadaten speichern?

Ô

Titel

Ô

Besucht

Ô

<meta> Tag

Ô

Klassifikation?

(16)

Ö×Ø

Ù

ÚÛÜÝÞßàÛáâãäÛÞåæ

çÝÞáèé

Diverse Probleme

ê

Relative Pfade in URLs / Gleichheit von URLs?

<A HREF="../../../quotes/">Hamlet</A>

ê

Framesets

ê

Unterschiedliche URLs für dieselbe Seite Sitzungsids, dynamisch erzeugte Pfade

ê

Errechnete Links ("Next year" auf einem Kalender)

ê

Dynamische Seiteninhalte (Javascript etc.)

ê

Fehlerhafte Seiten

ê

Transportprobleme durch Netz

ê

Transportprobleme durch Größe

(17)

ìíî

ï

ðñòóôõöñ÷øùúñôûü

ýóô÷þÿ

Focused Crawling

Nach S. Chakrabarti and B. Dom, and M. van den Berg. Focused Crawling: A

New Approach for Topic-Specific

Resource Discovery. Proceedings of the

8th World Wide Web conference, 1999.

(18)

Focused crawling

Ziel: Seiten sammeln, die relevant bezogen auf bestimmte Themen sind

Themen werden durch Beispieldokumente beschrieben

Analyse: Macht es Sinn, in einem Teil des Web noch weiter zu suchen?

Komponenten

Classifier: Relevanz bestimmen

Distiller: Startpunkt zu Navigation zu relevanten

dokumenten festlegen

(19)

!"#$%&'(

)#*+

Ausgangslage

,

"Alta Vista’s crawler called the Scooter, runs on a 1.5 GB memory, 30 GB RAID disk, 4 533 MHz

AlphaServer 4100-5=300 with 1 GB/s I/O bandwidth.

Scooter connects to the indexing engine Vista, which is a 2 GB memory, 180 GB RAID disk, 2 533 MHz

AlphaServer 4100-5/300."

,

"Inktomi uses a cluster of hundreds of Sun Sparc workstations with 75 GB of RAM and over 1 TB of spinning disk, and it crawls over 10 million pages a day."

,

Aber: Nur 30-40% Abdeckung des Web Inhalts

(20)

./0

1

234567839:;<36=>

?569@A

Motivation

B

Allgemeines Crawling ist nicht notwendig und nicht ausreichend

B

Focused Crawling:

C

Crawler erfasst nur Seiten in einem thematisch bestimmten Segment des Web

D

Erheblich kleinere Aufgabe

D

Erheblich weniger Ressourcenaufwand notwendig

E

Ergebnis: Themenspezifische Suchmaschine

(21)

GHI

J

KLMNOPQLRSTULOVW

XNORYZ

Ablauf

[

Taxonomie für Klassifierung bereitstellen

[

Beispieldokumente anliefern und einordnen

[

Taxonomie verfeinern

[

Dokumente "nahe" zu Beispielen untersuchen

[

Training

[

Resource discovery starten

(22)

]]^

_

`abcdefaghijadkl

mcdgno

Architektur Focused Crawler

(23)

qrs

t

uvwxyz{v|}~vy€

‚xy|ƒ„

Modell

…

Graph G: das Web

…

Themenhierarchie C: Yahoo! o.ä.

…

Thema verweist auf Seiten aus G

…

Beispiele für das Thema c: D(c)

…

Nutzerinteresse: als "good" markiert

†

Kein gutes Thema ist Nachfahre eines anderen guten Themas

-> Interesse so genau wie möglich beschrieben

†

Die Nachfahren eines guten Themas heissen path

Themen

(24)

ˆ‰Š

‹

ŒŽ‘’“”•–—˜

™“š›

Modell

œ

Für ein Dokument q muss System die Relevanz ermitteln

œ

R ist Wahrscheinlichkeit:

œ

Bei allgemeinstem Interesse sind alle Seiten relevant:

œ

Wenn direkte Kinder von sind, dann

Relevanz verteilt sich auf die Kinder

(25)

žŸ 

¡

¢£¤¥¦§¨£©ª«¬£¦­®

¯¥¦©°±

Vorgehen

²

System besucht alle Seiten in

also alle Beispielseiten für alle relevanten Themen

²

In jedem Schritt wird eine neue Seite zum Crawlen ausgewählt

²

Auf eine solche Seite zeigt ein Link aus den schon besuchten Seiten V

²

Ziel: Finden von

so dass maximiert ist

(nach 1 geht und die besuchten Seiten sollten

maximal relevante sein)

(26)

´µ¶

·

¸¹º»¼½¾¹¿ÀÁ¹¼ÃÄ

Å»¼¿ÆÇ

Idee

È

Menge wäre schwer auffindbar, wenn sie über das Web verteilt wäre

È

Aber: "Nähe" zu relevantem Dokument legt Relevanz nahe

È

Und: Von einem Dokument verwiesene Seiten sind wahrscheinlich semantisch verwandt

È

Also: Crawling auf relevante Seite fokussieren und

diese Entscheidung am "Rand" des übersehenen

Web-Teils treffen

(27)

ÊËÌ

Í

ÎÏÐÑÒÓÔÏÕÖ×ØÏÒÙÚ

ÛÑÒÕÜÝ

Þ

Relevanz eines Dokument d wird durch die

Wahrscheinlichkeit bestimmt, dass es in die Kategorie c der Taxonomie eingeordnet wird: Pr[c|d]

ß

Pr[root|d]=1, da alles vom allgemeinsten Thema ist

ß

Damit ein Dokument in die Kategorie c eingeordnet wird, muss es

à

im darüberliegenden Themenzweig liegen, also für den Elternknoten eingeordnet werden können

(notiert: parent(c))

à

spezieller eingeordnet werden als der Elternknoten, nämlich

auch in c

(28)

âãä

å

æçèéêëìçíîïðçêñò

óéêíôõ

ö

Wahrscheinlichkeit, dass eine Dokument d in c klassifiziert wird:

Pr[c|d]=Pr[parent(c)|d] * Pr[c|parent(c), d]

÷

Pr[parent(c)|d] läßt sich durch Rekursion bis zum bekannten Pr[root|d] auflösen

÷

Pr[c|parent(c), d] läßt sich umformen

(29)

ùúû

ü

ýþÿþþ

Umformung

mit Bayes Regel

mit

weil

(30)

!"

Einordnungswahrscheinlichkeit

#

Läßt sich mit Modell der Erzeugung von Dokumenten errechnen (Dokumente werden zusammengewürfelt)

#

Kategorie mit der höchsten Wahrscheinlichkeit wird für Dokument gesucht

#

Hard-focus rule:

$

In welche Kategorie wird ein Dokument wahrscheinlich eingeordnet

$

Wenn Vorgänger good war, werden enthaltene URLs weiterverfolgt

%

Soft-focus rule:

&

Relevanz einer Seite ist die Summe der

Wahrscheinlichkeiten, dass es in gute Themen eingeordnet wird

'

Relevanz ist Wahrscheinlichkeit, dass Seite ein guter Weg

zu anderen Seiten ist

(31)

)*+

,

-./0123.4567.189

:014;<

Crawling aus Server-Sicht

(32)

>?@

A

BCDEFGHCIJKLCFMN

OEFIPQ

Crawler Last

R

Crawler erzeugen Last beim Server

S

Verarbeitung der Anfragen

T

Auslieferung der Ergebnisse

U

"Freundliche" Crawler versuchen das zu vermeiden

V

Keine fortlaufenden Anfragen zum Indexieren einer gesamten Site auf einen Schlag

W

Beachtung des Robot Exclusion Protokolls

W

Beachtung der <meta>-Tags zum Steuern von Robotern

(33)

YYZ

[

\]^_`ab]cdef]`gh

i_`cjk

Robots Exclusion Protokol

l

Definiert einen Mechanismus mit dem ein Server festlegt, ob er von einem Crawler besucht werden will

l

Daten /robots.txt auf Server

l

http://www.inf.fu-berlin.de/robots.txt:

# robots.txt for http://www.inf.fu-berlin.de/

User-agent: *

Disallow: /tec/net/

Disallow: /tec/rechner/

Disallow: /tec/software/packages/

Disallow: /cgi-bin/

User-agent: MOMspider/1.00 Disallow: /cgi-bin/

Disallow: /tec/software/packages/

(34)

nop

q

rstuvwxsyz{|sv}~

uvy€

robots.txt

‚

User-agent: bezeichnet den Roboter, für die die folgenden Regeln gelten sollen

ƒ

Namen wie (s. http://www.robotstxt.org/wc/active.html)

„

Googlebot

…

Grapnel/0.01 Experiment

…

InfoSeek Robot 1.0

†

Platzhalter * für alle Roboter

‡

Bezeichnet jeweils einen Teil der Dokumentenraums, der nicht besucht werden soll

ˆ

Eintrag

Disallow: /tec/net/

‰

http://www.inf.fu-berlin.de/tec/net soll nicht

besucht werden

(35)

‹Œ

Ž

‘’“”•–—˜™“š›

œ’“–ž

robots.txt

Ÿ

Alle Roboter ausschließen:

User-agent: * Disallow: /

Ÿ

Einzelne Roboter ausschließen:

User-agent: Roverdog Disallow: /

 

Einzelne Seiten schützen:

User-agent: googlebot Disallow: cheese.htm

 

Nur einen Crawler zulassen:

User-agent: WebCrawler Disallow:

User-agent: *

Disallow: /

(36)

¢£¤

¥

¦§¨©ª«¬§­®¯°§ª±²

³©ª­´µ

<meta>-Element

Das HTML <meta>-Tag kann ebenfalls zur Roboter- Steuerung genutzt werden

<html>

<head>

<meta name="robots"

content="noindex,nofollow">

<title>...</title>

</head>

·

Verbreitung bei Robots unklar

(37)

¹º»

¼

½¾¿ÀÁÂþÄÅÆǾÁÈÉ

ÊÀÁÄËÌ

<meta>-Element

Í

index : Diese Seite soll indexiert werden

Í

noindex : Diese Seite soll nicht indexiert werden

Í

follow : Die Links dieser Seite weiterverfolgen

Í

nofollow : Die Links dieser Seite nicht weiterverfolgen

Í

all = index,follow

Í

none = noindex,nofollow

Í

Keine Möglichkeit, Verhalten für bestimmte Crawler zu bestimmen

Î

Kein Zugriff auf robots.txt notwendig

(38)

ÐÑÒ

Ó

ÔÕÖ×ØÙÚÕÛÜÝÞÕØßà

á×ØÛâã

"Deep Web" Problematik

Nach: Michael K. Bergman. The Deep Web: Surfacing Hidden Value. The Journal of Electronic Publishing August,

2001 Volume 7, Issue 1 und

http://www.brightplanet.com/deepcontent/tutorials/DeepWeb

(39)

åæç

è

éêëìíîïêðñòóêíôõ

öìíð÷ø

"Deep Web"-Argumentation

ù

Traversierung des Web über Links

führt nur zu einem Bruchteil der Informationen

ù

"Deep Web" wird von Datenbankinhalten gebildet

ù

Umfang 400-500 mal größer als "normales"

Web

ù

500Mrd Dokumente vs. 1 Mrd Dokumente

ù

Zugriff aber nur

durch Datenbank-

anfragen möglich

(40)

ûüý

þ

ÿ

Deep Web Studie

100 Sites analysiert

Schätzung der enthaltenen Datensätze oder Dokumente

Abfrage von Stichprobe von 10 Dokumenten zu Größenabschätzung durch Mittelwertbildung

Indexierung und Klassifizierung des Suchformulars

Größenschätzung

Nachfrage bei Betreibern

Aussagen auf Site

Aussagen über Site in anderen Berichte

Zahlen bei Suchantworten, z.B. Treffer für "NOT sfgjsljffjd"

Ausschluss aus Untersuchung

Schätzung: Durchschnittlich 74,4 MB pro Site

(41)

!"#$%&'

(")*

Größenschätzung Sites des Deep Web

+ + +

+ + +

+ + + ,- .0/ 1 2-354 67 8 , 1:9 - ;<=?> @ 64 67 8 A5B B C D7 EB F =4 > G HB E IKJ LM N

O5P P

QSR T U?V P W X YZS[ \] ^ _Z5` ] acb YZ5d Z ^e a f5e g a ^ h iKj k l l

m \ \

n \` \e a?o d p?q e ` ] \r ^

[ p

b ] o s t lj uv lm \ \

YZ e a?o d t wj w l lm \ \

x \y Z rq z \y Z r { lj k l l

m \ \

Y| } ~

`

aZ5`

\ € 0‚ ƒ „

…?† ‡ˆ ‰ˆ Š ‹ Œ† ‡ ‹ Ž Š  ‘ ’ “  …

‰†

” Ž “• – – –– – –

– – – —˜š™ ›œ žSŸ  ¡¢ £ ¤?¥ ¦§ ¨

¢ ¦¡©

ª¡?« ¬ ¦ ­®K¯ °± ²žSŸ  ¡¢ £ ³´ « «

µ ¦ ¨

¢ ¶· ¦¡ ¸ £« ¦· ¶¹ § ¦¥

º

¢ £ ¤ £ ¶»  ¢ · « ¼ ½

¢ ¨ º

¾

« ¶¥ ºÀ¿ Á

¢ £ ¦¡©  ¦ ¨ ¦ Ã

« · ¨

« § ¤ µ ¸ ª ª© ® Ä °

¯ Å ² ²

žSŸ  ¡¢ £

µ ª Æ ªÇ ¸ Æ ÂÈ Æ ­ Å Å

¯ ² ² ²

žSŸ  ¡¢ £

µ ¦ ¨¢ ¶· ¦¡ ᢠ» ¦ ¨¢ £  ¦ ¨ ¦ Ã

« · ¨

« § ¤ µ ¸ ª ª

© É5Ê ËÌ ÍÀÎ Ê ÏÐ Ñ5Ò Ó

ÔSÕ ÖÊ

×5Ø

ÙÊ

(42)

ÛÜÝ

Þ

ßàáâãäåàæçèéàãêë

ìâãæíî

Anzahl von Sites des Deep Web

ï

Manuell und teilweise automatisch unterstützt:

ð

53220 URL-Hinweise aus anderen Sites

ñ

45732 ohne Duplikate

ñ

43348 nochzugängige

ñ

17579 anscheinend suchbare

ñ

13,6% davon nicht suchbar

(43)

ò óôõ

ö

÷øùúûüýøþÿøû

úûþ

Overlap analysis: Gesucht N - Größe des Deep Web

n

, n Abdeckung durch je eine Suchmaschine

/ ein Verzeichnis

n

Überlappung

|A|, |B|: Größe von A, B

p(A): Wahrscheinlichkeit, Seite von A gefunden wird

p(A ∩ B)=p(A)*p(B)

|A|=N*p(A), |B|=N*p(B), |A ∩ B|=N*p(A ∩ B)

N=|A|*|B|/|A ∩ B|

Da Verzeichnisse nicht zufällig: Untere Genze

N

|A| n

|B|

(44)

!

Schätzung Anzahl der Sites

"

Schätzung: Ca. 100000 Deep Web Sites

# $&% ' ()

$&% # # *

+&, + ' *

$&% -) .

- $ #

-% * ( *

/10 243 5 6

0 7

$&% # # *

/10 8 79 0 7 8;: * (&% ' + -.<% += )+&, + . $#<% * - .) . (-% * ( */10 243 5 6

0 7

.<% += )

>4?

@3 : #<% = - . +&, + ' # .<% += ) (= % # . .

- . (

$&% # # *

/10 8 79 0 7 8;:

.<% += )

>4?

@3 : ABC DE

FG

AB4H D

FGI1JK L

CNM

O1P B1Q M

RST

T1U V

W4X YZ

[ T T

RU V

W4X YZ

[ T R \ V ]

^Z ]

[1_ _ Y

`

_ a

[ T R

(45)

cde

f

ghijklmhnopqhkrs

tjknuv

Inhaltsanalyse

w

Inhaltsüberprüfung durch Anfragen aus 20 Gebieten

w

Typanalyse durch Handauswertung von 700 Sites

(46)

yz{

|

}~€‚ƒ~„…†‡~ˆ‰

Š€„‹Œ

Inhaltsklassifikation

3.9%

Law/Politics 13.5%

Humanities

3.2%

Shopping 5.5%

Health

3.4%

Travel 3.9%

Government

4.0%

Science, Math 3.1%

Engineering

4.5%

References 4.1%

Employment

3.5%

Recreation, Sports 4.3%

Education

4.9%

People, Companies 6.9%

Computing/Web

12.2%

News, Media 5.9%

Business

4.0%

Lifestyles 6.6%

Arts

3.9%

Law/Politics 2.7%

Agriculture

(47)

Ž

‘

’“”•–—˜“™š›œ“–ž

Ÿ•–™ ¡

Site-Klassifikation

(48)

£¤¥

¦

§¨©ª«¬­¨®¯°±¨«²³

´ª«®µ¶

Vergleiche

·

Deep Web: 7500 Terabytes, Web: 19 Terabytes

·

Deep Web: 550 Mrd Docs, Web: 1 Mrd Docs

·

Mehr Traffic auf Deep Web Sites (50%)

·

Mehr Wachstum im Deep Web

·

Deep Web Sites mehr inhaltliche Tiefe und weniger inhaltliche Breite

·

95% des Deep Web frei zugänglich

·

Probleme:

¸

Intention der Deep Web Studie

¸

Erschließung?

(49)

º»¼

½

¾¿ÀÁÂÃÄ¿ÅÆÇÈ¿ÂÉÊ

ËÁÂÅÌÍ

Literatur

Î

Brian Pinkerton. Finding What People Want:

Experiences with the WebCrawler. Second

International World-Wide Web Conference: Mosaic and the Web, Chicago, IL, October 17--20 1994.

http://www.ncsa.uiuc.edu/SDG/IT94/Proceedings/Se arching/pinkerton/WebCrawler.html

Î

www.searchenginewatch.com

Î

The Web Robots Pages. www.robotstxt.org

Referenzen

ÄHNLICHE DOKUMENTE

Bernd Gartner, Prof. Fur jeden korrekt genannten Typ gibt es +1 Punkt und fur jeden korrekt genannten Wert gibt es +2 Punkte. Das zeigt, dass sich Fehler manchmal

Pr¨ufung — Informatik

(a) Schreiben Sie eine Klasse Matrix10, die eine geeignete Datenstruktur enth¨alt, um alle Eintr¨age der Matrix zu speichern.. (b) Schreiben Sie einen Konstruktor f¨ ur die Klasse,

Pr¨ufung — Informatik

// POST: *this wurde initialisiert mit // x, falls negative == false // -x, falls negative == true Int (unsigned int x, bool negative);.. // POST: Rueckgabewert ist -*this

Bemerkung: Ein Unsigned Objekt l¨auft insbesondere dann ¨ uber, wenn eine ¨ ubergelaufene Zahl zu ihm addiert wird. (a) Erg¨anzen Sie den private-Teil, indem Sie eine

// POST: gibt den Wert von x+y gemaess obiger Tabelle zurueck friend Modulo7 operator+ (Modulo7 x, Modulo7 y);..

Die erste Funktion teilt n zun¨achst durch den kleinsten echten Teiler i (dieser muss dann ein Primteiler sein) und ruft sich dann rekursiv f¨ ur den Rest n/i auf.. Die zweite