• Keine Ergebnisse gefunden

for a Web Search Engine

N/A
N/A
Protected

Academic year: 2021

Aktie "for a Web Search Engine"

Copied!
30
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Proseminar: Matrixmethoden in Datenanalyse und Mustererkennung

Page Ranking

for a Web Search Engine

R E F E R E N T: S I M O N P E T E R

B E T R E U E R : S A R A H S C H Ä F F E R

(2)

Gliederung

1. Motivationsbeispiel 2. Page Ranking

3. Random Walk

4. Zusammenfassung 5. Literaturverzeichnis

2

(3)

Wer kennt diese Herr en?

Quelle: http://static4.businessinsider.com/image/55a93e16371d2211008b767e/google-cofounders-larry-page-and-sergey-brin-just-made-about-8-billion-in-one-day.jpg

3

(4)

Motivationsbeispiel

• Netzwerk aus vier Webseiten

• jede Webseite hat „outlinks“

• jede Webseite hat „inlinks“

• zufälliger Start bei irgendeiner Seite

Welche Seite wird am häufigsten besucht?

4

(5)

Motivationsbeispiel

• 𝑎 = 0 ∙ 𝑎 + 0 ∙ 𝑏 + 0 ∙ 𝑐 + 1 2 ∙ 𝑑

• 𝑏 = 1

2 ∙ 𝑎

• 𝑐 = 1

2 ∙ 𝑏 + 1

2 ∙ 𝑑

• 𝑑 = 1

2 ∙ 𝑎 + 1

2 ∙ 𝑏 + 𝑐

5

(6)

Motivationsbeispiel

• 𝑎 = 1

2 ∙ 𝑑

• 𝑏 = 1 2 ∙ 𝑎

• 𝑐 = 1

2 ∙ 𝑏 + 1

2 ∙ 𝑑

• 𝑑 = 1

2 ∙ 𝑎 + 1

2 ∙ 𝑏 + 𝑐

Lösungsvektor:

4𝑡 2𝑡 5𝑡 8𝑡

mit 𝑡 ∈ ℝ

6

(7)

Motivationsbeispiel

Lösungsvektor 𝐫 =

4𝑡 2𝑡 5𝑡 8𝑡

mit 𝑡 ∈ ℝ

 Seite D wird also am ehesten besucht

7

(8)

Page Ranking

Grundprinzip:

Seite 𝑖 ist umso „wichtiger“, je mehr inlinks sie hat.

Problem: leicht zu manipulieren!

Quelle: L. Eldén: Matrix methods in data mining and pattern recognition. Volume 4, Society for Industrial and Applied Mathematics (SIAM), Philadelphia, PA, 2007.

8

(9)

Page Ranking

• alle Webseiten geordnet von 1 bis n

• 𝑖 sei irgendeine Webseite

• 𝐼 𝑖 bzw. 𝑂 𝑖 sind inlinks bzw. outlinks

Quelle: L. Eldén: Matrix methods in data mining and pattern recognition. Volume 4, Society for Industrial and Applied Mathematics (SIAM), Philadelphia, PA, 2007.

9

(10)

Page Ranking

Abhilfe:

• PageRank 𝑟 𝑖 einer Seite 𝑖 als gewichtete Summe der PageRanks, die outlinks zu 𝑖 haben

𝑟 𝑖 =

𝑗∈𝐼

𝑖

𝑟 𝑗 𝑁 𝑗

mit der Anzahl der outlinks 𝑁 𝑗 von Seite j

 rekursiv, PageRanks können nicht direkt berechnet werden!

Quelle: L. Eldén: Matrix methods in data mining and pattern recognition. Volume 4, Society for Industrial and Applied Mathematics (SIAM), Philadelphia, PA, 2007.

10

(11)

Page Ranking

Abhilfe:

• wähle Iteration mit Ranking-Vektor 𝒓 𝒊 und Startvektor 𝒓 (𝟎)

𝒓 𝒊 (𝒌+𝟏) =

𝑗∈𝐼

𝑖

𝒓 𝒋 (𝒌) 𝑁 𝑗

mit 𝑘 = 0,1 …

 Problem: es ist nicht klar, ob diese Iteration auch konvergiert

Quelle: L. Eldén: Matrix methods in data mining and pattern recognition. Volume 4, Society for Industrial and Applied Mathematics (SIAM), Philadelphia, PA, 2007.

11

(12)

Page Ranking

• mehr Erkenntnis durch Eigenwertproblem

• 𝑄 𝑖𝑗 quadratische Matrix der Dimension n (Hyperlink-Matrix)

• n Anzahl der Seiten

• 𝑄 𝑖𝑗 = 𝑁 1

𝑗

falls es einen Link von 𝑗 nach 𝑖 gibt, 0 sonst

12

(13)

Page Ranking

• Eigenwertproblem

• 𝑄 𝑖𝑗 = 𝑁 1

𝑗

falls es einen Link von 𝑗 nach 𝑖 gibt, 0 sonst

Quelle: L. Eldén: Matrix methods in data mining and pattern recognition. Volume 4, Society for Industrial and Applied Mathematics (SIAM), Philadelphia, PA, 2007.

13

(14)

Page Ranking

• betrachte folgendes Netzwerk

Quelle: L. Eldén: Matrix methods in data mining and pattern recognition. Volume 4, Society for Industrial and Applied Mathematics (SIAM), Philadelphia, PA, 2007.

14

(15)

Page Ranking

Es gilt also für Q:

• λ ∙ 𝒓 = 𝑄 ∙ 𝒓

• mit Eigenwert λ = 1

Iteration:

𝒓 (𝒌+𝟏) = 𝑄𝒓 (𝒌)

Quelle: L. Eldén: Matrix methods in data mining and pattern recognition. Volume 4, Society for Industrial and Applied Mathematics (SIAM), Philadelphia, PA, 2007.

15

(16)

Page Ranking

Zwischenergebnis:

Eine Seite ist wichtig, wenn viele wichtige Seiten auf diese verweisen!

16

(17)

Page Ranking

Quelle: https://de.wikipedia.org/wiki/PageRank#/media/File:PageRank-Beispiel.png 17

(18)

Page Ranking

• 𝒓 (𝒌+𝟏) = 𝑄𝒓 (𝒌) (mit Hyperlink-Matrix 𝑄 )

• Problem

 Seiten ohne ausgehende Links verfälschen PageRank

 Konvergenz?

18

(19)

Random Walk

• wahrscheinlichkeitstheoretische Interpretation

• PageRank auf 1 normieren

• Gewicht einer Seite entspricht Wahrscheinlichkeit

• Surfer klickt zufällig entlang der Links durchs Internet

19

(20)

Random Walk

• Erinnerung

𝑃𝒓 = 𝒓

20

(21)

Random Walk

• 𝑃𝒓 = 𝒓

• 𝑃 ist stochastisch

• Eigenwert 1

• ein Lösungsvektor 𝒓 = 4 2 5 8

𝑃𝑟 = 𝑟

21

(22)

Random Walk

• Einführung einer Matrix 𝑆

• rein zufälliges Surfverhalten ohne Beachtung der Links

• alle Elemente sind 𝑛 1 mit 𝑛 Seiten insgesamt

Quelle: L. Eldén: Matrix methods in data mining and pattern recognition. Volume 4, Society for Industrial and Applied Mathematics (SIAM), Philadelphia, PA, 2007.

22

(23)

Random Walk

• Google-Matrix 𝐺

𝐺 = 𝛼𝑃 + 1 − 𝛼 𝑆

• quasi eine Überlagerung aus 𝑃 und 𝑆

• 𝛼 = 0  rein zufälliges Surfverhalten ohne Beachtung von Links

• 𝛼 = 1  Matrix 𝑃

• Page und Brin wählten 𝛼 = 0,85

• soll verhindern, dass Anteil des Pageranks vollständig weitergegeben wird

Quelle: http://patft.uspto.gov/netacgi/nph-Parser?patentnumber=6285999 23

(24)

Random Walk

• Google-Matrix 𝐺

𝐺 = 𝛼𝑃 + 1 − 𝛼 𝑆

• daher gilt für den Pagerank einer Seite 𝑖 alternativ auch:

𝑟 𝑖 = 1−𝛼

𝑛 + 𝛼 ∙ 𝑗∈𝐼 𝑖 𝑟 𝑗

𝑁 𝑗

Quelle: https://www.math.uzh.ch/index.php?file&key1=22601 24

(25)

Random Walk

𝑟 𝑖 = 1−𝛼 𝑛 + 𝛼 ∙ 𝑗∈𝐼 𝑖 𝑁 𝑟 𝑗

𝑗

• man kann zeigen (Perron-Frobenius):

 für 0 < 𝛼 < 1 konvergiert jede Iteration für beliebigen Startvektor!

 und zwar gegen Gleichung

𝒓 = 𝐺𝒓

 mit Eigenvektor r

Quelle: https://www.math.tugraz.at/mathc/diskmath/2008/Google.pdf 25

(26)

Random Walk

• Google-Matrix 𝐺 , 𝛼 = 0,85

𝐺 = 𝛼𝑃 + 1 − 𝛼 𝑆

0,85 + 0,15 =

26

(27)

Random Walk

• Google-Matrix 𝐺 auch 𝐺 ist stochastisch

• Eigenwert 1

• Eigenvektor gerundet:

𝐫 =

0,39 0,23 0,49 0,75

• also genau das gleiche Page Ranking!

27

(28)

Zusammenfassung

• Seite umso bedeutender, je mehr inlinks sie hat

• Links von bedeutenden Seiten sollen stärker zählen

• Link einer Webseite, die viele outlinks hat, soll weniger beitragen

Problem:

• entscheidend nicht das Interesse der Leser, sondern das anderer Seitenbetreiber!

• Page Ranking liefert keinen Beitrag zur qualitativen Messung des Inhalts!

28

(29)

Vielen Dank für die Aufmerksamkeit!

29

(30)

Literaturverzeichnis

L. Eldén: Matrix methods in data mining and pattern recognition. Volume 4, Society for Industrial and Applied Mathematics (SIAM), Philadelphia, PA, 2007.

 URL

• https://www.math.uzh.ch/index.php?file&key1=22601

• http://www-i1.informatik.rwth-aachen.de/~algorithmus/algo10.php

• https://de.wikipedia.org/wiki/PageRank

• http://patft.uspto.gov/netacgi/nph-Parser?patentnumber=6285999

• https://www.math.tugraz.at/mathc/diskmath/2008/Google.pdf

30

Referenzen

ÄHNLICHE DOKUMENTE

Our preliminary findings mix several techniques, such as caching, locality prediction and distributed query processing, that try to maximize the fraction of queries that can be

Scenes have their own blueprint that will build the scene and layout it yet the logic for each class should be written inside. Considering the outro scene, it is responsible

Damit steigt bei Bürgerinnen und Bürgern nicht nur das Verlangen nach Online-Angeboten der öffentlichen Verwaltung, sondern auch nach der Möglichkeit, im politischen Bereich

Damit Ihre Anzeigen geschaltet werden, wenn Nutzer nach Ihrem Produkt oder Ihrer Dienstleistung suchen, müssen die gewählten Keywords mit den Wörtern oder Wortgruppen, nach

Though we use the tools provided by another project, SWING (Heyer et al., 1997), the setting of GETESS puts additional demands on the gatherer-broker system: (i), the GETESS

Our approach is unique in the sense that it combines interactive topic graph ex- traction and exploration on different mobile devices with recently developed tech- nology

Harvest

Professional role Professional attitude Professional behavior Professional competence Professional competency Professional performance Professional identity formation