• Keine Ergebnisse gefunden

Nutzung und Nutzer von Web-Sites

N/A
N/A
Protected

Academic year: 2022

Aktie "Nutzung und Nutzer von Web-Sites"

Copied!
20
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Nutzung und Nutzer von Web-Sites

(2)

!"#$

%&'

Nutzungs-/Nutzerinformationen

(

Nutzer von Web-Sites sind für den Server anonym

)

Keine Identifikation des tatsächlichen Rechners:

Proxies, Caches, private Netze, dynamische IP-Nummern

)

Keine Identifikation des Nutzerprozesses:

Mehrbenutzerrechner, Proxies, Caches

)

Keine Identifikation des Nutzers:

Account-Informationen lokal

(

Informationen über Nutzer sind aber nützlich

)

Personalisierung

)

Optimierung des Angebots

)

Grundlage des Geschäftsmodells

(3)

+,

-

./01234/5678/29:

;125<=

Web Usage Mining

>

Web Mining: The discovery and analysis of useful information from the Web

Web Mining

Web Content Mining Web Usage Mining Discovery of user access patterns from Web servers Agent based appr.

? @BA CED F GH IJD A KL H F M N

H OL A I K

? @BA CED F GH IJD A CJ P I

L FJA O Q

M

H IL OD FJSR H IJD A

? TBL F KD A H P JSR L U VBL W

H OL A I K

Database appr.

? XSY P IJ PLZ L P[ H I

H W

H KL K

? VBL W\ Y L F] ^] K IL G K

(4)

`a

b

cdefghidjklmdgno

pfgjqr

Logfiles auf Web-Servern

s

Logfiles werden zeilenweise geschrieben

s

Mögliches Format: Common Logfile Format (CLF)

t

remotehost: IP-Nummer oder Name des Client-Rechners

t

rfc1413: Nutzer-ID auf Quellrechner (ident Dienst)

t

authuser: Nutzer-ID für Web-Session

t

[date]: Datum des Eintrags

t

"request": HTTP-Request Zeile

t

status: HTTP Antwortcode

t

bytes: Größe der Antwort

u v v v wx y z|{ }~ z € € x €  €‚  ƒ € „

€x € € … †

‡ˆ ‰Š zŒ‹ Ž  z

~ Ž Ž  ‘ ’ “”

•Š Š – z

x ‘x ‡  € € — y —

u v v v wx y z|{ }~ z € € x €  €˜  €™ „

€x € € … †

‡ˆ ‰Š zŒ‹ Ž  zš   ›  œ  zž   ‘ Ÿ~   ‘ } Ÿ ‘ ¡~ ‘ ¢

 z ›Ž £ } z

~ Ÿ z †

œ › Ÿœ ¤Ž ¥ }~  z¦ ‰ §{ z|¨ œ œ  }  z  “

 œ

 “  ‘ ›  £  š  

•Š Š – z

x ‘x ‡ — € — v

(5)

ª«

¬

­®¯°±²³®´µ¶·®±¸¹

º°±´»¼

Logfiles auf Web-Servern

½

Extended Common Logfile Format (CLF)

¾

CLF Felder

¾

"referer": Seite von der Link verfolgt wurde

¾

"user agent": Client-Software

¿ À À À ÁÂ Ã Ä|Å ÆÇ ÄÈ É ÉÈ ÊÂ É Ê ÉË Ê Ì É Í

ÉÂ É É Î Ï

ÐÑ ÒÓ ÄŒÔ ÕÖ ×Ø Ä

Ç Ö Ö ×È Ù Ú ÛÜ

ÝÓ Ó Þ Ä

 ÙÂ Ð È É É ß Ã ßÈ Ï

Ðà Õ Õá Ê Ä Ä Úâ ã ä Ú Æ ÙÇ å Ù Õ ã À æ

Æâ

× Û ä Ù ç Æ ÄŒÔ ÕÖ ×Ø Äžè é ×ëê ä Ú ãê Ú Æ å Ùà Õ é × Ð Ï

Ð|ì Ö í Û × ×ëê Ä ß Ù Éî È É ïëÇ Ö éá ê Õ Û æ × Æð î È É

ì ñò Òî È Éó Ù É

ð î È Éô Û ä çÖ õ åî È Éö Ó î È É÷

ÙÂ ø Ð

(6)

úû

ü

ýþÿþþ

Logfiles auf Web-Servern

Probleme:

remotehost:

Nummer des Rechners, der einen Socket zum Server aufbaut ist noch nicht Rechner an dem der Nutzer ist

rfc1413:

Läuft ident-Dienst überhaupt? Was soll man mit Ergebnis anfangen?

[date]:

Nicht eindeutig bei vielen Zugriffen in kurzen Abständen

"request":

GET mit IfModifiedSince-Header, Caches

"referer":

Nicht bei Direkteingabe, Bookmarks

"user_agent":

Keine zuverlässige Angabe, was ist mit Crawlern?

(7)

!"

Messgrößen

#

Auf Basis von Logfiles lassen sich verschiedene Aussagen über die Nutzung einer Site treffen

#

Insbesondere sind diese Aussagen Basis für die Preisfindung der Werbewirtschaft

#

Diese Aussagen sind von unterschiedlicher Güte

(8)

%&

'

()*+,-.)/012),34

5+,/67

Messgrößen

8

Hits

9

Anzahl der Abrufe von Informationen

9

Summe der Anzahl der Requests mit 200 und 304 Antwort

9

Nicht sehr aussagekräftig, weil nicht jede Datei eigenständige Informationseinheit

8

Pageviews/Page lmpressions

9

Anzahl der abgerufenen HTML-Seiten

9

Anzahl der Hits mit HTML Dateien als Antwort

9

Beschränkt auf einen Medientyp

(9)

;<

=

>?@ABCD?EFGH?BIJ

KABELM

Messgrößen

N

4 Hits, 1 Pageview:

O P P P QR S TVU WX TY Z ZY

[R Y [ Z\ [\ R ]

ZR Z Z ^

_` ab Tdc ef g h Ti j g kl mn k m Wo p q e j g

rb b s T

R pR _ Y Z Z tR uv R

_ q e ew [ T T

o W kx X q p

jo l pX f j Tx Wo n g eo p ok w yz {| }~ o € s ‚| ƒ~ € r a €„ aU ‚

n

l ~ …f X ‚

i ~ R ‚‡† ~ ˆ

ki k

‰Y Z‹Š Œ l …f Š

‰Y Z

X f j j kl …o _

Ž  ‘’ ’ “ ”• – —˜ ™ — š‡› œ  “ ž ‘Ÿ ’  ¡ ˜ ™ —

Ž ¢£ ¤˜ ™ —¥ – —¡ ˜ ™ —¦ ‘‡§ ¨ © ª˜ ™ —« ¬

˜ ™ —­ – ® ¯ 

O P P P QR S TVU WX TY Z ZY

[R Y [ Z\ [\ R ]

ZR Z Z ^

_` ab Tdc ef g h T

n l X g W kx p m Œ °

rb b s

TR

pR _ Y Z Z S t t

_ q e ew [ T T ° gw pX o p en P ± Wx g Œ l p … W Tc ef g h Ti j g

kl mn k m Wo p q e j g _

Ž  ‘’ ’ “ ”• – —˜ ™ — š‡› œ  “ ž ‘Ÿ ’  ¡ ˜ ™ —

Ž ¢£ ¤˜ ™ —¥ – —¡ ˜ ™ —¦ ‘‡§ ¨ © ª˜ ™ —« ¬

˜ ™ —­ – ® ¯ 

O P P P QR S TVU WX TY Z ZY

[R Y [ Z\ [\ R ]

ZR Z Z ^

_` ab Tdc ef g h Tl WŠ p m Œ ° rb b s T

R pR _ Y Z Z S Zv

_ q e ew [ T T ° gw pX o p en P ± Wx g Œ l p … W Tc ef g h Ti j g

kl mn k m Wo p q e j g _

Ž  ‘’ ’ “ ”• – —˜ ™ — š‡› œ  “ ž ‘Ÿ ’  ¡ ˜ ™ —

Ž ¢£ ¤˜ ™ —¥ – —¡ ˜ ™ —¦ ‘‡§ ¨ © ª˜ ™ —« ¬

˜ ™ —­ – ® ¯ 

O P P P QR S TVU WX TY Z ZY

[R Y [ Z\ [\ R ]

ZR Z Z ^

_` ab Tdc ef g h T

X f f g Y p m Œ °

rb b s T

R pR _ ²³ ³ ´ µ ´ ²

_ q e ew [ T T ° gw pX o p en P ± Wx g Œ l p … W Tc ef g h Ti j g

kl mn k m Wo p q e j g _

Ž  ‘’ ’ “ ”• – —˜ ™ — š‡› œ  “ ž ‘Ÿ ’  ¡ ˜ ™ —

Ž ¢£ ¤˜ ™ —¥ – —¡ ˜ ™ —¦ ‘‡§ ¨ © ª˜ ™ —« ¬

˜ ™ —­ – ® ¯ 

N

Pageviews und Framesets

O ¶¸· ¹ º¼» · ½ ¾

· ¿ À Á» ¹ Â

· Ã Ä» ¹»

º ¹ Å ¹ º Æ Ç ÃÈ » ÉÅ» Ê

O Ë» Á» ¹ Ì» ¿ Í Ã Á» Î » Šλ ¹ Ï Î Ð Ã Í º ¹ À

· Ã Ä» ¹ Å ¹ º Æ Ç ÃÈ » ÉÅ» Ê

O Ñ ¿ Ä Ò» ¹ ¹» Î Å Ä Ä»

· Î

¿·

» Šλ Π· à Ļ λ

¿ Í Ã Á» Î ÓÔ Ò ÒÕ Ö

(10)

ØÙÚ

Û

ÜÝÞßàáâÝãäåæÝàçè

éßàãêë

Messgrößen

ì

Visits / Sessions

í

Zusammenhängende Abrufe in einem Zeitraum

í

Navigationspfade aus Logfile

í

Nicht zuverlässig identifizierbar

í

Problem: Wann ist Visit beendet?

ì

Heuristiken

í

Zeitorientiert:

î

Gesamtdauer einer Visit ist nach oben begrenzt

î

Verweildauer auf einer Seite ist nach oben begrenzt

í

Navigationsorientiert

î

Topologische Begrenzung: Sitzungsende, wenn Seite nicht von vorherigen Seiten aus erreicht werden konnte

î

Begrenzung durch Referrer: Sitzungende, wenn Seite nicht

durch Navigation von vorheriger Seite erreicht wurde

(11)

ððñ

ò

óôõö÷øùôúûüýô÷þÿ

ö÷ú

Messgrößen

Unique Visitors

Abrufe von gleicher IP Adressen als 1 Besucher gezählt

Objektiv nicht aussagefähig (Proxies, Dynamische IP Adressen, etc.)

AdImpressions / Clickthroughs

Klick auf Werbebanner

Messbar beim Werbekunden

Quelle durch Referer ermittelbar

Abrechnung

Preis nach Attraktivität des Werbeträgers:

Pageviews und Visits als Maß

Preis nach Effizienz des Werbemittels:

Clickthroughs als Maß

(12)

Messgrößen

Viewtime

Dauer des Verweilens auf einem Angebot

Kaum aus Logfile messbar

Klientenseitige Unterstützung notwendig (z.B. Skripting)

Sitzt der Nutzer vor dem Rechner?

Durch zusätzliche direkte Befragung ermittelbar:

Qualified visits: Bestätigte Besuche

Regionale Herkunft

Alter, Geschlecht etc.

Interessen

Akzeptanz

(13)

!

"#$%&'(#)*+,#&-.

/%&)01

Wer misst?

2

Serverbetreiber nach eigenem Verfahren und eigener Auswertung

2

Serverbetreiber oder Externer nach standardisiertem Verfahren und Auswertung

3

Informationsgemeinschaft zur Feststellung der Verbreitung von Werbeträgern e.V." (IVW) (http://www.ivwonline.de/)

3

Messung z.B. durch transparente Grafiken („IVW-Pixel“) auf Seiten

4

<img src="/cgi-bin/ivw/TYP" width="1" height="1">

4

<img src="/cgi-

bin/ivw/CP/web/httpd/htdocs/blizzard/index.html" width="1"

height="1">

3

Lösen Messung aus

3

IVW Zahlen sind Grundlage für Preisgestaltung

(14)

678

9

:;<=>?@;ABCD;>EF

G=>AHI

Aus www.spiegel.de/index.html

J KML NPO KMQ RL SL TU VW X X X X X X V YZ [ YMU VW \ \ \ \ \ \ V

S] ^ _

U VW K` \ba cd V e S] ^ _U VW K` \ba cd V a S] ^ _

U VW X X \ \ \ \ V

fa TQ ] ^ gZ ] Q g YMU V \ V

fa TQ ] ^h ] N Y gU Vi V SZ X Y

fa TQ ] ^U Vi V

YL j fa TQ ] ^U V \ V T

] Q g Y fa TQ ] ^U Vi V KML Y YL f fa TQ ] ^U V \ Vlk

J mon n pq r q st u p vw U V cyx ` V n n k

J z R T

] j Y Sa ^Q {a Q Z U V| a ea u R T

] j Y Vlk

J mon n

ea T pq r

U V g Y Y j} ~ ~ z j

] Z Q Z Sx ]

eh

KML [x NMZ ~ RQ ] n K] ^ ~]

eh

~ € ~

z j

] Z Q Z SP‚ ~ gL fZ

~ R

n cƒ ~ KMZ n €„ …i n a † ‡ Yˆ ‰„ gˆ ` Š e ‹

` q { N

†q

O V

‚

NL R { fZ ^ Yx h T

] YZ Œ J pŽ † ut  U

 pq r 

  TU  

Z z Ra jZ Œ NL R { fZ ^ Yx TZ XZ T TZ T ‘ 

 V r p’ “” U V c–• 

” s p †” “

U V c V „ vt ’ st U V \ V —˜ p †w

U Vt p †” “ Vlk  ‘

‚

~ ~ n n k

J ~ z R T

] j Y

k

J

^L z R T

] j Y

k

J pŽ † ut  U V g Y Y j} ~ ~ z j

] Z Q Z Sx ]

eh

KML [x NZ ~ RQ ] n K] ^ ~] eh ~ € ~ z j

] Z Q Z SP‚ ~ gL fZ

~ R

n cƒ ~ KMZ n 

€„ …i n a † ‡ Yˆ ‰„ gˆ ` Š e ‹

` q { N

†q

O V r p’ “” U V c V ” s p

†”

“

U V c V „

vt

’ st U V \ V —˜ p

†w

U Vt p †” “ Vlk

J ~

^L z R T

] j Y

k

J mon n ~ pq r n n k

J mon n pq r q st u p vw U V j TZ e V n n k

J

]

fQ z T RU V KMZ n €„ i… n a † ‡

Yˆ ‰„

gˆ ` Š ex Q ] X V

h ] N Y gU V c V gZ ] Q g YMU V c V

KML T NMZ TU V \ V a S] Q ^U V T

] Q g Y Vlk

J mon n ~ pq r n n k

(15)

š›œ



žŸ ¡¢£¤Ÿ¥¦§¨Ÿ¢©ª

«¡¢¥¬­

Ermittlung von Zugriffsmustern

®

Datenaufbereitung

¯

Extraktion relevanter Zugriffe, also z.B. nicht Hits auf eingebettete Daten etc. (jpg, map, robots.txt)

¯

Hinzufügen verlorengegangener Zugriffe

°

Zusammenführen mit Cookie-Informationen

°

Zusammenführen mit Registrierungsinformationen

°

Heuristiken zur Cache Nutzung

®

Sitzungsermittlung

¯

Ziel: Sequenzen von zusammengehörigen (gleicher Nutzer, gleiche Nutzung) Zugriffen als Sitzung (Session, Visit)

identifizieren

¯

Problem vergleichbar mit dem Problem der Idenfizierung eines

Nutzers

(16)

²³´

µ

¶·¸¹º»¼·½¾¿À·ºÁÂ

ùº½ÄÅ

Analysetechniken

Æ

Path analysis

Ç

Ermittlung von Pfaden in Graphen (oder Graphen aus Pfaden), die Web-Site repräsentieren

È

Link-Struktur einer Site

È

Ähnlichkeitsstruktur von Seiten einer Site

È

Linkverfolgungsstruktur einer Site

Ç

Weitere Zusammenhänge ermitteln:

È

70% der Nutzer, die /inst/ag-nbi/lehre/03/S_SW/ zugegriffen haben kamen über den Pfag /inst, /inst/ag-nbi (20% über

/lehre/, …)

È

5% der Nutzer haben ihren Besuch bei /inst/ag-nbi begonnen

È

70% der Nutzer haben ihre Sitzung nach einem Pfad der Länge 5 beendet

Ç

Nutzung dieser Zusammenhänge für die Struktur der Site

(17)

ÊËÌ

Í

ÎÏÐÑÒÓÔÏÕÖ×ØÏÒÙÚ

ÛÑÒÕÜÝ

Analysetechniken

Þ

Association rule

ß

Ermittlung von Korrelationen zwischen Zugriffen einer Sitzung

à

30% der Nutzer die /inst/ag-nbi besucht haben, haben auch /inst/ag-tech besucht

à

2% der Nutzer von /inst/ag-nbi/lehre/0203/V_NBI/ haben sich danach in die Mailingliste eingetragen auf

http://lists.spline.inf.fu-berlin.de/mailman/listinfo/nbi_v_nbi

Þ

Sequential pattern

ß

Ermittlung von Zusammenhängen zwischen Sitzungen

à

20% der Nutzer, die sich über

http://lists.spline.inf.fu-berlin.de/mailman/listinfo/nbi_v_nbi in eintrugen, haben das innerhalb von 10 Tagen über

http://lists.spline.inf.fu-berlin.de/mailman/listinfo/nbi_s_xml

auch für die andere Mailingliste eingetragen

(18)

âãä

å

æçèéêëìçíîïðçêñò

óéêíôõ

Analysetechniken

ö

Classification rules

÷

Ermittlung von Profilen von Nutzergruppen

ø

80% derjenigen, die sich unter

http://lists.spline.inf.fu-berlin.de/mailman/listinfo/nbi_v_nbi eingetragen haben, studieren Diplom-Informatik

ø

Bachelor-Studierende besuchen eher Seiten unter /inst/ag-nbi als unter /inst/ag-bio

ö

Clustering

÷

Gruppierung ähnlicher Nutzer und Daten

ø

Interesse an hochpreisiger Consumer-Electronic

÷

Nutzung für Marketing und Site-Personalisierung (z.B. amazon)

(19)

úûü

ý

þÿÿÿ

Zusammenfassung

Ermittlung von Informationen über Nutzer und Nutzung notwendig

Logfiles als Datenbasis bei Servern, verschiedene Format

Verschiedene Messgrößen verbreitet

Ermittlung teilweise sehr schwer

Web Usage Mining zur Ermittlung komplexerer

Zusammenhänge

(20)

!"#

Literatur

$

Common Logfile Format.

http://www.w3.org/Daemon/User/Config/Logging.html#common- logfile-format

$

Mike StJohns. Identification Protocol. Request for Comments 1413.

February 1993 http://www.ietf.org/rfc/rfc1413.txt?number=1413

$

DMMV. Messgrößen.

http://www.dmmv.de/de/7_pub/homepagedmmv/themen/emarketi ng/media/zielemedia.cfm

$

Bettina Berendt, Bamshad Mobasher, Myra Spiliopoulou, and Jim Wiltshire. Measuring the accuracy of sessionizers for web usage analysis. In Workshop on Web Mining at the First SIAM

International Conference on Data Mining, pages 7-14, April 2001.

http://maya.cs.depaul.edu/~mobasher/papers/wm-siam01.pdf

$

R. Cooley, B. Mobasher, J Srivastava. Web Mining: Information and Pattern Discovery on the World Wide Web. Proceedings of the 9th IEEE International Conference on Tools with Artificial Intelligence (ICTAI'97), November 1997.

http://maya.cs.depaul.edu/~mobasher/papers/webminer-tai97.ps

Referenzen

ÄHNLICHE DOKUMENTE

Damit eine Verkettung von Web Services eine Aufgabe lösen kann, die durch einen einzelnen Web Service nicht gelöst werden kann, muss zusätzlich geprüft werden, ob die Web

Aufgaben zu Ziel G03: Risiken, die alle Menschen treffen und eine grosse finanzielle Belas- tung darstellen können, müssen obligatorisch versichert werden. Dazu gehören die Kranken-

- Bei mit Weizenprotein gebundenen MDF können durch montanwachshaltige Dispersionen im Vergleich zu herkömmlichen Paraffindispersionen geringere Dickenquellungen und zum Teil

Standorte: Helvetiaplatz 2 und Fabrikstrasse 8 (seit Februar 2014);.

Vortrag, Videobeispiele, Auszüge aus Gutachten und gemeinsame Diskussion machen den Teilnehmenden die Grundlagen von Glaubhaftigkeitsgutachten so weit bewusst, dass in ihnen

Basisseminar werden Merkmale, welche für die Beurteilung der Glaubhaftigkeit relevant sind, erarbeitet, diskutiert und auch kritisch bewertet.. Videobeispiele, Auszüge aus

– Heapsort kann nur verwendet werden, um Arrays aufsteigend zu sortieren.. • In welchen Schritten erfolgt

Bei einem Grundfutter mit niedrigerem Energiegehalt (5,74 MJ NEL/kg TM) ist bereits ab einer Milchleistung von 14 kg eine Kraftfutterergänzung notwendig.. Um ebenfalls 30 kg