Nutzung und Nutzer von Web-Sites
!"#$
%&'
Nutzungs-/Nutzerinformationen
(
Nutzer von Web-Sites sind für den Server anonym
)
Keine Identifikation des tatsächlichen Rechners:
Proxies, Caches, private Netze, dynamische IP-Nummern
)
Keine Identifikation des Nutzerprozesses:
Mehrbenutzerrechner, Proxies, Caches
)
Keine Identifikation des Nutzers:
Account-Informationen lokal
(
Informationen über Nutzer sind aber nützlich
)
Personalisierung
)
Optimierung des Angebots
)
Grundlage des Geschäftsmodells
+,
-
./01234/5678/29:
;125<=
Web Usage Mining
>
Web Mining: The discovery and analysis of useful information from the Web
Web Mining
Web Content Mining Web Usage Mining Discovery of user access patterns from Web servers Agent based appr.
? @BA CED F GH IJD A KL H F M N
H OL A I K
? @BA CED F GH IJD A CJ P I
L FJA O Q
M
H IL OD FJSR H IJD A
? TBL F KD A H P JSR L U VBL W
H OL A I K
Database appr.
? XSY P IJ PLZ L P[ H I
H W
H KL K
? VBL W\ Y L F] ^] K IL G K
`a
b
cdefghidjklmdgno
pfgjqr
Logfiles auf Web-Servern
s
Logfiles werden zeilenweise geschrieben
s
Mögliches Format: Common Logfile Format (CLF)
t
remotehost: IP-Nummer oder Name des Client-Rechners
t
rfc1413: Nutzer-ID auf Quellrechner (ident Dienst)
t
authuser: Nutzer-ID für Web-Session
t
[date]: Datum des Eintrags
t
"request": HTTP-Request Zeile
t
status: HTTP Antwortcode
t
bytes: Größe der Antwort
u v v v wx y z|{ }~ z x
x
z z
~
z
x x y
u v v v wx y z|{ }~ z x
x
z z z ~ } ¡~ ¢
z £ } z
~ z
¤ ¥ }~ z¦ §{ z|¨ } z
£
z
x x v
ª«
¬
®¯°±²³®´µ¶·®±¸¹
º°±´»¼
Logfiles auf Web-Servern
½
Extended Common Logfile Format (CLF)
¾
CLF Felder
¾
"referer": Seite von der Link verfolgt wurde
¾
"user agent": Client-Software
¿ À À À ÁÂ Ã Ä|Å ÆÇ ÄÈ É ÉÈ ÊÂ É Ê ÉË Ê Ì É Í
ÉÂ É É Î Ï
ÐÑ ÒÓ ÄÔ ÕÖ ×Ø Ä
Ç Ö Ö ×È Ù Ú ÛÜ
ÝÓ Ó Þ Ä
 ÙÂ Ð È É É ß Ã ßÈ Ï
Ðà Õ Õá Ê Ä Ä Úâ ã ä Ú Æ ÙÇ å Ù Õ ã À æ
Æâ
× Û ä Ù ç Æ ÄÔ ÕÖ ×Ø Äè é ×ëê ä Ú ãê Ú Æ å Ùà Õ é × Ð Ï
Ð|ì Ö í Û × ×ëê Ä ß Ù Éî È É ïëÇ Ö éá ê Õ Û æ × Æð î È É
ì ñò Òî È Éó Ù É
ð î È Éô Û ä çÖ õ åî È Éö Ó î È É÷
ÙÂ ø Ð
úû
ü
ýþÿþþ
Logfiles auf Web-Servern
Probleme:
remotehost:
Nummer des Rechners, der einen Socket zum Server aufbaut ist noch nicht Rechner an dem der Nutzer ist
rfc1413:
Läuft ident-Dienst überhaupt? Was soll man mit Ergebnis anfangen?
[date]:
Nicht eindeutig bei vielen Zugriffen in kurzen Abständen
"request":
GET mit IfModifiedSince-Header, Caches
"referer":
Nicht bei Direkteingabe, Bookmarks
"user_agent":
Keine zuverlässige Angabe, was ist mit Crawlern?
!"
Messgrößen
#
Auf Basis von Logfiles lassen sich verschiedene Aussagen über die Nutzung einer Site treffen
#
Insbesondere sind diese Aussagen Basis für die Preisfindung der Werbewirtschaft
#
Diese Aussagen sind von unterschiedlicher Güte
%&
'
()*+,-.)/012),34
5+,/67
Messgrößen
8
Hits
9
Anzahl der Abrufe von Informationen
9
Summe der Anzahl der Requests mit 200 und 304 Antwort
9
Nicht sehr aussagekräftig, weil nicht jede Datei eigenständige Informationseinheit
8
Pageviews/Page lmpressions
9
Anzahl der abgerufenen HTML-Seiten
9
Anzahl der Hits mit HTML Dateien als Antwort
9
Beschränkt auf einen Medientyp
;<
=
>?@ABCD?EFGH?BIJ
KABELM
Messgrößen
N
4 Hits, 1 Pageview:
O P P P QR S TVU WX TY Z ZY
[R Y [ Z\ [\ R ]
ZR Z Z ^
_` ab Tdc ef g h Ti j g kl mn k m Wo p q e j g
rb b s T
R pR _ Y Z Z tR uv R
_ q e ew [ T T
o W kx X q p
jo l pX f j Tx Wo n g eo p ok w yz {| }~ o s | ~ r a aU
n
l ~ f X
i ~ R ~
ki k
Y Z l f
Y Z
X f j j kl o _
¡
¢£ ¤ ¥ ¡ ¦ § ¨ © ª « ¬
® ¯
O P P P QR S TVU WX TY Z ZY
[R Y [ Z\ [\ R ]
ZR Z Z ^
_` ab Tdc ef g h T
n l X g W kx p m °
rb b s
TR
pR _ Y Z Z S t t
_ q e ew [ T T ° gw pX o p en P ± Wx g l p W Tc ef g h Ti j g
kl mn k m Wo p q e j g _
¡
¢£ ¤ ¥ ¡ ¦ § ¨ © ª « ¬
® ¯
O P P P QR S TVU WX TY Z ZY
[R Y [ Z\ [\ R ]
ZR Z Z ^
_` ab Tdc ef g h Tl W p m ° rb b s T
R pR _ Y Z Z S Zv
_ q e ew [ T T ° gw pX o p en P ± Wx g l p W Tc ef g h Ti j g
kl mn k m Wo p q e j g _
¡
¢£ ¤ ¥ ¡ ¦ § ¨ © ª « ¬
® ¯
O P P P QR S TVU WX TY Z ZY
[R Y [ Z\ [\ R ]
ZR Z Z ^
_` ab Tdc ef g h T
X f f g Y p m °
rb b s T
R pR _ ²³ ³ ´ µ ´ ²
_ q e ew [ T T ° gw pX o p en P ± Wx g l p W Tc ef g h Ti j g
kl mn k m Wo p q e j g _
¡
¢£ ¤ ¥ ¡ ¦ § ¨ © ª « ¬
® ¯
N
Pageviews und Framesets
O ¶¸· ¹ º¼» · ½ ¾
· ¿ À Á» ¹ Â
· Ã Ä» ¹»
º ¹ Å ¹ º Æ Ç ÃÈ » ÉÅ» Ê
O Ë» Á» ¹ Ì» ¿ Í Ã Á» Î » Šλ ¹ Ï Î Ð Ã Í º ¹ À
· Ã Ä» ¹ Å ¹ º Æ Ç ÃÈ » ÉÅ» Ê
O Ñ ¿ Ä Ò» ¹ ¹» Î Å Ä Ä»
· Î
¿·
» Šλ Π· à Ļ λ
¿ Í Ã Á» Î ÓÔ Ò ÒÕ Ö
ØÙÚ
Û
ÜÝÞßàáâÝãäåæÝàçè
éßàãêë
Messgrößen
ì
Visits / Sessions
í
Zusammenhängende Abrufe in einem Zeitraum
í
Navigationspfade aus Logfile
í
Nicht zuverlässig identifizierbar
í
Problem: Wann ist Visit beendet?
ì
Heuristiken
í
Zeitorientiert:
î
Gesamtdauer einer Visit ist nach oben begrenzt
î
Verweildauer auf einer Seite ist nach oben begrenzt
í
Navigationsorientiert
î
Topologische Begrenzung: Sitzungsende, wenn Seite nicht von vorherigen Seiten aus erreicht werden konnte
î
Begrenzung durch Referrer: Sitzungende, wenn Seite nicht
durch Navigation von vorheriger Seite erreicht wurde
ððñ
ò
óôõö÷øùôúûüýô÷þÿ
ö÷ú
Messgrößen
Unique Visitors
Abrufe von gleicher IP Adressen als 1 Besucher gezählt
Objektiv nicht aussagefähig (Proxies, Dynamische IP Adressen, etc.)
AdImpressions / Clickthroughs
Klick auf Werbebanner
Messbar beim Werbekunden
Quelle durch Referer ermittelbar
Abrechnung
Preis nach Attraktivität des Werbeträgers:
Pageviews und Visits als Maß
Preis nach Effizienz des Werbemittels:
Clickthroughs als Maß
Messgrößen
Viewtime
Dauer des Verweilens auf einem Angebot
Kaum aus Logfile messbar
Klientenseitige Unterstützung notwendig (z.B. Skripting)
Sitzt der Nutzer vor dem Rechner?
Durch zusätzliche direkte Befragung ermittelbar:
Qualified visits: Bestätigte Besuche
Regionale Herkunft
Alter, Geschlecht etc.
Interessen
Akzeptanz
!
"#$%&'(#)*+,#&-.
/%&)01
Wer misst?
2
Serverbetreiber nach eigenem Verfahren und eigener Auswertung
2
Serverbetreiber oder Externer nach standardisiertem Verfahren und Auswertung
3
Informationsgemeinschaft zur Feststellung der Verbreitung von Werbeträgern e.V." (IVW) (http://www.ivwonline.de/)
3
Messung z.B. durch transparente Grafiken („IVW-Pixel“) auf Seiten
4
<img src="/cgi-bin/ivw/TYP" width="1" height="1">
4
<img src="/cgi-
bin/ivw/CP/web/httpd/htdocs/blizzard/index.html" width="1"
height="1">
3
Lösen Messung aus
3
IVW Zahlen sind Grundlage für Preisgestaltung
678
9
:;<=>?@;ABCD;>EF
G=>AHI
Aus www.spiegel.de/index.html
J KML NPO KMQ RL SL TU VW X X X X X X V YZ [ YMU VW \ \ \ \ \ \ V
S] ^ _
U VW K` \ba cd V e S] ^ _U VW K` \ba cd V a S] ^ _
U VW X X \ \ \ \ V
fa TQ ] ^ gZ ] Q g YMU V \ V
fa TQ ] ^h ] N Y gU Vi V SZ X Y
fa TQ ] ^U Vi V
YL j fa TQ ] ^U V \ V T
] Q g Y fa TQ ] ^U Vi V KML Y YL f fa TQ ] ^U V \ Vlk
J mon n pq r q st u p vw U V cyx ` V n n k
J z R T
] j Y Sa ^Q {a Q Z U V| a ea u R T
] j Y Vlk
J mon n
ea T pq r
U V g Y Y j} ~ ~ z j
] Z Q Z Sx ]
eh
KML [x NMZ ~ RQ ] n K] ^ ~]
eh
~ ~
z j
] Z Q Z SP ~ gL fZ
~ R
n c ~ KMZ n i n a Y g ` e
` q { N
q
O V
NL R { fZ ^ Yx h T
] YZ J p ut U
V
pq r
TU
Z z Ra jZ NL R { fZ ^ Yx TZ XZ T TZ T
V r p U V c
s p
U V c V vt st U V \ V p w
U Vt p Vlk
~ ~ n n k
J ~ z R T
] j Y
k
J
^L z R T
] j Y
k
J p ut U V g Y Y j} ~ ~ z j
] Z Q Z Sx ]
eh
KML [x NZ ~ RQ ] n K] ^ ~] eh ~ ~ z j
] Z Q Z SP ~ gL fZ
~ R
n c ~ KMZ n
i n a Y g ` e
` q { N
q
O V r p U V c V s p
U V c V
vt
st U V \ V p
w
U Vt p Vlk
J ~
^L z R T
] j Y
k
J mon n ~ pq r n n k
J mon n pq r q st u p vw U V j TZ e V n n k
J
]
fQ z T RU V KMZ n i n a
Y
g ` ex Q ] X V
h ] N Y gU V c V gZ ] Q g YMU V c V
KML T NMZ TU V \ V a S] Q ^U V T
] Q g Y Vlk
J mon n ~ pq r n n k
¡¢£¤¥¦§¨¢©ª
«¡¢¥¬
Ermittlung von Zugriffsmustern
®
Datenaufbereitung
¯
Extraktion relevanter Zugriffe, also z.B. nicht Hits auf eingebettete Daten etc. (jpg, map, robots.txt)
¯
Hinzufügen verlorengegangener Zugriffe
°
Zusammenführen mit Cookie-Informationen
°
Zusammenführen mit Registrierungsinformationen
°
Heuristiken zur Cache Nutzung
®
Sitzungsermittlung
¯
Ziel: Sequenzen von zusammengehörigen (gleicher Nutzer, gleiche Nutzung) Zugriffen als Sitzung (Session, Visit)
identifizieren
¯
Problem vergleichbar mit dem Problem der Idenfizierung eines
Nutzers
²³´
µ
¶·¸¹º»¼·½¾¿À·ºÁÂ
ùº½ÄÅ
Analysetechniken
Æ
Path analysis
Ç
Ermittlung von Pfaden in Graphen (oder Graphen aus Pfaden), die Web-Site repräsentieren
È
Link-Struktur einer Site
È
Ähnlichkeitsstruktur von Seiten einer Site
È
Linkverfolgungsstruktur einer Site
Ç
Weitere Zusammenhänge ermitteln:
È
70% der Nutzer, die /inst/ag-nbi/lehre/03/S_SW/ zugegriffen haben kamen über den Pfag /inst, /inst/ag-nbi (20% über
/lehre/, …)
È
5% der Nutzer haben ihren Besuch bei /inst/ag-nbi begonnen
È
70% der Nutzer haben ihre Sitzung nach einem Pfad der Länge 5 beendet
Ç
Nutzung dieser Zusammenhänge für die Struktur der Site
ÊËÌ
Í
ÎÏÐÑÒÓÔÏÕÖ×ØÏÒÙÚ
ÛÑÒÕÜÝ
Analysetechniken
Þ
Association rule
ß
Ermittlung von Korrelationen zwischen Zugriffen einer Sitzung
à
30% der Nutzer die /inst/ag-nbi besucht haben, haben auch /inst/ag-tech besucht
à
2% der Nutzer von /inst/ag-nbi/lehre/0203/V_NBI/ haben sich danach in die Mailingliste eingetragen auf
http://lists.spline.inf.fu-berlin.de/mailman/listinfo/nbi_v_nbi
Þ
Sequential pattern
ß
Ermittlung von Zusammenhängen zwischen Sitzungen
à
20% der Nutzer, die sich über
http://lists.spline.inf.fu-berlin.de/mailman/listinfo/nbi_v_nbi in eintrugen, haben das innerhalb von 10 Tagen über
http://lists.spline.inf.fu-berlin.de/mailman/listinfo/nbi_s_xml
auch für die andere Mailingliste eingetragen
âãä
å
æçèéêëìçíîïðçêñò
óéêíôõ
Analysetechniken
ö
Classification rules
÷
Ermittlung von Profilen von Nutzergruppen
ø
80% derjenigen, die sich unter
http://lists.spline.inf.fu-berlin.de/mailman/listinfo/nbi_v_nbi eingetragen haben, studieren Diplom-Informatik
ø
Bachelor-Studierende besuchen eher Seiten unter /inst/ag-nbi als unter /inst/ag-bio
ö
Clustering
÷
Gruppierung ähnlicher Nutzer und Daten
ø
Interesse an hochpreisiger Consumer-Electronic
÷
Nutzung für Marketing und Site-Personalisierung (z.B. amazon)
úûü
ý
þÿÿÿ
Zusammenfassung
Ermittlung von Informationen über Nutzer und Nutzung notwendig
Logfiles als Datenbasis bei Servern, verschiedene Format
Verschiedene Messgrößen verbreitet
Ermittlung teilweise sehr schwer
Web Usage Mining zur Ermittlung komplexerer
Zusammenhänge
!"#
Literatur
$
Common Logfile Format.
http://www.w3.org/Daemon/User/Config/Logging.html#common- logfile-format
$
Mike StJohns. Identification Protocol. Request for Comments 1413.
February 1993 http://www.ietf.org/rfc/rfc1413.txt?number=1413
$
DMMV. Messgrößen.
http://www.dmmv.de/de/7_pub/homepagedmmv/themen/emarketi ng/media/zielemedia.cfm
$
Bettina Berendt, Bamshad Mobasher, Myra Spiliopoulou, and Jim Wiltshire. Measuring the accuracy of sessionizers for web usage analysis. In Workshop on Web Mining at the First SIAM
International Conference on Data Mining, pages 7-14, April 2001.
http://maya.cs.depaul.edu/~mobasher/papers/wm-siam01.pdf
$