Google & Google-Labs
Übersicht Google
Geschichtliches
Arbeitsweise/Technik
Funktionen
– Suchmaschine
• Google.com vs. Google.de
– Bilder, Newsgroups, Nachrichten, Katalog, Directory, Expertenrat, Toolbar, Compute
Übersicht Google Labs
Funktionen
– VoiceSearch – Keys
– Glossary – Sets
Rund um Google
– Google Weblog, Googlefight
Googol ~ Google
– 1000000000000000000000000000...0 – 10100
– Milton Sirotta (Neffe von Edward Kasner)
Gründerväter
– Sergey Brin
– Lawrence Page
Geschichtliches
Suchmaschinenprojekt an der Stanford University
„BackRub“ mit Fähigkeit, die Links zur indizierten Seite zu erfassen.
Nutzung von gewöhnlicher Hardware
Suche nach Investoren
Geschichtliches
7. September 1998: Google Inc. Menlo Park, California
– Garagenfirma
– 10.000 Anfragen
1999: Suchmaschine von
AOL/Netscape mit 3 Mill. Anfragen
2001: Aufkauf von Deja.com
Geschichtliches
heute:
– >500 Angestellte
– >150 Millionen Anfragen
– >54 Millionen Benutzer (50% non-US) – >3 Milliarden Webseiten
– >800 Millionen usenet-Posts – >330 Millionen Bilder
– 36 Länderdomains
Geschichtliches
heute:
– >100 Millionen Dollar jährlicher Umsatz – ca. 100% jährliches Wachstum
Geschichtliches
Geschichtliches
Browserhäufigkeit Nutzersprachen
Technik
„The Anatomy of a Large-Scale
Hypertextual Web Search Engine“
1998
„The PageRank Citation Ranking:
Bringing Order to the Web“ 1998
Technik
größter kommerzieller Linux-Cluster
>10.000 Maschinen
5 verteilte Datacenter
Google Search Appliances
– Linux-Server
Suchmaschine
– simpel
– leichtgewichtig – beständig
einfach
– AND-Verknüpfung – keine Wildcards
Funktionen
Filetypen
– 12 Haupttypen
• Portable Document Format (pdf), PostScript (ps), Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku), * Lotus WordPro (lwp), MacWrite (mw), Excel (xls), PowerPoint (ppt), Word (doc), Works (wks, wps, wdb), Write (wri), Rich Text Format (rtf), Text (ans, txt)
– [filetype:rtf]
ähnliche Seiten (GoogleScout)
Suchmaschine
Übersetzungen
– Englisch übersetzt in
• Deutsch
• Französisch
• Spanisch
• Portugiesich
• Italienisch
– Erkennung von 36 Sprachen
„I´m feeling lucky“
Suchmaschine
erweitert
Syntax
– [_-ausgeschlossen]
– [_+eingeschlossen]
– keine Wildcards (aber Paltzhalter * ) – keine Groß-/Kleinschreibung
Suchmaschine
Syntax
– ["genauer Wortlaut"]
– OR oder |
– [site:www.distributed.net]
– [link:www.distributed.net]
– [related:www.distributed.net]
– [info:www.distributed.net]
– [stocks: amd shr]
Suchmaschine
Syntax
– [allintitle:arthur dent]
– [intitle:beeblebrox ] – [allinurl:online/public]
– [inurl:public_html]
– z. B. inurl:fu-berlin site:fu-berlin.de
– cache:www.inf.fu-berlin.de/inst/ags.html – date: ?
Suchmaschine
.com vs. .de
Filtermechanismus, der Suchergebnisse des deutschen Ablegers zensiert
– auch Frankreich, Schweiz
– keine offiziellen Informationen erhältlich
gleicher Datenbstand wie google.com
Filterung der URLs vor Anzeige der Suchergebnisse
Seiten im Cache vorhanden
.com vs. .de
z.B. Stormfront.org
nicht sichtbar:
– www2.stromfront.org – www3.stromfront.org – www4.stromfront.org – women.stromfront.org
sichtbar:
– irc.stormfront.org:8000
Bilder
images.google.com 390 Millionen Bilder
Bilder
images.google.com Beurteilung/Indizierung
– <ALT>-Tag
– Bildbeschreibung – Seiteninhalt
– Bildanalyse
– Duplikatentfernung
alle Suchtags möglich
Bilder
images.google.comBilder
images.google.com SafeSearch
– Filterung von „pornography and explicit sexual content “
Newsgroups
groups.google.com usenet
Newsgroups
groups.google.com >35.000 Gruppen
>700 Millionen Postings
usenet-Start in 1979
Newsgroups
groups.google.com Übersicht einer Newsgroup
Newsgroups
groups.google.com ältestes Posting in Net.general
From: sdcarl!rusty Mon May 11 09:00:58 1981 To: ucbvax^mark
Subject: newsgroup fa, net, etc.
Won't we need to change the .ngfile also? Also is ALL an acceptable newsgroup on the left side of the dot such that ALL.ALL will catch everything?
Rusty is right (or is that "Rusty is Wright"?) - we have ALL in our .ngfile
so I tend to forget this. ALL.ALL may or may not work, but ALL certainly does.
Mark
Newsgroups
groups.google.com archiviert von Henry Spencer
(Department of Zoology Toronto)
– 1981 - 1991
– 141 Bänder á 120 MB
Nachrichten
news.google.comNachrichten
news.google.com 4000 Nachrichtenquellen
mehrmals tägliche Aktualisierung
Gruppierung nach Themen
ausschließlich mittels Algorithmen
Artikel der letzten 30 Tage
Directory
directory.google.comDirectory
directory.google.com Webinterface für Open Directory Project (dmoz.org)
>1,5 Millionen Einträge
Verknüpfung mit Webindex zur besseren Sortierung
Kataloge
catalogs.google.comKataloge
catalogs.google.com 5400 Rubriken
mailorder-Kataloge verschiedenster Anbieter
Kataloge
catalogs.google.com Ergebnisanzeige
Expertenrat
answers.google.comExpertenrat
answers.google.com 500 freiwillige Experten für
verschiedenste Fachgebiete bzw.
Informationssuche
2 - 200$ Kosten für Expertenantwort
entsprechend der selbst eingeschätzten Schwierigkeit
0,50$ Gebühr für Google
Toolbar
toolbar.google.com Button-Leiste zur Integration in Browser
– nur Windows ab M$IE 5.x
Eingabefeld für Suche
PageRank-Anzeige
integrierte Update-Funktion
mit integriertem
Compute
toolbar.google.com/dc Distributed Computing
– Berechnung der dreidimensionalen Faltung von Proteinen mit bekannter
Aminosäurenstruktur – ca. 20 MB pro Monat
unauffällig mit Toolbar installiert
zufällige Aktivierung durch Google- Server
labs.google.com
„Spielwiese“ für Google-Entwickler
erste Stufe im Entwicklungsprozeß
keine direkte Unterstützung der Funktionen
möglicherweise zukünftige Bestandteile der Google Services
Google Labs Technologien
VoiceSearch (labs.google.com/gvs.html)
– Suchanfrage via Telefon
– Spracherkennung und Darstellung des Ergebnisses auf spezieller Seite
Keyboard Shortcuts (labs.google.com/keys)
– Navigation innerhalb der Suchergebnisse mittels Tastatur
Glossary
labs.google.com/glossary Finden von Wörtern, Phrasen und Akronymen
Glossary
labs.google.com/glossary z. B. Benzodiazepine
Sets
labs.google.com/sets generierte Wortlisten anhand von eigenen Beispielen
labs.google.com/sets
Rund um Google
Google Weblog (google.blogspace.com)
– Sammlung von Links bezüglich Google
Rund um Google
Googlefight (www.googlefight.com)
– Vergleich der Ergebnisanzahl zweier Suchbegriffe