IR in den Lebenswissenschaften
Dr. Wolfgang Müller Scientific DB&V HITS gGmbH, Heidelberg
IR in den Lebenswissenschaften
• „IR in den...“
– Nutzung für IR zum Auffinden von Dokumenten – Nutzung von IR-Techniken innerhalb von
Algorithmen
• „...Lebenswissenschaften“
– Biologie – Medizin
Disclaimer
• Ich bin kein Biologe
• Will ihnen ein Gefühl geben
– Was sind wichtige Grundzusammenhänge?
– Wieso ist Biologie interessant?
– Wieso ist Biologie für Informatiker interessant?
– Was sind die kleinen Nickeligkeiten?
Biologie...
...von ganz weit weg
Skalen (hier: )
Organ
Organismus
Lobulus
Einzelzelle Zell-Zell-
Kommunikation
Bildquelle: http://seek.virtual-liver.de
Unterschiedlichste Phänomene (i)
Bienentanz
• Schwänzeltanz zur Kommunikation der Futterquelle
– Richtung der Geraden Richtung der Futterquelle
– Länge der Geraden Entfernung – Geschwindigkeit der Kurve Qualität
• Rundtanz ähnlich, nur für nähere Quellen
Alligator
Männlein vs. Weiblein
http://lempel2000.de/
geschlechtsbestimmung_ubersicht.pdf
Unterschiedlichste Phänomene (iii)
„Genexpression“
OK...
• Von Nanometer zu Meter
• Von vom Gen über die Organelle zu Gruppen von Lebewesen
• Von der Verhaltensforschung über Physiologie zu Biochemie
Zuviel
Wir halten den Ball flach und schauen uns einige wenige Fälle an
Moore‘s law und Freunde
Leicht frustrierende Abschätzungen
When your best just isn‘t good enough
Moore‘s law der Computertechnik
• Transistoren/
Chip
• Über 40 Jahre
• Verdopplung alle 2 Jahre
Faster than Moore: Genom-Daten
Take-away aus ersten Folien
• Rechenleistung steigt exponentiell
• Genomdatenmenge steigt auch exponentiell
• Genomdatenmenge steigt schneller!
Genomdaten gewinnen das Rennen!
Brauchen effizientere Algorithmen!
Genomdaten gewinnen...
Anders gesagt:
CS= CPreparation + CBiochem + CNet + Ccomp + CStorage
Moore‘s Law Fällt langsamer
als Moore, aber Workarounds
Fällt schneller als Moore Fällt schneller als Moore Kosten zur Berechnung einer Sequenz
Der Workaround für
Netzwerkprobleme (Beispiel: 1PB)
x 1000 +
Große Bandbreite, viel Delay, viel Jitter
+
Aber...
• 1PB Lesen per Thunderbolt
1015B / 2 / 109B/s = ½ x 106s= 5,78 Tage
Moore‘s law und Freunde
Tolle Herausforderungen
für Algorithmiker
Anything unattempted remains impossible
Genom
• Das Erbgut eines Organismus
• Gen + Nomos – Gen: Teil des Erbguts – Nomos: Griechisch „Gesetz“
• Oder auch: Gen + Chromosom – Chromosom: „Färbbarer Körper“
DNA
• Desoxyribonukleinsäure
• Form Doppelhelix
• Polymere aus Nukleotiden
• Eine Einheit:
– Phosphat-Rest + Desoxyribose – Eins aus den Aminosäuren
• A: Adenin (AT)
• T: Thymin
• G: Guanin (GC)
• C: Cytosin
• Doppel-Helix
• 2nm Durchmesser
Für uns jetzt interessant
• Immer AT und GC gegenüber
• Aus einem Strang DNA kann man den anderen rekonstruieren
• DNA durch String über Alphabet [A,T,G,C]
komplett beschrieben
Kausale Kette (nach Noble)
Organism Organs Tissues Cells
Sub-cellular Mechanisms Pathways
Proteins Genes
Genexpression: der erste Schritt
Genregulation
• Wieviel von einem Genprodukt wird erstellt?
• „Down-regulation“: Weniger als normal
• „Up-regulation“: Mehr als normal
... in vielen Situationen binär (entweder up oder down, nix dazwischen)
Frage
Wenn alles Verhalten von den Genen ausgeht...
...wie reagieren wir dann auf äußere Reize?
„Downward Causation“
• Organismus triggert Zellsignale
• Organismus triggert, welche Gene wie exprimiert werden
Prinzipien u.A. (D. Noble)
• Biologie funktioniert über Skalen hinweg
• Informationsaustausch keine Einbahnstraße
• DNA ist nicht einziges Erbgut
• Gene allein reichen nicht zum Verständnis
http://musicoflife.johnjsung.com/pdfs/PatonLecture.pdf
Lamarck‘s comeback? Wir merken uns...
• Gene sind für Informatiker lange Strings
• Gene sind wichtig
• Wie wichtig? Darüber streitet man sich momentan.
• Nicht nur Gene, auch Eizelle spielt Rolle bei Entwicklung!
Sequenzierung
• Aminosäurensequenz für (Teil-)Genom
• Für Mensch ca. 3G bp (Giga Basenpaare)
• Essentielle Fortschritte durch Bioinformatik getriggert.
• Wo genau?
Shotgun Sequencing
Was sehen wir?
• Millionen von Strings, ca 1kB
• Alle leicht fehlerhaft (0.5%-10% Fehler)
• Suche Überlapp
Tolles String-Matching-Problem
Zwei Varianten
• De novo Assembly:
– Kein Vorwissen
– Gensequenz wird aus Puzzleteilen zusammengebaut
• Mapping Assembly:
– Kennen „Referenzgenom“
(bekannte Basis-Sequenz)
– Legen (mappen) Puzzleteile auf Grundsequenz :
zgenom“
Funktioniert, da Genom weitgehend gleich
Komplexität?
• De Novo: O(#reads2)
– Vergleiche jeden Read mit allen anderen
• De Novo: O(#reads x log(#reads)) – Indexiere Referenzgenom
– Finde korrekten Ort von gegebenem Read
Blast
• Suche approximativen Match zwischen 2 Strings
• Grundidee: Suche kurze, approximative Matches & Erweitere
– Heuristischer Score, nehme hohe Scores
• Zerlege Anfrage in k-gramme
• Suche Orte, wo diese in der richtigen Reihenfolge matchen
• Fülle Lücken
http://www-lehre.img.bio.uni-goettingen.de/Bio_Inf/fastblast/fastblas.htm#BLAST
Kompression
Herausforderung:
10 Genome, 30x „Coverage“ = 1TB 10000 Genome 1 PB
Ansätze
Bitmanipulation:
Alphabet von 4 Ziffern 2 Bit Kompression um 75% „geschenkt“
Darauf aufsetzend: Entropy Encoding Kompression per Huffman etc.
Kompression in Multimedia
„Quellencodierung“ für Lossy Compression (z.B.
MP3)
• Messungen über Fähigkeiten des Menschen
• „Verstecken“ Fehler, da wo der Mensch ihn nicht sieht
Neuer Ansatz
• Noch Forschung:
Wissen nicht, was wir weglassen können
• Brauchen neuen Ansatz
• Beobachtung:
Genome bleiben sich weitgehend gleich
• Idee:
Kodieren Differenz zu Menge von Referenzsequenzen
• Kompression 400:1 machbar
Upcoming:
• Fast compression
• Streaming „The MP3 for Genes“
• Aber: ENCODE
– Weniger „tote“ Abschnitte im Genom als angenommen
– Was „wichtig“ empfunden wird am Genom ändert sich radikal
Anonymität + Gene
• Wunsch: Veröffentlichung experimenteller Daten
• Idee: Trennen persönliche Daten (e.g Name) von Daten (e.g. Bilder von Leberprobe)
• Aber: Genom identifiziert perfekt
• Idee: Publiziere Genpools (Schnipsel von mehreren Personen), nicht Einzelgenome
• Inzwischen (2008) geknackt: Nachweisbar, ob ein Genom in Pool vorhanden
• Ethisches Problem
Motivation der Systembiologie
...und verwandter Gebiete
Über die Medizin
„Medizin ist da zur Unterhaltung des Patienten, während die Natur ihn heilt“
„Ein Arzt ist ein Mensch, der eine Medizin über die er wenig weiß, einem Patienten zuführt, über den er noch weniger weiß“
(Voltaire 1694-1778)
Inverser Moore für Medizin (Inflationskorrigiert!)
#neue Medikamente pro Milliarde $ in F&E
Also...
• Medikamentenpreis steigt exponentiell
• Funktionsweise des Menschen noch weitgehend unverstanden
• Ein Ansatz:
– Ingenieurmäßiges Verstehen des Systems Organismus
– Theoretisches Verstehen von Funktionsweise von Medikamenten
– Schlüsselbegriff hier: Drug Target
Wissenschaftliches Vorgehen (allgemein)
Experiment (Hypothesentest)
Modellbildung (Theoretisches Verstehen) Hypothesenentwicklung
Früher: Kommunikation durch Papers
Früher: Ein Experimentator
• Liest papers
• Konkretisiert Hypothesen
• Führt Experiment durch
• Publiziert neue Papers Früher: Ein theoretiker
• Liest papers
• Erzeugt theoretische Interpretation
• Erarbeitet neue Hypothesen
• Publiziert Paper
Kleines Problem, Teil1
• Pubmed: Liste aller medizinischen Publikationen
• Suche nach Leber 2012:
24140 Publikationen Lese 66 Publikationen/Tag??
Realistischer
• Query: Hepatocyte growth factor
• 555 Dokumente in 2012 2 Papers pro Arbeitstag
Kriegen wir noch gelesen, aber wo ist der eigene Input?
Kleines Problem, Teil II
• Viele Spezialitäten:
– Biologie, Biochemie, Chemie, Bioinformatik,...
– Experten für Skalen – Experten für Organe – Tierzucht
– ...
Zu viel für einen Kopf Benötigen Zusammenarbeit
Systembiologie
Experiment (Hypothesentest)
Modellbildung (Theoretisches Verstehen) Hypothesenentwicklung
Begleiterscheinung
• Datenbanken für Publikationen
• Datenbanken für Daten aus Publikationen
• Datenbanken für experimentelle Daten
• Alle brauchen Suche
Vieleviele Datenbanken
Da sind wir dabei!
„Business“ der SDBV@HITS
• Datenbank für reaktionskinetische Daten, SABIO-RK
– Literatur
– Experimentelle Daten direkt von der Maschine
• SEEK Datenbank für systembiologische Projekte
„So ne Art Facebook für Wissenschaftler“ F b k f W h f l “
Mein Werdegang
• Abi 1989, 15 Monate BW
• 1990-1996 Studium der Physik in Konstanz Diplomarbeit in Strasbourg
• 1991-1998 Studium der Informatik in Hagen
• 1998-2001 Dissertation bei Th. Pun in Genf
• 2002-2008 Habilitation bei A. Henrich in Bayreuth, dann Bamberg
• 2008 (April bis Juli) freiheit.com Webentwicklung
Spezialität: Verteiltes MM Retrieval
GNU image finding tool
Bayreuth, 2007-09-19 Müller: Bilder im Netz
Sicht auf andere Peers mit Zusammenfassungen
P2P Anfrage- Verarbeitung
Daten-Collections durch Punktdichteverteilung
beschreiben: GMM
Bayreuth, 2007-09-19 Müller: Bilder im Netz
Werdegang
• 2008-2009: Stv Gruppenleiter EML Research gGmbH
• 2009- Gruppenleiter EML-R, dann HITS gGmbH
Was ist cool?
• Komplexe Daten
• „Echte“ Daten
• „Echte“ Nutzer
Ein Ausflug nach HCI
Human-computer interaction is a discipline concerned with the
• design, evaluation and implementation of
• interactive computing systems
• for human use
• and with the study of major phenomena surrounding them.
Definition durch ACM SIG CHI
Wie zustandegekommen?
The interdisciplinary design science of human- computer interaction began by combining the data-gathering methods and intellectual
framework of experimental psychology with the powerful and widely used tools developed from computer science.
Ben Shneiderman, Designing The User Interface (DTUI)
5 Evaluierungskriterien für gute Software (DTUI)
• Time to learn: Wieviel Lernzeit benötige ich, um eine gegebene Menge von Aufgaben lösen zu können?
• Speed of performance: Wie schnell kann ein Nutzer gegebene Aufgaben lösen?
• Rate of errors by users: Wie viele Fehler macht ein Nutzer in einer gegebenen Zeit?
• Retention over time: Behält man, was man über das System gelernt hat?
• Subjective satisfaction: Sind die Nutzer während/nach der Nutzung zufrieden?
Beispiele
• Time to learn: „Wie lange muss ich meinen Mitarbeiter anleiten, damit er in Word Serienbriefe schreiben kann?“
• Speed of Performance: „Wie lange brauche ich, um 200 Briefe an die Mitglieder vom Angelverein mit Word zu machen und auszudrucken?“
• Rate of Errors: „Ich drucke aus Versehen immer zweiseitig, weil ich die Einstellung dafür überseh“
• Retention over time: „Weiß ich noch nach einem Jahr, wie ich in Word Serienbriefe drucke, oder muss ich es wieder neu lernen?“
• Subjective Satisfaction: „Beim Editieren von Texten mit vim/emacs/nano/notepad habe ich immer das Gefühl einer großen Zeitverschwendung“
DTUI 8 Golden Rules
• Strive for consistency
• Cater to universal usablity
• Offer informative feedback
• Design dialogs to yield closure
• Prevent errors
• Permit easy reversal of actions
• Support internal locus of control
• Reduce short-term memory load
Rule 1: Strive for consistency
• Nach Konsistenz streben.
• Gleiche Dinge sollen sich gleich benehmen.
• Beispiel:
– Texteingabefelder:
Überall gleiche Tasten für Markieren, Löschen, Undo – Click auf ein kleinen Dreieckpfeil nach unten öffnet Menü
– Bei Apple: Apfel-N in jedem Programm neues Dokument
Rule 2: Cater to universal usability
• Jeder sollte ein Stück Software nutzen können – Anfänger
– Fortgeschrittene – Profis
• Herausforderung ist, die Breite über verschiedene Fähigkeitsniveaus abzudecken
• Beispiel: Word/Powerpoint – Menüs & Wizards
– Keyboard Shortcuts für Fortgeschrittene
Rule 3: Offer informative feedback
Mindestens Sichtbar:
• War die Operation (technisch) Erfolgreich?
(z.B. Eine Serienmail wurde verschickt)
• Hatte sie den erstrebten Effekt bezüglich der Aufgabe?
(z.B. Wurde sie an die richtigen Adressaten verschickt? Wurde die Anrede korrekt eingesetzt?)
R4: Design dialogs to yield Closure
• Aktionsfolgen sollten klar erkennbar – Anfang
– Mitte – Ende haben
• Nutzer sollten wissen, wann die Aktion vorbei ist
„Nach ‚cancel‘ im Font-Dialog muss ich mir über Fonts keine Gedanken mehr machen“
R5: Prevent errors
Bei Fehlervermeidung/Fehlerbehebung helfen – Dem Nutzer bei Fehlervermeidung helfen
(„Wollen Sie dies wirklich an 200 Leute verschicken?“) – Anzeigen, dass ein Fehler aufgetreten ist
(„Diese Mail kann ich nicht verschicken!“) – Grund anzeigen
(„Die Adressliste für die Serienmail ist leer!“) – Zeigen, wie der Fehler behoben werden kann
(„Wählen Sie eine Adressliste in Einstellungen/
Serienmail“)
R6: Permit easy reversal of actions
• Undo/Rückgängig wo immer möglich
• Wichtiges Wort in Shneiderman-Büchern:
„anxiety“ (milde Form der Angst).
• Undo vermeidet anxiety
• Undo gibt Freiheit, neue Funktionalität zu erkunden
R7: Support internal locus of control
• Frage: Wer kontrolliert eine Aktion?
(hier ausgedrückt: Ist der Ort (Locus), an dem die Operation kontrolliert wird im Nutzer oder nicht?)
• Nutzer fühlt sich besser, wenn er kontrolliert
• Interessante Folgen für IR
• Aktuelle Entwicklung gibt Shneiderman recht
Positiv-Beispiel
• Word, Powerpoint etc.
• Ich entscheide,
– was auf die Folie kommt – wann
– in welcher Reihenfolge
• Selten Wizards über 2 Ebenen
t t t
Negativ: Umfragen im Internet
„Brauchen wir, um die Werbung besser auf sie einstellen zu können“
• Sehe meistens nur erste Frage
• Unklar, wieviele Fragen insgesamt
• Unklar, wie persönlich Fragen werden
• Meist Frage nach Familienstand, Alter, Gehalt ganz am Schluss
Negativ dann auch
• Automatisch bestimmte Favourites
• Automatisch angepasste Suchresultate
• Menü nach Häufigkeit der Nutzung – z.B. meistgenutzte Funktionen
– Nicht mehr klar, wo man was findet – Sehr bewusst einsetzen
R8: Reduce short-term memory load
• Menge Information, die man sich merken kann 7 +/- 2 „chunks of Information“
• System sollte dies berücksichtigen
– Nicht zu viel anzeigen (auch eine Faustregel für Folien) – Wichtige Information leicht zugänglich bereithalten
• Besonders beliebtes Negativbeispiel:
– Modale Dialoge, die wichtige Information verdecken.
– Z.B. Dateinamendialog
+ Regel von Nielsen
Speak the users‘ language
SABIO-RK
Was speichert SABIO-RK?
Kinetische Daten von enzymkatalysierten metabolischen Reaktionen
n
Enzym = Protein, das als Katalysator wirkt
Stoffumsatz in der Zelle
Gebiet: Bochemische Pfadwege Metabolische Pfadwege?
• Modelle von Pfadwegen
• Beantworten Fragen wie:
Wenn ich der Zelle Stoff A zuführe – Was sind die Abbauprodukte?
– Wie ist der zeitliche Verlauf des Anfallens der Produkte
• Netzwerke von Differenzialgleichungen
Glycolyse Mehrwert für Nutzer
• Einige 100 – einige 1000 Elemente im Netzwerk
• Parameter über 100e Publikationen verstreut
• „Impulsen folgen“ schwer möglich
• „Schnell mal“ relevante Parameter finden Aufbereitung von Literaturdaten nötig Datenbanken füllen diese Lücke
Modell des zentralen Hepatozyten-Metabolismus
http://www.charite.de/sysbio/people/koenig/
Ein Beispieldatensatz
SABIO-RK Kuratierungsworkflow Kuratierung
ChemHits: NLP für Compounds
• Synonym matching für Moleküle
• Transformieren Namen auf Zwischenrepräsentation (heuristisch)
• Vergleichen
Zwischenrepräsentationen
Sabio & golden rules
U.U.: SABIO-RK „normal“
Eine Suchzeile, Rest wird geraten
SABIO-RK für Fortgeschrittene
Internal locus
• Explizite Spezifikation von allen Suchbegriffen
• Alle Begriffe in Anfrageresultat vorhanden
• Wenn geraten dann explizit gemacht, was geraten wurde
Fehler fermeiden ;-)
Einfaches Undo
Query-Terme rauslöschen? Nix leichter als das
Near future: Like ChEMBL
Clickbare Totengraphik zur Query Expansion
Ongoing: Parallel Coordinates for
SABIO-RK Effizienz
• Anfangs SQL + komplexes Schema
• Queries im Bereich von mehreren Sekunden
• Viele kleine Queries
• Lösung: Cachen komplette „Entries“
• Immer noch zu langsam. Wieso?
• Rechteverwaltung mit Access Control Lists
• Lösung: Rechtebestimmung mittels invertierter Listen en
Gib mir alle Dokumente, die Kuratoren sehen dürfen
Wichtig, aber nicht Sexy
• Verlinken mit anderen Datenquellen
• REST Web Services – SBML
– Excel
• Export nach SBML
Die Herausforderung hier
Meist auf Nutzer hören, aber viel vorschlagen.
Ab und zu auch einfach probieren.
Internal Locus of Control ist sehr wichtig
Daten und Finden
• Software maintainen ist schwierig!
(Können nicht einfach 2 Monate zumachen)
• Für Interaktives Retrieval
Geschwindigkeitspolster Notwendig
• IR Algorithmen helfen!
• SQL-Datenbanken gut für Datenqualität
• SQL-Datenbanken sehr inflexibel
• Und nun?
Linked Open Data
• Use URIs as names for things
• Use HTTP URIs so that people can look up those names.
• When someone looks up a URI, provide useful information, using the standards (RDF,
SPARQL)
• Include links to other URIs, so that they can discover more things.
RDF
• ...ist die Prokrastination eines Datenbankschemas
• Flexibel
• Sauber genug?
• RDF & SPARQL für 1400 Datenbanken?
...und wo bleibt das Ranking?
Bald in der LOD-Wolke?
SEEK
Was ist SEEK?
• “Wie Facebook für Wissenschaftler”: sharing – Projekte, Leute, Adressen, Expertise
– Experimente, Modelle, Prozesse, Präsentationen
• Erstellt in Verbundprojekt
– U Manchester, Carole Goble (Koordinator) – Stellenbosch, Jacky Snoep
– HITS, Wolfgang Müller
Nutzer von SEEK
~120 institutes
325 scientists
SSFH CISBIC
!
Oxisys JenAge
Größere Konsortien
Einzelne Verbundprojekte
SyBaCol
Typische Daten für SEEK-Nutzer
Leute
• Personalstruktur – 250 Wissenschaftler – 45 Teilprojekte – 50 Organisationen – 70 Chefs
• Dauer: 5 Jahre
• Budget: 40Mio
Daten
• Aufnamen von Leberschnitten
• Filme
• Simulationen
• Excel-Sheets
Gründe für Nutzung von SEEK
• Integrationspunkt während Projekt – Data, Models, SOPs, Presentations...
– Tools for above
• Datenhaltung über Projektende hinaus – 10-Jahre-Regel der DFG
Was für Daten? `Omics Daten
Neologismen auf Basis des Genoms
• Proteom (Die Proteine in einem Lebewesen)
• Metabolom (Was im Metabolismus abläuft)
• Connectom (Die Verbindungen von Nervenzellen)
• ...
Am Anfang war der Featurewunsch
Can I share in a hidden area?
Can I open data to the world?
Can I let in some collaboration partners as "almost members?
Dont do flexible data integration and
comparison Can I search data in other
SEEKs from my SEEK?
My data from 2 projects, is interesting for 3 (other) projects Link publications & data
I want my projects brand visible
I need to track slices of mouse liver Dont do distributed
search
I want to compare published and unpublished data
I want to find people and skills I want to use excel I want to share SOPs
Key: Meetings mit Fokusgruppe
• Möglichkeiten aufzeigen, Requirements sammeln
Unser Verbundprojekt
• SysMO-DB team
– Goble: Beard, Owen, Wolstencroft – Snoep: du Preez
– Müller: Krebs, Nguyen
• Virtual Liver project F1 team (seekers)
– An, Golebiewski, Shockley, Weidemann
„PAL wranglers
Developers
Korrolar
• 109Nutzer
• Daten Einstellen freiwillig
• Low Recall Required
• Soziale Interaktion erwünscht
SEEK
• 100 Nutzer
• Daten Einstellung ein Muss
• High Recall Required
• Soziale Interaktion nicht immer erwünscht
– Flaming of Papers – „Gläserner Wissenschaftler“
Bookmarks People
Investigation + related data
Share data or links to data Hide, share, publish
Goodies
• Branding
• Yellow pages
• ISA structure
• Tagging
• Modelling tool integration
• Virtual Machine: Try it in 2 minutes (live demo today)
i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i
intntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnntttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttegegegegegegegegegegegegegegegegegegegegegegegegegegegegegegegegegegegegegegegeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeggggggggggggggggggggggggggggggggggggggggggggrararararararararararararararararararararrrrrrrrrrrrrrrrrrrrrrrrrrraaaaaaaaaaaaaaaaaaaaaaaaaaatitititititititititititititititititititititittttttttttttttttttttttttiiiiiiiiiiiiiiiiiiiiiiiionononononononononononononononononononononononononononononononononononononononononononononononoooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooonnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn T
T T T T
T i iii 22222222 i
Goodies
• Branding
• Yellow pages
• ISA structure
• Tagging
• Modelling tool integration
• Virtual Machine: Try it in 2 minutes (live demo today)
Goodies
• Branding
• Yellow pages
• ISA structure
• Tagging
• Modelling tool integration
• Virtual Machine: Try it in 2 minutes (live demo today)
• Branding
• Yellow pages
• ISA structure
• Tagging
• Modelling tool integration
• Virtual Machine: Try it in 2 minutes (live demo today)
Goodies Goodies
• Branding
• Yellow pages
• ISA structure
• Tagging
• Modelling tool integration
• Virtual Machine: Try it in 2 minutes (live demo today)
One Stop to model standards
SEEK integrated tool to:
• construct, or modify, models, save in SBML format
• get automated generation of SBGN schema
• to annotate model (MIRIAM), implementing web services from semanticSBML.
SBML model format, SBGN schema, MIRIAM annotation
Standard simulation functionality
Open Integration:
JWS Simulator
Web based easy to use interface:
runs in your browser, integrated in SEEK
Models can be accessed via browser, SEEK and web services.
Data linked to models via file upload (e.g. Excel), or via database connection.
sim sim simulaulaulatiotiotionnn
f i li
fun fu fu fu fu fu fu f f f f f f f f
f ctionality functionality
Frage...
Nett, aber wo sind denn jetzt bitte die Herausforderungen?
Vorausschickend
• Biologen sind Spezialisten
• Sie sind darauf spezialisiert, neue Phänomene als solche zu erkennen
• Computing ist nicht ihr Job
Vorausschickend 2
• Informatiker sind Spezialisten
• Sie sind spezialisiert, Gemeinsamkeiten in Daten zu entdecken
• Computing ist ihr Job
Leider
...reden Biologen und Informatiker häufig aneinander vorbei
Wir brauchen also Leute, die übersetzen.
Wir dürfen uns nicht daran stören, dass Biologen nicht auch noch Informatiker sind.
Wir müssen Spaß an diesem Kommunikationsproblem haben.
Schlüssel: Ein Interessenkonflikt
Doktorand vs. Gruppenleiter
Was?? Ein Team und die arbeiten gegeneinander???
Chef
• Langfristige Sicht:
– Wo steht die Gruppe in 5 Jahren?
• Ständig wechselndes Personal
– 2-5 Jahre Verweildauer, manchmal auch kürzer – Übergabe ein Thema
• Heißer Stuhl
– Beschäftigt mit Konzeption, Führungsaufgaben, Beantragen
– Verantwortlich für Fälschungen – Objektiv wenige Kontrollmöglichkeiten
• Hoffnung: Bald das Nature
Doktorand
• 2-5 Jahre Zeit
• Experiment machen
• Daten sammeln
• Dann Paperpaperpaper
• Hoffentlich bald das Nature
• Was, Daten soll ich auch noch einstellen?
• Was, standardisiert auch noch?
Was machen wir daraus?
• Schwellen senken – Einfacher Upload
– Einfach mit Metadaten versehen
• Incentives: Kurzfristig Gründe für Upload – Funktionalität nur nach Upload nutzbar – Impact für Daten
– ...
Which mouse is the sample from?
Which sample was used?
Incentive: Maus-Management Excel
• Eigentlich für Berechnungen
• Hier:
– Semi-strukturierte Datenbank für kleine Experimente – Vorteil: Kein Schema meckert
– Hohe Usability, Dateneingabe sehr schnell
• Problem: Wir wollen doch – Struktur
– Definierte Bezeichner
• Excel ist das Prokrastinieren von Datenqualität
• Excel breit akzeptiert
Controlled vocabulary restrictions
Schwellen senken: RightField
138
2 Buddy-mailing as alternative data management
Easy Convenient Fast Always on Non-standardized Limited (size etc.) Hard to merge Hard to maintain
long-term Hard to search Hard to re-use No big data Buddy-to-buddy mailing
Experimentalist Modeller
139
3 Goal: Easy. Shared. Communication.
As easy as mail Reasonable,
pragmatic standard content description Long-term maintenance Big-data enabled Feels like buddy-buddy,
140
3 Goal: Easy. Shared. Communication.
As easy as mail Reasonable,
pragmatic standard content description Long-term maintenance Also closed at first
But can share later Overall time saver Feels like buddy-buddy,
can share later
Attached systems as needed
Incentive&Schwellen senken:
Data sending tool
• Old:
• Sender uploads file to FTP
• Sender sets up password
• Sender sends note + pw to receiver
New:
Sender drags file from explorer to receivers avatar in upload tool Tool uploads into SEEK Tool sets SEEK sharing Tool sends mail to sender+receiver
(tested file size: 37GB)
: : : : :
:
Soft project boundaries• Associate members in related projects
• Ad hoc groupings / external members
• Simplifying sharing interface
• Permissions arrangements over ISA structure
...und wo ist hier IR?
• Wir wollen – Alle Daten – Perfekte Metadaten
• Aber bekommen – Nur Teil der Daten – Wieviele Metadaten?
• IR hilft uns, zu wissen,
was wahrscheinlich gut genug ist
Kleine Welten
Ein Fallback für schwache Metadaten
Kleine Welten
Geht zurück auf Milgram-Experiment:
– Milgram verschickte Pakete an zufällig ausgewählte, ihm unbekannte Menschen
– Bat um Rücksendung des Pakets.
– Aber: Nicht direkt, sondern Probanden sollen
• Paket in Richtung des Ziels weiterschicken
• Müssen Adressaten kennen
• Adressat soll genauso verfahren
• Bis Milgram erreicht.
Beispiel: Versand über 4 Ebenen
Milgram Proband A
B
C D g
Versand an Probanden
A kennt B persönlich, versendet Paket
B kennt C persönlich C kennt D
D kennt Milgram
4 „Hops“
Kleinberg Small Worlds
• Was ist ein Small World Graph?
– Zufälliger Graph
– Kleiner Durchmesser (Kurze Wege zwischen weit entfernten Knoten)
– Großer Clusterkoeffizient (Viele Knoten miteinander direkt verbunden)
• Motiviert durch Milgram-Experiment
– Effiziente (O(log N)?) Navigation in sozialen Netzen möglich – Wieso?
• Kleinberg Small Worlds:
– Modell und Suchalgorithmus für Navigierbare SWG
Bamberg, 2006-12-14 Müller: Suchen in Kleinen Welten
Kleinbergs Grundidee
• Strukturierter Graph mit großem
Graphen-Durchmesser, z.B. Ring (=1) oder Torus (=2)
• Knoten mit ID,
• Distanz d(x,y) gegeben als Zahl der Hops auf Ring zwischen x und y
• Effizienzsteigerung durch zufällige Shortcuts:
Zufällig gewählte Abkürzungen
• Shortcut-Verteilung:
p(xy) ~ d(x,y)-
Bamberg, 2006-12-14 Müller: Suchen in Kleinen Welten
Hauptresultate
• Aus voriger Folie: Shortcut-Verteilung:
p(x y) ~ d(x,y)
-• Routing in durchschnittlich log2(N) hops, wenn =1
• Ansonsten (bei ≠1) polynomiale Komplexität!
• Proof by Example
Bamberg, 2006-12-14 Müller: Suchen in Kleinen Welten
=0.5: Viele lange Shortcuts
• 8192 Knoten (grauer Ring)
• Pfeile: Shortcuts der ersten 100 Knoten
• Relativ viele weite Shortcuts
Bamberg, 2006-12-14 Müller: Suchen in Kleinen Welten
=1: Kurz und lang ausgewogen
Bamberg, 2006-12-14 Müller: Suchen in Kleinen Welten
=2: Fast nur kurze Shortcuts
• Shortcut der Länge 200 ist 10.000x unwahrscheinlicher als Shortcut der Länge 2 Praktisch alle Shortcuts sehr
kurz
Bamberg, 2006-12-14 Müller: Suchen in Kleinen Welten
=0.5: Ein Routingbeispiel
• Suche von Knoten 0 ausgehend Knoten 8191
• Längstmöglicher Weg
• Verhalten:
• Schneller Anfang
• Am Schluss fehlen kurze Shortcuts
Bamberg, 2006-12-14 Müller: Suchen in Kleinen Welten
<1% der Knoten
=2: Ein Routingbeispiel
• Verhalten:
• Lange shortcuts fehlen!
Bamberg, 2006-12-14 Müller: Suchen in Kleinen Welten
8% der Knoten!
=1: Optimale Performance
• Verhalten:
• Lange Shortcuts zur Annäherung
• Kurze Shortcuts für das
„Endspiel“
Bamberg, 2006-12-14 Müller: Suchen in Kleinen Welten
<1% der Knoten
Erweiterung
• Bisher nur ein Shortcut pro Knoten
• Bei log|N| shortcuts Laufzeitverhalten wie Chord (deterministische kleine Welt)
• Voraussetzung immer:
• Müssen beurteilen, ob Shortcut wirklich besser ist
• Beurteilung muss 100% korrekt sein
Nicht gegeben für normale Links in normalen Webseiten!
Daher Suchmaschinen gebraucht
Zurück zu SEEK
• Geben standardisierte Navigationsstruktur
• Geben Querlinks mit standardisierten Termen – Experimentelle Verfahren
– Substanzen – Gruppen – Teilprojekte
• Routing hier einfacher
Und, funktioniert‘s?
Können wir noch nicht sagen
Facettierte Suche auf hierarchischen Metadaten
Auto
Audi VW
Oberklasse Mittelklasse
Kleinwagen
Wo finde ich bitte etwas über Autos mit Rußpartikelfilter?
… …
Bayreuth, 2007-09-19 Müller: Bilder im Netz
Problem und Lösungsansatz
Browsing durch Hierarchie
• Gut: Nutzer wird geführt
• Problem:
Verlangt Entscheidungen, die nicht mit Suche zusammenhängen
• Lösungsansatz:
Gleichzeitige Verwendung mehrerer Hierarchien
Will ich informationen über große oder kleine
Autos mit Partikelfilter??
Motivation ·QbvE · Facettierte Suche · Browsing · Visualisierung ·Zusammenfassung
Otto Peugeot
Verbesserung: Facettierte Suche auf Text-Daten [Hearst, 2002]
Klasse
Audi Diesel
Oberklasse Mittelklasse Kleinwagen
…
Marke Motor
Mit Filter Ohne Filter VW
Passat TDI Lupo TDI
Robust
GoPubMed
Fanout der Bäume Problem
Was haben wir gesehen?
• SABIO-RK:
Professionell kuratiert
• SEEK:
Nebenbei kuratiert
• Anreizstrukturen für Nutzung Datenmanagement
• Ein paar Dinge im Hintergrund beim Design/
Betrieb solcher Systeme
Danke!
• Dr. Maja Rey
• Martin Golebiewski
• Elina Wetsch
• Renate Kania
• Dr. Andreas Weidemann
• Dr. Ulrike Wittig
• Meik Bittkowski
• Dr. Olga Krebs
• Dr. Lenneke Jong
• Lei Shi
• Quyen Nguyen
• Enkhjargal Algaa
• David Shockley Dr. Isabel Rojas