• Keine Ergebnisse gefunden

IR in den Lebenswissenschaften. IR in den Lebenswissenschaften. Disclaimer. Biologie... Unterschiedlichste Phänomene (i) Skalen (hier: ) IR in den...

N/A
N/A
Protected

Academic year: 2022

Aktie "IR in den Lebenswissenschaften. IR in den Lebenswissenschaften. Disclaimer. Biologie... Unterschiedlichste Phänomene (i) Skalen (hier: ) IR in den..."

Copied!
28
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

IR in den Lebenswissenschaften

Dr. Wolfgang Müller Scientific DB&V HITS gGmbH, Heidelberg

IR in den Lebenswissenschaften

•  „IR in den...“

– Nutzung für IR zum Auffinden von Dokumenten – Nutzung von IR-Techniken innerhalb von

Algorithmen

•  „...Lebenswissenschaften“

– Biologie – Medizin

Disclaimer

•  Ich bin kein Biologe

•  Will ihnen ein Gefühl geben

– Was sind wichtige Grundzusammenhänge?

– Wieso ist Biologie interessant?

– Wieso ist Biologie für Informatiker interessant?

– Was sind die kleinen Nickeligkeiten?

Biologie...

...von ganz weit weg

Skalen (hier: )

Organ

Organismus

Lobulus

Einzelzelle Zell-Zell-

Kommunikation

Bildquelle: http://seek.virtual-liver.de

Unterschiedlichste Phänomene (i)

(2)

Bienentanz

•  Schwänzeltanz zur Kommunikation der Futterquelle

– Richtung der Geraden Richtung der Futterquelle

– Länge der Geraden Entfernung – Geschwindigkeit der Kurve Qualität

•  Rundtanz ähnlich, nur für nähere Quellen

Alligator

Männlein vs. Weiblein

http://lempel2000.de/

geschlechtsbestimmung_ubersicht.pdf

Unterschiedlichste Phänomene (iii)

„Genexpression“

OK...

•  Von Nanometer zu Meter

•  Von vom Gen über die Organelle zu Gruppen von Lebewesen

•  Von der Verhaltensforschung über Physiologie zu Biochemie

Zuviel

Wir halten den Ball flach und schauen uns einige wenige Fälle an

Moore‘s law und Freunde

Leicht frustrierende Abschätzungen

When your best just isn‘t good enough

(3)

Moore‘s law der Computertechnik

•  Transistoren/

Chip

•  Über 40 Jahre

•  Verdopplung alle 2 Jahre

Faster than Moore: Genom-Daten

Take-away aus ersten Folien

•  Rechenleistung steigt exponentiell

•  Genomdatenmenge steigt auch exponentiell

•  Genomdatenmenge steigt schneller!

 Genomdaten gewinnen das Rennen!

 Brauchen effizientere Algorithmen!

Genomdaten gewinnen...

Anders gesagt:

CS= CPreparation + CBiochem + CNet + Ccomp + CStorage

Moore‘s Law Fällt langsamer

als Moore, aber Workarounds

Fällt schneller als Moore Fällt schneller als Moore Kosten zur Berechnung einer Sequenz

Der Workaround für

Netzwerkprobleme (Beispiel: 1PB)

x 1000 +

Große Bandbreite, viel Delay, viel Jitter

+

Aber...

•  1PB Lesen per Thunderbolt

1015B / 2 / 109B/s = ½ x 106s= 5,78 Tage

(4)

Moore‘s law und Freunde

Tolle Herausforderungen

für Algorithmiker

Anything unattempted remains impossible

Genom

•  Das Erbgut eines Organismus

•  Gen + Nomos – Gen: Teil des Erbguts – Nomos: Griechisch „Gesetz“

•  Oder auch: Gen + Chromosom – Chromosom: „Färbbarer Körper“

DNA

•  Desoxyribonukleinsäure

•  Form Doppelhelix

•  Polymere aus Nukleotiden

•  Eine Einheit:

– Phosphat-Rest + Desoxyribose – Eins aus den Aminosäuren

• A: Adenin (AT)

• T: Thymin

• G: Guanin (GC)

• C: Cytosin

•  Doppel-Helix

•  2nm Durchmesser

Für uns jetzt interessant

•  Immer AT und GC gegenüber

•  Aus einem Strang DNA kann man den anderen rekonstruieren

•  DNA durch String über Alphabet [A,T,G,C]

komplett beschrieben

Kausale Kette (nach Noble)

Organism Organs Tissues Cells

Sub-cellular Mechanisms Pathways

Proteins Genes

Genexpression: der erste Schritt

(5)

Genregulation

•  Wieviel von einem Genprodukt wird erstellt?

•  „Down-regulation“: Weniger als normal

•  „Up-regulation“: Mehr als normal

... in vielen Situationen binär (entweder up oder down, nix dazwischen)

Frage

Wenn alles Verhalten von den Genen ausgeht...

...wie reagieren wir dann auf äußere Reize?

„Downward Causation“

•  Organismus triggert Zellsignale

•  Organismus triggert, welche Gene wie exprimiert werden

Prinzipien u.A. (D. Noble)

•  Biologie funktioniert über Skalen hinweg

•  Informationsaustausch keine Einbahnstraße

•  DNA ist nicht einziges Erbgut

•  Gene allein reichen nicht zum Verständnis

http://musicoflife.johnjsung.com/pdfs/PatonLecture.pdf

Lamarck‘s comeback? Wir merken uns...

•  Gene sind für Informatiker lange Strings

•  Gene sind wichtig

•  Wie wichtig? Darüber streitet man sich momentan.

•  Nicht nur Gene, auch Eizelle spielt Rolle bei Entwicklung!

(6)

Sequenzierung

•  Aminosäurensequenz für (Teil-)Genom

•  Für Mensch ca. 3G bp (Giga Basenpaare)

•  Essentielle Fortschritte durch Bioinformatik getriggert.

•  Wo genau?

Shotgun Sequencing

Was sehen wir?

•  Millionen von Strings, ca 1kB

•  Alle leicht fehlerhaft (0.5%-10% Fehler)

•  Suche Überlapp

Tolles String-Matching-Problem

Zwei Varianten

•  De novo Assembly:

– Kein Vorwissen

– Gensequenz wird aus Puzzleteilen zusammengebaut

•  Mapping Assembly:

– Kennen „Referenzgenom“

(bekannte Basis-Sequenz)

– Legen (mappen) Puzzleteile auf Grundsequenz :

zgenom“

Funktioniert, da Genom weitgehend gleich

Komplexität?

•  De Novo: O(#reads2)

– Vergleiche jeden Read mit allen anderen

•  De Novo: O(#reads x log(#reads)) – Indexiere Referenzgenom

– Finde korrekten Ort von gegebenem Read

Blast

•  Suche approximativen Match zwischen 2 Strings

•  Grundidee: Suche kurze, approximative Matches & Erweitere

– Heuristischer Score, nehme hohe Scores

•  Zerlege Anfrage in k-gramme

•  Suche Orte, wo diese in der richtigen Reihenfolge matchen

•  Fülle Lücken

http://www-lehre.img.bio.uni-goettingen.de/Bio_Inf/fastblast/fastblas.htm#BLAST

(7)

Kompression

Herausforderung:

10 Genome, 30x „Coverage“ = 1TB  10000 Genome 1 PB

Ansätze

Bitmanipulation:

Alphabet von 4 Ziffern 2 Bit Kompression um 75% „geschenkt“

Darauf aufsetzend: Entropy Encoding Kompression per Huffman etc.

Kompression in Multimedia

„Quellencodierung“ für Lossy Compression (z.B.

MP3)

•  Messungen über Fähigkeiten des Menschen

•  „Verstecken“ Fehler, da wo der Mensch ihn nicht sieht

Neuer Ansatz

•  Noch Forschung:

Wissen nicht, was wir weglassen können

•  Brauchen neuen Ansatz

•  Beobachtung:

Genome bleiben sich weitgehend gleich

•  Idee:

Kodieren Differenz zu Menge von Referenzsequenzen

•  Kompression 400:1 machbar

Upcoming:

•  Fast compression

•  Streaming „The MP3 for Genes“

•  Aber: ENCODE

– Weniger „tote“ Abschnitte im Genom als angenommen

– Was „wichtig“ empfunden wird am Genom ändert sich radikal

Anonymität + Gene

•  Wunsch: Veröffentlichung experimenteller Daten

•  Idee: Trennen persönliche Daten (e.g Name) von Daten (e.g. Bilder von Leberprobe)

•  Aber: Genom identifiziert perfekt

•  Idee: Publiziere Genpools (Schnipsel von mehreren Personen), nicht Einzelgenome

•  Inzwischen (2008) geknackt: Nachweisbar, ob ein Genom in Pool vorhanden

•  Ethisches Problem

(8)

Motivation der Systembiologie

...und verwandter Gebiete

Über die Medizin

„Medizin ist da zur Unterhaltung des Patienten, während die Natur ihn heilt“

„Ein Arzt ist ein Mensch, der eine Medizin über die er wenig weiß, einem Patienten zuführt, über den er noch weniger weiß“

(Voltaire 1694-1778)

Inverser Moore für Medizin (Inflationskorrigiert!)

#neue Medikamente pro Milliarde $ in F&E

Also...

•  Medikamentenpreis steigt exponentiell

•  Funktionsweise des Menschen noch weitgehend unverstanden

•  Ein Ansatz:

– Ingenieurmäßiges Verstehen des Systems Organismus

– Theoretisches Verstehen von Funktionsweise von Medikamenten

– Schlüsselbegriff hier: Drug Target

Wissenschaftliches Vorgehen (allgemein)

Experiment (Hypothesentest)

Modellbildung (Theoretisches Verstehen) Hypothesenentwicklung

Früher: Kommunikation durch Papers

Früher: Ein Experimentator

•  Liest papers

•  Konkretisiert Hypothesen

•  Führt Experiment durch

•  Publiziert neue Papers Früher: Ein theoretiker

•  Liest papers

•  Erzeugt theoretische Interpretation

•  Erarbeitet neue Hypothesen

•  Publiziert Paper

(9)

Kleines Problem, Teil1

•  Pubmed: Liste aller medizinischen Publikationen

•  Suche nach Leber 2012:

24140 Publikationen  Lese 66 Publikationen/Tag??

Realistischer

•  Query: Hepatocyte growth factor

•  555 Dokumente in 2012  2 Papers pro Arbeitstag

Kriegen wir noch gelesen, aber wo ist der eigene Input?

Kleines Problem, Teil II

•  Viele Spezialitäten:

– Biologie, Biochemie, Chemie, Bioinformatik,...

– Experten für Skalen – Experten für Organe – Tierzucht

– ...

 Zu viel für einen Kopf  Benötigen Zusammenarbeit

Systembiologie

Experiment (Hypothesentest)

Modellbildung (Theoretisches Verstehen) Hypothesenentwicklung

Begleiterscheinung

•  Datenbanken für Publikationen

•  Datenbanken für Daten aus Publikationen

•  Datenbanken für experimentelle Daten

•  Alle brauchen Suche

Vieleviele Datenbanken

Da sind wir dabei!

(10)

„Business“ der SDBV@HITS

•  Datenbank für reaktionskinetische Daten, SABIO-RK

– Literatur

– Experimentelle Daten direkt von der Maschine

•  SEEK Datenbank für systembiologische Projekte

„So ne Art Facebook für Wissenschaftler“ F b k f W h f l “

Mein Werdegang

•  Abi 1989, 15 Monate BW

•  1990-1996 Studium der Physik in Konstanz Diplomarbeit in Strasbourg

•  1991-1998 Studium der Informatik in Hagen

•  1998-2001 Dissertation bei Th. Pun in Genf

•  2002-2008 Habilitation bei A. Henrich in Bayreuth, dann Bamberg

•  2008 (April bis Juli) freiheit.com Webentwicklung

Spezialität: Verteiltes MM Retrieval

GNU image finding tool

Bayreuth, 2007-09-19 Müller: Bilder im Netz

Sicht auf andere Peers mit Zusammenfassungen

P2P Anfrage- Verarbeitung

Daten-Collections durch Punktdichteverteilung

beschreiben: GMM

Bayreuth, 2007-09-19 Müller: Bilder im Netz

(11)

Werdegang

•  2008-2009: Stv Gruppenleiter EML Research gGmbH

•  2009- Gruppenleiter EML-R, dann HITS gGmbH

Was ist cool?

•  Komplexe Daten

•  „Echte“ Daten

•  „Echte“ Nutzer

Ein Ausflug nach HCI

Human-computer interaction is a discipline concerned with the

•  design, evaluation and implementation of

•  interactive computing systems

•  for human use

•  and with the study of major phenomena surrounding them.

Definition durch ACM SIG CHI

Wie zustandegekommen?

The interdisciplinary design science of human- computer interaction began by combining the data-gathering methods and intellectual

framework of experimental psychology with the powerful and widely used tools developed from computer science.

Ben Shneiderman, Designing The User Interface (DTUI)

5 Evaluierungskriterien für gute Software (DTUI)

•  Time to learn: Wieviel Lernzeit benötige ich, um eine gegebene Menge von Aufgaben lösen zu können?

•  Speed of performance: Wie schnell kann ein Nutzer gegebene Aufgaben lösen?

•  Rate of errors by users: Wie viele Fehler macht ein Nutzer in einer gegebenen Zeit?

•  Retention over time: Behält man, was man über das System gelernt hat?

•  Subjective satisfaction: Sind die Nutzer während/nach der Nutzung zufrieden?

(12)

Beispiele

•  Time to learn: „Wie lange muss ich meinen Mitarbeiter anleiten, damit er in Word Serienbriefe schreiben kann?“

•  Speed of Performance: „Wie lange brauche ich, um 200 Briefe an die Mitglieder vom Angelverein mit Word zu machen und auszudrucken?“

•  Rate of Errors: „Ich drucke aus Versehen immer zweiseitig, weil ich die Einstellung dafür überseh“

•  Retention over time: „Weiß ich noch nach einem Jahr, wie ich in Word Serienbriefe drucke, oder muss ich es wieder neu lernen?“

•  Subjective Satisfaction: „Beim Editieren von Texten mit vim/emacs/nano/notepad habe ich immer das Gefühl einer großen Zeitverschwendung“

DTUI 8 Golden Rules

•  Strive for consistency

•  Cater to universal usablity

•  Offer informative feedback

•  Design dialogs to yield closure

•  Prevent errors

•  Permit easy reversal of actions

•  Support internal locus of control

•  Reduce short-term memory load

Rule 1: Strive for consistency

•  Nach Konsistenz streben.

•  Gleiche Dinge sollen sich gleich benehmen.

•  Beispiel:

– Texteingabefelder:

Überall gleiche Tasten für Markieren, Löschen, Undo – Click auf ein kleinen Dreieckpfeil nach unten öffnet Menü

– Bei Apple: Apfel-N in jedem Programm neues Dokument

Rule 2: Cater to universal usability

•  Jeder sollte ein Stück Software nutzen können – Anfänger

– Fortgeschrittene – Profis

•  Herausforderung ist, die Breite über verschiedene Fähigkeitsniveaus abzudecken

•  Beispiel: Word/Powerpoint – Menüs & Wizards

– Keyboard Shortcuts für Fortgeschrittene

Rule 3: Offer informative feedback

Mindestens Sichtbar:

•  War die Operation (technisch) Erfolgreich?

(z.B. Eine Serienmail wurde verschickt)

•  Hatte sie den erstrebten Effekt bezüglich der Aufgabe?

(z.B. Wurde sie an die richtigen Adressaten verschickt? Wurde die Anrede korrekt eingesetzt?)

R4: Design dialogs to yield Closure

•  Aktionsfolgen sollten klar erkennbar – Anfang

– Mitte – Ende haben

•  Nutzer sollten wissen, wann die Aktion vorbei ist

„Nach ‚cancel‘ im Font-Dialog muss ich mir über Fonts keine Gedanken mehr machen“

(13)

R5: Prevent errors

Bei Fehlervermeidung/Fehlerbehebung helfen – Dem Nutzer bei Fehlervermeidung helfen

(„Wollen Sie dies wirklich an 200 Leute verschicken?“) – Anzeigen, dass ein Fehler aufgetreten ist

(„Diese Mail kann ich nicht verschicken!“) – Grund anzeigen

(„Die Adressliste für die Serienmail ist leer!“) – Zeigen, wie der Fehler behoben werden kann

(„Wählen Sie eine Adressliste in Einstellungen/

Serienmail“)

R6: Permit easy reversal of actions

•  Undo/Rückgängig wo immer möglich

•  Wichtiges Wort in Shneiderman-Büchern:

„anxiety“ (milde Form der Angst).

•  Undo vermeidet anxiety

•  Undo gibt Freiheit, neue Funktionalität zu erkunden

R7: Support internal locus of control

•  Frage: Wer kontrolliert eine Aktion?

(hier ausgedrückt: Ist der Ort (Locus), an dem die Operation kontrolliert wird im Nutzer oder nicht?)

•  Nutzer fühlt sich besser, wenn er kontrolliert

•  Interessante Folgen für IR

•  Aktuelle Entwicklung gibt Shneiderman recht

Positiv-Beispiel

•  Word, Powerpoint etc.

•  Ich entscheide,

– was auf die Folie kommt – wann

– in welcher Reihenfolge

•  Selten Wizards über 2 Ebenen

t t t

Negativ: Umfragen im Internet

„Brauchen wir, um die Werbung besser auf sie einstellen zu können“

•  Sehe meistens nur erste Frage

•  Unklar, wieviele Fragen insgesamt

•  Unklar, wie persönlich Fragen werden

•  Meist Frage nach Familienstand, Alter, Gehalt ganz am Schluss

Negativ dann auch

•  Automatisch bestimmte Favourites

•  Automatisch angepasste Suchresultate

•  Menü nach Häufigkeit der Nutzung – z.B. meistgenutzte Funktionen

– Nicht mehr klar, wo man was findet – Sehr bewusst einsetzen

(14)

R8: Reduce short-term memory load

•  Menge Information, die man sich merken kann 7 +/- 2 „chunks of Information“

•  System sollte dies berücksichtigen

– Nicht zu viel anzeigen (auch eine Faustregel für Folien) – Wichtige Information leicht zugänglich bereithalten

•  Besonders beliebtes Negativbeispiel:

– Modale Dialoge, die wichtige Information verdecken.

– Z.B. Dateinamendialog

+ Regel von Nielsen

Speak the users‘ language

SABIO-RK

Was speichert SABIO-RK?

Kinetische Daten von enzymkatalysierten metabolischen Reaktionen

n

Enzym = Protein, das als Katalysator wirkt

Stoffumsatz in der Zelle

Gebiet: Bochemische Pfadwege Metabolische Pfadwege?

•  Modelle von Pfadwegen

•  Beantworten Fragen wie:

Wenn ich der Zelle Stoff A zuführe – Was sind die Abbauprodukte?

– Wie ist der zeitliche Verlauf des Anfallens der Produkte

•  Netzwerke von Differenzialgleichungen

(15)

Glycolyse Mehrwert für Nutzer

•  Einige 100 – einige 1000 Elemente im Netzwerk

•  Parameter über 100e Publikationen verstreut

•  „Impulsen folgen“ schwer möglich

•  „Schnell mal“ relevante Parameter finden  Aufbereitung von Literaturdaten nötig  Datenbanken füllen diese Lücke

Modell des zentralen Hepatozyten-Metabolismus

http://www.charite.de/sysbio/people/koenig/

Ein Beispieldatensatz

SABIO-RK Kuratierungsworkflow Kuratierung

(16)

ChemHits: NLP für Compounds

•  Synonym matching für Moleküle

•  Transformieren Namen auf Zwischenrepräsentation (heuristisch)

•  Vergleichen

Zwischenrepräsentationen

Sabio & golden rules

U.U.: SABIO-RK „normal“

Eine Suchzeile, Rest wird geraten

SABIO-RK für Fortgeschrittene

Internal locus

•  Explizite Spezifikation von allen Suchbegriffen

•  Alle Begriffe in Anfrageresultat vorhanden

•  Wenn geraten dann explizit gemacht, was geraten wurde

Fehler fermeiden ;-)

(17)

Einfaches Undo

Query-Terme rauslöschen? Nix leichter als das

Near future: Like ChEMBL

Clickbare Totengraphik zur Query Expansion

Ongoing: Parallel Coordinates for

SABIO-RK Effizienz

•  Anfangs SQL + komplexes Schema

•  Queries im Bereich von mehreren Sekunden

•  Viele kleine Queries

•  Lösung: Cachen komplette „Entries“

•  Immer noch zu langsam. Wieso?

•  Rechteverwaltung mit Access Control Lists

•  Lösung: Rechtebestimmung mittels invertierter Listen en

Gib mir alle Dokumente, die Kuratoren sehen dürfen

Wichtig, aber nicht Sexy

•  Verlinken mit anderen Datenquellen

•  REST Web Services – SBML

– Excel

•  Export nach SBML

Die Herausforderung hier

Meist auf Nutzer hören, aber viel vorschlagen.

Ab und zu auch einfach probieren.

Internal Locus of Control ist sehr wichtig

(18)

Daten und Finden

•  Software maintainen ist schwierig!

(Können nicht einfach 2 Monate zumachen)

•  Für Interaktives Retrieval

Geschwindigkeitspolster Notwendig

•  IR Algorithmen helfen!

•  SQL-Datenbanken gut für Datenqualität

•  SQL-Datenbanken sehr inflexibel

•  Und nun?

Linked Open Data

•  Use URIs as names for things

•  Use HTTP URIs so that people can look up those names.

•  When someone looks up a URI, provide useful information, using the standards (RDF,

SPARQL)

•  Include links to other URIs, so that they can discover more things.

RDF

•  ...ist die Prokrastination eines Datenbankschemas

•  Flexibel

•  Sauber genug?

•  RDF & SPARQL für 1400 Datenbanken?

...und wo bleibt das Ranking?

Bald in der LOD-Wolke?

SEEK

(19)

Was ist SEEK?

•  “Wie Facebook für Wissenschaftler”: sharing – Projekte, Leute, Adressen, Expertise

– Experimente, Modelle, Prozesse, Präsentationen

•  Erstellt in Verbundprojekt

– U Manchester, Carole Goble (Koordinator) – Stellenbosch, Jacky Snoep

– HITS, Wolfgang Müller

Nutzer von SEEK

~120 institutes

325 scientists

SSFH CISBIC

!

Oxisys JenAge

Größere Konsortien

Einzelne Verbundprojekte

SyBaCol

Typische Daten für SEEK-Nutzer

Leute

•  Personalstruktur – 250 Wissenschaftler – 45 Teilprojekte – 50 Organisationen – 70 Chefs

•  Dauer: 5 Jahre

•  Budget: 40Mio

Daten

•  Aufnamen von Leberschnitten

•  Filme

•  Simulationen

•  Excel-Sheets

Gründe für Nutzung von SEEK

•  Integrationspunkt während Projekt – Data, Models, SOPs, Presentations...

– Tools for above

•  Datenhaltung über Projektende hinaus – 10-Jahre-Regel der DFG

Was für Daten? `Omics Daten

Neologismen auf Basis des Genoms

•  Proteom (Die Proteine in einem Lebewesen)

•  Metabolom (Was im Metabolismus abläuft)

•  Connectom (Die Verbindungen von Nervenzellen)

•  ...

Am Anfang war der Featurewunsch

Can I share in a hidden area?

Can I open data to the world?

Can I let in some collaboration partners as "almost members?

Dont do flexible data integration and

comparison Can I search data in other

SEEKs from my SEEK?

My data from 2 projects, is interesting for 3 (other) projects Link publications & data

I want my projects brand visible

I need to track slices of mouse liver Dont do distributed

search

I want to compare published and unpublished data

I want to find people and skills I want to use excel I want to share SOPs

(20)

Key: Meetings mit Fokusgruppe

•  Möglichkeiten aufzeigen, Requirements sammeln

Unser Verbundprojekt

•  SysMO-DB team

– Goble: Beard, Owen, Wolstencroft – Snoep: du Preez

– Müller: Krebs, Nguyen

•  Virtual Liver project F1 team (seekers)

– An, Golebiewski, Shockley, Weidemann

„PAL wranglers

Developers

Korrolar

Facebook

•  109Nutzer

•  Daten Einstellen freiwillig

•  Low Recall Required

•  Soziale Interaktion erwünscht

SEEK

•  100 Nutzer

•  Daten Einstellung ein Muss

•  High Recall Required

•  Soziale Interaktion nicht immer erwünscht

– Flaming of Papers – „Gläserner Wissenschaftler“

Bookmarks People

Investigation + related data

Share data or links to data Hide, share, publish

Goodies

•  Branding

•  Yellow pages

•  ISA structure

•  Tagging

•  Modelling tool integration

•  Virtual Machine: Try it in 2 minutes (live demo today)

i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i

intntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntntnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnntttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttegegegegegegegegegegegegegegegegegegegegegegegegegegegegegegegegegegegegegegegeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeggggggggggggggggggggggggggggggggggggggggggggrararararararararararararararararararararrrrrrrrrrrrrrrrrrrrrrrrrrraaaaaaaaaaaaaaaaaaaaaaaaaaatitititititititititititititititititititititittttttttttttttttttttttttiiiiiiiiiiiiiiiiiiiiiiiionononononononononononononononononononononononononononononononononononononononononononononononoooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooonnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn T

T T T T

T i iii 22222222 i

(21)

Goodies

•  Branding

•  Yellow pages

•  ISA structure

•  Tagging

•  Modelling tool integration

•  Virtual Machine: Try it in 2 minutes (live demo today)

Goodies

•  Branding

•  Yellow pages

•  ISA structure

•  Tagging

•  Modelling tool integration

•  Virtual Machine: Try it in 2 minutes (live demo today)

•  Branding

•  Yellow pages

•  ISA structure

•  Tagging

•  Modelling tool integration

•  Virtual Machine: Try it in 2 minutes (live demo today)

Goodies Goodies

•  Branding

•  Yellow pages

•  ISA structure

•  Tagging

•  Modelling tool integration

•  Virtual Machine: Try it in 2 minutes (live demo today)

One Stop to model standards

SEEK integrated tool to:

•  construct, or modify, models, save in SBML format

•  get automated generation of SBGN schema

•  to annotate model (MIRIAM), implementing web services from semanticSBML.

SBML model format, SBGN schema, MIRIAM annotation

Standard simulation functionality

Open Integration:

JWS Simulator

Web based easy to use interface:

runs in your browser, integrated in SEEK

Models can be accessed via browser, SEEK and web services.

Data linked to models via file upload (e.g. Excel), or via database connection.

sim sim simulaulaulatiotiotionnn

f i li

fun fu fu fu fu fu fu f f f f f f f f

f ctionality functionality

(22)

Frage...

Nett, aber wo sind denn jetzt bitte die Herausforderungen?

Vorausschickend

•  Biologen sind Spezialisten

•  Sie sind darauf spezialisiert, neue Phänomene als solche zu erkennen

•  Computing ist nicht ihr Job

Vorausschickend 2

•  Informatiker sind Spezialisten

•  Sie sind spezialisiert, Gemeinsamkeiten in Daten zu entdecken

•  Computing ist ihr Job

Leider

...reden Biologen und Informatiker häufig aneinander vorbei

Wir brauchen also Leute, die übersetzen.

Wir dürfen uns nicht daran stören, dass Biologen nicht auch noch Informatiker sind.

Wir müssen Spaß an diesem Kommunikationsproblem haben.

Schlüssel: Ein Interessenkonflikt

Doktorand vs. Gruppenleiter

Was?? Ein Team und die arbeiten gegeneinander???

Chef

•  Langfristige Sicht:

– Wo steht die Gruppe in 5 Jahren?

•  Ständig wechselndes Personal

– 2-5 Jahre Verweildauer, manchmal auch kürzer – Übergabe ein Thema

•  Heißer Stuhl

– Beschäftigt mit Konzeption, Führungsaufgaben, Beantragen

– Verantwortlich für Fälschungen – Objektiv wenige Kontrollmöglichkeiten

•  Hoffnung: Bald das Nature

(23)

Doktorand

•  2-5 Jahre Zeit

•  Experiment machen

•  Daten sammeln

•  Dann Paperpaperpaper

•  Hoffentlich bald das Nature

•  Was, Daten soll ich auch noch einstellen?

•  Was, standardisiert auch noch?

Was machen wir daraus?

•  Schwellen senken – Einfacher Upload

– Einfach mit Metadaten versehen

•  Incentives: Kurzfristig Gründe für Upload – Funktionalität nur nach Upload nutzbar – Impact für Daten

– ...

Which mouse is the sample from?

Which sample was used?

Incentive: Maus-Management Excel

•  Eigentlich für Berechnungen

•  Hier:

– Semi-strukturierte Datenbank für kleine Experimente – Vorteil: Kein Schema meckert

– Hohe Usability, Dateneingabe sehr schnell

•  Problem: Wir wollen doch – Struktur

– Definierte Bezeichner

•  Excel ist das Prokrastinieren von Datenqualität

•  Excel breit akzeptiert

Controlled vocabulary restrictions

Schwellen senken: RightField

138

2 Buddy-mailing as alternative data management

Easy Convenient Fast Always on Non-standardized Limited (size etc.) Hard to merge Hard to maintain

long-term Hard to search Hard to re-use No big data Buddy-to-buddy mailing

Experimentalist Modeller

(24)

139

3 Goal: Easy. Shared. Communication.

As easy as mail Reasonable,

pragmatic standard content description Long-term maintenance Big-data enabled Feels like buddy-buddy,

140

3 Goal: Easy. Shared. Communication.

As easy as mail Reasonable,

pragmatic standard content description Long-term maintenance Also closed at first

But can share later Overall time saver Feels like buddy-buddy,

can share later

Attached systems as needed

Incentive&Schwellen senken:

Data sending tool

•  Old:

•  Sender uploads file to FTP

•  Sender sets up password

•  Sender sends note + pw to receiver

New:

Sender drags file from explorer to receivers avatar in upload tool Tool uploads into SEEK Tool sets SEEK sharing Tool sends mail to sender+receiver

(tested file size: 37GB)

: : : : :

:

Soft project boundaries

•  Associate members in related projects

•  Ad hoc groupings / external members

•  Simplifying sharing interface

•  Permissions arrangements over ISA structure

...und wo ist hier IR?

•  Wir wollen – Alle Daten – Perfekte Metadaten

•  Aber bekommen – Nur Teil der Daten – Wieviele Metadaten?

•  IR hilft uns, zu wissen,

was wahrscheinlich gut genug ist

Kleine Welten

Ein Fallback für schwache Metadaten

(25)

Kleine Welten

Geht zurück auf Milgram-Experiment:

– Milgram verschickte Pakete an zufällig ausgewählte, ihm unbekannte Menschen

– Bat um Rücksendung des Pakets.

– Aber: Nicht direkt, sondern Probanden sollen

• Paket in Richtung des Ziels weiterschicken

• Müssen Adressaten kennen

• Adressat soll genauso verfahren

• Bis Milgram erreicht.

Beispiel: Versand über 4 Ebenen

Milgram Proband A

B

C D g

Versand an Probanden

A kennt B persönlich, versendet Paket

B kennt C persönlich C kennt D

D kennt Milgram

4 „Hops“

Kleinberg Small Worlds

•  Was ist ein Small World Graph?

– Zufälliger Graph

– Kleiner Durchmesser (Kurze Wege zwischen weit entfernten Knoten)

– Großer Clusterkoeffizient (Viele Knoten miteinander direkt verbunden)

•  Motiviert durch Milgram-Experiment

– Effiziente (O(log N)?) Navigation in sozialen Netzen möglich – Wieso?

•  Kleinberg Small Worlds:

– Modell und Suchalgorithmus für Navigierbare SWG

Bamberg, 2006-12-14 Müller: Suchen in Kleinen Welten

Kleinbergs Grundidee

•  Strukturierter Graph mit großem

Graphen-Durchmesser, z.B. Ring (=1) oder Torus (=2)

•  Knoten mit ID,

•  Distanz d(x,y) gegeben als Zahl der Hops auf Ring zwischen x und y

•  Effizienzsteigerung durch zufällige Shortcuts:

Zufällig gewählte Abkürzungen

•  Shortcut-Verteilung:

p(xy) ~ d(x,y)-

Bamberg, 2006-12-14 Müller: Suchen in Kleinen Welten

Hauptresultate

•  Aus voriger Folie: Shortcut-Verteilung:

p(x y) ~ d(x,y)

-

•  Routing in durchschnittlich log2(N) hops, wenn =1

•  Ansonsten (bei ≠1) polynomiale Komplexität!

•  Proof by Example

Bamberg, 2006-12-14 Müller: Suchen in Kleinen Welten

=0.5: Viele lange Shortcuts

•  8192 Knoten (grauer Ring)

•  Pfeile: Shortcuts der ersten 100 Knoten

•  Relativ viele weite Shortcuts

Bamberg, 2006-12-14 Müller: Suchen in Kleinen Welten

(26)

=1: Kurz und lang ausgewogen

Bamberg, 2006-12-14 Müller: Suchen in Kleinen Welten

=2: Fast nur kurze Shortcuts

•  Shortcut der Länge 200 ist 10.000x unwahrscheinlicher als Shortcut der Länge 2  Praktisch alle Shortcuts sehr

kurz

Bamberg, 2006-12-14 Müller: Suchen in Kleinen Welten

=0.5: Ein Routingbeispiel

•  Suche von Knoten 0 ausgehend Knoten 8191

•  Längstmöglicher Weg

•  Verhalten:

•  Schneller Anfang

•  Am Schluss fehlen kurze Shortcuts

Bamberg, 2006-12-14 Müller: Suchen in Kleinen Welten

<1% der Knoten

=2: Ein Routingbeispiel

•  Verhalten:

•  Lange shortcuts fehlen!

Bamberg, 2006-12-14 Müller: Suchen in Kleinen Welten

8% der Knoten!

=1: Optimale Performance

•  Verhalten:

•  Lange Shortcuts zur Annäherung

•  Kurze Shortcuts für das

„Endspiel“

Bamberg, 2006-12-14 Müller: Suchen in Kleinen Welten

<1% der Knoten

Erweiterung

•  Bisher nur ein Shortcut pro Knoten

•  Bei log|N| shortcuts Laufzeitverhalten wie Chord (deterministische kleine Welt)

•  Voraussetzung immer:

•  Müssen beurteilen, ob Shortcut wirklich besser ist

•  Beurteilung muss 100% korrekt sein

Nicht gegeben für normale Links in normalen Webseiten!

Daher Suchmaschinen gebraucht

(27)

Zurück zu SEEK

•  Geben standardisierte Navigationsstruktur

•  Geben Querlinks mit standardisierten Termen – Experimentelle Verfahren

– Substanzen – Gruppen – Teilprojekte

•  Routing hier einfacher

Und, funktioniert‘s?

Können wir noch nicht sagen

Facettierte Suche auf hierarchischen Metadaten

Auto

Audi VW

Oberklasse Mittelklasse

Kleinwagen

Wo finde ich bitte etwas über Autos mit Rußpartikelfilter?

Bayreuth, 2007-09-19 Müller: Bilder im Netz

Problem und Lösungsansatz

Browsing durch Hierarchie

•  Gut: Nutzer wird geführt

•  Problem:

Verlangt Entscheidungen, die nicht mit Suche zusammenhängen

•  Lösungsansatz:

Gleichzeitige Verwendung mehrerer Hierarchien

Will ich informationen über große oder kleine

Autos mit Partikelfilter??

Motivation ·QbvE · Facettierte Suche · Browsing · Visualisierung ·Zusammenfassung

Otto Peugeot

Verbesserung: Facettierte Suche auf Text-Daten [Hearst, 2002]

Klasse

Audi Diesel

Oberklasse Mittelklasse Kleinwagen

Marke Motor

Mit Filter Ohne Filter VW

Passat TDI Lupo TDI

Robust

(28)

GoPubMed

Fanout der Bäume Problem

Was haben wir gesehen?

•  SABIO-RK:

Professionell kuratiert

•  SEEK:

Nebenbei kuratiert

•  Anreizstrukturen für Nutzung Datenmanagement

•  Ein paar Dinge im Hintergrund beim Design/

Betrieb solcher Systeme

Danke!

•  Dr. Maja Rey

•  Martin Golebiewski

•  Elina Wetsch

•  Renate Kania

•  Dr. Andreas Weidemann

•  Dr. Ulrike Wittig

•  Meik Bittkowski

•  Dr. Olga Krebs

•  Dr. Lenneke Jong

•  Lei Shi

•  Quyen Nguyen

•  Enkhjargal Algaa

•  David Shockley Dr. Isabel Rojas

Referenzen

ÄHNLICHE DOKUMENTE

It also includes the Terminal Message Process (TMP) which reads and echoes command lines for the system consoles, and the Command Line Interpreter (CLI) which

When we made some modifications to the programs to take advantage of the high access speed of the Sage II's RAMDISK, our sorting program ran ten tlmes as fast on the Sage as

EXTRA en español 5 Ha nacido una estrella Grammatik.. Zukunft mit “ir”

Diese Seminararbeit wurde im Rahmen des Seminars Angewandtes Information Retrieval geschrieben und beschäftigt sich mit der Geschichte der Daten, der

Ho- wever, it must be noted, that skewed peer size distributions lead to a simple baseline for peer selection algorithms: In peer selection algorithms, peer data summaries are used

^ C ttj liehe elende.. ttche elende menschen sind / die da hent odder morgen / auch müffcn vordem gerjchtdesße, rechten ewigeiI Gottes vorstehen. Kein straftenreubcr hat

Um nun nochmals auf die überhaupt zulässige Schiebergrösse zurückzukommen, müssen wir das Vorhergehende in Betracht ziehen, woraus hervorgeht, dass man ganz gut eine Maschine von

Jahr- hunderts stammenden Gebäudes wurden beim Umbau in einen langgestreckten Saal umgewandelt, der von der Straße über zwei Eingänge zugänglich ist.. Die Bierhalle