Wissens- und Content Management
Canonical Text Services (Technisch)
Dr. Jochen Tiepmar
Abteilung Automatische Sprachverarbeitung, Universität Leipzig
1
Ablauf des CTS Projektes
2012 - 15 : A Library of a Billion Words
2013 Prototypvorstellung auf Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH), EACL, Göteburg
2015 (Beta-)Release auf 3rd Workshop on the Challenges in the Management of Large Corpora, Corpus Linguistics, Lancaster
2015 - 2018 Scalable Data Solutions (ScaDS)
2016 CTS Text Miner auf 4th Workshop on the Challenges in the Management of Large Corpora
2016 CLARIN-Anbindung auf CLARIN Annual Conference Aix-en-Provence
2018 Abschluss des Projektes als Promotion
Start des CTS Projektes
Ursprüngliche Aufgabe: Evaluierung der existierenden CTS Implementierungen (RDF
& XML) und Umsetzung eines Importworkflows ausgehend von OCR Daten
RDF Implementierung
ineffizient
XML Implementierung
technische Probleme
Nicht generalisierbar
Beide nicht fertig
-> Eigenimplementierung vielversprechend
-> Bei Erfolg: Referenzarchitektur für aktuelles Problem der Digital Humanities
Eigenimplementierung
State of the Art
Mehrere Referenzierungssysteme vorhanden (CLARIN PID, ISBN, DOI)
Vollständige (elektronische) Ressource als referenzierbare Einheit
Bsp. CLARIN PID: Mapping von PID auf (veränderliche) Serveraddresse
Flexible Granularität schwierig
Statische CTS-Inhalte umsetzbar, dynamische Inhalte schlecht
Persistente Speicherung aller dynamischen Referenzen hoch ineffizient
Dynamische Implementierung praktisch nicht umsetzbar
Indexstruktur
String-Repräsentation der Identifier enthält
Hierarchieinformationen
urn:cts:pbc:bible.en:1.3.2
Hierarchiemodellierung über effiziente Speicherung der Identifier-Strings
Speicherung der CTS URNs in Präfixbaum / Trie
Abfragen der Kinderknoten über Präfixsuche
Autovervollständigung
Effiziente Implementierung von Präfixbaum / Präfixsuche benötigt
Implementierung der Indexstruktur mit SQL
Hierarchie-Retrieval über Präfixsuche:
SELECT (text,) urn WHERE urn LIKE BINARY
"urn:cts:pbc:bible.parallel.eng.kingjames:1.2.%" ORDER BY ID
Performanzverbesserung durch LIKE [urn] AND LIKE BINARY [urn]stattLIKE BINARY [urn]
Textspannen über Range Queries
SELECT (text,) urn WHERE ID BETWEEN 588729 and 588732 ORDER BY ID
ID URN Text
588729 urn:cts:pbc:bible.parallel.eng.kingjames:1.2.4 These are (...) 588730 urn:cts:pbc:bible.parallel.eng.kingjames:1.3 NULL
588731 urn:cts:pbc:bible.parallel.eng.kingjames:1.3.1 Now the (...) 588732 urn:cts:pbc:bible.parallel.eng.kingjames:1.3.2 And the (...)
Alternative Implementierungsskizzen
Graphmodell
Hierarchie & Sequenz müssen explizit modelliert werden
Overhead
Graphmodell eher ungeeignet für CTS, muss passend gemacht werden
Spezialisierung, die Baumstruktur von Graph trennt, ist für CTS passend und muss bei Verwendung von Graphen nachmodelliert werden
Datenanalyse begründet Performanzprobleme der RDF Implementierung
(Extended) Property Graph Model
Liefert (E)PGM Funktionalitäten für Hierarchie oder Sequenz?
-> PGM nein.
-> EPGM besser bei Hierarchie (Subgraph, Grouping), aber im Detail nicht perfekt für CTS, keine Sequenz (Sorting)
Overhead durch Graphstruktur
Canonical Text Infrastructure - ASV Doktorantensminar 2017
1 Textknoten
<urn:cts:greekLit:tlg0059.tlg001.fugnt001:.2858235-7> rdf:label "Plato, Euthyphro (Platonis Opera, ed. John Burnet): . 2858235-7 (urn:cts:greekLit:tlg0059.tlg001.fugnt001:.2858235-7)" .
<urn:cts:greekLit:tlg0059.tlg001.fugnt001:.2858235-7> cts:belongsTo <urn:cts:greekLit:tlg0059.tlg001.fugnt001> .
<urn:cts:greekLit:tlg0059.tlg001.fugnt001:.2858235-7> cts:hasSequence 3545 .
<urn:cts:greekLit:tlg0059.tlg001.fugnt001:.2858235-7> cts:hasTextContent """<wd xmlns="http://www.tei- c.org/ns/1.0" xmlns:tei="http://www.tei-c.org/ns/1.0" tbrefs="2858235-7">λέγω</wd>""" .
<urn:cts:greekLit:tlg0059.tlg001.fugnt001:.2858235-7> cts:citationDepth 2 .
<urn:cts:greekLit:tlg0059.tlg001.fugnt001:.2858235-7> hmt:xmlOpen "/tei:tei.2/tei:text/tei:body/tei:div1[@type='book' and @n='']" .
<urn:cts:greekLit:tlg0059.tlg001.fugnt001:.2858235-7> hmt:xpTemplate
"/tei:tei.2/tei:text/tei:body/tei:div1[@type='book' and @n='?']/tei:sp/tei:p/tei:wd[@tbrefs='?']" .
<urn:cts:greekLit:tlg0059.tlg001.fugnt001:.2858235-7> cts:containedBy <urn:cts:greekLit:tlg0059.tlg001.fugnt001:> .
<urn:cts:greekLit:tlg0059.tlg001.fugnt001:> cts:contains <urn:cts:greekLit:tlg0059.tlg001.fugnt001:.2858235-7> .
8
Overhead durch Graphstruktur
Canonical Text Infrastructure - ASV Doktorantensminar 2017
Anzahl der Relationen
11439 <http://www.homermultitext.org/rdfverbs#xmlOpen>
21011 <http://www.foo-bar.org/cts#citationDepth>
11471 <http://www.foo-bar.org/cts#belongsTo>
11439 <http://www.homermultitext.org/rdfverbs#xpTemplate>
11217 <http://www.homermultitext.org/cite/rdf/next>
11439 <http://www.foo-bar.org/cts#hasSequence>
11471 <http://www.w3.org/1999/02/22-rdf-syntax-ns#label> 3 9572 <http://www.foo-bar.org/cts#containedBy>
11439 <http://www.foo-bar.org/cts#hasTextContent>
11321 <http://www.homermultitext.org/cite/rdf/prev>
9572 <http://www.foo-bar.org/cts#contains>
32 <http://www.foo-bar.org/cts#title>
32 <http://www.w3.org/1999/02/22-rdf-syntax-ns#type>
32 <http://www.foo-bar.org/cts#possesses>
14 <http://www.foo-bar.org/cts#xmlns>
2 <http://www.foo-bar.org/cts#abbreviatedBy>
10 <http://www.foo-bar.org/cts#lang>
4 <http://www.foo-bar.org/cts#translationLang>
All: 131517
7 Editionen!
9
Overhead durch Graphstruktur
Canonical Text Infrastructure - ASV Doktorantensminar 2017
Max. 500 Dokumente (eigentlich sollte es bei 1000 losgehen) Abschätzung für 1 Mrd Wörter
→ 700mB * 200 = ca 14gB RAM für 100k Dokumente (idle) Performanztest mit künstlich erzeugten Dokumenten
10
Alternative Implementierungsskizzen
XML Datenbank
XML Struktur als implizite Hierarchie
Elementreihenfolge als Sequenz
Probleme bei Nativer XML Datenbank:
Input auf XML beschränkt (entspricht nicht CTS)
Programmlogik im XML Dokument (manuell bearbeitet)
<refsDecl n="CTS"> <cRefPattern n="line" matchPattern="(\\w+).(\\w+)"
replacementPattern="#xpath(/tei:TEI/tei:text/tei:body/tei:div/tei:div[@n=\’$1\’]/te i:l[@n=\ ’$2\’])">(...)</refsDecl>
<div type="edition“ n="urn:cts:greekLit:tlg0001.tlg001.perseus-grc2">
Fehleranfällig und praktische Wartung schwierig
Nicht valides XML durch Textspannen & Sub passage Notation
Alternative Implementierungsskizzen
XML Datenbank
Beobachtungen decken sich mit Problemen der XML-Implementierung
need to go through each text to verify the canonical citation schemes and clean them up
Not all of the texts are working
At least one set of problems may be in texts with line-based citation schemes where the lines haven’t been marked up in the English translation.
GetPassage implementation does not currently support subreferences or passage ranges
“citation” elements are incomplete & missing xpath and scope attributes
Typische Evaluationstechniken Problematisch
Offizieller Validator
Inhaltliche Validierung
Funktioniert leider nicht
Daten passen nicht zu Requests
Unspezifizierte Requests (GetDescription)
Precision, Recall, & F-measure
Keine statistische Methode, sondern dynamisches - aber exaktes - n:1 Mapping
Precision=1 und Recall=1 ist Grundvoraussetzung
Nicht anwendbar
Typische Evaluationstechniken Problematisch
Vergleich mit anderen Implementierungen
Andere Implementierungen nicht feature-complete
-> Vergleich nicht sinnvoll
Evaluation, Benchmark
Keine Validierung
GetValidReff, GetPrevNextURN & GetPassage werden gemessen
localhost Abfragen zur Vermeidung von Noise durch Netzwerk
Client-seitige Verarbeitungsschritte nicht mit gemessen
Mehrsprachiges und relativ großer Datensatz
Evaluation, Benchmark
Datensatz
52‘988 Dokumente aus TED Transkripten (Klein, mehrsprachig, 2 Zitierebenen)
20 Dokumente aus PBC (Groß, mehrsprachig, 3 Zitierebenen)
4908 Dokumente aus DTA (Groß & klein, einsprachig, 1 Zitierebene)
32‘388‘463 statische CTS URNs
1 CTS Index
9 Datensamples: pbc, dta1, dta2, dta3, dta4, ted1, ted2, ted3, ted4
Je max. 5‘000‘000 statische URNs
Gleichmäßig verteilte Testmenge
Abarbeitungsreihenfolge randomisiert zu
dta2, dta3, ted2, dta1, ted3, dta4, ted1, ted4, pbc
Tests
Durchgeführt für jedes Sample aus dem Datensatz
GetPrevNextUrn: für 1‘000 low level CTS URNs
GetValidReff: für jede DokumentenURN
1000 mid level CTS URNs in ted* und pbc
GetPassage: für jede DokumentenURN
1000 low level CTS URNs Spanne 2 1000 low level CTS URNs Spanne 20 Analog buchstabengenau
( GetCapabilities: 1000 Abfragen )
low level : Hat keine Kinderknoten mid level : Hat Kinderknoten
Evaluation, Benchmark
Evaluation, Benchmark
Computer Setup
Virtual Machine
1 Kern 2400 MHz (AuthenticAMD Common KVM Processor)
4 GB RAM.
MySQL version 5.5.49-0+deb8u1, JAVA version is 1.7.0_101
Linux Debian 8.5 3.167-ckt25-2 /2016-04-08) x86_64, Codename Jessie
Host Machine
2x AMD Opteron 6234 (2x12 Kerne)
256 GB RAM
56 TB SATA Festplatte
Linux Proxmox VE version 2.3 als Virtualisierungsplattform
Lesegeschwindigkeit der Festplatte: 3039.05 MB/sec (hdparm –Tt)
Evaluation, Benchmark
Ergebnisse (Millisekunden)
Darstellung über uminterpretierte Boxplots
Untere Whisker = 0
Unteres Quantil = Minimum
Strichlinie = Median
Roter Punkt = Durchschnitt
Oberes Quantil = Maximum (Testlauf)
Oberer Whisker = Maximum (Alle Testläufe)
Graubereich entspricht erzielten Messwerten
Ausreißerwerte beibehalten
relevante Informationen
Seltenheit im Diagramm erkennbar
Evaluation, Benchmark
Ergebnisse
GetPassage_ShortSpan GetPassage_ShortSpan_Subpassage
Evaluation, Benchmark
Ergebnisse
GetPassage_Work GetValidReff_Work
Evaluation, Benchmark
Ergebnisse
Zoom Median & Average (GetPrevNextUrn ->)
Andere Nahansichten analog
Schlüsse
Generell sehr gute Performanz
Dokumentweite Ergebnisse zeigen, dass
Benchmark geeignet ist
Umfang des Ergebnisses einflussreicher als Umfang der Daten
Keine Laufzeiteffekte / Cachingprobleme
Durchschnitt nicht stets >= Median
Kein Trend über Tests hinweg
Canonical Text Infrastructure
Alignment
Auffinden von vergleichbaren Textabschnitten -> Semantisch ähnlich (Zitate/Plagiate)
-> Strukturell ähnlich (Parallele Texte) -> Dokumentenvergleich
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
Alignment
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
Visualisierung: Stefan Jaenickes TRAViz
Alignment
Naiv: Satztokenisierung
-> Sätze können aufgeteilt oder zusammengefügt werden
Statistische Methoden Named Entity Recognition
Vorberechnung, Kreuzvergleich
-> DTA: 3.5 GB * 5136 documents > 17 TB
Fehlerwahrscheinlichkeit steigt mit jeder alignierten Texteinheit.
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
Alignment via CTS
Alignment der CTS URNs
urn:cts:demo:shakespeare.sonnets.en.1:3.2 urn:cts:demo:shakespeare.sonnets.de.1:3.2 urn:cts:demo:shakespeare.sonnets.fr.1:3.2
-> Fehlerwahrscheinlichkeit fällt mit jeder neuen übergeordneten Texteinheit
-> Schnell, Echtzeit, Vorberechnung unnötig
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
Alignment tools
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
Alignment tools
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
Volltextsuche
Finden von CTS URNs für gegebenen Textabschnitt Trivial innerhalb von Texteinheiten
urn:cts:german_speeches:Bundespraesident.1990.10.3:1.2.3 urn:cts:german_speeches:Bundespraesident.1990.10.3:
Simply query for text instead of CTS URN
Kompliziert für Textabschnitte
urn:cts:german_speeches:Bundespraesident.1990.10.3:1.2.3-1.3.2 urn:cts:german_speeches:Bundespraesident.1990.10.3: 1-2
Search for(first tokens) to find starting URN foreach ( starting URN )
while( result is better )
result = expand to right neighbour Potentiell riesige Kandidatenmenge
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
Volltextsuche
Kompliziert für Textabschnitte
Suche nach„at? On the side of a freeway in the car“
Search for („at“) to find starting URN
foreach ( starting URN ) //-> Jede URN aus jedem Dokument die „at“ enthält while( result is better )
result = expand to right neighbour
Kandidatenmenge einschränken!
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
urn:cts:demo:Systemofadown.mrjack:1.5 urn:cts:demo:Systemofadown.mrjack:1.6
Hey where you at? On the side of a freeway in the car
Kandidatensuche für Volltextsuche
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
Kandidatenmenge einschränken!
Verschiedene Ansätze: (Dokumentensuche)
Volltextsuche von MySQL Fulltext Index & Lucene Fulltext Index
Dokumente mit ähnlichen Abschnitten zu „at? On the side of a freeway in the car“
TermDokumentenmatrix nach Dokumenten absuchen, die alle Worte enthalten.
Dokumente, die „at“, „On”, “the”, “side”, “of”, “a”, “freeway”, “in”, “the” und “car“ enthalten Dokumentensignaturen (bspw Wortlänge)
Dokumente mit Signatur „2 . 2 3 4 2 1 7 2 3 3“
Kombinationen
Volltextsuche
Kompliziert für Textabschnitte
Suche nach„at? On the side of a freeway in the car“
Search for („at“ in document candidates) to find starting URN foreach ( starting URN )
while( result is better )
result = expand to right neighbour
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
urn:cts:demo:Systemofadown.mrjack:1.5 urn:cts:demo:Systemofadown.mrjack:1.6
Hey where you at? On the side of a freeway in the car
Text Reuse (AKA Zitationsanalyse)
Wer zitiert wen?
Finden von sehr ähnlichen Textabschnitten Ähnlichkeitsanalyse
Berechne Ähnlichkeit s für jede Satzkombination s > Schwellwert -> Zitation
Einige Projekte dazu:
Picapica (Martin Potthast) Etracer (Marco Büchler)
Winowing (Schleimer, Wilkinson, Aiken)
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
Text Reuse (AKA Zitationsanalyse)
Zitationsgraph
Textabschnitte als Knoten Zitate als Kanten
Richtung über Publikationszeitpunkt Ähnlich Linkstruktur im Internet
Graphbasierte Analyse Algorithmen
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
https://de.wikipedia.org/wiki/PageRank
Text Reuse (AKA Zitationsanalyse)
Paigerank (Larry Paige)
Auffinden häufig zitierter Knoten
Expertensuchmaschine, die selten zitierte Dokumente bevorzugt (Serendipität)
Clustering
Finen von disziplinaren Netzwerken Finden von gehäuften Selbstreferenzen
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
https://de.wikipedia.org/wiki/PageRank
http://orcatec.com/wp-content/uploads/2013/09/cluster2.png
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
:1 :1.1
:1.1.1 O Tannenbaum, O Tannenbaum, :1.1.2 Wie treu sind deine Blätter.
:1.1.3 Du grünst nicht nur zur Sommerzeit, :1.1.4 Nein auch im Winter wenn es schneit.
:1.1.5 O Tannenbaum, O Tannenbaum, :1.1.6 Wie grün sind deine Blätter!
:1.2:1.2.1 O Tannenbaum, O Tannenbaum, :1.2.2 Du kannst mir sehr gefallen!
:1.2.3 Wie oft hat schon zur Winterszeit :1.2.4 Ein Baum von dir mich hoch erfreut!
:1.2.5 O Tannenbaum, O Tannenbaum, :1.2.6 Du kannst mir sehr gefallen!
:1.3
:1.3.1 O Tannenbaum, O Tannenbaum, :1.3.2 Dein Kleid will mich was lehren:
:1.3.3 Die Hoffnung und Beständigkeit :1.3.4 Gibt Mut und Kraft zu jeder Zeit!
:1.3.5 O Tannenbaum, O Tannenbaum, :1.3.6 Dein Kleid will mich was lehren.
:1.1.1 -> 1.1.5, 1.2.1, 1.2.5, 1.3.1, 1.3.5
:1.1.2 -> 1.1.6(?) :1.2.2 -> 1.2.6 :1.3.2 -> 1.3.6
(Sehr) viele projektspezifische Lösungen existieren
TextReuse = Persistente IDs + Ähnliche Textstellen + Publikationsdatum Bei uns:
Text Reuse
Metainformation CTS URNs Textpassagensuche
Vorteil: Textmenge (quasi) irrelevant,
nur kompatible Volltextsuche nötig (bspw Lucene)
Text Reuse
passage:Am Anfang schuf Gott Himmel und Erde . source:urn:cts:pbc:bible.parallel.deu.luther1545:1.1.1
urn:cts:dta:weise.ertznarren.de.norm:1352_#_secht ihr herren sagte er am anfang schuf gott himmel(…) urn:cts:dta:justi.geschichte.de.norm:2062_#_am anfang schuf gott himmel und erde
urn:cts:dta:seyfried.medulla.de.norm:853_#_am anfang schuf gott himmel und erden
urn:cts:dta:hundtradowsky.judenschule01.de.norm:750_#_am anfang schuf gott himmel und
urn:cts:dta:bullinger.haussbuoch.de.norm:13540_#_(…)ersten buchs im anfang schuf gott den himmel urn:cts:dta:luetkemann.auffmunterung2.de.norm:8421_#_im anfang schuf gott himmel und erden (…) urn:cts:dta:fontane.kinderjahre.de.norm:1747-1748_#_am anfang schuf gott himmel und erde(…) urn:cts:dta:fontane.kinderjahre.de.norm:1748_#_im anfang schuf gott himmel und erde
urn:cts:dta:luther.betbuechlein.de.norm:1570_#_am anfang schuf gott himmel und erden genes 2016.10.08 at 12:52:57
*(…) -> gekürzt für besser Übersicht
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
Text Reuse
39
Text Reuse
40
Server 1
CTS Text Miner
urn:cts:demo:[work]:1.1.1 urn:cts:demo:[work]:1.2.1
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
<passage>
<div1 n="1" type="song">
<div2 n="1" type="strophe">
<div3 n="1" type="line">
</div3>
</div2>
<div2 n="2" type="strophe">
<div3 n="1" type="line">
</div3>
</div2>
</div1>
</passage>
Server 1 Server 2
(Example Visualizations from work ofStefan Jaenicke)
CTS Text Miner
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
• Breites & umfassendes Text Mining Framework
• Implementierte Module:
• Statistics, Term Document Matrices, Neighbour Cooccurence, Zipf Ranking, Stopwordlists per Pruning and Zipf, 3 Methods for Volltextsuche, Topic Models with Mallet, Basic Text Reuse analysis
• CTS als standardisierter Zugangspunkt
• Unabhängig von Eigenschaften des Text Korpus (Sprache, Dok.Anzahl, …)
• Nur Konfigurationsdatei nötig zum Wiederholen eines Experimentes
CTS Text Miner
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
• Ergebnisse über Webservice abrufbar
• URNs als Filter(bspw. Sprache oder Autor)
• Datensätze verknüpfbar , URN == Unique key
• Modularer Aufbau
Jeder kann neue Module bauen oder alte verbessern
Über CTSTM können Verbesserungen getauscht werden
• CTS URNs bieten Experimentunabhängige Identifier
• Mergen/Kombinieren von Ergebnissen möglich
CTS Text Miner Layer 1 - Rohdaten
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
• Raw Data as webservice
CTS Text Miner Layer 2 – Generische Visualisierungen
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
• Generic Data Visualisations as webservice
CTS Text Miner Layer 3 - GUI
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
• Open Text Mining Tool as webservice
Generic & RESTFul webservices verpackt in GUI
Ergebnisse können über persistente Links geteilt werden - Echtzeit-Switch zwischen Daten und Diagrammen
Worthäufigkeiten/Zipf‘s Gesetz
Georg Zipf: “given some corpus of natural language utterances, the frequency of any word is inversely proportional to its rank in the frequency table. Thus the most frequent word will occur approximately twice as often as the second most frequent word, three times as often as the third most frequent word, etc.“
https://en.wikipedia.org/wiki/Zipf's_law
Prinzip des geringsten Aufwands Häufige Worte eher allgemein und kurz (Stopwörter)
Seltene Worte eher speziell und lang
Ca. ½ der Wörter nur 1 mal vorhanden
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
http://wugology.com/zipfs-law/
Rank Word Count
1 Die 159614
2 Und 150438
3 Der 131717
4 In 89032
5 Das 69904
6 Wir 63109
7 ist 56209
Topic Models
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
Abstrakte Themenstruktur über eine Anzahl von Dokumenten Dokumente teilen Topicmenge
zu unterschiedlichen Anteilen (90% Evolution, 10% Disease) Ein Algorithmus:
Latent Dirichlet Allocation
(LDA)
( David M. Blei: Introduction to Probabilistic Topic Models http://www.cs.princeton.edu/~blei/papers/Blei2011.pdf )
Genetics Evolution Disease Computers
Human Evolution Disease Computer
Genome Species Host Model
DNA Organism Bacteria information
Topic Models
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
Beispielthemen:
labor jury
workers trial
employees crime
union defendant
employer sentencing
work judges
job punishment
bargaining evidence
unions sentence
collective offense
Topic Models
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
• Verwalten und Erforschen unbekannter Textsammlungen
Zoom in und aus Topics als Suchmaschine
Finden von weiterführenden, spezialisierenden oder verallgemeinernden Topics
Semantische Analyse
“topic-fingerprint” für Nutzer liefert passende Dokumente
Genetics Evolution Disease Computers
Human Evolution Disease Computer
Genome Species Host Model
DNA Organism Bacteria information
Topic Models
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
• Data: TED Subtitle Corpus, 51770 documents, 105 languages, 1938 english documents, big variety of topics, CTS access http://ctstest.informatik.uni-leipzig.de/ted/cts/?request=GetCapabilities Tokens for Topic 23
brain, neurons, brains, memory, body, consciousness, autism, human, cells sleep
Texts about topic 23
"Re-engineering the brain", "The linguistic genius of babies", "A light switch for neurons", "The mystery of chronic pain", "The quest to understand consciousness", "A prosthetic eye to treat blindness", "How your brain tells you where you are", "The mysterious workings of the adolescent brain", "A monkey that controls a robot with its thoughts. No", "really.", "How a fly flies", "Your brain is more than a bag of chemical s", "Parkinson's", "depression and the switch that might turn them off", "A mouse. A laser beam. A manipulated memory.", "3 clues to understanding your brai n", "The paralyzed rat that walked", "The neuroscience of restorative justice", "A neural portrait of the human mind", "One more reason to get a good nights sleep",
"Brain-to-brain communication has arrived. How we did it", "A look inside the brain in real time", "Growing evidence of brain plasticity", "What
hallucination reveals about our minds", "The neurons that shaped civilization", "A second opinion on developmental disorders", "I am my connectome“
Topics for text "A monkey that controls a robot with its thoughts. No, really."
15 -> computer, data, machine, information, show, computers, video, simple, using, each 23 -> brain, neurons, brains, memory, body, consciousness, autism, human, cells sleep
Topics generiert aus TED Subtitles (engl)
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
0 yeah, hand, yes, thank, four, five, audience, okay, show, number 1 women, men, woman, girls, love, sex, girl, children, young, gay 2 car, cars, fly, miles, power, road, drive, driving, vehicle, flying
3 universe, earth, space, science, planet, theory, stars, mars, sun, physics
4 school, kids, children, students, education, teachers, learning, child, schools, learn 5 robot, film, robots, movie, story, head, him, tail, character, shot
6 might, question, fact, example, should, problem, find, better, any, whether 7 light, water, air, made, its, energy, material, nature, off, inside
8 him, after, went, story, never, didn, came, started, old, thank
9 data, internet, information, media, online, web, phone, social, google, facebook 10 music, play, sound, game, games, video, playing, song, hear, voice
11 language, book, words, books, word, english, read, writing, write, poem 12 human, god, feel, self, believe, compassion, happiness, love, live, experience 13 health, disease, care, hiv, children, countries, virus, malaria, percent, treatment 14 percent, today, countries, per, data, growth, change, billion, population, million 15 computer, data, machine, information, show, computers, video, simple, using, each 16 talk, mean, bit, great, tell, didn, maybe, start, sort, big
17 cancer, cells, disease, body, heart, patient, patients, blood, surgery, medical 18 food, energy, oil, water, waste, eat, carbon, climate, percent, plant
19 dog, him, black, white, man, legs, smell, bear, wine, dogs
20 ocean, water, sea, fish, ice, animals, species, forest, earth, planet
21 money, dollars, business, companies, company, market, percent, value, buy, jobs 22 technology, create, today, system, able, idea, design, build, together, working 23 brain, neurons, brains, memory, body, consciousness, autism, human, cells, sleep 24 war, violence, police, military, prison, security, killed, states, peace, united
25 africa, country, china, power, india, political, countries, government, chinese, democracy 26 nand, nto, nof, nthat, nthe, nin, nis, nfor, nwith, new
27 art, design, made, sort, project, museum, artist, image, images, show
28 species, dna, animals, human, bacteria, humans, evolution, its, genes, genetic 29 city, building, cities, buildings, space, place, public, built, community, york
Topics generiert aus TED Subtitles (arab)
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
Trend Analysen
CTS-TM sortiert Ergebnisse nach Dokumenten-URN (alphabetisch) -> Sortiere stattdessen nach Publikationsdatum im CTS
-> Trendanalyse
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
Trend Analysen
Based on German Political Speeches
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
Trend Analysen
Based on German Political Speeches
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
Trend Analysen
Based on German Political Speeches
Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar
Canonical Text Infrastructure
> 1 Mrd. Tokens in 32 heterogenen Textkorpora in >800 Sprachen
Text Mining
Strukturbasiertes Textalignment
Canonical Text Miner (zitierbarer Textmining Webservice)
Feingranulare Volltextsuche, Zitatanalyse
Management Tools
Admin Tool, CTRaCE (Reckziegel et al), Test Suite, Namespace Resolver
Canonical Text Infrastructure
Erweiterung um Implementierungsspezifische Features
Zusätzliche, von den Spezifikationen unabhängige Requestfunktionen
Lizenzhandling
CTS Cloning
Text Passage Post Processing
Anbindung an bestehende Infrastrukturen in praktischen 2 Fallstudien nachgewiesen
Virtual Language Observatory & Digital Athaenus Index Digger
Canonical Text Services erlauben Textreferenzierung über Projektgrenzen hinweg
Tool zur Vermeidung von Datenheterogenität
Abgrenzung von Textstruktur, Metainformation & Text
Canonical Text Infrastructure
Tools, Datensätze, Anbindung an CLARIN
Info, Daten, Demos,… : http://cts.informatik.uni-leipzig.de/
60