• Keine Ergebnisse gefunden

Wissens- und Content Management

N/A
N/A
Protected

Academic year: 2022

Aktie "Wissens- und Content Management"

Copied!
60
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Wissens- und Content Management

Canonical Text Services (Technisch)

Dr. Jochen Tiepmar

Abteilung Automatische Sprachverarbeitung, Universität Leipzig

1

(2)

Ablauf des CTS Projektes

 2012 - 15 : A Library of a Billion Words

 2013 Prototypvorstellung auf Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH), EACL, Göteburg

 2015 (Beta-)Release auf 3rd Workshop on the Challenges in the Management of Large Corpora, Corpus Linguistics, Lancaster

 2015 - 2018 Scalable Data Solutions (ScaDS)

 2016 CTS Text Miner auf 4th Workshop on the Challenges in the Management of Large Corpora

 2016 CLARIN-Anbindung auf CLARIN Annual Conference Aix-en-Provence

 2018 Abschluss des Projektes als Promotion

(3)

Start des CTS Projektes

 Ursprüngliche Aufgabe: Evaluierung der existierenden CTS Implementierungen (RDF

& XML) und Umsetzung eines Importworkflows ausgehend von OCR Daten

 RDF Implementierung

 ineffizient

 XML Implementierung

 technische Probleme

 Nicht generalisierbar

 Beide nicht fertig

 -> Eigenimplementierung vielversprechend

 -> Bei Erfolg: Referenzarchitektur für aktuelles Problem der Digital Humanities

(4)

Eigenimplementierung

 State of the Art

 Mehrere Referenzierungssysteme vorhanden (CLARIN PID, ISBN, DOI)

 Vollständige (elektronische) Ressource als referenzierbare Einheit

 Bsp. CLARIN PID: Mapping von PID auf (veränderliche) Serveraddresse

 Flexible Granularität schwierig

 Statische CTS-Inhalte umsetzbar, dynamische Inhalte schlecht

 Persistente Speicherung aller dynamischen Referenzen hoch ineffizient

 Dynamische Implementierung praktisch nicht umsetzbar

(5)

Indexstruktur

 String-Repräsentation der Identifier enthält

Hierarchieinformationen

 urn:cts:pbc:bible.en:1.3.2

 Hierarchiemodellierung über effiziente Speicherung der Identifier-Strings

 Speicherung der CTS URNs in Präfixbaum / Trie

 Abfragen der Kinderknoten über Präfixsuche

 Autovervollständigung

 Effiziente Implementierung von Präfixbaum / Präfixsuche benötigt

(6)

Implementierung der Indexstruktur mit SQL

Hierarchie-Retrieval über Präfixsuche:

SELECT (text,) urn WHERE urn LIKE BINARY

"urn:cts:pbc:bible.parallel.eng.kingjames:1.2.%" ORDER BY ID

Performanzverbesserung durch LIKE [urn] AND LIKE BINARY [urn]stattLIKE BINARY [urn]

Textspannen über Range Queries

SELECT (text,) urn WHERE ID BETWEEN 588729 and 588732 ORDER BY ID

ID URN Text

588729 urn:cts:pbc:bible.parallel.eng.kingjames:1.2.4 These are (...) 588730 urn:cts:pbc:bible.parallel.eng.kingjames:1.3 NULL

588731 urn:cts:pbc:bible.parallel.eng.kingjames:1.3.1 Now the (...) 588732 urn:cts:pbc:bible.parallel.eng.kingjames:1.3.2 And the (...)

(7)

Alternative Implementierungsskizzen

 Graphmodell

 Hierarchie & Sequenz müssen explizit modelliert werden

 Overhead

Graphmodell eher ungeeignet für CTS, muss passend gemacht werden

 Spezialisierung, die Baumstruktur von Graph trennt, ist für CTS passend und muss bei Verwendung von Graphen nachmodelliert werden

 Datenanalyse begründet Performanzprobleme der RDF Implementierung

 (Extended) Property Graph Model

 Liefert (E)PGM Funktionalitäten für Hierarchie oder Sequenz?

 -> PGM nein.

 -> EPGM besser bei Hierarchie (Subgraph, Grouping), aber im Detail nicht perfekt für CTS, keine Sequenz (Sorting)

(8)

Overhead durch Graphstruktur

Canonical Text Infrastructure - ASV Doktorantensminar 2017

1 Textknoten

<urn:cts:greekLit:tlg0059.tlg001.fugnt001:.2858235-7> rdf:label "Plato, Euthyphro (Platonis Opera, ed. John Burnet): . 2858235-7 (urn:cts:greekLit:tlg0059.tlg001.fugnt001:.2858235-7)" .

<urn:cts:greekLit:tlg0059.tlg001.fugnt001:.2858235-7> cts:belongsTo <urn:cts:greekLit:tlg0059.tlg001.fugnt001> .

<urn:cts:greekLit:tlg0059.tlg001.fugnt001:.2858235-7> cts:hasSequence 3545 .

<urn:cts:greekLit:tlg0059.tlg001.fugnt001:.2858235-7> cts:hasTextContent """<wd xmlns="http://www.tei- c.org/ns/1.0" xmlns:tei="http://www.tei-c.org/ns/1.0" tbrefs="2858235-7">λέγω</wd>""" .

<urn:cts:greekLit:tlg0059.tlg001.fugnt001:.2858235-7> cts:citationDepth 2 .

<urn:cts:greekLit:tlg0059.tlg001.fugnt001:.2858235-7> hmt:xmlOpen "/tei:tei.2/tei:text/tei:body/tei:div1[@type='book' and @n='']" .

<urn:cts:greekLit:tlg0059.tlg001.fugnt001:.2858235-7> hmt:xpTemplate

"/tei:tei.2/tei:text/tei:body/tei:div1[@type='book' and @n='?']/tei:sp/tei:p/tei:wd[@tbrefs='?']" .

<urn:cts:greekLit:tlg0059.tlg001.fugnt001:.2858235-7> cts:containedBy <urn:cts:greekLit:tlg0059.tlg001.fugnt001:> .

<urn:cts:greekLit:tlg0059.tlg001.fugnt001:> cts:contains <urn:cts:greekLit:tlg0059.tlg001.fugnt001:.2858235-7> .

8

(9)

Overhead durch Graphstruktur

Canonical Text Infrastructure - ASV Doktorantensminar 2017

Anzahl der Relationen

11439 <http://www.homermultitext.org/rdfverbs#xmlOpen>

21011 <http://www.foo-bar.org/cts#citationDepth>

11471 <http://www.foo-bar.org/cts#belongsTo>

11439 <http://www.homermultitext.org/rdfverbs#xpTemplate>

11217 <http://www.homermultitext.org/cite/rdf/next>

11439 <http://www.foo-bar.org/cts#hasSequence>

11471 <http://www.w3.org/1999/02/22-rdf-syntax-ns#label> 3 9572 <http://www.foo-bar.org/cts#containedBy>

11439 <http://www.foo-bar.org/cts#hasTextContent>

11321 <http://www.homermultitext.org/cite/rdf/prev>

9572 <http://www.foo-bar.org/cts#contains>

32 <http://www.foo-bar.org/cts#title>

32 <http://www.w3.org/1999/02/22-rdf-syntax-ns#type>

32 <http://www.foo-bar.org/cts#possesses>

14 <http://www.foo-bar.org/cts#xmlns>

2 <http://www.foo-bar.org/cts#abbreviatedBy>

10 <http://www.foo-bar.org/cts#lang>

4 <http://www.foo-bar.org/cts#translationLang>

All: 131517

7 Editionen!

9

(10)

Overhead durch Graphstruktur

Canonical Text Infrastructure - ASV Doktorantensminar 2017

Max. 500 Dokumente (eigentlich sollte es bei 1000 losgehen) Abschätzung für 1 Mrd Wörter

→ 700mB * 200 = ca 14gB RAM für 100k Dokumente (idle) Performanztest mit künstlich erzeugten Dokumenten

10

(11)

Alternative Implementierungsskizzen

 XML Datenbank

 XML Struktur als implizite Hierarchie

 Elementreihenfolge als Sequenz

 Probleme bei Nativer XML Datenbank:

 Input auf XML beschränkt (entspricht nicht CTS)

 Programmlogik im XML Dokument (manuell bearbeitet)

 <refsDecl n="CTS"> <cRefPattern n="line" matchPattern="(\\w+).(\\w+)"

replacementPattern="#xpath(/tei:TEI/tei:text/tei:body/tei:div/tei:div[@n=\’$1\’]/te i:l[@n=\ ’$2\’])">(...)</refsDecl>

<div type="edition“ n="urn:cts:greekLit:tlg0001.tlg001.perseus-grc2">

 Fehleranfällig und praktische Wartung schwierig

 Nicht valides XML durch Textspannen & Sub passage Notation

(12)

Alternative Implementierungsskizzen

 XML Datenbank

 Beobachtungen decken sich mit Problemen der XML-Implementierung

 need to go through each text to verify the canonical citation schemes and clean them up

 Not all of the texts are working

 At least one set of problems may be in texts with line-based citation schemes where the lines haven’t been marked up in the English translation.

 GetPassage implementation does not currently support subreferences or passage ranges

 “citation” elements are incomplete & missing xpath and scope attributes

(13)

Typische Evaluationstechniken Problematisch

 Offizieller Validator

 Inhaltliche Validierung

 Funktioniert leider nicht

 Daten passen nicht zu Requests

 Unspezifizierte Requests (GetDescription)

 Precision, Recall, & F-measure

 Keine statistische Methode, sondern dynamisches - aber exaktes - n:1 Mapping

 Precision=1 und Recall=1 ist Grundvoraussetzung

 Nicht anwendbar

(14)

Typische Evaluationstechniken Problematisch

 Vergleich mit anderen Implementierungen

 Andere Implementierungen nicht feature-complete

 -> Vergleich nicht sinnvoll

(15)

Evaluation, Benchmark

 Keine Validierung

 GetValidReff, GetPrevNextURN & GetPassage werden gemessen

 localhost Abfragen zur Vermeidung von Noise durch Netzwerk

 Client-seitige Verarbeitungsschritte nicht mit gemessen

 Mehrsprachiges und relativ großer Datensatz

(16)

Evaluation, Benchmark

 Datensatz

 52‘988 Dokumente aus TED Transkripten (Klein, mehrsprachig, 2 Zitierebenen)

 20 Dokumente aus PBC (Groß, mehrsprachig, 3 Zitierebenen)

 4908 Dokumente aus DTA (Groß & klein, einsprachig, 1 Zitierebene)

 32‘388‘463 statische CTS URNs

 1 CTS Index

 9 Datensamples: pbc, dta1, dta2, dta3, dta4, ted1, ted2, ted3, ted4

 Je max. 5‘000‘000 statische URNs

 Gleichmäßig verteilte Testmenge

 Abarbeitungsreihenfolge randomisiert zu

dta2, dta3, ted2, dta1, ted3, dta4, ted1, ted4, pbc

(17)

 Tests

 Durchgeführt für jedes Sample aus dem Datensatz

 GetPrevNextUrn: für 1‘000 low level CTS URNs

 GetValidReff: für jede DokumentenURN

1000 mid level CTS URNs in ted* und pbc

 GetPassage: für jede DokumentenURN

1000 low level CTS URNs Spanne 2 1000 low level CTS URNs Spanne 20 Analog buchstabengenau

 ( GetCapabilities: 1000 Abfragen )

low level : Hat keine Kinderknoten mid level : Hat Kinderknoten

Evaluation, Benchmark

(18)

Evaluation, Benchmark

 Computer Setup

 Virtual Machine

 1 Kern 2400 MHz (AuthenticAMD Common KVM Processor)

 4 GB RAM.

 MySQL version 5.5.49-0+deb8u1, JAVA version is 1.7.0_101

 Linux Debian 8.5 3.167-ckt25-2 /2016-04-08) x86_64, Codename Jessie

 Host Machine

 2x AMD Opteron 6234 (2x12 Kerne)

 256 GB RAM

 56 TB SATA Festplatte

 Linux Proxmox VE version 2.3 als Virtualisierungsplattform

 Lesegeschwindigkeit der Festplatte: 3039.05 MB/sec (hdparm –Tt)

(19)

Evaluation, Benchmark

 Ergebnisse (Millisekunden)

 Darstellung über uminterpretierte Boxplots

 Untere Whisker = 0

 Unteres Quantil = Minimum

 Strichlinie = Median

 Roter Punkt = Durchschnitt

 Oberes Quantil = Maximum (Testlauf)

 Oberer Whisker = Maximum (Alle Testläufe)

 Graubereich entspricht erzielten Messwerten

 Ausreißerwerte beibehalten

 relevante Informationen

 Seltenheit im Diagramm erkennbar

(20)

Evaluation, Benchmark

 Ergebnisse

GetPassage_ShortSpan GetPassage_ShortSpan_Subpassage

(21)

Evaluation, Benchmark

 Ergebnisse

GetPassage_Work GetValidReff_Work

(22)

Evaluation, Benchmark

 Ergebnisse

 Zoom Median & Average (GetPrevNextUrn ->)

 Andere Nahansichten analog

 Schlüsse

 Generell sehr gute Performanz

 Dokumentweite Ergebnisse zeigen, dass

 Benchmark geeignet ist

 Umfang des Ergebnisses einflussreicher als Umfang der Daten

 Keine Laufzeiteffekte / Cachingprobleme

 Durchschnitt nicht stets >= Median

 Kein Trend über Tests hinweg

(23)

Canonical Text Infrastructure

(24)

Alignment

Auffinden von vergleichbaren Textabschnitten -> Semantisch ähnlich (Zitate/Plagiate)

-> Strukturell ähnlich (Parallele Texte) -> Dokumentenvergleich

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

(25)

Alignment

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

Visualisierung: Stefan Jaenickes TRAViz

(26)

Alignment

Naiv: Satztokenisierung

-> Sätze können aufgeteilt oder zusammengefügt werden

Statistische Methoden Named Entity Recognition

Vorberechnung, Kreuzvergleich

-> DTA: 3.5 GB * 5136 documents > 17 TB

Fehlerwahrscheinlichkeit steigt mit jeder alignierten Texteinheit.

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

(27)

Alignment via CTS

Alignment der CTS URNs

urn:cts:demo:shakespeare.sonnets.en.1:3.2 urn:cts:demo:shakespeare.sonnets.de.1:3.2 urn:cts:demo:shakespeare.sonnets.fr.1:3.2

-> Fehlerwahrscheinlichkeit fällt mit jeder neuen übergeordneten Texteinheit

-> Schnell, Echtzeit, Vorberechnung unnötig

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

(28)

Alignment tools

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

(29)

Alignment tools

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

(30)

Volltextsuche

Finden von CTS URNs für gegebenen Textabschnitt Trivial innerhalb von Texteinheiten

urn:cts:german_speeches:Bundespraesident.1990.10.3:1.2.3 urn:cts:german_speeches:Bundespraesident.1990.10.3:

Simply query for text instead of CTS URN

Kompliziert für Textabschnitte

urn:cts:german_speeches:Bundespraesident.1990.10.3:1.2.3-1.3.2 urn:cts:german_speeches:Bundespraesident.1990.10.3: 1-2

Search for(first tokens) to find starting URN foreach ( starting URN )

while( result is better )

result = expand to right neighbour Potentiell riesige Kandidatenmenge

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

(31)

Volltextsuche

Kompliziert für Textabschnitte

Suche nach„at? On the side of a freeway in the car“

Search for („at“) to find starting URN

foreach ( starting URN ) //-> Jede URN aus jedem Dokument die „at“ enthält while( result is better )

result = expand to right neighbour

Kandidatenmenge einschränken!

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

urn:cts:demo:Systemofadown.mrjack:1.5 urn:cts:demo:Systemofadown.mrjack:1.6

Hey where you at? On the side of a freeway in the car

(32)

Kandidatensuche für Volltextsuche

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

Kandidatenmenge einschränken!

Verschiedene Ansätze: (Dokumentensuche)

Volltextsuche von MySQL Fulltext Index & Lucene Fulltext Index

Dokumente mit ähnlichen Abschnitten zu „at? On the side of a freeway in the car“

TermDokumentenmatrix nach Dokumenten absuchen, die alle Worte enthalten.

Dokumente, die „at“, „On”, “the”, “side”, “of”, “a”, “freeway”, “in”, “the” und “car“ enthalten Dokumentensignaturen (bspw Wortlänge)

Dokumente mit Signatur „2 . 2 3 4 2 1 7 2 3 3“

Kombinationen

(33)

Volltextsuche

Kompliziert für Textabschnitte

Suche nach„at? On the side of a freeway in the car“

Search for („at“ in document candidates) to find starting URN foreach ( starting URN )

while( result is better )

result = expand to right neighbour

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

urn:cts:demo:Systemofadown.mrjack:1.5 urn:cts:demo:Systemofadown.mrjack:1.6

Hey where you at? On the side of a freeway in the car

(34)

Text Reuse (AKA Zitationsanalyse)

Wer zitiert wen?

Finden von sehr ähnlichen Textabschnitten Ähnlichkeitsanalyse

Berechne Ähnlichkeit s für jede Satzkombination s > Schwellwert -> Zitation

Einige Projekte dazu:

Picapica (Martin Potthast) Etracer (Marco Büchler)

Winowing (Schleimer, Wilkinson, Aiken)

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

(35)

Text Reuse (AKA Zitationsanalyse)

Zitationsgraph

Textabschnitte als Knoten Zitate als Kanten

Richtung über Publikationszeitpunkt Ähnlich Linkstruktur im Internet

Graphbasierte Analyse Algorithmen

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

https://de.wikipedia.org/wiki/PageRank

(36)

Text Reuse (AKA Zitationsanalyse)

Paigerank (Larry Paige)

Auffinden häufig zitierter Knoten

Expertensuchmaschine, die selten zitierte Dokumente bevorzugt (Serendipität)

Clustering

Finen von disziplinaren Netzwerken Finden von gehäuften Selbstreferenzen

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

https://de.wikipedia.org/wiki/PageRank

http://orcatec.com/wp-content/uploads/2013/09/cluster2.png

(37)

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

:1 :1.1

:1.1.1 O Tannenbaum, O Tannenbaum, :1.1.2 Wie treu sind deine Blätter.

:1.1.3 Du grünst nicht nur zur Sommerzeit, :1.1.4 Nein auch im Winter wenn es schneit.

:1.1.5 O Tannenbaum, O Tannenbaum, :1.1.6 Wie grün sind deine Blätter!

:1.2:1.2.1 O Tannenbaum, O Tannenbaum, :1.2.2 Du kannst mir sehr gefallen!

:1.2.3 Wie oft hat schon zur Winterszeit :1.2.4 Ein Baum von dir mich hoch erfreut!

:1.2.5 O Tannenbaum, O Tannenbaum, :1.2.6 Du kannst mir sehr gefallen!

:1.3

:1.3.1 O Tannenbaum, O Tannenbaum, :1.3.2 Dein Kleid will mich was lehren:

:1.3.3 Die Hoffnung und Beständigkeit :1.3.4 Gibt Mut und Kraft zu jeder Zeit!

:1.3.5 O Tannenbaum, O Tannenbaum, :1.3.6 Dein Kleid will mich was lehren.

:1.1.1 -> 1.1.5, 1.2.1, 1.2.5, 1.3.1, 1.3.5

:1.1.2 -> 1.1.6(?) :1.2.2 -> 1.2.6 :1.3.2 -> 1.3.6

(Sehr) viele projektspezifische Lösungen existieren

TextReuse = Persistente IDs + Ähnliche Textstellen + Publikationsdatum Bei uns:

Text Reuse

Metainformation CTS URNs Textpassagensuche

Vorteil: Textmenge (quasi) irrelevant,

nur kompatible Volltextsuche nötig (bspw Lucene)

(38)

Text Reuse

passage:Am Anfang schuf Gott Himmel und Erde . source:urn:cts:pbc:bible.parallel.deu.luther1545:1.1.1

urn:cts:dta:weise.ertznarren.de.norm:1352_#_secht ihr herren sagte er am anfang schuf gott himmel(…) urn:cts:dta:justi.geschichte.de.norm:2062_#_am anfang schuf gott himmel und erde

urn:cts:dta:seyfried.medulla.de.norm:853_#_am anfang schuf gott himmel und erden

urn:cts:dta:hundtradowsky.judenschule01.de.norm:750_#_am anfang schuf gott himmel und

urn:cts:dta:bullinger.haussbuoch.de.norm:13540_#_(…)ersten buchs im anfang schuf gott den himmel urn:cts:dta:luetkemann.auffmunterung2.de.norm:8421_#_im anfang schuf gott himmel und erden (…) urn:cts:dta:fontane.kinderjahre.de.norm:1747-1748_#_am anfang schuf gott himmel und erde(…) urn:cts:dta:fontane.kinderjahre.de.norm:1748_#_im anfang schuf gott himmel und erde

urn:cts:dta:luther.betbuechlein.de.norm:1570_#_am anfang schuf gott himmel und erden genes 2016.10.08 at 12:52:57

*(…) -> gekürzt für besser Übersicht

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

(39)

Text Reuse

39

(40)

Text Reuse

40

(41)

Server 1

CTS Text Miner

urn:cts:demo:[work]:1.1.1 urn:cts:demo:[work]:1.2.1

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

<passage>

<div1 n="1" type="song">

<div2 n="1" type="strophe">

<div3 n="1" type="line">

</div3>

</div2>

<div2 n="2" type="strophe">

<div3 n="1" type="line">

</div3>

</div2>

</div1>

</passage>

Server 1 Server 2

(Example Visualizations from work ofStefan Jaenicke)

(42)

CTS Text Miner

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

• Breites & umfassendes Text Mining Framework

• Implementierte Module:

• Statistics, Term Document Matrices, Neighbour Cooccurence, Zipf Ranking, Stopwordlists per Pruning and Zipf, 3 Methods for Volltextsuche, Topic Models with Mallet, Basic Text Reuse analysis

• CTS als standardisierter Zugangspunkt

• Unabhängig von Eigenschaften des Text Korpus (Sprache, Dok.Anzahl, …)

• Nur Konfigurationsdatei nötig zum Wiederholen eines Experimentes

(43)

CTS Text Miner

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

• Ergebnisse über Webservice abrufbar

• URNs als Filter(bspw. Sprache oder Autor)

• Datensätze verknüpfbar , URN == Unique key

• Modularer Aufbau

Jeder kann neue Module bauen oder alte verbessern

Über CTSTM können Verbesserungen getauscht werden

• CTS URNs bieten Experimentunabhängige Identifier

• Mergen/Kombinieren von Ergebnissen möglich

(44)

CTS Text Miner Layer 1 - Rohdaten

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

• Raw Data as webservice

(45)

CTS Text Miner Layer 2 – Generische Visualisierungen

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

• Generic Data Visualisations as webservice

(46)

CTS Text Miner Layer 3 - GUI

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

• Open Text Mining Tool as webservice

Generic & RESTFul webservices verpackt in GUI

Ergebnisse können über persistente Links geteilt werden - Echtzeit-Switch zwischen Daten und Diagrammen

(47)

Worthäufigkeiten/Zipf‘s Gesetz

Georg Zipf: “given some corpus of natural language utterances, the frequency of any word is inversely proportional to its rank in the frequency table. Thus the most frequent word will occur approximately twice as often as the second most frequent word, three times as often as the third most frequent word, etc.“

https://en.wikipedia.org/wiki/Zipf's_law

Prinzip des geringsten Aufwands Häufige Worte eher allgemein und kurz (Stopwörter)

Seltene Worte eher speziell und lang

Ca. ½ der Wörter nur 1 mal vorhanden

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

http://wugology.com/zipfs-law/

Rank Word Count

1 Die 159614

2 Und 150438

3 Der 131717

4 In 89032

5 Das 69904

6 Wir 63109

7 ist 56209

(48)

Topic Models

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

Abstrakte Themenstruktur über eine Anzahl von Dokumenten Dokumente teilen Topicmenge

zu unterschiedlichen Anteilen (90% Evolution, 10% Disease) Ein Algorithmus:

Latent Dirichlet Allocation

(LDA)

( David M. Blei: Introduction to Probabilistic Topic Models http://www.cs.princeton.edu/~blei/papers/Blei2011.pdf )

Genetics Evolution Disease Computers

Human Evolution Disease Computer

Genome Species Host Model

DNA Organism Bacteria information

(49)

Topic Models

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

Beispielthemen:

labor jury

workers trial

employees crime

union defendant

employer sentencing

work judges

job punishment

bargaining evidence

unions sentence

collective offense

(50)

Topic Models

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

• Verwalten und Erforschen unbekannter Textsammlungen

Zoom in und aus Topics als Suchmaschine

Finden von weiterführenden, spezialisierenden oder verallgemeinernden Topics

Semantische Analyse

“topic-fingerprint” für Nutzer liefert passende Dokumente

Genetics Evolution Disease Computers

Human Evolution Disease Computer

Genome Species Host Model

DNA Organism Bacteria information

(51)

Topic Models

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

• Data: TED Subtitle Corpus, 51770 documents, 105 languages, 1938 english documents, big variety of topics, CTS access http://ctstest.informatik.uni-leipzig.de/ted/cts/?request=GetCapabilities Tokens for Topic 23

brain, neurons, brains, memory, body, consciousness, autism, human, cells sleep

Texts about topic 23

"Re-engineering the brain", "The linguistic genius of babies", "A light switch for neurons", "The mystery of chronic pain", "The quest to understand consciousness", "A prosthetic eye to treat blindness", "How your brain tells you where you are", "The mysterious workings of the adolescent brain", "A monkey that controls a robot with its thoughts. No", "really.", "How a fly flies", "Your brain is more than a bag of chemical s", "Parkinson's", "depression and the switch that might turn them off", "A mouse. A laser beam. A manipulated memory.", "3 clues to understanding your brai n", "The paralyzed rat that walked", "The neuroscience of restorative justice", "A neural portrait of the human mind", "One more reason to get a good nights sleep",

"Brain-to-brain communication has arrived. How we did it", "A look inside the brain in real time", "Growing evidence of brain plasticity", "What

hallucination reveals about our minds", "The neurons that shaped civilization", "A second opinion on developmental disorders", "I am my connectome“

Topics for text "A monkey that controls a robot with its thoughts. No, really."

15 -> computer, data, machine, information, show, computers, video, simple, using, each 23 -> brain, neurons, brains, memory, body, consciousness, autism, human, cells sleep

(52)

Topics generiert aus TED Subtitles (engl)

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

0 yeah, hand, yes, thank, four, five, audience, okay, show, number 1 women, men, woman, girls, love, sex, girl, children, young, gay 2 car, cars, fly, miles, power, road, drive, driving, vehicle, flying

3 universe, earth, space, science, planet, theory, stars, mars, sun, physics

4 school, kids, children, students, education, teachers, learning, child, schools, learn 5 robot, film, robots, movie, story, head, him, tail, character, shot

6 might, question, fact, example, should, problem, find, better, any, whether 7 light, water, air, made, its, energy, material, nature, off, inside

8 him, after, went, story, never, didn, came, started, old, thank

9 data, internet, information, media, online, web, phone, social, google, facebook 10 music, play, sound, game, games, video, playing, song, hear, voice

11 language, book, words, books, word, english, read, writing, write, poem 12 human, god, feel, self, believe, compassion, happiness, love, live, experience 13 health, disease, care, hiv, children, countries, virus, malaria, percent, treatment 14 percent, today, countries, per, data, growth, change, billion, population, million 15 computer, data, machine, information, show, computers, video, simple, using, each 16 talk, mean, bit, great, tell, didn, maybe, start, sort, big

17 cancer, cells, disease, body, heart, patient, patients, blood, surgery, medical 18 food, energy, oil, water, waste, eat, carbon, climate, percent, plant

19 dog, him, black, white, man, legs, smell, bear, wine, dogs

20 ocean, water, sea, fish, ice, animals, species, forest, earth, planet

21 money, dollars, business, companies, company, market, percent, value, buy, jobs 22 technology, create, today, system, able, idea, design, build, together, working 23 brain, neurons, brains, memory, body, consciousness, autism, human, cells, sleep 24 war, violence, police, military, prison, security, killed, states, peace, united

25 africa, country, china, power, india, political, countries, government, chinese, democracy 26 nand, nto, nof, nthat, nthe, nin, nis, nfor, nwith, new

27 art, design, made, sort, project, museum, artist, image, images, show

28 species, dna, animals, human, bacteria, humans, evolution, its, genes, genetic 29 city, building, cities, buildings, space, place, public, built, community, york

(53)

Topics generiert aus TED Subtitles (arab)

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

(54)

Trend Analysen

CTS-TM sortiert Ergebnisse nach Dokumenten-URN (alphabetisch) -> Sortiere stattdessen nach Publikationsdatum im CTS

-> Trendanalyse

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

(55)

Trend Analysen

Based on German Political Speeches

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

(56)

Trend Analysen

Based on German Political Speeches

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

(57)

Trend Analysen

Based on German Political Speeches

Wissens- und Content Management - Canonical Text Services - Jochen Tiepmar

(58)

Canonical Text Infrastructure

 > 1 Mrd. Tokens in 32 heterogenen Textkorpora in >800 Sprachen

 Text Mining

 Strukturbasiertes Textalignment

 Canonical Text Miner (zitierbarer Textmining Webservice)

 Feingranulare Volltextsuche, Zitatanalyse

 Management Tools

 Admin Tool, CTRaCE (Reckziegel et al), Test Suite, Namespace Resolver

(59)

Canonical Text Infrastructure

 Erweiterung um Implementierungsspezifische Features

 Zusätzliche, von den Spezifikationen unabhängige Requestfunktionen

 Lizenzhandling

 CTS Cloning

 Text Passage Post Processing

 Anbindung an bestehende Infrastrukturen in praktischen 2 Fallstudien nachgewiesen

 Virtual Language Observatory & Digital Athaenus Index Digger

(60)

 Canonical Text Services erlauben Textreferenzierung über Projektgrenzen hinweg

 Tool zur Vermeidung von Datenheterogenität

 Abgrenzung von Textstruktur, Metainformation & Text

 Canonical Text Infrastructure

 Tools, Datensätze, Anbindung an CLARIN

 Info, Daten, Demos,… : http://cts.informatik.uni-leipzig.de/

60

Zusammenfassung

Referenzen

ÄHNLICHE DOKUMENTE

LlsMultipleChoice ermöglicht zur Zeit die Erstellung, Präsentation und Auswertung von Multiple-Choice-Tests, die sowohl Fragen mit genau einer möglichen Antwort als auch Fragen

Für die fallbasierte Lehre wurde das webbasierte Content Management System Schoolbook im Institut für Medizinischen Informatik der Medizinischen Hochschule Hannover (MHH)

[r]

Ausschlaggebend ist diese Unterscheidung auch für die Abgrenzung von Content Manage- ment Systemen (CMS) und Dokumenten Management Systemen (DMS), die im Abschnitt 2.5.1 (Seite

aktualisierte PWS-4500-System (mit der Software-Version 2.3) zusammen verwendet werden, können Servernutzer Metadaten eingeben, Serverinhalte einem Netzwerk zuweisen, die Metadaten

The research contributions of this work encompass (1) a framework for the integration of shallow-processing techniques of text with logic-based techniques to cope with the ex-

Ihre Funktion besteht darin, den Prozess der Wissenssicherung anzu- stoßen und voranzutreiben, erfolgskritisches Wissen zu identifizieren (jenes Wissen, das in der

Xerox ® Mobile für DocuShare — Suchen und rufen Sie Dateien sicher ab, wenn Sie Ihr iOS oder Android Smartphone verwenden.. Team-Zusammenarbeit — Teilen Sie Dokumente