A Unifying Approach to HTML Wrapper Representation and
Learning
Gunter Grieser, Klaus P.Jantke, Steffen Lange, Bernd Thomas
Seminarvortrag - Informationsextraktion (1/2003)
1.Motivation und Zielsetzung
• HTML ist Standardformat für Information aus dem Internet
• Informationsextraktion aus HTML kommerziell lohnend
• Ansatz auf beliebig formatierte Texte übertragbar
• Konstruktiver (algorithmischer) Beitrag zu bestehenden Theorien
• Existenz von Testumgebungen (http://Lexikon.dfki.de)
1.1 Information - eingebettet in HTML
<ul>
<li>Vortrag über: Line Eikvil (1999) Information extraction from the World Wide Web (Stephan Birkmann) (<a href="birkmann.ppt">ppt</a>/
<a href="birkmann.pdf">pdf</a>)
</li>
<li>Vortrag über: Ralph Grishman (1997) "Information Extraction: Techniques and Challenges" (Felix Jungermann) (<a href="jungermann.ppt">ppt</a>/
<a href="jungermann.pdf">pdf</a>)
</li>
<li>
Vortrag über: Roman Yangarber, Ralph Grishman, Pasi Tapanainen, Silja Huttunen (2000)
"Unsupervised Discovery of Scenario-Level Patterns for Information Extraction" (Bianca Selzam) (<a href="selzam.ppt">ppt</a>/
<a href="selzam.pdf">pdf</a>)
</li>
<li>
Vortrag über: Karsten Winkler, Myra Spiliopoulou " Structuring Domain-Specific Text Archives by Deriving a Probabilistic XML DTD"<br>(Andrea Schweer) (<a href="AndreaSchweer-SeminarFolien-20021217.pdf">pdf</a>)
</li>
</ul>
Automatische Extraktion der Namen der Referenten !?
2. Einordnung dieses Ansatzes
Informationsextraktion
• Wrapper
• Natürlichsprachlich
Prädikatenlogik
• Logikprogramme
• EFS, AEFS
Lernmodelle
• Gold („in the limit“)
• PAC-Modell
Rekursionstheorie (+KT)
3. Syntax/Semantik formaler Systeme
Grundlegende Definitionen
: : on Substituti
) Instance"
ground
"
: (auch
,...., A
: Regel
) Atom"
ground
"
: (auch
) ,....,
p(
: Atom
) (
aus Elemente
: Pattern
Regeln von
Menge Endliche
:
Variablen von
Menge :
Prädikaten von
Menge Endliche
:
en von Zeich Menge
Endliche :
1 1
n n
B B
3.1 Elementary Formal Systems (EFS)
Definition:
Instances ground
aller Menge
: G(S)
Basis) (Herbrand
Atoms ground
aller Menge
: B(S)
EFS ist
) , ,
(
S
Semantik:
) ( :
) ( und
)) ( (
: ) ( :
omit
} :
, G(S) ,....,
| { )
( :
) (
) ) ( (
:
) (
1
1 1
0
n N Snn S S n
S
i k
n S n
S S
T S
Sem I
T T I
T S
I B
i B
B A
A I
T I
T
S B I
I I
T
Smullyan (1961), Theory of Formal Systems
3.2 Advanced Elementary Formal Systems
Definition :
: ( , , ), : ( , , )seien AEFS
EFS sei
) ' , ' , ( :'
2 2 2
1 1
1
S S
S
Dann:
1.
2.
3.
4.
) ( )
Sem(S Sem(S)
AEFS, ist
) ,
, ( dann ,
Falls12 S 12 12 1 Sem S2
)}
( )
,..., ( , ,...,
| ) ,..., ( { ) ( )
(
AEFS ist
)}) ,...,
( )
,..., (
{ },
{ ,
( Dann
n.
t Stelligkei der
Prädikate und
Seien
1 1
1 1
1
1 1
1 1
1 1
S Sem s
s q s
s s s p S
Sem S
Sem
x x
q not x
x p p
S
q p
n n
n
n n
)) ( (
) (
AEFS ist
) ' , '
, ( dann ,
) ' ( Sei
1 '
1 1
1
S Sem T
S Sem
S head
N n
n
S
) ' ( )
( AEFS.
ist
' Sem S Sem S
S
S
Vorteil: Negation as Failure
3.3 Formale Systeme-Formale Sprachen
Zusätzliche Definitionen für formale Systeme:
AEFS bounded"
- length
"
aller Menge :
AEFS bounded"
- variable
"
aller Menge :
AEFS aller
Menge :
EFS aller Menge :
A lb
A vb
Übergang zu formalen Sprachen (->Wrapper):
1.
2.
)}
( )
(
| { : ) , ( sei Dann
Prädikat.
es einstellig und
AEFS ein
) , , ( Sei
S Sem s
p s p
S L
p S
können.
werden definiert
aus AEFS durch
die
Sprachen, von
Menge die
) ( ist Dann .
Sei
M M L A
M
-> Formale Sprachen sind durch formale Systeme definierbar
3.4 Ausdrucksfähigkeit von AEFS
Einordnung von formalen Systemen:
) (
. 4
) (
. 3
) (
. 2
) (
. 1
lb L L
vb L
L
A lb
L L
A L L
sitiv kontextsen
aufzählbar rekursiv
sitiv kontextsen
aufzählbar rekursiv
Ausserdem:
1. Semantik von allgemeinen EFS nicht entscheidbar 2. Semantik von „length-bounded“ AEFS entscheidbar
4. Lernen und Identifizieren
Abstraktes Modell einer Identifikation (Gold, 1967):
Objekten von
ng Namensgebu 3.
tion nspräsenta
Informatio zur
Methoden 2.
t Lernbarkei von
Definition 1.
Objekten von
Menge eine
Sei
Zusammenhang zwischen Identifikation von Objekten und Lernen von Sprachen (z.b Wrapper)
4.1 Lernbarkeit
Zu jedem Zeitpunkt erfolgt ein Identifikationsversuch:
) ,....,
(
1 tt
G i i
g
G : „Guessing function“
gt : „Guess“ zum Zeitpunkt t
„Language Identification in the Limit“:
Nach endlicher Zeit treten keine falschen „guesses“ mehr auf
-> Existenz zahlreicher Variationen des Lernmodells Beispiel: zusätzliche Monotonierestriktionen
4.2 Informationspräsentation
1. Text :
Ausschließlich Positive Information
Arbitrary: Sequenz wird bestimmt durch beliebige Funktion Recursive: Sequenz wird bestimmt durch rekursive Funktion 2. Informant:
Positive und Negative Information
Arbitrary: Sequenz wird bestimmt durch beliebige Funktion Methodical: Sequenz wird durch Aufzählung bestimmt
Request: Sequenz wird bestimmt in Abhängigkeit der schon bestehenden Sequenz
4.3 Namensgebung
Namensgebung mittels einer Funktion:
N f
:
Namen von
Menge :
N
(Sprachen) Objekten
von Menge
:
Für theoretische Untersuchungen üblich:
1. Tester : Entscheidungsalgorithmus für eine Sprache 2. Generatoren: Aufzählung aller Wörter einer Sprache
4.4 Erkenntnisse zur Lernbarkeit
4.5 Lernbarkeit von AEFS
Theorem 1:
informant"
"
durch lernbar
ist ) (
2.
informant"
"
durch lernbar
nicht ist
) (
. 1
A lbL
A vb
L
Theorem 2:
text"
"
durch lernbar
ist ) (
2.
text"
"
durch lernbar
nicht ist
) (
, 2 Für
1.
1
A
lb L
A lb
L
k k
4.6 Beweisidee zu Theorem 2 (1)
Definition:
)}) ( )
( , )
( { }, , { , ( : )
( mit
}
| { :
) )
( { }, { , ( : S
}
{
\ ,
} { :
} { :
2
0 0
0
x q not x
p a
q q p S
A lb L N
j L
x p p a
L L
a L
a
j j
j
j j
Idee: Konstruktion eines Textes für L0, sodaß Identifizierung unmöglich wird.
1 bei weiter und
1 t : x setze
, t) Zeitpunkt (zum
von Erkennung Nach
. 3
e Reihenfolg hischen
Lexikograp der
g Fortsetzun 3.
a on von Präsentati
, L von Erkennung Nach
2.
mit startend e
Reihenfolg hische
Lexikograp 1.
: durch gebildet wird
(Text) Sequenz
, 1 : mit Start
0
x x
1
L
a x
x
-> „Subset-Principle“
5. Wrapper für HTML-Dokumente
Semantik und Interpretation von Dokumenten:
i i
i n
n
n
s s
s D
s s
I p
p
s S
D
von Ende
nach D
in beginnt 2.
an ) ( der ionen
Startposit die
gibt )
), ,...,
((
) ,..., (
1.
: n Bedingunge die
S(D) )
s ,..., (
erfüllt D,
Dokumente alle
Für
: gdw I,
tion Interpreta
unter Semantik
heißt )
) ((
:
Dokument.
ein Sei
1
1 1
n 1
Semantik eines Dokumentes ist Tupel aus Wörtern des Dokumentes
5.1 „Marked Text“ (1.Erweiterung)
Lernen von Wrappern durch Vorlage einer Sequenz von markierten Dokumenten
Definition:
) ( Tupel
jegliche D
Dokument jedes
für enthält Sequenz
3.
ation) (Interpret
) , ( und
) ( wobei
, ) , ( 2.
aus Dokument ist
1.
: gdw ,
text"
marked
"
heißt )
, ( Sequenz
Eine
D S s
D s I p D
S s
p s P
D
P D t
i i
i i
5.2 Island Wrapper
Island Wrapper <-> Kombination von mehreren AEFS
).
( )
(
).
( )
(
).
( )
(
) ( )
(
).
( )
(
).
( )
(
).
( )
(
) ( )
(
).
( ), ( ),
( ), (
),...., (
), ( ),
( ), (
), ( ), ( ),
(
) ...
, ,..., (
2 2
2 2
1 1
1
1 1
1 1 1 1
2 2
2 2
1 1
1
Y p XY
p c X p XY
p c X p X
p c
X p c not X
p nc
Y p XY
p c X p XY
p c X p X
p c
X p c not X
p nc
R p V p nc L
p X p nc
R p V p nc L
p X p nc
R p V p nc L
p
X R V L X R V L X V V
w
i i
i i
i i
i i
i i
i i
i i
i i
n n
n n
r r
r r
r r
r r
n r n r n
n
r r
r r
n n n n n n
5.3 Wrapper Learner (2.Erweiterung)
Anwendung des Wrappers auf ein Dokument:
Ein Wrapper (AEFS Siw) beschreibt Semantik S, gdw:
view(Siw,D) = S(D)
)}
( )
, ,..., (
| ) ,..., {(
: ) , (
(AEFS) Wrapper
Island ein
Sei
1
1 n n iw
iw iw
S Sem D
s s
w s
s D
S view
S
1. Ein Wrapper-Learner (WIM) lernt Semantik S aus „marked Text“, falls nach endlicher Zeit der Wrapper diese Semantik beschreibt 2. Ein Wrapper-Learner (WIM) lernt eine Klasse C von Wrappern, falls er jegliche Semantiken lernen kann, die durch Wrapper aus C beschrieben werden können
5.4 Lernen mit Island Wrappern
Definition:
L hen Ankersprac für
) ( mit
Wrapper Island
bounded"
- length
"
aller Menge
:
(AEFS) Wrapper
Island bounded"
- length
"
aller Menge
:
k
iw Card L k
A A iw
Theorem 3:
text"
marked
"
durch lernbar
nicht ist
Klasse
Die Aiw Theorem 4:
1 alle
für text"
marked
"
durch lernbar
ist Klasse
Die Aiwk k
Lernalgorithmus ?
6.1 Lernalgorithmus (Teil I)
6.2 Lernalgorithmus (Teil II)
6.3 Lernalgorithmus (Teil III)
7. Praxisrelevanz und Bewertung
• Algorithmus wurde bereits implementiert und an HTML getestet
• http://LExIKON.dfki.de
• Basisprinzip der Wrapper-Induction auch in diesem Ansatz vorhanden
• Theorie zeigt das Potential des gewählten Ansatzes
• Vorgestellte Wrapper-Induction bisher nur in der Praxis evaluiert