A Unifying Approach to HTML Wrapper Representation and

(1)

A Unifying Approach to HTML Wrapper Representation and

Learning

Gunter Grieser, Klaus P.Jantke, Steffen Lange, Bernd Thomas

Seminarvortrag - Informationsextraktion (1/2003)

(2)

1.Motivation und Zielsetzung

• HTML ist Standardformat für Information aus dem Internet

• Informationsextraktion aus HTML kommerziell lohnend

• Ansatz auf beliebig formatierte Texte übertragbar

• Konstruktiver (algorithmischer) Beitrag zu bestehenden Theorien

• Existenz von Testumgebungen (http://Lexikon.dfki.de)

(3)

1.1 Information - eingebettet in HTML

<ul>

<li>Vortrag über: Line Eikvil (1999) Information extraction from the World Wide Web (Stephan Birkmann) (<a href="birkmann.ppt">ppt</a>/

<a href="birkmann.pdf">pdf</a>)

</li>

<li>Vortrag über: Ralph Grishman (1997) "Information Extraction: Techniques and Challenges" (Felix Jungermann) (<a href="jungermann.ppt">ppt</a>/

<a href="jungermann.pdf">pdf</a>)

</li>

<li>

Vortrag über: Roman Yangarber, Ralph Grishman, Pasi Tapanainen, Silja Huttunen (2000)

"Unsupervised Discovery of Scenario-Level Patterns for Information Extraction" (Bianca Selzam) (<a href="selzam.ppt">ppt</a>/

<a href="selzam.pdf">pdf</a>)

</li>

<li>

Vortrag über: Karsten Winkler, Myra Spiliopoulou " Structuring Domain-Specific Text Archives by Deriving a Probabilistic XML DTD"<br>(Andrea Schweer) (<a href="AndreaSchweer-SeminarFolien-20021217.pdf">pdf</a>)

</li>

</ul>

Automatische Extraktion der Namen der Referenten !?

(4)

2. Einordnung dieses Ansatzes

Informationsextraktion

• Wrapper

• Natürlichsprachlich

Prädikatenlogik

• Logikprogramme

• EFS, AEFS

Lernmodelle

• Gold („in the limit“)

• PAC-Modell

Rekursionstheorie (+KT)

(5)

3. Syntax/Semantik formaler Systeme

Grundlegende Definitionen

+

Σ

→

 Χ



←

Χ Σ

Γ Χ Π Σ

: : on Substituti

) Instance"

ground

"

: (auch

,...., A

: Regel

) Atom"

ground

"

: (auch

) ,....,

p(

: Atom

) (

aus Elemente

: Pattern

Regeln von

Menge Endliche

:

Variablen von

Menge :

Prädikaten von

Menge Endliche

:

en von Zeich Menge

Endliche :

1 1

σ π π

n n

B B

U

(6)

3.1 Elementary Formal Systems (EFS)

Definition:

Instances ground

aller Menge

: G(S)

Basis) (Herbrand

Atoms ground

aller Menge

: B(S)

EFS ist

) , ,

(Σ Π Γ

= S

Semantik:

) ( :

) ( und

)) ( (

: ) ( :

omit

} :

, G(S) ,....,

| { )

( :

) (

) ) ( (

:

) (

1

1 1

0

∅

=

∈

∀

∈



←

∪

=

⊆

=

∈ +

+

U

ⁿ ^N ^Sⁿ

n S S n

S

i k

n S n

S S

T S

Sem I

T T I

T S

I B

i B

B A

A I

T I

T

S B I

I I

T

Smullyan (1961), Theory of Formal Systems

(7)

3.2 Advanced Elementary Formal Systems

Definition:

AEFS seien

) , , ( : ), , , ( :

EFS sei

) ' , ' , ( : '

2 2 2

1 1

1 = Σ Π Γ = Σ Π Γ

Γ Π Σ

=

S S

S

Dann:

1.

2.

3.

4.

) ( )

Sem(S Sem(S)

AEFS, ist

) ,

, ( dann ,

FallsΠ₁∩Π₂ =∅ S = Σ Π₁∪Π₂ Γ₁∪Γ₂ = ₁ ∪Sem S₂

)}

( )

,..., ( , ,...,

| ) ,..., ( { ) ( )

(

AEFS ist

)}) ,...,

( )

,..., (

{ },

{ ,

( Dann

n.

t Stelligkei der

Prädikate und

Seien

1 1

1

1 1

S Sem s

s q s

s s s p S

Sem S

Sem

x x

q not x

x p p

S

q p

n n

n

n n

∉ Σ

∈ Σ

∈

∪

=



←

∪ Γ

∪ Π Σ

=

Π

∈ Π

∉

+ +

)) ( ( )

(

AEFS ist

) ' , '

, ( dann ,

) ' ( Sei

1 '

1 1

1

S Sem T

S Sem

S head

N n

n

U ^∈ S

=

Γ

∪ Γ Π

∪ Π Σ

=

∅

= Π

∩ Γ

) ' ( )

( AEFS.

ist

' Sem S Sem S

S

S = =

Vorteil: Negation as Failure

(8)

3.3 Formale Systeme-Formale Sprachen

Zusätzliche Definitionen für formale Systeme:

AEFS bounded"

- length

"

aller Menge :

AEFS bounded"

- variable

"

aller Menge :

AEFS aller Menge :

EFS aller Menge :

ε ε ε ε

A lb

A vb

−

− Α

Übergang zu formalen Sprachen (->Wrapper):

1.

2.

)}

( )

(

| { : ) , ( sei Dann

Prädikat.

es einstellig und

AEFS ein

) , , ( Sei

S Sem s

p s p

S L

p S

∈

=

Π

∈ Γ

Π Σ

=

können.

werden definiert

aus AEFS durch

die

Sprachen, von

Menge die

) ( ist Dann .

Sei

M M L A

M ⊆ ε

-> Formale Sprachen sind durch formale Systeme definierbar

(9)

3.4 Ausdrucksfähigkeit von AEFS

Einordnung von formalen Systemen:

) (

. 4

) (

. 3

) (

. 2

) (

. 1

ε

ε ε ε

−

=

−

=

−

=

⊂

lb L L

vb L

L

A lb

L L

A L L

sitiv kontextsen

aufzählbar rekursiv

sitiv kontextsen

aufzählbar rekursiv

Ausserdem:

1. Semantik von allgemeinen EFS nicht entscheidbar 2. Semantik von „length-bounded“ AEFS entscheidbar

(10)

4. Lernen und Identifizieren

Abstraktes Modell einer Identifikation (Gold, 1967):

Objekten von

ng Namensgebu 3.

tion nspräsenta

Informatio zur

Methoden 2.

t Lernbarkei von

Definition 1.

Objekten von

Menge eine

Sei Ω

Zusammenhang zwischen Identifikation von Objekten und Lernen von Sprachen (z.b Wrapper)

(11)

4.1 Lernbarkeit

Zu jedem Zeitpunkt erfolgt ein Identifikationsversuch:

) ,....,

(

₁ _t

t

G i i

g =

G : „Guessing function“

g_t: „Guess“ zum Zeitpunkt t

„Language Identification in the Limit“:

Nach endlicher Zeit treten keine falschen „guesses“ mehr auf -> Existenz zahlreicher Variationen des Lernmodells

Beispiel: zusätzliche Monotonierestriktionen

(12)

4.2 Informationspräsentation

1. Text :

Ausschließlich Positive Information

Arbitrary: Sequenz wird bestimmt durch beliebige Funktion Recursive: Sequenz wird bestimmt durch rekursive Funktion 2. Informant:

Positive und Negative Information

Arbitrary: Sequenz wird bestimmt durch beliebige Funktion Methodical: Sequenz wird durch Aufzählung bestimmt

Request: Sequenz wird bestimmt in Abhängigkeit der schon bestehenden Sequenz

(13)

4.3 Namensgebung

Namensgebung mittels einer Funktion:

N f Ω →

Ω :

Namen von

Menge :

N

(Sprachen) Objekten

von Menge

:

Für theoretische Untersuchungen üblich:

1. Tester : Entscheidungsalgorithmus für eine Sprache 2. Generatoren: Aufzählung aller Wörter einer Sprache

(14)

4.4 Erkenntnisse zur Lernbarkeit

(15)

4.5 Lernbarkeit von AEFS

Theorem 1:

informant"

"

durch lernbar

ist )

( 2.

informant"

"

durch lernbar

nicht ist

) (

. 1

ε ε

A lb

L

A vb

L

−

Theorem 2:

text"

"

durch lernbar

ist ) (

2.

text"

"

durch lernbar

nicht ist

) (

, 2 Für

1.

ε1

ε A

lb L

A lb

L

k ^k

−

≥

(16)

4.6 Beweisidee zu Theorem 2 (1)

Definition:

)}) ( )

( , )

( { }, , { , ( : )

( mit

}

| { :

) )

( { }, { , ( : S

}

{

\ ,

} { :

2

0 0

0

x q not x

p a

q q p S

A lb L N

j L

x p p a

L L

a L

a

j j

j

j j



←



← Σ

=

−

⊆ Ω

∈

= Ω



← Σ

=

= Σ

+

ε

Idee: Konstruktion eines Textes für L₀, sodaß Identifizierung unmöglich wird.

1 bei weiter und

1 t : x setze

, t) Zeitpunkt (zum

von Erkennung Nach

. 3

e Reihenfolg hischen

Lexikograp der

g Fortsetzun 3.

a on von Präsentati

, L von Erkennung Nach

2.

mit startend e

Reihenfolg hische

Lexikograp 1.

: durch gebildet wird

(Text) Sequenz

, 1 : mit Start

0

x x

1

+

=

+

L

a x

x

-> „Subset-Principle“

(17)

5. Wrapper für HTML-Dokumente

Semantik und Interpretation von Dokumenten:

i i

i n

n

s s

s D

s s

I p

p

s S

D

von Ende

nach D

in beginnt 2.

an ) ( der ionen

Startposit die

gibt )

), ,...,

((

) ,...,

( 1.

: n Bedingunge die

S(D) )

s ,..., (

erfüllt D,

Dokumente alle

Für

: gdw I,

tion Interpreta

unter Semantik

heißt )

) ((

:

Dokument.

ein Sei

1

1 1

n 1

+

+ +

+

=

∈ Σ

℘

→

 Σ

Σ

∈

Semantik eines Dokumentes ist Tupel aus Wörtern des Dokumentes

(18)

5.1 „Marked Text“ (1.Erweiterung)

Lernen von Wrappern durch Vorlage einer Sequenz von markierten Dokumenten

Definition:

) ( Tupel

jegliche D

Dokument jedes

für enthält Sequenz

3.

ation) (Interpret

) , ( und

) ( wobei

, ) , ( 2.

aus Dokument ist

1.

: gdw ,

text"

marked

"

heißt )

, ( Sequenz

Eine

D S s

D s I p D

S s

p s P

D

P D t

i i

∈

=

∈

=

Σ

=

+

(19)

5.2 Island Wrapper

Island Wrapper <-> Kombination von mehreren AEFS

).

( )

(

).

( )

(

).

( )

(

) ( )

(

).

( )

(

).

( )

(

).

( )

(

) ( )

(

).

( ), ( ),

( ), (

),...., (

), ( ),

( ), (

), ( ), ( ),

(

) ...

, ,..., (

2 2

1 1

1

1 1

1 1 1 1

2 2

1 1

1

Y p XY

p c X p XY

p c X p X

p c

X p c not X

p nc

Y p XY

p c X p XY

p c X p X

p c

X p c not X

p nc

R p V p nc L

p X p nc

R p V p nc L

p X p nc

R p V p nc L p

X R V L X R V L X V V

w

i i

n n

r r

n r n r n

n

r r

n n n n n n



←

−



←

−



←

−



←

−



←

−



←

−



←

−



←

−



+ ←

l l

l

=

(20)

5.3 Wrapper Learner (2.Erweiterung)

Anwendung des Wrappers auf ein Dokument:

Ein Wrapper (AEFS S_iw) beschreibt Semantik S, gdw:

view(S_iw,D) = S(D)

)}

( )

, ,..., (

| ) ,..., {(

: ) , (

(AEFS) Wrapper

Island ein

Sei

1

1 n n iw

iw iw

S Sem D

s s

w s

s D

S view

S

∈

=

1. Ein Wrapper-Learner (WIM) lernt Semantik S aus „marked Text“, falls nach endlicher Zeit der Wrapper diese Semantik beschreibt 2. Ein Wrapper-Learner (WIM) lernt eine Klasse C von Wrappern,

falls er jegliche Semantiken lernen kann, die durch Wrapper aus C beschrieben werden können

(21)

5.4 Lernen mit Island Wrappern

Definition:

L hen Ankersprac für

) ( mit

Wrapper Island

bounded"

- length

"

aller Menge

:

(AEFS) Wrapper

Island bounded"

- length

"

aller Menge

:

k

iw Card L k

A A _iw

ε ≤ ε

Theorem 3:

text"

marked

"

durch lernbar

nicht ist

Klasse

Die Aε_iw

Theorem 4:

1 alle

für text"

marked

"

durch lernbar

ist Klasse

Die Aε_iw^k k ≥

Lernalgorithmus ?

(22)

6.1 Lernalgorithmus (Teil I)

(23)

6.2 Lernalgorithmus (Teil II)

(24)

6.3 Lernalgorithmus (Teil III)

(25)

7. Praxisrelevanz und Bewertung

• Algorithmus wurde bereits implementiert und an HTML getestet

• http://LExIKON.dfki.de

• Basisprinzip der Wrapper-Induction auch in diesem Ansatz vorhanden

• Theorie zeigt das Potential des gewählten Ansatzes

• Vorgestellte Wrapper-Induction bisher nur in der Praxis evaluiert