• Keine Ergebnisse gefunden

A Unifying Approach to HTML Wrapper Representation and

N/A
N/A
Protected

Academic year: 2022

Aktie "A Unifying Approach to HTML Wrapper Representation and"

Copied!
25
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

A Unifying Approach to HTML Wrapper Representation and

Learning

Gunter Grieser, Klaus P.Jantke, Steffen Lange, Bernd Thomas

Seminarvortrag - Informationsextraktion (1/2003)

(2)

1.Motivation und Zielsetzung

• HTML ist Standardformat für Information aus dem Internet

• Informationsextraktion aus HTML kommerziell lohnend

• Ansatz auf beliebig formatierte Texte übertragbar

• Konstruktiver (algorithmischer) Beitrag zu bestehenden Theorien

• Existenz von Testumgebungen (http://Lexikon.dfki.de)

(3)

1.1 Information - eingebettet in HTML

<ul>

<li>Vortrag über: Line Eikvil (1999) Information extraction from the World Wide Web (Stephan Birkmann) (<a href="birkmann.ppt">ppt</a>/

<a href="birkmann.pdf">pdf</a>)

</li>

<li>Vortrag über: Ralph Grishman (1997) &quot;Information Extraction: Techniques and Challenges&quot; (Felix Jungermann) (<a href="jungermann.ppt">ppt</a>/

<a href="jungermann.pdf">pdf</a>)

</li>

<li>

Vortrag über: Roman Yangarber, Ralph Grishman, Pasi Tapanainen, Silja Huttunen (2000)

&quot;Unsupervised Discovery of Scenario-Level Patterns for Information Extraction&quot; (Bianca Selzam) (<a href="selzam.ppt">ppt</a>/

<a href="selzam.pdf">pdf</a>)

</li>

<li>

Vortrag über: Karsten Winkler, Myra Spiliopoulou &quot; Structuring Domain-Specific Text Archives by Deriving a Probabilistic XML DTD&quot;<br>(Andrea Schweer) (<a href="AndreaSchweer-SeminarFolien-20021217.pdf">pdf</a>)

</li>

</ul>

Automatische Extraktion der Namen der Referenten !?

(4)

2. Einordnung dieses Ansatzes

Informationsextraktion

Wrapper

Natürlichsprachlich

Prädikatenlogik

Logikprogramme

EFS, AEFS

Lernmodelle

• Gold („in the limit“)

• PAC-Modell

Rekursionstheorie (+KT)

(5)

3. Syntax/Semantik formaler Systeme

Grundlegende Definitionen

+

+

Σ

→

 Χ



Χ Σ

Γ Χ Π Σ

: : on Substituti

) Instance"

ground

"

: (auch

,...., A

: Regel

) Atom"

ground

"

: (auch

) ,....,

p(

: Atom

) (

aus Elemente

: Pattern

Regeln von

Menge Endliche

:

Variablen von

Menge :

Prädikaten von

Menge Endliche

:

en von Zeich Menge

Endliche :

1 1

σ π π

n n

B B

U

(6)

3.1 Elementary Formal Systems (EFS)

Definition:

Instances ground

aller Menge

: G(S)

Basis) (Herbrand

Atoms ground

aller Menge

: B(S)

EFS ist

) , ,

(Σ Π Γ

= S

Semantik:

) ( :

) ( und

)) ( (

: ) ( :

omit

} :

, G(S) ,....,

| { )

( :

) (

) ) ( (

:

) (

1

1 1

0

=

=



=

=

+

+

U

n N Sn

n S S n

S

i k

n S n

S S

T S

Sem I

T T I

T S

I B

i B

B A

A I

T I

T

S B I

I I

T

Smullyan (1961), Theory of Formal Systems

(7)

3.2 Advanced Elementary Formal Systems

Definition:

AEFS seien

) , , ( : ), , , ( :

EFS sei

) ' , ' , ( : '

2 2 2

1 1

1 = Σ Π Γ = Σ Π Γ

Γ Π Σ

=

S S

S

Dann:

1.

2.

3.

4.

) ( )

Sem(S Sem(S)

AEFS, ist

) ,

, ( dann ,

FallsΠ1Π2 = S = Σ Π1Π2 Γ1Γ2 = 1 Sem S2

)}

( )

,..., ( , ,...,

| ) ,..., ( { ) ( )

(

AEFS ist

)}) ,...,

( )

,..., (

{ },

{ ,

( Dann

n.

t Stelligkei der

Prädikate und

Seien

1 1

1 1

1

1 1

1 1

1 1

S Sem s

s q s

s s s p S

Sem S

Sem

x x

q not x

x p p

S

q p

n n

n

n n

Σ

Σ

=



Γ

Π Σ

=

Π

Π

+ +

)) ( ( )

(

AEFS ist

) ' , '

, ( dann ,

) ' ( Sei

1 '

1 1

1

S Sem T

S Sem

S head

N n

n

U S

=

Γ

Γ Π

Π Σ

=

= Π

Γ

) ' ( )

( AEFS.

ist

' Sem S Sem S

S

S = =

Vorteil: Negation as Failure

(8)

3.3 Formale Systeme-Formale Sprachen

Zusätzliche Definitionen für formale Systeme:

AEFS bounded"

- length

"

aller Menge :

AEFS bounded"

- variable

"

aller Menge :

AEFS aller Menge :

EFS aller Menge :

ε ε ε ε

A lb

A vb

Α

Übergang zu formalen Sprachen (->Wrapper):

1.

2.

)}

( )

(

| { : ) , ( sei Dann

Prädikat.

es einstellig und

AEFS ein

) , , ( Sei

S Sem s

p s p

S L

p S

=

Π

Γ

Π Σ

=

können.

werden definiert

aus AEFS durch

die

Sprachen, von

Menge die

) ( ist Dann .

Sei

M M L A

M ε

-> Formale Sprachen sind durch formale Systeme definierbar

(9)

3.4 Ausdrucksfähigkeit von AEFS

Einordnung von formalen Systemen:

) (

. 4

) (

. 3

) (

. 2

) (

. 1

ε

ε ε ε

=

=

=

lb L L

vb L

L

A lb

L L

A L L

sitiv kontextsen

aufzählbar rekursiv

sitiv kontextsen

aufzählbar rekursiv

Ausserdem:

1. Semantik von allgemeinen EFS nicht entscheidbar 2. Semantik von „length-bounded“ AEFS entscheidbar

(10)

4. Lernen und Identifizieren

Abstraktes Modell einer Identifikation (Gold, 1967):

Objekten von

ng Namensgebu 3.

tion nspräsenta

Informatio zur

Methoden 2.

t Lernbarkei von

Definition 1.

Objekten von

Menge eine

Sei Ω

Zusammenhang zwischen Identifikation von Objekten und Lernen von Sprachen (z.b Wrapper)

(11)

4.1 Lernbarkeit

Zu jedem Zeitpunkt erfolgt ein Identifikationsversuch:

) ,....,

(

1 t

t

G i i

g =

G : „Guessing function“

gt : „Guess“ zum Zeitpunkt t

„Language Identification in the Limit“:

Nach endlicher Zeit treten keine falschen „guesses“ mehr auf -> Existenz zahlreicher Variationen des Lernmodells

Beispiel: zusätzliche Monotonierestriktionen

(12)

4.2 Informationspräsentation

1. Text :

Ausschließlich Positive Information

Arbitrary: Sequenz wird bestimmt durch beliebige Funktion Recursive: Sequenz wird bestimmt durch rekursive Funktion 2. Informant:

Positive und Negative Information

Arbitrary: Sequenz wird bestimmt durch beliebige Funktion Methodical: Sequenz wird durch Aufzählung bestimmt

Request: Sequenz wird bestimmt in Abhängigkeit der schon bestehenden Sequenz

(13)

4.3 Namensgebung

Namensgebung mittels einer Funktion:

N f Ω →

Ω :

Namen von

Menge :

N

(Sprachen) Objekten

von Menge

:

Für theoretische Untersuchungen üblich:

1. Tester : Entscheidungsalgorithmus für eine Sprache 2. Generatoren: Aufzählung aller Wörter einer Sprache

(14)

4.4 Erkenntnisse zur Lernbarkeit

(15)

4.5 Lernbarkeit von AEFS

Theorem 1:

informant"

"

durch lernbar

ist )

( 2.

informant"

"

durch lernbar

nicht ist

) (

. 1

ε ε

A lb

L

A vb

L

Theorem 2:

text"

"

durch lernbar

ist ) (

2.

text"

"

durch lernbar

nicht ist

) (

, 2 Für

1.

ε1

ε A

lb L

A lb

L

k k

(16)

4.6 Beweisidee zu Theorem 2 (1)

Definition:

)}) ( )

( , )

( { }, , { , ( : )

( mit

}

| { :

) )

( { }, { , ( : S

}

{

\ ,

} { :

} { :

2

0 0

0

x q not x

p a

q q p S

A lb L N

j L

x p p a

L L

a L

a

j j

j

j j





Σ

=

=



Σ

=

=

=

= Σ

+

ε

Idee: Konstruktion eines Textes für L0, sodaß Identifizierung unmöglich wird.

1 bei weiter und

1 t : x setze

, t) Zeitpunkt (zum

von Erkennung Nach

. 3

e Reihenfolg hischen

Lexikograp der

g Fortsetzun 3.

a on von Präsentati

, L von Erkennung Nach

2.

mit startend e

Reihenfolg hische

Lexikograp 1.

: durch gebildet wird

(Text) Sequenz

, 1 : mit Start

0

x x

1

+

=

=

+

L

a x

x

-> „Subset-Principle“

(17)

5. Wrapper für HTML-Dokumente

Semantik und Interpretation von Dokumenten:

i i

i n

n

n

s s

s D

s s

I p

p

s S

D

von Ende

nach D

in beginnt 2.

an ) ( der ionen

Startposit die

gibt )

), ,...,

((

) ,...,

( 1.

: n Bedingunge die

S(D) )

s ,..., (

erfüllt D,

Dokumente alle

Für

: gdw I,

tion Interpreta

unter Semantik

heißt )

) ((

:

Dokument.

ein Sei

1

1 1

n 1

+

+ +

+

=

Σ

→

Σ

Σ

Semantik eines Dokumentes ist Tupel aus Wörtern des Dokumentes

(18)

5.1 „Marked Text“ (1.Erweiterung)

Lernen von Wrappern durch Vorlage einer Sequenz von markierten Dokumenten

Definition:

) ( Tupel

jegliche D

Dokument jedes

für enthält Sequenz

3.

ation) (Interpret

) , ( und

) ( wobei

, ) , ( 2.

aus Dokument ist

1.

: gdw ,

text"

marked

"

heißt )

, ( Sequenz

Eine

D S s

D s I p D

S s

p s P

D

P D t

i i

i i

=

=

Σ

=

+

(19)

5.2 Island Wrapper

Island Wrapper <-> Kombination von mehreren AEFS

).

( )

(

).

( )

(

).

( )

(

) ( )

(

).

( )

(

).

( )

(

).

( )

(

) ( )

(

).

( ), ( ),

( ), (

),...., (

), ( ),

( ), (

), ( ), ( ),

(

) ...

, ,..., (

2 2

2 2

1 1

1

1 1

1 1 1 1

2 2

2 2

1 1

1

Y p XY

p c X p XY

p c X p X

p c

X p c not X

p nc

Y p XY

p c X p XY

p c X p X

p c

X p c not X

p nc

R p V p nc L

p X p nc

R p V p nc L

p X p nc

R p V p nc L p

X R V L X R V L X V V

w

i i

i i

i i

i i

i i

i i

i i

i i

n n

n n

r r

r r

r r

r r

n r n r n

n

r r

r r

n n n n n n



















+

l l

l l

l l

l l

l l

l l

l

=

=

(20)

5.3 Wrapper Learner (2.Erweiterung)

Anwendung des Wrappers auf ein Dokument:

Ein Wrapper (AEFS Siw) beschreibt Semantik S, gdw:

view(Siw,D) = S(D)

)}

( )

, ,..., (

| ) ,..., {(

: ) , (

(AEFS) Wrapper

Island ein

Sei

1

1 n n iw

iw iw

S Sem D

s s

w s

s D

S view

S

=

1. Ein Wrapper-Learner (WIM) lernt Semantik S aus „marked Text“, falls nach endlicher Zeit der Wrapper diese Semantik beschreibt 2. Ein Wrapper-Learner (WIM) lernt eine Klasse C von Wrappern,

falls er jegliche Semantiken lernen kann, die durch Wrapper aus C beschrieben werden können

(21)

5.4 Lernen mit Island Wrappern

Definition:

L hen Ankersprac für

) ( mit

Wrapper Island

bounded"

- length

"

aller Menge

:

(AEFS) Wrapper

Island bounded"

- length

"

aller Menge

:

k

iw Card L k

A A iw

ε ε

Theorem 3:

text"

marked

"

durch lernbar

nicht ist

Klasse

Die Aεiw

Theorem 4:

1 alle

für text"

marked

"

durch lernbar

ist Klasse

Die Aεiwk k

Lernalgorithmus ?

(22)

6.1 Lernalgorithmus (Teil I)

(23)

6.2 Lernalgorithmus (Teil II)

(24)

6.3 Lernalgorithmus (Teil III)

(25)

7. Praxisrelevanz und Bewertung

• Algorithmus wurde bereits implementiert und an HTML getestet

• http://LExIKON.dfki.de

• Basisprinzip der Wrapper-Induction auch in diesem Ansatz vorhanden

• Theorie zeigt das Potential des gewählten Ansatzes

• Vorgestellte Wrapper-Induction bisher nur in der Praxis evaluiert

Referenzen

ÄHNLICHE DOKUMENTE

In this chapter we show by examples that the essential differences between the representations which are mainly discussed in constructive and computable analysis

Wünscht der Patient aber eine Therapie, sollten die Präparate einschleichend dosiert – langsamer als im Beipackzettel angegeben – und in der niedrigsten effektiven Dosis eine Stunde

Bei dem dritten Polynom wird eine naive Anwendung des Kronecker-Algorithmus nicht zum Erfolg f¨ uhren.. Wie kann man trotzdem mit dem Kronecker-Algorithmus eine Faktorisie-

Um den Baum höchster Parsimonität zu finden, müssen wir berechnen können, wie viele Zustandsänderungen für einen gegebenen Baum nötig sind. Dieser Baum stelle die Phylogenie

Es  ist  viel  sinnvoller,  die  Sequenzen  in  die  entsprechenden  Proteinsequenzen   zu  übersetzen,  diese  zu  alignieren  und  dann  in  den  DNS-­Sequenzen

Um den Baum höchster Parsimonität zu finden müssen wir berechnen können, wie viele Zustandsänderungen für einen gegebenen Baum nötig sind. Dieser Baum stelle die Phylogenie des

Um den Baum höchster Parsimonität zu finden müssen wir berechnen können, wie viele Zustandsänderungen für einen gegebenen Baum nötig sind. Dieser Baum stelle die Phylogenie des

Ein Wrapper-Learner (WIM) lernt eine Klasse C von Wrappern, falls er jegliche Semantiken lernen kann, die durch Wrapper aus C beschrieben werden können.. 6.1