• Keine Ergebnisse gefunden

A Unifying Approach to HTML Wrapper Representation and Learning

N/A
N/A
Protected

Academic year: 2022

Aktie "A Unifying Approach to HTML Wrapper Representation and Learning"

Copied!
25
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

A Unifying Approach to HTML Wrapper Representation and

Learning

Gunter Grieser, Klaus P.Jantke, Steffen Lange, Bernd Thomas

Seminarvortrag - Informationsextraktion (1/2003)

(2)

1.Motivation und Zielsetzung

• HTML ist Standardformat für Information aus dem Internet

• Informationsextraktion aus HTML kommerziell lohnend

• Ansatz auf beliebig formatierte Texte übertragbar

• Konstruktiver (algorithmischer) Beitrag zu bestehenden Theorien

• Existenz von Testumgebungen (http://Lexikon.dfki.de)

(3)

1.1 Information - eingebettet in HTML

<ul>

<li>Vortrag über: Line Eikvil (1999) Information extraction from the World Wide Web (Stephan Birkmann) (<a href="birkmann.ppt">ppt</a>/

<a href="birkmann.pdf">pdf</a>)

</li>

<li>Vortrag über: Ralph Grishman (1997) &quot;Information Extraction: Techniques and Challenges&quot; (Felix Jungermann) (<a href="jungermann.ppt">ppt</a>/

<a href="jungermann.pdf">pdf</a>)

</li>

<li>

Vortrag über: Roman Yangarber, Ralph Grishman, Pasi Tapanainen, Silja Huttunen (2000)

&quot;Unsupervised Discovery of Scenario-Level Patterns for Information Extraction&quot; (Bianca Selzam) (<a href="selzam.ppt">ppt</a>/

<a href="selzam.pdf">pdf</a>)

</li>

<li>

Vortrag über: Karsten Winkler, Myra Spiliopoulou &quot; Structuring Domain-Specific Text Archives by Deriving a Probabilistic XML DTD&quot;<br>(Andrea Schweer) (<a href="AndreaSchweer-SeminarFolien-20021217.pdf">pdf</a>)

</li>

</ul>

Automatische Extraktion der Namen der Referenten !?

(4)

2. Einordnung dieses Ansatzes

Informationsextraktion

• Wrapper

• Natürlichsprachlich

Prädikatenlogik

• Logikprogramme

• EFS, AEFS

Lernmodelle

• Gold („in the limit“)

• PAC-Modell

Rekursionstheorie (+KT)

(5)

3. Syntax/Semantik formaler Systeme

Grundlegende Definitionen





: : on Substituti

) Instance"

ground

"

: (auch

,...., A

: Regel

) Atom"

ground

"

: (auch

) ,....,

p(

: Atom

) (

aus Elemente

: Pattern

Regeln von

Menge Endliche

:

Variablen von

Menge :

Prädikaten von

Menge Endliche

:

en von Zeich Menge

Endliche :

1 1

n n

B B

(6)

3.1 Elementary Formal Systems (EFS)

Definition:

Instances ground

aller Menge

: G(S)

Basis) (Herbrand

Atoms ground

aller Menge

: B(S)

EFS ist

) , ,

(

S

Semantik:

) ( :

) ( und

)) ( (

: ) ( :

omit

} :

, G(S) ,....,

| { )

( :

) (

) ) ( (

:

) (

1

1 1

0



n N Sn

n S S n

S

i k

n S n

S S

T S

Sem I

T T I

T S

I B

i B

B A

A I

T I

T

S B I

I I

T

Smullyan (1961), Theory of Formal Systems

(7)

3.2 Advanced Elementary Formal Systems

Definition :

: ( , , ), : ( , , )seien AEFS

EFS sei

) ' , ' , ( :'

2 2 2

1 1

1

S S

S

Dann:

1.

2.

3.

4.

) ( )

Sem(S Sem(S)

AEFS, ist

) ,

, ( dann ,

Falls12 S 12 12 1 Sem S2

)}

( )

,..., ( , ,...,

| ) ,..., ( { ) ( )

(

AEFS ist

)}) ,...,

( )

,..., (

{ },

{ ,

( Dann

n.

t Stelligkei der

Prädikate und

Seien

1 1

1 1

1

1 1

1 1

1 1

S Sem s

s q s

s s s p S

Sem S

Sem

x x

q not x

x p p

S

q p

n n

n

n n



)) ( (

) (

AEFS ist

) ' , '

, ( dann ,

) ' ( Sei

1 '

1 1

1

S Sem T

S Sem

S head

N n

n

S

) ' ( )

( AEFS.

ist

' Sem S Sem S

S

S

Vorteil: Negation as Failure

(8)

3.3 Formale Systeme-Formale Sprachen

Zusätzliche Definitionen für formale Systeme:

AEFS bounded"

- length

"

aller Menge :

AEFS bounded"

- variable

"

aller Menge :

AEFS aller

Menge :

EFS aller Menge :

A lb

A vb

Übergang zu formalen Sprachen (->Wrapper):

1.

2.

)}

( )

(

| { : ) , ( sei Dann

Prädikat.

es einstellig und

AEFS ein

) , , ( Sei

S Sem s

p s p

S L

p S

können.

werden definiert

aus AEFS durch

die

Sprachen, von

Menge die

) ( ist Dann .

Sei

M M L A

M

-> Formale Sprachen sind durch formale Systeme definierbar

(9)

3.4 Ausdrucksfähigkeit von AEFS

Einordnung von formalen Systemen:

) (

. 4

) (

. 3

) (

. 2

) (

. 1

lb L L

vb L

L

A lb

L L

A L L

sitiv kontextsen

aufzählbar rekursiv

sitiv kontextsen

aufzählbar rekursiv

Ausserdem:

1. Semantik von allgemeinen EFS nicht entscheidbar 2. Semantik von „length-bounded“ AEFS entscheidbar

(10)

4. Lernen und Identifizieren

Abstraktes Modell einer Identifikation (Gold, 1967):

Objekten von

ng Namensgebu 3.

tion nspräsenta

Informatio zur

Methoden 2.

t Lernbarkei von

Definition 1.

Objekten von

Menge eine

Sei 

Zusammenhang zwischen Identifikation von Objekten und Lernen von Sprachen (z.b Wrapper)

(11)

4.1 Lernbarkeit

Zu jedem Zeitpunkt erfolgt ein Identifikationsversuch:

) ,....,

(

1 t

t

G i i

g

G : „Guessing function“

gt : „Guess“ zum Zeitpunkt t

„Language Identification in the Limit“:

Nach endlicher Zeit treten keine falschen „guesses“ mehr auf

-> Existenz zahlreicher Variationen des Lernmodells Beispiel: zusätzliche Monotonierestriktionen

(12)

4.2 Informationspräsentation

1. Text :

Ausschließlich Positive Information

Arbitrary: Sequenz wird bestimmt durch beliebige Funktion Recursive: Sequenz wird bestimmt durch rekursive Funktion 2. Informant:

Positive und Negative Information

Arbitrary: Sequenz wird bestimmt durch beliebige Funktion Methodical: Sequenz wird durch Aufzählung bestimmt

Request: Sequenz wird bestimmt in Abhängigkeit der schon bestehenden Sequenz

(13)

4.3 Namensgebung

Namensgebung mittels einer Funktion:

N f  

 :

Namen von

Menge :

N

(Sprachen) Objekten

von Menge

:

Für theoretische Untersuchungen üblich:

1. Tester : Entscheidungsalgorithmus für eine Sprache 2. Generatoren: Aufzählung aller Wörter einer Sprache

(14)

4.4 Erkenntnisse zur Lernbarkeit

(15)

4.5 Lernbarkeit von AEFS

Theorem 1:

informant"

"

durch lernbar

ist ) (

2.

informant"

"

durch lernbar

nicht ist

) (

. 1

A lb

L

A vb

L

Theorem 2:

text"

"

durch lernbar

ist ) (

2.

text"

"

durch lernbar

nicht ist

) (

, 2 Für

1.

1

A

lb L

A lb

L

k k

(16)

4.6 Beweisidee zu Theorem 2 (1)

Definition:

)}) ( )

( , )

( { }, , { , ( : )

( mit

}

| { :

) )

( { }, { , ( : S

}

{

\ ,

} { :

} { :

2

0 0

0

x q not x

p a

q q p S

A lb L N

j L

x p p a

L L

a L

a

j j

j

j j







Idee: Konstruktion eines Textes für L0, sodaß Identifizierung unmöglich wird.

1 bei weiter und

1 t : x setze

, t) Zeitpunkt (zum

von Erkennung Nach

. 3

e Reihenfolg hischen

Lexikograp der

g Fortsetzun 3.

a on von Präsentati

, L von Erkennung Nach

2.

mit startend e

Reihenfolg hische

Lexikograp 1.

: durch gebildet wird

(Text) Sequenz

, 1 : mit Start

0

x x

1

L

a x

x

-> „Subset-Principle“

(17)

5. Wrapper für HTML-Dokumente

Semantik und Interpretation von Dokumenten:

i i

i n

n

n

s s

s D

s s

I p

p

s S

D

von Ende

nach D

in beginnt 2.

an ) ( der ionen

Startposit die

gibt )

), ,...,

((

) ,..., (

1.

: n Bedingunge die

S(D) )

s ,..., (

erfüllt D,

Dokumente alle

Für

: gdw I,

tion Interpreta

unter Semantik

heißt )

) ((

:

Dokument.

ein Sei

1

1 1

n 1



Semantik eines Dokumentes ist Tupel aus Wörtern des Dokumentes

(18)

5.1 „Marked Text“ (1.Erweiterung)

Lernen von Wrappern durch Vorlage einer Sequenz von markierten Dokumenten

Definition:

) ( Tupel

jegliche D

Dokument jedes

für enthält Sequenz

3.

ation) (Interpret

) , ( und

) ( wobei

, ) , ( 2.

aus Dokument ist

1.

: gdw ,

text"

marked

"

heißt )

, ( Sequenz

Eine

D S s

D s I p D

S s

p s P

D

P D t

i i

i i

(19)

5.2 Island Wrapper

Island Wrapper <-> Kombination von mehreren AEFS

).

( )

(

).

( )

(

).

( )

(

) ( )

(

).

( )

(

).

( )

(

).

( )

(

) ( )

(

).

( ), ( ),

( ), (

),...., (

), ( ),

( ), (

), ( ), ( ),

(

) ...

, ,..., (

2 2

2 2

1 1

1

1 1

1 1 1 1

2 2

2 2

1 1

1

Y p XY

p c X p XY

p c X p X

p c

X p c not X

p nc

Y p XY

p c X p XY

p c X p X

p c

X p c not X

p nc

R p V p nc L

p X p nc

R p V p nc L

p X p nc

R p V p nc L

p

X R V L X R V L X V V

w

i i

i i

i i

i i

i i

i i

i i

i i

n n

n n

r r

r r

r r

r r

n r n r n

n

r r

r r

n n n n n n



















(20)

5.3 Wrapper Learner (2.Erweiterung)

Anwendung des Wrappers auf ein Dokument:

Ein Wrapper (AEFS Siw) beschreibt Semantik S, gdw:

view(Siw,D) = S(D)

)}

( )

, ,..., (

| ) ,..., {(

: ) , (

(AEFS) Wrapper

Island ein

Sei

1

1 n n iw

iw iw

S Sem D

s s

w s

s D

S view

S

1. Ein Wrapper-Learner (WIM) lernt Semantik S aus „marked Text“, falls nach endlicher Zeit der Wrapper diese Semantik beschreibt 2. Ein Wrapper-Learner (WIM) lernt eine Klasse C von Wrappern, falls er jegliche Semantiken lernen kann, die durch Wrapper aus C beschrieben werden können

(21)

5.4 Lernen mit Island Wrappern

Definition:

L hen Ankersprac für

) ( mit

Wrapper Island

bounded"

- length

"

aller Menge

:

(AEFS) Wrapper

Island bounded"

- length

"

aller Menge

:

k

iw Card L k

A A iw

Theorem 3:

text"

marked

"

durch lernbar

nicht ist

Klasse

Die Aiw Theorem 4:

1 alle

für text"

marked

"

durch lernbar

ist Klasse

Die Aiwk k

Lernalgorithmus ?

(22)

6.1 Lernalgorithmus (Teil I)

(23)

6.2 Lernalgorithmus (Teil II)

(24)

6.3 Lernalgorithmus (Teil III)

(25)

7. Praxisrelevanz und Bewertung

• Algorithmus wurde bereits implementiert und an HTML getestet

• http://LExIKON.dfki.de

• Basisprinzip der Wrapper-Induction auch in diesem Ansatz vorhanden

• Theorie zeigt das Potential des gewählten Ansatzes

• Vorgestellte Wrapper-Induction bisher nur in der Praxis evaluiert

Referenzen

ÄHNLICHE DOKUMENTE

• Um den eingewickelten Wert auszulesen, muss eine entsprechende Methode der Wrapper-Klasse aufgerufen werden:. int iValue

II) Highly Dynamic Page Structures – Data fields that are NULL are often omitted from the results displayed, resulting in pages with widely varying structure. A wrapper induction

The proportion of faults in the COTS component detected by a wrapper can be used as a metric to evaluate if a wrapper design fulfils its safety specification, and if a new

[r]

The XML Wrapper assumes hierarchical XML documents mod- eled as families of virtual relational tables in a federated schema, which can then be queried to extract information from

Auf Wunsch sind Zierelemente der Instrumententafel, der Mittelkonsole sowie an den Türen statt in Aluminium auch in Klavierlackoptik schwarz hochglänzend oder Holz Esche

• DQ/Wrapper = Menge (parametrisierten) Sichten (Sicht = Anfrage, die Wrapper beantworten kann). • Definition einer DQ unabhängig von

Arbitrary: Sequenz wird bestimmt durch beliebige Funktion Recursive: Sequenz wird bestimmt durch rekursive Funktion