( ) = { | ∈{ , } } = { → | | | } GrundlagenderTheoretischenInformatik/EinführungindieTheoretischeInformatikI =( { } , { , } , , ) Chart-Parsing Chart-Parsing Dank

(1)

Vorlesung

Grundlagen der Theoretischen Informatik / Einführung in die Theoretische Informatik I

Bernhard Beckert

Institut für Informatik

Sommersemester 2007

B. Beckert – Grundlagen d. Theoretischen Informatik: SS 2007 1 / 328

Diese Vorlesungsmaterialien basieren ganz wesentlich auf den Folien zu den Vorlesungen von

Katrin Erk (gehalten an der Universität Koblenz-Landau) Jürgen Dix (gehalten an der TU Clausthal)

Ihnen beiden gilt mein herzlicher Dank.

– Bernhard Beckert, April 2007

Chart-Parsing

Beispiel 7.1

Die Grammatik G = ({ S },{ a , b }, R , S ) mit

R = { S → aSa | bSb | aa | bb }

erzeugt die Sprache { vv ^R | v ∈ { a , b } ⁺ } Betrachten wir das Wort w = abbaabba.

Was sind mögliche letzte Schritte von Ableitungen, die zu w geführt haben können?

Wir merken uns alle möglichen einzelnen Ableitungsschritte in einer Chart, um Mehrfacharbeit zu vermeiden.

Wenn das Wort w in der Sprache L ( G ) ist,

enthält am Ende der Chart eine mit S markierte Kante, die vom ersten bis zum letzten Knoten reicht.

Chart-Parsing

Beispiel (Forts.)

a b b a

S S

a b b a

S

(2)

Chart-Parsing

Beispiel (Forts.)

a b b a

S S

a b b a

S S

Chart-Parsing

Beispiel (Forts.)

a b b a

S S

a b b a

S S

S

Chart-Parsing

Beispiel (Forts.)

a b b a

S S

a b b a

S S

S

Chart-Parsing

Beispiel (Forts.)

a b b a

S S

a b b a

S S

S

(3)

a b b a

S S

a b b a

S S

S

S S

Zur Vereinfachung Wir fordern:

Grammatik ist in Chomsky-Normalform.

Dann:

Immer nur zwei benachbarte Kanten betrachten, um herauszufinden, ob darüber eine neue Kante eingefügt werden kann.

Chart-Parsing

Beispiel (Forts.)

Grammatik in CNF, die dieselbe Sprache wie oben erzeugt:

G = ({ S , S _a , S _b , A , B },{ a , b }, R , S } mit

R = { S → AS _a | BS _b | AA | BB S _a → SA

S _b → SB A → a B → b }

Chart-Parsing

Darstellung als Array

Für eine Kante, die den i . bis j. Buchstaben überspannt und mit A markiert ist, steht im [ i , j ] -Element des Arrays die Eintragung A.

Definition 7.2 (M ∗ N)

Sei L = L ( G ) kontextfrei, und G = ( V , T , R , S ) in Chomsky-Normalform. Mit M , N ⊆ V sei

M ∗ N := { A ∈ V | ∃ B ∈ M ,∃ C ∈ N : A → BC ∈ R }

(4)

Chart-Parsing

Definition 7.3 (w i , j , V i , j ) Sei w = a ₁ . . . a _n mit a _i ∈ Σ ^. Dann:

w _i _, _j := a _i . . . a _j ist das Infix von w vom i-ten bis zum j-ten Buchstaben V _i _, _j := { A ∈ V | A = ⇒ ^∗

_G

w _i _, _j }

Chart-Parsing

Lemma 7.4

Sei w = a ₁ . . . a _n , a _i ∈ Σ , d.h. | w | = n. Dann gilt:

1

V _i _, _i = { A ∈ V | A → a _i ∈ R }

2

V _i _, _k =

k − 1

S

j = i

V _i _, _j ∗ V _j ₊ ₁ _, _k für 1 ≤ i < k ≤ n

Beachte:

Die Grammatik muss in Chomsky-Normalform sein!

Chart-Parsing

Beweis

1

V _i _, _i = { A ∈ V | A = ⇒ ^∗

_G

a _i } = { A ∈ V | A → a _i ∈ R } , da G in CNF ist.

2

A ∈ V _i _, _k mit 1 ≤ i < k ≤ n gdw A = ⇒ ^∗

_G

a _i . . . a _k

gdw ∃ j , i ≤ j < k : ∃ B , C ∈ V : A = ⇒ BC, und B = ⇒ ^∗

_G

w _i _, _j 6= ε

und C = ⇒ ^∗

_G

w _j ₊ ₁ _, _k 6= ε (da G in CNF ist) gdw ∃ j , i ≤ j < k : ∃ B , C ∈ V : A = ⇒ BC

und B ∈ V _i _, _j und C ∈ V _j ₊ ₁ _, _k gdw ∃ j , i ≤ j < k : A ∈ V _i _, _j ∗ V _j ₊ ₁ _, _k

Teil IV

1 Ableitungsbäume

2 Umformung von Grammatiken

3 Normalformen

4 Pumping-Lemma für kontextfreie Sprachen

5 Pushdown-Automaten (PDAs)

6 Abschlusseigenschaften

7 Wortprobleme

8 Der CYK-Algorithmus

B. Beckert – Grundlagen d. Theoretischen Informatik: Der CYK-Algorithmus SS 2007 124 / 328

(5)

Algorithmus

Input sei eine Grammatik G in CNF und ein Wort w = a ₁ . . . a _n ∈ Σ ^∗ . (i) for i := 1 to n do / ∗ Regeln A → a eintragen ∗ /

V _i _, _i := { A ∈ V | A → a _i ∈ R } (ii) for h := 1 to n − 1 do

for i := 1 to n − h do V _i _, _i ₊ _h =

i + h − 1

S

j = i

V _i _, _j ∗ V _j ₊ ₁ _, _i ₊ _h

(iii) if S ∈ V ₁ _, _n then return Ausgabe w ∈ L ( G ) else return Ausgabe w 6∈ L ( G )

Eigenschaften

Für Wörter der Länge | w | = n entscheidet der CYK-Algorithmus in der Größenordnung von n ³ Schritten, ob w ∈ L ( G ) ist.

CYK-Algorithmus (Cocke-Younger-Kasami)

Beispiel 8.1 (CYK)

Eine Grammatik in CNF, die dieselbe Sprache wie oben erzeugt:

G = ({ S , S _a , S _b , A , B },{ a , b }, R , S }

R = { S → AS _a | BS _b | AA | BB S _a → SA

S _b → SB A → a B → b }

Die Sprache ist: L ( G ) = { vv ^R | v ∈ { a , b } ⁺ } Auführlich an der Tafel.

( ) = { | ∈{ , } } = { → | | | } GrundlagenderTheoretischenInformatik/EinführungindieTheoretischeInformatikI =( { } , { , } , , ) Chart-Parsing Chart-Parsing Dank

Vorlesung

Grundlagen der Theoretischen Informatik / Einführung in die Theoretische Informatik I

Bernhard Beckert

Institut für Informatik

Sommersemester 2007

Diese Vorlesungsmaterialien basieren ganz wesentlich auf den Folien zu den Vorlesungen von

Katrin Erk (gehalten an der Universität Koblenz-Landau) Jürgen Dix (gehalten an der TU Clausthal)

Ihnen beiden gilt mein herzlicher Dank.

– Bernhard Beckert, April 2007

Chart-Parsing

Beispiel 7.1

Die Grammatik G = ({ S },{ a , b }, R , S ) mit

R = { S → aSa | bSb | aa | bb }

erzeugt die Sprache { vv R | v ∈ { a , b } + } Betrachten wir das Wort w = abbaabba.

Was sind mögliche letzte Schritte von Ableitungen, die zu w geführt haben können?

Wir merken uns alle möglichen einzelnen Ableitungsschritte in einer Chart, um Mehrfacharbeit zu vermeiden.

Wenn das Wort w in der Sprache L ( G ) ist,

enthält am Ende der Chart eine mit S markierte Kante, die vom ersten bis zum letzten Knoten reicht.

Chart-Parsing

Beispiel (Forts.)

a b b a

S S

a b b a

S

Chart-Parsing

Beispiel (Forts.)

a b b a

S S

a b b a

S S

Chart-Parsing

Beispiel (Forts.)

a b b a

S S

a b b a

S S

S

Chart-Parsing

Beispiel (Forts.)

a b b a

S S

a b b a

S S

S

S

Chart-Parsing

Beispiel (Forts.)

a b b a

S S

a b b a

S S

S

S

S

a b b a

S S

a b b a

S S

S

S

S S

Zur Vereinfachung Wir fordern:

Grammatik ist in Chomsky-Normalform.

Dann:

Immer nur zwei benachbarte Kanten betrachten, um herauszufinden, ob darüber eine neue Kante eingefügt werden kann.

Chart-Parsing

Beispiel (Forts.)

Grammatik in CNF, die dieselbe Sprache wie oben erzeugt:

G = ({ S , S a , S b , A , B },{ a , b }, R , S } mit

R = { S → AS a | BS b | AA | BB S a → SA

S b → SB A → a B → b }

Chart-Parsing

Darstellung als Array

Für eine Kante, die den i . bis j. Buchstaben überspannt und mit A markiert ist, steht im [ i , j ] -Element des Arrays die Eintragung A.

Definition 7.2 (M ∗ N)

Sei L = L ( G ) kontextfrei, und G = ( V , T , R , S ) in Chomsky-Normalform. Mit M , N ⊆ V sei

M ∗ N := { A ∈ V | ∃ B ∈ M ,∃ C ∈ N : A → BC ∈ R }

Chart-Parsing

Definition 7.3 (w i , j , V i , j ) Sei w = a 1 . . . a n mit a i ∈ Σ . Dann:

erzeugt die Sprache { vv ^R | v ∈ { a , b } ⁺ } Betrachten wir das Wort w = abbaabba.

G = ({ S , S _a , S _b , A , B },{ a , b }, R , S } mit

R = { S → AS _a | BS _b | AA | BB S _a → SA

S _b → SB A → a B → b }

Definition 7.3 (w i , j , V i , j ) Sei w = a ₁ . . . a _n mit a _i ∈ Σ ^. Dann:

w _i _, _j := a _i . . . a _j ist das Infix von w vom i-ten bis zum j-ten Buchstaben V _i _, _j := { A ∈ V | A = ⇒ ^∗

w _i _, _j }

Sei w = a ₁ . . . a _n , a _i ∈ Σ , d.h. | w | = n. Dann gilt:

V _i _, _i = { A ∈ V | A → a _i ∈ R }

V _i _, _k =

V _i _, _j ∗ V _j ₊ ₁ _, _k für 1 ≤ i < k ≤ n

V _i _, _i = { A ∈ V | A = ⇒ ^∗

a _i } = { A ∈ V | A → a _i ∈ R } , da G in CNF ist.

A ∈ V _i _, _k mit 1 ≤ i < k ≤ n gdw A = ⇒ ^∗

a _i . . . a _k

gdw ∃ j , i ≤ j < k : ∃ B , C ∈ V : A = ⇒ BC, und B = ⇒ ^∗

w _i _, _j 6= ε

und C = ⇒ ^∗

w _j ₊ ₁ _, _k 6= ε (da G in CNF ist) gdw ∃ j , i ≤ j < k : ∃ B , C ∈ V : A = ⇒ BC

und B ∈ V _i _, _j und C ∈ V _j ₊ ₁ _, _k gdw ∃ j , i ≤ j < k : A ∈ V _i _, _j ∗ V _j ₊ ₁ _, _k

Input sei eine Grammatik G in CNF und ein Wort w = a ₁ . . . a _n ∈ Σ ^∗ . (i) for i := 1 to n do / ∗ Regeln A → a eintragen ∗ /

V _i _, _i := { A ∈ V | A → a _i ∈ R } (ii) for h := 1 to n − 1 do

for i := 1 to n − h do V _i _, _i ₊ _h =

V _i _, _j ∗ V _j ₊ ₁ _, _i ₊ _h

(iii) if S ∈ V ₁ _, _n then return Ausgabe w ∈ L ( G ) else return Ausgabe w 6∈ L ( G )

Für Wörter der Länge | w | = n entscheidet der CYK-Algorithmus in der Größenordnung von n ³ Schritten, ob w ∈ L ( G ) ist.

G = ({ S , S _a , S _b , A , B },{ a , b }, R , S }

R = { S → AS _a | BS _b | AA | BB S _a → SA

S _b → SB A → a B → b }

Die Sprache ist: L ( G ) = { vv ^R | v ∈ { a , b } ⁺ } Auführlich an der Tafel.