Grundlagen der Theoretischen Informatik / Einführung in die Theoretische Informatik I

(1)

Vorlesung

Grundlagen der Theoretischen Informatik / Einführung in die Theoretische Informatik I

Bernhard Beckert

Institut für Informatik

Sommersemester 2007

B. Beckert – Grundlagen d. Theoretischen Informatik: SS 2007 1 / 359

Dank

Diese Vorlesungsmaterialien basieren ganz wesentlich auf den Folien zu den Vorlesungen von

Katrin Erk (gehalten an der Universität Koblenz-Landau) Jürgen Dix (gehalten an der TU Clausthal)

Ihnen beiden gilt mein herzlicher Dank.

– Bernhard Beckert, April 2007

Inhalt von Teil IV

Die vonKellerautomaten(Push-Down-Automaten,PDAs) erkannten Sprachen sind genau die vom Typ 2 (kontextfrei).

Normalformenfür kontextfreie Grammatiken.

Pumping-Lemmafür kontextfreie Sprachen.

Effiziente Algorithmen fürProbleme über PDAs

Teil IV

Kellerautomaten und kontextfreie Sprachen

1 Ableitungsbäume

2 Umformung von Grammatiken

3 Normalformen

4 Pumping-Lemma für kontextfreie Sprachen

5 Pushdown-Automaten (PDAs)

6 Determinierte PDAs

7 Abschlusseigenschaften

8 Wortprobleme

9 Der CYK-Algorithmus

B. Beckert – Grundlagen d. Theoretischen Informatik: Ableitungsbäume SS 2007 217 / 359

(2)

Zur Erinnerung: kontextfreie Grammatiken

Kontextfreie Grammatiken Kontextfreie Regel:

Eine Variable wird durch ein Wort ersetzt, (egal in welchem Kontext die Variable steht) Es wird eineeinzelneVariable ersetzt.

Das Wort in der Conclusio kann Variablen und Terminale inbeliebiger Mischungenthalten.

Zur Erinnerung: kontextfreie Sprachen

Beispiel 18.1 (kontextfreie Sprachen)

{

aⁿbⁿ

|

n

∈

N0

}

{

aⁿbaⁿ

|

n

∈

N0

} {

ww^R

|

w

∈ {

a

,

b

}

^∗

}

Ableitungsbäume

Definition 18.2 (Ableitungsbaum zu einer Grammatik) Sei

G

= (

V

,

T

,

R

,

S

)

eine kontextfreie Grammatik.

EinAbleitungsbaum (parse tree)zuGist ein angeordneter Baum B

= (

W

,

E

,

v₀

)

Ableitungsbäume

Definition 18.3 (Ableitungsbaum zu einer Grammatik, Fortsetzung) Zudem muss gelten:

Jeder Knotenv

∈

W ist mit einem Symbol ausV

∪

T

∪ {ε}

markiert.

Die Wurzelv₀ist mitSmarkiert.

Jeder innere Knoten ist mit einer Variablen ausV markiert.

Jedes Blatt ist mit einem Symbol ausT

∪ {ε}

markiert.

Istv

∈

Wein innerer Knoten mit Söhnenv₁

, . . . ,

v_k in dieser Anordnung und istAdie Markierung vonv undA_i die Markierung vonv_i,

dann istA

→

A₁

. . .

A_k

∈

R.

Ein mitεmarkiertes Blatt hat keinen Bruder

(denn das entspräche einer Ableitung wieA

→

abεBc).

(3)

Ableitungsbäume

Ablesen eines Wortes vom Ableitungsbaum Wenn Wortwvon GrammatikGerzeugt wird,

dann gibt es einen Ableitungsbaum mit den Buchstaben vonw als Blätter von links nach rechts.

Merke

Die Blätter eines Ableitungsbaumes sind angeordnet.

Es gibt eine Ordnung unter den Söhnen eines Knotens.

Ableitungsbäume

Definition 18.4

Seienb₁

,

b₂Blätter. Dann:

b₁

<

b₂gdw b₁, b₂sind Brüder, und b₁liegt ”links” von b₂, oder

∃

v

,

v₁

,

v₂

∈

W v

→

v₁, v

→

v₂, v₁

<

v₂ und v_i ist Vorfahre von b_i für i

∈ {

1

,

2

}

.

Definition 18.5

Sei

{

b₁

, . . . ,

b_k

}

die Menge aller Blätter inBmitb₁

< . . . <

b_k, und seiA_i die Markierung vonb_i.

Dann heißt das WortA₁

. . .

A_k dieFrontvonB.

Ableitungsbäume

Theorem 18.6

Sei G

= (

V

,

T

,

R

,

S

)

eine kontextfreie Grammatik.

Dann gilt für w

∈

T^∗: S

= ⇒

^∗_G w

gdw Es existiert ein Ableitungsbaum zu G mit Front w .

Beweis.

Einfach aus den Definitionen.

Ableitungsbäume: Beispiel

Beispiel 18.7

Grammatik für die Menge aller aussagenlogischen Formeln über den Variablen

{

x

,

x₀

,

x₁

,

x₂

, . . .}

:

G

= ({

S

,

A

,

N

,

N⁰

}, {

x

,

0

, . . . ,

9

,(, ),∧,∨,¬},

R

,

S

)

mit der Regelmenge

R

= {

S

→ (

S

∧

S

) | (

S

∨

S

) | ¬

S

|

A A

→

x

|

xN

N

→

1N⁰

|

2N⁰

| . . . |

9N⁰

|

0 N⁰

→

0N⁰

|

1N⁰

| . . . |

9N⁰

|

ε}

(4)

Ableitungsbäume: Beispiel

Ableitungsbaum für((¬x∧x38)∨x2)

A x S

N

’ N ε S

( S )

( )

S A x

2 S

’ 3 S A x

8

N ε

N N’

Ableitungsbäume: Beispiel

Ableitung für((¬x∧x38)∨x2)

Der Ableitungsbaum steht für vieleäquivalenteAbleitungen, darunter diese:

S

(

S

∨

S

) ⇒

((

S

∧

S

) ∨

S

) ⇒ ((¬

S

∧

S

) ∨

S

) ⇒ ((¬

A

∧

S

) ∨

S

) ⇒ ((¬

x

∧

S

) ∨

S

) ⇒ ((¬

x

∧

A

) ∨

S

) ⇒ ((¬

x

∧

xN

) ∨

S

) ⇒ ((¬

x

∧

x3N⁰

) ∨

S

) ⇒ ((¬

x

∧

x38N⁰

) ∨

S

) ⇒ ((¬

x

∧

x38

) ∨

S

) ⇒ ((¬

x

∧

x38

) ∨

A

) ⇒ ((¬

x

∧

x38

) ∨

xN

) ⇒ ((¬

x

∧

x38

) ∨

x2N⁰

) ⇒ ((¬

x

∧

x38

) ∨

x2

)

Links- und Rechtsableitung

Definition 18.8 (Linksableitung) Eine Ableitung

w₁

= ⇒

_Gw₂

= ⇒

_G

. . . = ⇒

_G w_n

heißtLinksableitungfallsw_i₊₁durch Ersetzen der linkesten Variable inw_i entsteht für allei

<

n.

DieRechtsableitungist analog definiert.

Mehrdeutigkeit

Definition 18.9 (Mehrdeutigkeit) Eine cf-GrammatikGheißtmehrdeutig

gdw

es gibt ein Wortw

∈

L

(

G

)

,

zu dem es inGzwei verschiedene Linksableitungengibt.

EineSpracheL

∈

L₂heißtinhärent mehrdeutig gdw

alle kontextfreien Grammatiken fürLsind mehrdeutig.

Bemerkung

Eine GrammatikGist mehrdeutig, gdw :

es gibt zwei verschiedene Ableitungsbäume inGmit gleicher Front.

(5)

Mehrdeutigkeit: Beispiele

Beispiel 18.10 (Mehrdeutigkeit)

EindeutigeGrammatik für aussagenlogische Formeln:

S

→ (

S

∧

S

) | (

S

∨

S

) | ¬

S

|

A A

→

x

|

xN

N

→

1N⁰

|

2N⁰

| . . . |

9N⁰

|

0 N⁰

→

0N⁰

|

1N⁰

| . . . |

9N⁰

|

ε}

MehrdeutigeGrammatik für aussagenlogische Formeln:

K

→

K

∧

K

|

D Regel mit Klammer-Ersparnis!

D

→ (

D

∨

D

) |

L L

→ ¬

A

|

A

→

v

|

w

|

x

|

y

|

z

Mehrdeutigkeit: Beispiele

D L A x

D L

y K

K K

D (

D ) D L A

v w

A L

K

K D

L A

x y

L D

K K

D ( D D )

L L

A A

w v

Mehrdeutigkeit: Beispiele

Beispiel 18.11 (Inhärente Mehrdeutigkeit) Die Sprache

L:=

{

aⁱb^jc^k

|

i

=

j oderj

=

k

}

istinhärent mehrdeutig.

Teil IV

Kellerautomaten und kontextfreie Sprachen

1 Ableitungsbäume

2 Umformung von Grammatiken

3 Normalformen

4 Pumping-Lemma für kontextfreie Sprachen

5 Pushdown-Automaten (PDAs)

6 Determinierte PDAs

7 Abschlusseigenschaften

8 Wortprobleme

9 Der CYK-Algorithmus

B. Beckert – Grundlagen d. Theoretischen Informatik: Umformung von Grammatiken SS 2007 233 / 359

(6)

Startsymbol nur links

Einfache Annahme

Im folgenden soll für alle cf-Grammatiken gelten:

Das StartsymbolSkommt nie auf einer rechten Regelseite vor.

Umformung

Ist das bei einer Grammatik nicht gegeben, kann man es wie folgt erreichen:

Führe ein neues StartsymbolS_neuein Füge die Regel

S_neu

→

S hinzu.

Nutzlose Symbole

Nutzlose Symbole und Regeln: Intuition

Variablen und Symbole, die vom Startsymbol aus unerreichbar sind.

Variablen, von denen aus kein Terminalwort abgeleitet werden kann.

Regeln, die solche Variablen und Symbole enthalten

Nutzlose Symbole

Definition 19.1 ((co-)erreichbare, nutzlose Symbole) SeiG

= (

V

,

T

,

R

,

S

)

eine Grammatik.

Ein Symbolx

∈ (

V

∪

T

)

heißt

erreichbar: Es gibtα

,

β

∈ (

V

∪

T

)

^∗:S

= ⇒

^∗_G α^xβ co-erreichbar: Es gibtw

∈

T^∗:x

= ⇒

^∗_G w

nutzlos: xist nicht erreichbar oder nicht co-erreichbar.

Nutzlose Symbole

Theorem 19.2 (cf-Grammatik ohne nutzlose Symbole) Ist G

= (

V

,

T

,

R

,

S

)

eine cf-Grammatik mit L

(

G

) 6=

0/, dann existiert eine cf-Grammatik G⁰

= (

V⁰

,

T⁰

,

R⁰

,

S⁰

)

mit:

G⁰ist äquivalent zu G.

Jedes x

∈ (

V

∪

T

)

ist erreichbar und co-erreichbar.

Beweis

Man kannG⁰ausGeffektiv konstruieren:

Wie im folgenden beschrieben, die nutzlosen Symbole bestimmen.

Diese Symbole und alle Regeln, die sie enthalten, entfernen.

(7)

Nutzlose Symbole

Algorithmus zur Berechnung der co-erreichbaren Variablen Input:GrammatikG

= (

V

,

T

,

R

,

S

)

Output:co-erreichbare Variablen Alt :=0/

Neu :=

{

A

∈

V

| ∃

w

∈

T^∗

(

A

→

w

∈

R

)}

whileAlt

6=

Neu

{

Alt := Neu

Neu := Alt

∪ {

A

∈

V

| ∃α ∈ (

T

∪

Alt)^∗

(

A

→

α

∈

R

)}

}

outputNeu

Nutzlose Symbole

Algorithmus zur Berechnung der erreichbaren Symbole Input:GrammatikG

= (

V

,

T

,

R

,

S

)

Output:erreichbare Symbole Alt :=0/

Neu :=

{

S

}

whileAlt

6=

Neu

{

Alt :=Neu

Neu :=Alt

∪ {

x

∈ (

V⁰⁰

∪

T⁰⁰

) | ∃

A

∈

Alt

∃α,

β

∈ (

V⁰⁰

∪

T⁰⁰

)

^∗

(

A

→

αxβ

∈

R

)}

}

outputNeu

Normalform für Regeln

Theorem 19.3 (Normalform)

Zu jeder Grammatik G (beliebigen Typs) existiert eine äquivalente Grammatik G⁰, bei der für alle Regeln P

→

Q

∈

R⁰gilt:

Q

∈

V^∗und P beliebig Q

∈

T und P

∈

V

Für alle Typen außer den linearen hat G⁰denselben Typ wie G.

Normalform für Regeln

Beweis.

Für jedes Terminalt

∈

T erzeuge man eine neue VariableV_t. V⁰

=

V

∪ {

V_t

|

t

∈

T

}

R⁰entsteht ausR, indem für jede RegelP

→

Q

∈

RinQalle Vorkommen eines Terminalstdurch die zugehörige VariableV_t ersetzt werden.

Außerdem enthältR⁰für jedest

∈

T eine neue RegelV_t

→

t. AlsoL

(

G⁰

) =

L

(

G

)

,

und für alle Sprachklassen außerL3hatG⁰denselben Typ wieG.

(8)

Elimination von ε -Regeln

Idee

Variablen, aus denenεableitbar ist, sollten eliminiert werden

Definition 19.4 (ε-Regel, nullbare Variablen) Eine Regel der Form

P

→

ε (Peine Variable) heißtε-Regel.

Eine VariableAheißtnullbar, falls

A

= ⇒

^∗ε

Elimination von ε -Regeln

Theorem 19.5 (ε-Regeln sind eliminierbar)

Zu jeder cf-Grammatik G existiert eine äquivalente cf-Grammatik G⁰ ohneε-Regeln und nullbare Variablen,

fallsε

6∈

L

(

G

)

,

mit der einzigenε-Regel S

→

εund der einzigen nullbaren Variablen S, fallsε

∈

L

(

G

)

und S das Startsymbol ist.

Elimination von ε -Regeln

Algorithmus zur Berechnung der nullbaren Variablen

Input:GrammatikG

= (

V

,

T

,

R

,

S

)

So.B.d.A. in keiner Regel rechts Output:nullbare Variablen

Alt:=0/

Neu:=

{

A

∈

V

|

A

→

ε

∈

R

}

whileAlt

6=

Neu

{

Alt:=Neu

für alle

(

P

→

Q

) ∈

Rdo

{

ifQ

=

A₁

. . .

A_n andA_i

∈

Neufür 1

≤

i

≤

nandP

6∈

Neu

,

thenNeu:=Neu

∪ {

P

} }

}

outputNeu

Elimination von ε -Regeln

Beweis (Forts.)

AusgangsgrammatikGhabe die Normalform, bei der für jede RegelP

→

Q:

Q

∈

V^∗oderQ

∈

T.

Für jede RegelP

→

A₁

. . .

A_ngeneriere alle möglichen Kombinationen P

→

α1

. . .

αn

mit

αi

∈ {ε,

A_i

}

fallsA_i nullbar α_i

=

A_i fallsA_i nicht nullbar Dann

Füge alle diese neuen Regeln zur Grammatik hinzu Entferne alle Regeln der FormA

→

εmitA

6=

S

(9)

Elimination von ε -Regeln

Beweis (Forts.) Zu zeigen:

Für die neue GrammatikG⁰gilt:L

(

G⁰

) =

L

(

G

)

Vorgehen:

Ghat die Normalform:

Für jede RegelP

→

QgiltQ

∈

V^∗oderQ

∈

T. Wir beweisen die etwas stärkere Behauptung

für alleA

∈

V für allew

∈ (

V

∪

T

)

^∗

− {ε}

(

A

= ⇒

^∗_G w

)

gdw

(

A

= ⇒

^∗

G0 w

) ,

Daraus folgt sofortL

(

G⁰

) =

L

(

G

)

.

Elimination von ε -Regeln

Beweis (Forts.)

”⇒” Wir zeigen: AusA

= ⇒

^∗_GwfolgtA

= ⇒

^∗

G0 w(Induktion über Länge einer Ableitung vonAnachwinG).

Induktionsanfang: Länge = 0.

Dann istw

=

A, undA

= ⇒

^∗

G0 Agilt immer.

Induktionsschritt: Es sei schon gezeigt: Wenn inGinn Schritten eine AbleitungB

= ⇒

^∗_Gudurchgeführt werden kann, dann folgt, daß inG⁰die Ableitung B

= ⇒

^∗

G0 umöglich ist.

Elimination von ε -Regeln

Beweis (Forts.)

Außerdem gelte in der AusgangsgrammatikG:A

= ⇒

^∗_Gw

6=

εinn

+

1 Schritten.

Dann gilt:

A

= ⇒

_G w⁰

= ⇒

^∗_G w, w⁰

=

A₁

. . .

A_`

= ⇒

^∗

Gw₁

. . .

w_`

=

w,

und es wird jeweilsA_i zuw_i in höchstensnSchritten für geeignete w⁰

,

A₁

, . . . ,

A_`

,

w₁

, . . . ,

w_`.

Per Induktionsvoraussetzung gilt also schon:

EntwederAi=⇒^∗

G0 wi

oderw_i=εfür 1≤i≤`.

Elimination von ε -Regeln

Beweis (Forts.)

Fall 1: w_i

=

ε,A_i ist nullbar.

Dann gibt es inG⁰eine RegelA

→

A₁

. . .

A_i₋₁A_i₊₁

. . .

A_`nach der obigen Konstruktionsvorschrift fürG⁰, falls

A₁

. . .

A_i₋₁A_i₊₁

. . .

A_`

6=

ε. Das ist der Fall, denn sonst hätten wir:

A

= ⇒

w⁰

=

ε

= ⇒

^∗w

=

ε(aus nichts wird nichts), aberw

=

ε^ist ausgeschlossen.

Fall 2: w_i

6=

ε. Dann gilt nach Induktionsvoraussetzung A_i

= ⇒

^∗

G0 w_i.

(10)

Elimination von ε -Regeln

Beweis (Forts.)

Wir haben also folgendes gezeigt:

SeiI

= {

i

∈ {

1

. . . `} |

w_i

6=

ε} 6=0/^.

Dann gibt es inR⁰eine RegelA

→

A_i₁

. . .

A_i_mmitI

= {

i₁

, . . . ,

i_m

}

, und dieA_i sind so angeordnet wie in der ursprünglichen RegelA

→

A₁

. . .

A_`.

Mit dieser neuen Regel können wirwso ableiten:

A

= ⇒

_G₀ A_i₁

. . .

A_i_m

= ⇒

^∗

G0 w_i₁

. . .

w_i_m

=

w

Elimination von ε -Regeln

Beweis (Forts.)

”⇐” Wir zeigen: AusA

= ⇒

^∗

G0 wfolgtA

= ⇒

^∗_G w(Induktion über Länge einer Ableitung vonAnachw inG⁰):

Induktionsanfang: Länge = 0. Dann istw

=

A, undA

= ⇒

^∗

GAgilt immer.

Induktionsschritt: Es gelte für alle AbleitungenA

= ⇒

^∗

G0 weiner Länge von höchstensn, daßA

= ⇒

^∗_G w.

IstA

= ⇒

^∗

G0 weine Ableitung der Längen

+

1, so gibt es ein

`

, Wörterw₁

, . . . ,

w_`und VariablenA₁

, . . . ,

A_`mitA

= ⇒

_G₀ A₁

. . .

A_`

= ⇒

^∗

G0 w

=

w₁

. . .

w_`. Es gilt jeweilsA_i

= ⇒

^∗

G0 w_i in höchstensnSchritten, undw_i

6=

ε.

Elimination von ε -Regeln

Beweis (Forts.)

Nach der Induktionsvoraussetzung folgt daraus:

für die OriginalgrammatikGgibt es AbleitungenA_i

= ⇒

^∗

Gw_i damit gibt es auch eine AbleitungA₁

. . .

A_`

= ⇒

^∗_Gw.

Da es inG⁰eine AbleitungA

= ⇒

G0 A₁

. . .

A_`gibt, gibt es inR⁰eine Regel

A

→

A₁

. . .

A_`. Wie ist diese Regel ausRentstanden?

Eine Regel inR⁰entsteht aus einer Regel inR, indem einige nullbare Variablen gestrichen werden. Es gab also inGnullbare VariablenB₁bisB_m, so daßRdie Regel

A

→

A₁

. . .

A_`₁B₁A_`₁₊₁

. . .

A_`₂B₂

. . .

A_mB_mA_m₊₁

. . .

A_`

enthält. (mkann auch 0 sein, dann war die Regel selbst schon inR.)

Elimination von ε -Regeln

Beweis (Forts.) Also gilt inG:

A

= ⇒

_GA₁

. . .

A_`₁B₁A_`₁₊₁

. . .

A_`₂B₂

. . .

A_mB_mA_m₊₁

. . .

A_`

= ⇒

^∗

GA₁

. . .

A_`₁A_`₁₊₁

. . .

A_`₂

. . .

A_mA_m₊₁

. . .

A_`

= ⇒

^∗

Gw da jaB_i

= ⇒

^∗_Gεmöglich ist.

(11)

Elimination von ε -Regeln: Beispiel

Beispiel 19.6

R: R⁰:

S

→

ABD S

→

ABD

|

AD

|

BD

|

D A

→

ED

|

BB A

→

ED

|

BB

|

B B

→

AC

|

ε B

→

AC

|

A

|

C C

→

ε

D

→

d D

→

d

E

→

e E

→

e

Für die RegelmengeRin der linken Spalte sind die VariablenA

,

B

,

Cnullbar.

Der obige Algorithmus erzeugt ausRdie rechts aufgeführte RegelmengeR⁰.

Elimination von ε -Regeln

Beobachtung

Der Algorithmus lässt nutzlose Variablen zurück, die nicht in Prämissen auftauchen

(und deshalb nicht co-erreichbar sind).

Hier:C.

Der Algorithmus lässt nutzlose Regeln zurück.

Hier:B

→

AC

|

C.