ReguläreSprachen:Formalismen FormaleSprachenundKomplexität ReguläreSprachen Inhaltsübersicht DeterministischeendlicheAutomaten

(1)

Formale Sprachen und Komplexit¨ at

Sommersemester 2019

Regul¨ are Sprachen: Formalismen

Prof. Dr. David Sabel

LFE Theoretische Informatik

Letzte ¨Anderung der Folien: 4. Juni 2019

Regul¨ are Sprachen

Wiederholung:

Eine Sprache heißt regul¨ ar (bzw. vom Typ 3), wenn sie von einer Typ 3-Grammatik erzeugt wird.

Eine Grammatik G = (V, Σ, P, S) ist vom Typ 3 (bzw. regul¨ ar), wenn alle Produktionen von der Form

A → a oder A → aB mit A, B ∈ V und a ∈ Σ sind.

TCS | 02 Reguläre Sprachen (I) | SoSe 2019 2/58 DFAs NFAs NFAs+ε Reguläre Ausdrücke Zusammenf.

Inhalts¨ ubersicht

Deterministische endliche Automaten Nichtdeterministische endliche Automaten Regul¨ are Ausdr¨ ucke

Aquivalenz der Formalismen ¨

Deterministische endliche Automaten

Die informelle Kurzfassung:

Endliche Automaten lesen Zeichenweise ein Eingabewort Wechseln dabei den Zustand (eindeutig)

Nur endlich viele Zust¨ ande Starten im Startzustand

Nach Lesen der Eingabe: Akzeptieren oder Verwerfen Akzeptieren = in einem Endzustand

Verwerfen = in keinem Endzustand

Akzeptierte Sprache = alle Worte, f¨ ur die der Automat akzeptiert

(2)

DFA: Definition

Definition (Deterministischer Endlicher Automat, DFA) Ein deterministischer endlicher Automat (determinististic finite automaton, DFA) ist ein 5-Tupel M = (Z, Σ, δ, z

₀

, E) wobei

Z ist eine endliche Menge von Zust¨ anden,

Σ ist das (endliche) Eingabealphabet mit (Z ∩ Σ) = ∅, z

₀

∈ Z ist der Startzustand,

E ⊆ Z ist die Menge der Endzust¨ ande (oder auch akzeptierende Zust¨ ande) und

δ : Z × Σ → Z ist die Zustands¨ uberf¨ uhrungsfunktion (oder nur Uberf¨ ¨ uhrungsfunktion).

Zustandsgraph eines DFA

F¨ ur DFA M = (Z, Σ, δ, z

₀

, E) F¨ ur z ∈ Z gibt es Knoten z

Startzustand z

₀

∈ Z: eingehender Pfeil z

₀

, Endzust¨ ande z ∈ E: doppelte Kreise z , Uberg¨ ¨ ange δ(z

_i

, a) = z

_j

als Kante z

_i

a z

_j

und statt z

_i

z

_j

a

b

zeichnen wir z

_i

a, b z

_j

.

Beispiel

DFA M = ({z

₀

, z

₁

, z

₂

}, {a, b}, δ, z

₀

, {z

₂

}) mit δ(z

₀

, a) = z

₁

δ(z

₁

, b) = z

₀

δ(z

₀

, b) = z

₀

δ(z

₂

, a) = z

₂

δ(z

₁

, a) = z

₂

δ(z

₂

, b) = z

₂

z z z

₀₀₀

z z

₁₁

z z z

₂₂₂

b

b a a

a a b

b

a, b a, b

Abarbeitung von abbaaa:

Starte in z

₀

Lese a und wechsle in z

₁

Lese b und wechsle in z

₀

Lese b und wechsle in z

₀

Lese a und wechsle in z

₁

Lese a und wechsle in z

₂

Lese a und wechsle in z

₂

Akzeptiere

Abarbeitung von bbab:

Starte in z

₀

Lese b und wechsle in z

₀

Lese b und wechsle in z

₀

Lese a und wechsle in z

₁

Lese b und wechsle in z

₀

Verwerfe

Akzeptierte Spraches eines DFA

Definition (Akzeptierte Sprache eines DFA) Sei M = (Z, Σ, δ, z

₀

, E) ein DFA.

Wir definieren die Funktion b δ : Z × Σ

^∗

→ Z durch b δ(z, ε) := z und b δ(z, aw) := δ(δ(z, a), w) b Die von M akzeptierte Sprache ist

L(M) := {w ∈ Σ

^∗

| b δ(z

₀

, w) ∈ E}.

δ b wendet δ solange an, bis das Eingabewort abgearbeitet ist

(3)

Beispiel

DFA M = ({z

₀

, z

₁

, z

₂

}, {a, b}, δ, z

₀

, {z

₂

}) mit δ(z

₀

, a) = z

₁

δ(z

₁

, b) = z

₀

δ(z

₀

, b) = z

₀

δ(z

₂

, a) = z

₂

δ(z

₁

, a) = z

₂

δ(z

₂

, b) = z

₂

z

₀

z

₁

z

₂

b

a

a b

a, b

L(M) = {uaav | uv ∈ {a, b}

^∗

}

Beispiel: DFA konstruieren

Konstruiere DFA ¨ uber Σ = {a, b} der alle Worte akzeptiert, die mit abaa beginnen und mit bab enden:

z

0

z

1

z

2

z

3

z

4

z

5

z

6

z

7

z

8

a, b

a b a a

b a b b

b a b

a a

a b b

Beispiel: DFA konstruieren (2)

Zus¨ atzlich die W¨ orter a und ab akzeptieren

z

0

z

1

z

2

z

3

z

4

z

5

z

6

z

7

z

8

a, b

a b a a

b a b b

b a b

a a

a b b

Lauf

Definition

Sei M = (Z, Σ, δ, z

₀

, E) ein DFA und w ∈ Σ

^∗

mit |w| = n.

Die Folge von Zust¨ anden q

₀

, . . . , q

_n

mit q

₀

= z

₀

und

q

_i

= δ(q

_i−1

, w[i]) bezeichnet man als Lauf von M f¨ ur Wort w.

F¨ ur eine solchen Lauf schreiben wir auch:

q

₀

−−→

^w[1]

q

₁

−−→ · · ·

^w[2]

−−−−→

^w[n−1]

q

n−1

−−→

w[n]

q

_n

(4)

DFAs akzeptieren regul¨ are Sprachen

Theorem 4.2.1

Sei M = (Z, Σ, δ, z

₀

, E) ein DFA. Dann ist L(M) regul¨ ar.

Beweis: Sei G = (V, Σ, P, S) die regul¨ are Grammatik mit V = Z, S = z

₀

, P = {z

_i

→ az

_j

| δ(z

_i

, a) = z

_j

}

∪ {z

_i

→ a | δ(z

_i

, a) = z

_j

∧ z

_j

∈ E}

∪ {z

₀

→ ε | falls z

₀

∈ E}

Offensichtlich ε ∈ L(M ) ⇐⇒ ε ∈ L(G). Ansonsten:

w = a

₁

· · · a

_m

∈ L(M )

g.d.w. es gibt z

₁

, . . . , z

_m

∈ Z mit δ(z

_i−1

, a

_i

) = z

_i

und z

_m

∈ E.

g.d.w. z

₀

⇒

_G

a

₁

z

₁

, f¨ ur 1 ≤ i < m: a

₁

· · · a

_i−1

z

_i−1

⇒

_G

a

₁

· · · a

_i

z

_i

und a

₁

· · · a

_m−1

z

_m−1

⇒

_G

a

₁

· · · a

_m

, d.h. z

₀

⇒

^∗_G

a

₁

· · · a

_m

g.d.w. w = a

₁

· · · a

_m

∈ L(G)

Daher gilt L(M ) = L(G) und somit ist L(M) regul¨ ar.

Beispiel: Konstruktion Typ 3-Grammatik aus DFA

DFA M = ({z

₀

, z

₁

, z

₂

}, {a, b}, δ, z

₀

, {z

₂

}) mit δ(z

₀

, a) = z

₁

δ(z

₁

, b) = z

₀

δ(z

₀

, b) = z

₀

δ(z

₂

, a) = z

₂

δ(z

₁

, a) = z

₂

δ(z

₂

, b) = z

₂

z

₀

z

₁

z

₂

b

a

a b

a, b

Die erzeugte regul¨ are Grammatik dazu ist:

G = ( {z

₀

, z

₁

, z

₂

}, {a, b}, P, z

₀

) mit P = {z

₀

→ az

₁

| bz

₀

,

z

₁

→ az

₂

| a | bz

₀

, z

₂

→ az

₂

| a | bz

₂

| b}

.

Wird jede regul¨ are Sprache durch einen DFA akzeptiert?

Der vorherige Beweis konstruiert:

” f¨ ur jeden DFA gibt es eine ¨ aquivalente regul¨ are Grammatik“

F¨ ur die andere Richtung w¨ are notwendig

” f¨ ur jede regul¨ are Grammatik gibt es einen ¨ aquivalenten DFA“

Problem:

Produktionen: A → aA

₁

und A → aA

₂

k¨ onnen in Grammatiken vorkommen

Konstruktion des determinstischen Automaten unklar.

Daher: Beweis, dass DFAs alle regul¨ aren Sprachen akzeptieren, erfolgt auf Umwegen

Nichtdeterministische Endliche Automaten

Ideen

Zustandswechsel nicht eindeutig, sondern nichtdeterministisch in einen von mehreren m¨ oglichen

D.h. der Automat darf sozusagen

” raten“ welchen Nachfolgezustand er w¨ ahlt

Im Zustandsgraph erlaubt:

z

₁

z

₂

a a

Technisch:

DFA δ : Z × Σ → Z und ein Startzustand

NFA δ : Z × Σ → P(Z) und Menge von Startzust¨ anden

(5)

Definition NFA

Definition

Ein nichtdeterministischer endlicher Automat (nondeterministic finite automaton, NFA) ist ein 5-Tupel (Z, Σ, δ, S, E ) wobei

Z ist eine endliche Menge von Zust¨ anden,

Σ ist das (endliche) Eingabealphabet mit (Z ∩ Σ) = ∅, S ⊆ Z ist die Menge der Startzust¨ ande,

E ⊆ Z ist die Menge der Endzust¨ ande und

δ : Z × Σ → P (Z) ist die Zustands¨ uberf¨ uhrungsfunktion

Akzeptanz beim NFA

” Ein Wort w wird vom NFA akzeptiert, wenn es einen Pfad von einem Startzustand zum Endzustand entlang w gibt“

Definition (Akzeptierte Sprache eines NFA) Sei M = (Z, Σ, δ, S, E) ein NFA.

Wir definieren b δ : (P(Z) × Σ

^∗

) → P (Z) induktiv durch:

δ(X, ε) b := X f¨ ur alle X ⊆ Z δ(X, aw) b := S

z∈X

b δ(δ(z, a), w) f¨ ur alle X ⊆ Z Die von M akzeptierte Sprache ist

L(M) = {w ∈ Σ

^∗

| δ(S, w) b ∩ E 6= ∅}

Beispiel: Leere Menge von Startzust¨ anden

Sei M = (Z, Σ, δ, ∅, E) ein NFA.

Dann ist L(M) = ∅.

Lauf beim NFA

Definition

Sei M = (Z, Σ, δ, S, E) ein NFA und w ∈ Σ

^∗

mit |w| = n.

Eine Folge von Zust¨ anden q

₀

, . . . , q

_n

mit q

₀

∈ S und

q

_i

∈ δ(q

_i−1

, w[i]) bezeichnet man als Lauf von M f¨ ur Wort w.

Beachte: W¨ ahrend es bei DFAs genau einen Lauf pro Wort gibt, kann es bei NFAs mehrere geben.

(6)

Beispiel

Sei M = ({z

₀

, z

₁

, z

₂

, z

₃

}, {a, b, c}, δ, {z

₀

, z

₃

}, {z

₃

}) ein NFA mit δ(z

₀

, a) = {z

₀

, z

₁

}

δ(z

₀

, b) = {z

₀

} δ(z

₀

, c) = {z

₀

}

δ(z

₁

, a) = {z

₂

} δ(z

₁

, b) = {z

₂

} δ(z

₁

, c) = {z

₂

}

δ(z

₂

, a) = {z

₃

} δ(z

₂

, b) = {z

₃

} δ(z

₂

, c) = {z

₃

}

δ(z

₃

, a) = ∅ δ(z

₃

, b) = ∅ δ(z

₃

, c) = ∅

Der Zustandsgraph zu M ist z

₀

a z

₁

a, b, c z

₂

a, b, c z

₃

a, b, c

.

L(M) = {ε} ∪ {uaw | u ∈ {a, b, c}

^∗

, w ∈ {a, b, c}

²

}

Jede regul¨ are Sprache wird durch NFA erkannt

Theorem 4.4.1

F¨ ur jede regul¨ are Sprache L gibt es einen NFA M mit L(M) = L.

Beweis:

Sei G = (V, Σ, P, S) eine regul¨ are Grammatik mit L(G) = L.

Sei M = (Z, Σ, δ, S

⁰

, E) ein NFA mit Z = V ∪{z ·

E

} (z

E

neu), S

⁰

= {S}

und E = {z

E

, S } falls S → ε ∈ P , sonst E = {z

E

}, und δ(A, a) := {B | A → aB ∈ P } ∪ {z

E

| falls A → a ∈ P } δ(z

E

, a) := ∅ f¨ ur alle a ∈ Σ.

Es gilt: ε ∈ L(M ) ⇐⇒ ε ∈ L(G).

F¨ ur w = a

1

· · · a

n

gilt:

w ∈ L(G) g.d.w. S ⇒

G

a

1

A

1

⇒

G

. . . ⇒

G

a

1

· · · a

_n−1

A

_n−1

⇒

G

a

1

· · · a

n

g.d.w. Es gibt Zust¨ ande A

1

, . . . , A

n−1

mit

A

1

∈ δ (S, a

1

), A

i+1

∈ δ(A

i

, a

i+1

) f¨ ur 1 ≤ i ≤ n − 2 und z

E

∈ δ(A

n−1

, a

n

)

g.d.w. w ∈ L(M)

Beispiel: Konstruktion NFA aus Typ 3-Grammatik

Betrachte die regul¨ are Grammatik G = (V, Σ, P, A) mit V = {A, B, C, D}, Σ = {a, b, c} und

P = { A → ε | aB | bB | cB | aC, B → aB | bB | cB | aC, C → aD | bD | cD, D → a | b | c}

.

Konstruktion des dazu passenden NFA: M = (Z, Σ, δ, S, E ) mit Z = V ∪ {z

_E

} = {A, B, C, D, z

_E

},

E = {A, z

_E

}, S = {A} und δ(A, a)={B, C}

δ(A, b) ={B}

δ(A, c) ={B}

δ(B, a)={B, C}

δ(B, b) ={B}

δ(B, c) ={B}

δ(C, a)={D}

δ(C, b) ={D}

δ(C, c) ={D}

δ(D, a)={z

E

} δ(D, b) ={z

E

} δ(D, c) ={z

E

}

δ(z

E

, a)=∅

δ(z

E

, b) =∅

δ(z

E

, c) =∅

Beispiel: Konstruktion NFA aus Typ 3-Grammatik (2)

Der Zustandsgraph zu M ist

A

B a C a, b, c D a, b, c z

_E

a, b, c

a

(7)

NFAs in DFAs transformieren

Theorem 4.5.1 (Rabin & Scott 1959)

Jede von einem NFA akzeptierte Sprache ist auch durch einen DFA akzeptierbar.

Beweisidee:

Konstruiere f¨ ur einen gegebenen NFA einen DFA, sodass sich

” der DFA alle Zust¨ ande merkt, in denen der NFA sein k¨ onnte“

Z.B. babbabb z

₀

z

₀

z

₀

z

₀

z

₀

z

₀

z

₀

z

₀

z

₀

z

₁

z

₁

z

₁

z

₂

z

₂

z

₂

z

₃

z

₃

z

₃

z

₃

a a, b, c a, b, c a, b, c

Konstruktion: Jede Teilmenge von Zust¨ anden des NFA wird zu einem Zustand des DFA (daher: Potenzmengenkonstruktion)

Potenzmengenkonstruktion

F¨ ur NFA M = (Z, Σ, δ, S, E ) konstruieren wir den DFA M

⁰

= (Z

⁰

, Σ, δ

⁰

, S

⁰

, E

⁰

) mit

Z

⁰

= P (Z)

” Zustandsmenge ist Potenzmenge von Z“

S

⁰

= S

” Startzustand ist Menge S aller Startzust¨ ande von M“

E

⁰

= {X ∈ Z

⁰

| (E ∩ X) 6= ∅}

” Jede Menge, die mind. einen Endzustand von E enth¨ alt, ist Endzustand in M

⁰

“

δ

⁰

(X, a) = S

z∈X

δ(z, a) = b δ(X, a)

” δ

⁰

(X, a) berechnet alle von einem Zustand in X aus ¨ uber a erreichbaren Zust¨ ande.“

Korrektheit der Potenzmengenkonstruktion

Wir beweisen, dass L(M ) = L(M

⁰

) gilt, indem wir zeigen:

w ∈ L(M) g.d.w. w ∈ L(M

⁰

)

Fall w = ε:

ε ∈ L(M) g.d.w. S ∩ E 6= ∅ g.d.w S ∈ E

⁰

g.d.w. ε ∈ L(M

⁰

) Fall w = a

₁

· · · a

_n

∈ Σ

^∗

:

w ∈ L(M) g.d.w. δ(S, w) b ∩ E 6= ∅

g.d.w. Es gibt Teilmengen Z

₁

, . . . , Z

_n

von Z mit

δ(S, a

₁

) = Z

₁

, δ(Z

_i

, a

_i+1

) = Z

_i+1

f¨ ur i = 1, . . . , n − 1 und Z

_n

∩ E 6= ∅

g.d.w. δ b

⁰

(S

⁰

, w) ∈ E

⁰

g.d.w w ∈ L(M

⁰

)

Beispiel: Potenzmengenkonstruktion

F¨ur NFA

z

0

a z

1

a, b, c z

2

a, b, c z

3

a, b, c

wird der DFA konstruiert:

M

⁰= (P({z0

, z

1

, z

2

, z

3}),{a, b, c}, δ⁰

, S

⁰

, E

⁰)mit

S

⁰={z0

, z

3}

E

⁰={{z₃},{z₀

, z

3},{z₁

, z

3},{z₂

, z

3},{z₀

, z

1

, z

3},{z₀

, z

2

, z

3},{z₁

, z

2

, z

3},{z₀

, z

1

, z

2

, z

3}}

δ⁰(∅, d) =∅f¨urd∈ {a, b, c}

δ⁰({z₀}, a) ={z₀, z₁}

δ⁰({z0}, d) ={z0}f¨urd∈ {b, c}

δ⁰({z₁}, d) ={z₂}f¨urd∈ {a, b, c}

δ⁰({z₂}, d) ={z₃}f¨urd∈ {a, b, c}

δ⁰({z₃}, d) =∅f¨urd∈ {a, b, c}

δ⁰({z₀, z₁}, a) ={z₀, z₁, z₂}

δ⁰({z₀, z₁}, d) ={z₀, z₂}f¨urd∈ {b, c}

δ⁰({z₀, z₂}, a) ={z₀, z₁, z₃}

δ⁰({z₀, z₂}, d) ={z₀, z₃}f¨urd∈ {b, c}

δ⁰({z₀, z₃}, a) ={z₀, z₁}

δ⁰({z0, z3}, d) ={z0}f¨urd∈ {b, c}

δ⁰({z₁, z₂}, d) ={z₂, z₃}f¨urd∈ {a, b, c}

δ⁰({z1, z₃}, d) ={z2}f¨urd∈ {a, b, c}

δ⁰({z₂, z₃}, d) ={z₃}f¨urd∈ {a, b, c}

δ⁰({z0, z₁, z₂}, a) ={z0, z₁, z₂, z₃}

δ⁰({z₀, z₁, z₂}, d) ={z₀, z₂, z₃}f¨urd∈ {b, c}

δ⁰({z₀, z₁, z₃}, a) ={z₀, z₁, z₂}

δ⁰({z₀, z₁, z₃}, d) ={z₀, z₂}f¨urd∈ {b, c}

δ⁰({z₀, z₂, z₃}, a) ={z₀, z₁, z₃}

δ⁰({z₀, z₂, z₃}, d) ={z₀, z₃}f¨urd∈ {b, c}

δ⁰({z₁, z₂, z₃}, d) ={z₂, z₃}f¨urd∈ {a, b, c}

δ⁰({z₀, z₁, z₂, z₃}, a) ={z₀, z₁, z₂, z₃} δ⁰({z₀, z₁, z₂, z₃}, b) ={z₀, z₂, z₃} δ⁰({z0, z1, z2, z3}, c) ={z0, z2, z3}

(8)

Beispiel: Potenzmengenkonstruktion (2)

z

0

z

0

z

0

z

0

z

0

z

0

z

0

z

0

z

0

z

1

z

1

z

1

z

2

z

2

z

2

z

3

z

3

z

3

z

3

a a, b, c a, b, c

a, b, c

Ablauf bei Eingabe babbabb

DFA als Zustandsgraph (nur erreichbare Zust¨ ande):

{z0,z3}

{z0,z3} {z0,z3} {z0,z3}

{z0,z1}

{z0,z1} {z0,z1}

{z0,z1,z2} {z0,z1,z2,z3}

{z0,z2,z3} {z0,z2}

{z0,z2} {z0,z2}

{z0,z1,z3} {z0}

{z0}

b, c a b, c

a

b, c a

a b, c

a

a b, c

b, c

a

b, c

b, c a

DFAs & NFAs sind Formalismen f¨ ur Typ 3-Sprachen

Theorem 4.5.4

DFAs und NFAs erkennen genau die regul¨ aren Sprachen.

Das folgt aus:

Theorem 4.2.1: Sei M ein DFA. Dann ist L(M ) regul¨ ar.

Theorem 4.4.1: F¨ ur jede regul¨ are Sprache L gibt es einen NFA M mit L(M ) = L.

Theorem 4.5.1: Jede von einem NFA akzeptierte Sprache ist auch durch einen DFA akzeptierbar.

Jeder DFA kann leicht auch als NFA interpretiert werden

Gr¨ oße des DFAs vs NFAs (1)

Sei M ein NFA mit n Zust¨ anden.

Der durch die Potenzmengenkonstruktion erstellte DFA hat 2

ⁿ

Zust¨ ande!

D.h. der Platz explodiert uns!

Frage: Geht es besser (unsere Kodierung ist zu einfach) oder nicht?

Das folgende Lemma zeigt, dass es nicht wirklich besser geht

Gr¨ oße des DFAs vs NFAs (2)

Lemma

Sei L

_n

= {uav | u ∈ {a, b}

^∗

, v ∈ {a, b}

ⁿ⁻¹

} f¨ ur n ∈ N

>0

.

(Sprache aller W¨ orter aus {a, b}

^∗

, die an n-letzter Stelle ein a haben).

Es gibt NFA M

_n

mit L(M

_n

) = L

_n

und M

_n

hat n + 1 Zust¨ ande.

Jeder DFA M

_n⁰

mit L(M

_n⁰

) = L

_n

, hat mindestens 2

ⁿ

Zust¨ ande.

Beweis (Teil 1): Sei M

_n

der folgende NFA:

z

0

a z

1

a, b z

2

a, b a, b z

n−1

a, b z

n

a, b

L(M

_n

) = L

_n

, denn:

zum Akzeptieren m¨ ussen z

₀

, z

₁

, . . . z

_n

nacheinander durchlaufen

werden, was genau mit W¨ ortern av mit v ∈ {a, b}

ⁿ⁻¹

m¨ oglich ist

In z

₀

kann zuvor jedes u ∈ {a, b}

^∗

gelesen werden (Verbleib in z

₀

).

(9)

Gr¨ oße des DFAs vs NFAs (3)

Beweis (Teil 2): Beweis durch Widerspruch.

Annahme: Es gibt n ∈ N

>0

und DFA M

⁰

= (Z, {a, b}, δ, z

₀

, E) mit L(M

⁰

) = L

_n

= {uav | u ∈ {a, b}

^∗

, v ∈ {a, b}

ⁿ⁻¹

} und |Z| < 2

ⁿ

Menge W = {a, b}

ⁿ

enth¨ alt 2

ⁿ

Worte der L¨ ange n und da |Z| < 2

ⁿ

, muss es w 6= w

⁰

∈ W geben mit b δ(z

₀

, w) = δ(z b

₀

, w

⁰

) = z

_i

Sei j die erste Position, an der sich w und w

⁰

unterscheiden.

Falls j = 1, dann ist o.B.d.A. w = au ∈ L

_n

aber w

⁰

= bu

⁰

6∈ L

_n

und z

_i

∈ E und z

_i

6∈ E m¨ usste gleichzeitig gelten. Widerspruch!

Falls j > 1: O.B.d.A. w = uav und w

⁰

= ubv

⁰

mit |v| = |v

⁰

| = n − j Sei w

₀

= wb

^j−1

= uavb

^j−1

w

⁰₀

= w

⁰

b

^j−1

= ubv

⁰

b

^j−1

Dann muss gelten b δ(w

₀

) = δ(w b

₀⁰

), da b δ(uav) = z

_i

= δ(ubv b

⁰

).

Aber w

₀

∈ L

_n

und w

₀⁰

6∈ L

_n

, Widerspruch!

NFAs mit ε-¨ Uberg¨ angen

ε- ¨ Uberg¨ ange erlauben Zustandswechsel ohne Lesen eines Zeichens (es wird sozusagen das leere Wort ε gelesen)

Ausdruckskraft ¨ andert sich mit ε- ¨ Uberg¨ angen nicht ε- ¨ Uberg¨ ange machen manche Konstruktionen einfacher.

Definition (NFA mit ε- ¨ Uberg¨ angen)

Ein nichtdeterministischer endlicher Automat mit ε- ¨ Uberg¨ angen (NFA mit ε- ¨ Uberg¨ angen) ist ein Tupel M = (Z, Σ, δ, S, E ) wobei

Z ist eine endliche Menge von Zust¨ anden,

Σ ist das (endliche) Eingabealphabet mit (Z ∩ Σ) = ∅, S ⊆ Z ist die Menge der Startzust¨ ande,

E ⊆ Z ist die Menge der Endzust¨ ande und

δ : Z × (Σ ∪ {ε}) → P(Z) ist die Zustands¨ uberf¨ uhrungsfunktion

Beispiel: NFA mit ε-¨ Uberg¨ angen

z

₁

z

₀

a z

₂

a, b, c z

₃

a, b, c z

₄

a, b, c

ε ε

ε Akzeptierte Sprache:

alle Worte aus {a, b, c}

^∗

, die an letzter, vorletzter, oder drittletzter Postion ein a haben, und das leere Wort

ε-H¨ ulle

Definition (ε-H¨ ulle)

Sei M = (Z, Σ, δ, S, E) ein NFA mit ε- ¨ Uberg¨ angen. Die ε-H¨ ulle clos

_ε

(z) eines Zustands z ∈ Z ist induktiv definiert als die kleinste Menge von Zust¨ anden, welche die folgenden Eigenschaften erf¨ ullt:

1

z ∈ clos

_ε

(z).

2

Wenn z

⁰

∈ clos

_ε

(z) und z

⁰⁰

∈ δ(z

⁰

, ε), dann ist auch z

⁰⁰

∈ clos

_ε

(z).

F¨ ur eine Zustandsmenge X ⊆ Z definieren wir clos

_ε

(X ) := S

z∈X

clos

_ε

(z).

Die ε-H¨ ulle f¨ ugt f¨ ur eine Zustandsmenge alle durch ε- ¨ Uberg¨ ange erreichbaren Zust¨ ande hinzu.

(10)

ε-H¨ ulle (2)

Die ε-H¨ ulle f¨ ur eine Zustandsmenge X ⊆ Z kann auch berechnet werden durch:

clos

_ε

(X ) :=

X, wenn S

z∈X

δ(z, ε) ⊆ X clos

_ε

(X ∪ S

z∈X

δ(z, ε)), sonst

Beispiel

z

1

z

0

a z

2

a, b, c z

3

a, b, c z

4

a, b, c

ε ε

ε

clos

_ε

(z

₀

) = {z

₀

} clos

_ε

(z

₁

) = {z

₁

} clos

_ε

(z

₄

) = {z

₄

} clos

_ε

(z

₃

) = {z

₁

, z

₃

, z

₄

} clos

_ε

(z

₂

) = {z

₁

, z

₂

, z

₃

, z

₄

}

NFA mit ε-¨ Uberg¨ angen: Akzeptierte Sprache

Akzeptierte Sprache eines NFA mit ε- ¨ Uberg¨ angen Sei M = (Z, Σ, δ, S, E ) ein NFA mit ε- ¨ Uberg¨ angen.

Wir definieren e δ : (P (Z) × Σ

^∗

) → P(Z) induktiv durch:

δ(X, ε) e := X δ(X, aw) := e S

z∈X

e δ(clos

_ε

(δ(z, a)), w) f¨ ur alle X ⊆ Z Die von M akzeptierte Sprache ist

L(M ) := {w ∈ Σ

^∗

| δ(clos e

_ε

(S), w) ∩ E 6= ∅}

ε-¨ Uberg¨ ange ¨ andern die Ausdruckskraft nicht (1)

Satz 4.6.7

NFAs mit ε- ¨ Uberg¨ angen akzeptieren genau die regul¨ aren Sprachen.

Beweis

” ⇐“:

Jede regul¨ are Sprache wird von einem

” normalen“ NFA akzeptiert.

Transformiere diesen NFA in einen NFA mit ε- ¨ Uberg¨ angen:

Setze δ(z, ε) = ∅ f¨ ur alle Zust¨ ande z

Offensichtlich ist die akzeptierte Sprache diesselbe.

Daher wird jede regul¨ are Sprache von einem NFA mit

ε- ¨ Uberg¨ angen akzeptiert.

(11)

ε-¨ Uberg¨ ange ¨ andern die Ausdruckskraft nicht (2)

Beweis

” ⇒“: Sei M = (Z, Σ, δ, S, E) ein NFA mit ε- ¨ Uberg¨ angen.

Konstruiere NFA M

⁰

mit L(M) = L(M

⁰

). Dann ist L(M) regul¨ ar.

M

⁰

= (Z, Σ, δ

⁰

, S

⁰

, E) mit S

⁰

= clos

_ε

(S), δ

⁰

(z, a) = clos

_ε

(δ(z, a)).

L(M) = L(M

⁰

):

Wir zeigen δ(clos e

_ε

(X ), w) = δ b

⁰

(clos

_ε

(X ), w) f¨ ur alle X ⊆ Z und w ∈ Σ

^∗

. Wir verwenden Induktion ¨ uber die Wortl¨ ange |w|.

Basis: w = ε. Dann gilt e δ(clos

_ε

(X ), ε) = clos

_ε

(X) = δ b

⁰

(clos

_ε

(X ), ε) Schritt: Sei w = au mit a ∈ Σ. Wir formen um:

e δ(clos

_ε

(X ), au)

^Def.

=

^e^δ

S

z∈closε(X)

e δ(clos

_ε

(δ(z, a)), u)

^I.H.

= S

z∈closε(X)

δ b

⁰

(clos

_ε

(δ(z, a)), u)

Def.δ⁰

= S

z∈clos_ε(X)

δ b

⁰

(δ

⁰

(z, a), u)

^Def.

=

^b^δ

δ b

⁰

(clos

_ε

(X ), au)

Eindeutige Start- und Endzust¨ ande

Satz 4.6.8

F¨ ur jeden NFA M mit ε- ¨ Uberg¨ angen gibt es einen NFA M

⁰

mit ε- ¨ Uberg¨ angen, sodass L(M ) = L(M

⁰

) und M

⁰

genau einen Startzustand und genau einen Endzustand hat, wobei diese beiden Zust¨ ande verschieden sind.

Beweis: Konstruiere M

⁰

aus M , durch Hinzuf¨ ugen eines neuen Start- und eines neuen Endzustand mit ε- ¨ Uberg¨ angen:

M

wird zu

ε ε ε

Beispiel

z

₁

z

₀

a z

₂

a, b, c z

₃

a, b, c z

₄

a, b, c

ε ε

ε wird zu

z

_S

z

_E

z

₁

z

₀

ε

ε a z

₂

a, b, c z

₃

a, b, c z

₄

a, b, c

ε ε

ε

Regul¨ are Ausdr¨ ucke

Regul¨ are Ausdr¨ ucke sind (wie Automaten und Grammatiken) ein Formalismus zur Repr¨ asentation von Sprachen.

Praktische Verwendung: Regex-Bibliotheken in Programmiersprachen zum Suchen und Ersetzen von Zeichenketten

(verwenden meist erweiterte regul¨ are Ausdr¨ ucke) Aufbau regul¨ arer Ausdr¨ ucke:

Basisausdr¨ ucke und Operatoren zum Zusammensetzen.

(12)

Regul¨ are Ausdr¨ ucke (2)

Definition (Regul¨ arer Ausdruck)

Sei Σ ein Alphabet. Ein regul¨ arer Ausdruck ¨ uber Σ ist induktiv definiert:

∅ ist ein regul¨ arer Ausdruck ε ist ein regul¨ arer Ausdruck

a mit a ∈ Σ ist ein regul¨ arer Ausdruck

Wenn α

₁

und α

₂

regul¨ are Ausdr¨ ucke sind, dann auch α

₁

α

₂

Wenn α

₁

und α

₂

regul¨ are Ausdr¨ ucke sind, dann auch (α

₁

|α

₂

) Wenn α regul¨ arer Ausdruck ist, dann auch (α)

^∗

Regul¨ are Ausdr¨ ucke (3)

Erzeugte Sprache

Die von einem regul¨ aren Ausdruck α erzeugte Sprache L(α) ist induktiv ¨ uber dessen Struktur definiert:

L(∅) := ∅ L(ε) := {ε}

L(a) := {a} f¨ ur a ∈ Σ

L(α

₁

α

₂

) := L(α

₁

)L(α

₂

) = {uv | u ∈ L(α

₁

), v ∈ L(α

₂

)}

L(α

₁

|α

₂

) := L(α

₁

) ∪ L(α

₂

) L((α)

^∗

) := L(α)

^∗

F¨ ur alle regul¨ aren Ausdr¨ ucke α

₁

, α

₂

, α

₃

gilt:

L((α

₁

|α

₂

)|α

₃

) = L(α

₁

|(α

₂

|α

₃

))

Daher lassen wir Klammern weg und schreiben (α

₁

|α

₂

| . . . |α

_n

).

Beispiele

(a|b)

^∗

aa(a|b)

^∗

erzeugt alle Worte ¨ uber {a, b} die zwei aufeinanderfolgende a’s enthalten

(ε|((a|b|c)

^∗

a(a|b|c)(a|b|c)(a|b|c))) erzeugt alle Worte ¨ uber {a, b, c}, die an viertletzter Stelle ein a haben und das leere Wort

((0|1|2|3|4|5|6|7|8|9)|1(0|1|2|3|4|5|6|7|8|9)|(2(0|1|2|3))) : ((0|1|2|3|4|5)(0|1|2|3|4|5|6|7|8|9)) erzeugt alle Uhrzeiten im 24-Stunden-Format

Eine endliche Sprache S = {w

₁

, . . . , w

_n

} wird durch (w

₁

| . . . |w

_n

) erzeugt.

Satz von Kleene

Theorem 4.7.4 (Satz von Kleene)

Regul¨ are Ausdr¨ ucke erzeugen genau die regul¨ aren Sprachen.

Beweis in zwei Teilen:

1

Jede von einem regul¨ aren Ausdruck erzeugte Sprache ist regul¨ ar.

2

F¨ ur jede regul¨ are Sprache gibt es einen regul¨ aren Ausdruck,

der sie erzeugt.

(13)

Beweis: Satz von Kleene (1)

1. Jede von einem regul¨ aren Ausdruck erzeugte Sprache ist regul¨ ar.

Beweis:

Wir konstruieren f¨ ur regul¨ aren Ausdruck α einen NFA M

_α

mit ε- ¨ Uberg¨ angen und eindeutigen Start- und Endzust¨ anden, sodass L(M

_α

) = L(α).

Induktion ¨ uber die Struktur von α Basisf¨ alle:

F¨ ur α = a ∈ Σ konstruiere

^a

F¨ ur α = ε konstruiere

^ε

F¨ ur α = ∅ konstruiere

In allen F¨ allen ist L(α) = L(M

_α

) offensichtlich

Beweis: Satz von Kleene (2)

Induktionsschritt: Betrachte den Aufbau von α (3 F¨ alle) F¨ ur α = α

1

α

2

, liefert die I.H. M

α₁

, M

α₂

.

M

_α₁

M

_α₂

Konstruiere daraus M

_α

:

ε

Beweis: Satz von Kleene (3)

F¨ ur α = (α

1

|α

2

) liefert die I.H. M

α₁

, M

α₂

: M

_α₁

M

α₂

Konstruiere daraus M

α

:

ε

Beweis: Satz von Kleene (4)

F¨ ur α = (α

₁

)

^∗

liefert die I.H. M

_α₁

M

_α₁

Konstruiere daraus M

_α

:

ε

ε ε

(14)

Beweis: Satz von Kleene (5)

2. F¨ ur jede reg. Sprache L gibt es einen regul¨ aren Ausdruck α mit L(α) = L Beweis:

Sei DFA M = ({z

₁

, . . . , z

_n

}, Σ, δ, z

₁

, E) mit L(M ) = L gegeben.

F¨ ur w ∈ Σ

^∗

und z

_i

∈ z mit b δ(z

_i

, w) = z

_j

sei visit

_i

(w) = q

₁

, . . . , q

_m

die Folge der besuchten Zust¨ ande (wobei q

₁

= z

_i

und q

_m

= z

_j

).

Wir definieren:

L

^k_i,j

=

w ∈ Σ

^∗

b δ(z

_i

, w) = z

_j

und visit

_i

(w) = q

₁

, . . . , q

_m

, sodass f¨ ur 1 < l < m: wenn q

_l

= z

_p

dann p ≤ k

L

^k_i,j

enth¨ alt die Worte, die M von Zustand z

_i

zu Zustand z

_j

f¨ uhren ohne dabei Zwischenzust¨ ande mit Index gr¨ oßer als k zu benutzen.

Mit Induktion ¨ uber k zeigen wir, dass es regul¨ are Ausdr¨ ucke α

^k_i,j

mit L(α

^k_i,j

) = L

^k_i,j

gibt.

Beweis: Satz von Kleene (6)

Zur Erinnerung:L^k_i,j enthält die Worte, dieM von Zustandzizu Zustandzjführen ohne dabei Zwischenzustände mit Index größer alskzu benutzen.

Basis: k = 0

Wenn i 6= j, dann ist L

⁰_i,j

= {a ∈ Σ | δ(z

_i

, a) = z

_j

}.

Falls L

⁰_i,j

= {a

₁

, . . . , a

_q

}, dann gilt L(α

⁰_i,j

) = L

⁰_i,j

f¨ ur α

⁰_i,j

= (a

₁

| . . . |a

_q

).

Falls L

⁰_i,j

= ∅, dann gilt L(α

⁰_i,j

) = L

⁰_i,j

mit α

⁰_i,j

= ∅.

Wenn i = j, dann ist L

⁰_i,i

= {ε} ∪ {a ∈ Σ | δ(z

_i

, a) = z

_i

}.

Sei L

⁰_i,i

= {ε, a

₁

, . . . , a

_q

}.

Dann gilt L(α

⁰_i,i

) = L

⁰_i,i

f¨ ur α

⁰_i,i

= (ε|a

₁

| . . . |a

_q

).

Beweis: Satz von Kleene (7)

Zur Erinnerung:L^k_i,jenthält die Worte, dieMvon Zustandzizu Zustandzjführen ohne dabei Zwischenzustände mit Index größer alskzu benutzen.

Induktionsschritt: k → k + 1

L

^k+1_i,j

= L

^k_i,j

∪ L

^k_i,k+1

(L

^k_k+1,k+1

)

^∗

L

^k_k+1,j

,

denn entweder l¨ auft M ohne Zustand z

_k+1

zu besuchen, oder der Lauf kann in 3 Teile gespalten werden:

1

Lauf von z

_i

bis zum ersten Besuch des Zustands z

_k+1

(abgedeckt durch L

^k_i,k+1

)

2

Mehrmaliges, zyklisches Besuchen von k + 1 (beliebig oft) (abgedeckt durch L

^k_k+1,k+1

)

3

Letztmaliges Verlassen von z

_k+1

und Lauf bis zu z

_j

(abgedeckt durch L

^k_k+1,j

)

Daher gilt α

^k+1_i,j

= (α

^k_i,j

|α

^k_i,k+1

(α

^k_k+1,k+1

)

^∗

α

^k_k+1,j

) und L(α

^k+1_i,j

) = L

^k+1_i,j

. F¨ ur E = {z

_i₁

, . . . , z

_i_r

} gilt L(α

ⁿ_1,i

1

|α

ⁿ_1,i

2

| . . . |α

ⁿ_1,i

r

) = S

z∈E

L

ⁿ_1,i

= L(M )

Beispiel: Regul¨ arer Ausdruck → NFA mit ε-¨ Uberg¨ angen

NFA zum regul¨ aren Ausdruck

(ε|(a|b)

^∗

b(a|b))

konstruieren:

ε

a

ε b

ε ε

ε

ε ε b

a

b ε

ε

ε ε ε

ε

ε ε

(15)

Beispiel: DFA → regul¨ arer Ausdruck

z

₁

z

₂

a

a Regul¨ arer Ausdruck dazu:

α

²_1,2

= (α

¹_1,2

|α

¹_1,2

(α

¹_2,2

)

^∗

α

¹_2,2

)

= ((a|ε(ε)

^∗

a) | (a|ε(ε)

^∗

a) (ε|a(ε)

^∗

a)

^∗

(ε|a(ε)

^∗

a))

= (a|a(aa)

^∗

) (durch Vereinfachung) denn

α

⁰_1,1

= ε α

⁰_2,2

= ε α

⁰_1,2

= a α

⁰_2,1

= a α

¹_1,2

= (α

⁰_1,2

|α

⁰_1,1

(α

⁰_1,1

)

^∗

α

⁰_1,2

) = (a|ε(ε)

^∗

a) α

¹_2,2

= (α

⁰_2,2

|α

⁰_2,1

(α

⁰_1,1

)

^∗

α

⁰_1,2

) = (ε|a(ε)

^∗