... im Beispiel:

(1)

2.5 Schnelle Berechnung von Vorausschau-Mengen

Im Fall k = 1 lassen sich First, Follow besonders effizient berechnen ;-)

Beobachtung:

Seien L1, L2 ⊆ _T ∪ {} _mit _L₁ 6= ∅ 6= _L₂. Dann ist:

L1 L2 =







L₁ falls 6∈ L₁ (L1\{}) ∪ L2 sonst

Ist G reduziert, sind alle Mengen First₁(A) nichtleer :-)

(2)

Idee:

• Behandle _separat!

Sei empty(X) = ^true gdw. X→^∗ _.

• Definiere die _-freien First₁-Mengen

F(a) = {_a} _für _a ∈ _T F(A) = ^First₁(A)\{} für A ∈ N

• Konstruiere direkt ein Ungleichungssystem für F(A) :

F(A) ⊇ _F(X_j) falls A→_X₁ _{. . .} _X_m ∈ _P,

empty(X1) ∧_{. . .} ∧ empty(X_j−1)

(3)

... im Beispiel:

E → E+T ⁰ | T ¹ T → _T∗ _F ⁰ | _F ¹

F → ( E ) ⁰ | name¹ | int² wobei empty(E) = ^empty(T) = ^empty(F) = ^false .

Deshalb erhalten wir:

F(S⁰) ⊇ _F(E) F(E) ⊇ _F(E) F(E) ⊇ F(T) F(T) ⊇ F(T)

F(T) ⊇ F(F) F(F) ⊇ {(,name,int}

(4)

Entsprechend konstruieren wir zur Berechnung von Follow₁ :

Follow₁(S) ⊇ {}

Follow₁(B) ⊇ F(X_j) falls A→α _B_X₁ _{. . .} _X_m ∈ P,

empty(X1) ∧ . . .∧ ^empty(X_j−1) Follow₁(B) ⊇ ^Follow₁(A) falls A→α _B_X₁ _{. . .} _X_m ∈ P,

empty(X1) ∧_{. . .} ∧ empty(X_m)

... im Beispiel:

... erhalten wir:

(5)

Follow₁(S) ⊇ {}

... im Beispiel:

E → E+T ⁰ | T ¹ T → T∗ F ⁰ | F ¹

F → ( E ) ⁰ | ^name¹ | ^int² ... erhalten wir:

(6)

Follow₁(S) ⊇ {}

... im Beispiel:

E → E+T ⁰ | T ¹ T → T∗ F ⁰ | F ¹

F → ( E ) ⁰ | ^name¹ | ^int² ... erhalten wir:

Follow₁(S⁰) ⊇ {} Follow₁(E) ⊇ Follow₁(S⁰) Follow₁(E) ⊇ {+, )} ^Follow₁(T) ⊇ {∗}

Follow₁(T) ⊇ ^Follow₁(E) ^Follow₁(F) ⊇ ^Follow₁(T)

(7)

Diskussion:

• Diese Ungleichungssysteme bestehen aus Ungleichungen der Form:

x w y bzw. x w d für Variablen x, y und d ∈ D ^.

• Solche Ungleichungssysteme heißen reine Vereinigungs-Probleme :-)

• Diese Probleme können mit linearem Aufwand gelöst werden ...

Beispiel:

D = 2^{^a,b,c^}

x0 ⊇ {a}

x1 ⊇ {b} x1 ⊇ x0 x1 ⊇ x3

x2 ⊇ {c} x2 ⊇ x1

x3 ⊇ {c} x3 ⊇ x2 x3 ⊇ x3

a b

c

0 1

3

2

(8)

a b

c

0 1

3

2

Vorgehen:

• Konstruiere den Variablen-Abhängigkeitsgraph zum Ungleichungssystem.

• Innerhalb einer starken Zusammenhangskomponente haben alle Variablen den gleichen Wert :-)

• Hat eine SZK keine eingehenden Kanten, erhält man ihren Wert, indem man die kleinste obere Schranke aller Werte in der SZK berechnet :-)

• Gibt es eingehende Kanten, muss man zusätzlich die Werte an deren Startknoten hinzu fügen :-)

(9)

a b

... für unsere Beispiel-Grammatik:

First

₁

:

E T F

S’

( , int , name

Follow

₁

:

E T F

S’

+ , ) ∗

(13)

2.6 Bottom-up Analyse

Achtung:

• Viele Grammatiken sind nicht LL(k) :-(

• Eine Grund ist Links-Rekursivität...

• Die Grammatik G heißt links-rekursiv, falls

A→⁺ _Aβ _{für ein} _A ∈ _N_, β ∈ (T ∪ _N)^∗

Beispiel:

E → E + T ⁰ | T ¹ T → T ∗ F ⁰ | F ¹

F → ( E ) ⁰ | ^name¹ | ^int²

(14)

2.6 Bottom-up Analyse

Achtung:

• Viele Grammatiken sind nicht LL(k) :-(

• Eine Grund ist Links-Rekursivität...

• Die Grammatik G heißt links-rekursiv, falls

A→⁺ _Aβ _{für ein} _A ∈ _N_, β ∈ (T ∪ _N)^∗

Beispiel:

E → _E+T ⁰ | _T ¹ T → _T∗ _F ⁰ | _F ¹

F → ( E ) ⁰ | name¹ | int²

... ist links-rekursiv :-)

(15)

Satz

Ist die Grammatik G reduziert und links-rekursiv, dann ist G nicht LL(k) für jedes k .

Beweis: Vereinfachung:

A → Aβ ∈ P

A erreichbar ==⇒ _S →^∗_L _{u A}γ→^∗_L _{u A}βⁿγ _{für jedes} _n ≥ _{0 .} A produktiv RR ∃ _A→α _: α 6= _Aβ _.

Annahme:

G ist LL(k) ;-) Dann gilt für alle n ≥ 0 : First_k(α βⁿγ) ∩ ^First_k(Aβ βⁿγ) = ∅ Weil First_k(α βⁿ⁺¹ γ) ⊆ ^First_k(Aβⁿ⁺¹γ)

folgt: First_k(α βⁿγ) ∩ ^First_k(α βⁿ⁺¹γ) = ∅ Fall 1: β→^∗ — Widerspruch !!!

Fall 2: β→^∗ w 6= _RR First_k(α β^kγ) ∩ ^First_k(α β^k+1γ) 6= ∅ :-(

(16)

Satz

Fall 2: β→^∗ w 6= ==⇒ ^First_k(α β^kγ) ∩ ^First_k(α β^k+1 γ)6=∅ :-(

(19)

Bottom-up Parsing:

Wir rekonstruieren reverse Rechtsableitungen :-)

Dazu versuchen wir, in M⁽¹⁾_G Reduktionsstellen zu entdecken.

Betrachte eine Berechnung dieses Kellerautomaten:

(q0α γ_, _v) ` (q0α _B, _v) `^∗ (q0 S, )

₂

α

₁

... wobei α = α₁ . . . α_m :-)

Umgekehrt können wir zu jedem möglichen Wort α⁰ die Menge aller möglicherweise später passenden Regeln ermitteln ...

(21)

A

0

i

Beobachtung:

Die Menge der zuverlässigen Präfixe aus (N ∪ T)^∗ für (vollständige) Items kann mithilfe eines endlichen Automaten berechnet werden :-)

Zustände: Items :-) Anfangszustand: [S⁰ → • _S]

Endzustände: {[B→γ•] | B→γ ∈ P} Übergänge:

(1) ([A→α • _Xβ],X,[A→α _X •β]), X ∈ (N ∪ _T), A→α _Xβ ∈ _P;

(2) ([A→α • _Bβ],_, [B→ •γ]), A→α _Bβ _, _B→γ ∈ _P;

Den Automaten c(G) nennen wir charakteristischen Automaten für G.

(24)

Beispiel:

E → _E+T ⁰ | _T ¹ T → _T∗ _F ⁰ | _F ¹ F → ( E ) ⁰ | int²

E S’

E E +T

T E

F T

F ( )

S’ E

F int F int

int

F ( ) F ( ) F ( )

T F

T T F T T F T

E T

E E +T E E+ T E E+T E

T

F

( E

+ T

F

)

T F T

T F

E E E E

∗

E

∗ ∗

∗

(25)

Beispiel:

E → _E+T ⁰ | _T ¹ T → _T∗ _F ⁰ | _F ¹ F → ( E ) ⁰ | int²

E S’

E E +T

T E

F T

F ( )

S’ E

F int F int

int

F ( ) F ( ) F ( )

T F

T T F T T F T

E T

E E +T E E+ T E E+T E

T

F

( E

+ T

F

)

T F T

T F

E E E E

∗

E

∗ ∗

∗

(26)

Den kanonischen LR(0)-Automaten LR(G) erhalten wir aus c(G) , indem wir:

(1) nach jedem lesenden Übergang beliebig viele-Übergänge einschieben (unsere Konstruktion 1 :-)

(2) die Teilmengenkonstruktion anwenden.

... im Beispiel:

T

F

F F

( (

(

*

(

) +

+ int

int F

int E int

T

E

T

3 4 1

2 5 0

10 8

11

9 6

7

(27)

Dazu konstruieren wir:

q0 = {[S⁰→ • _E], q1 = δ(q0, E) = {[_S⁰ →_E•],

{[E→ • _E+T], {[_E→_E• + T]}

{[E→ • _T],

{[T→ • T ∗ F]} q₂ = δ(q₀, T) = {[E→T•],

{[T→ • F], {[T→T • ∗ F]}

{[F → • (E)],

{[F → • ^int]} q3 = δ(q0, F) = {[T→ F•]}

q4 = δ(q0,int) = {[F→int•]}

(28)

q₅ = δ(q₀, ( ) = {[F→( • E) ], q₇ = δ(q₂, ∗) = {[T→T∗ • F], {[E→ • E+T], {[F → • ( E)], {[E→ • T], {[F → • ^int]}

{[T → • T∗ F],

{[_T → • _F], q8 = δ(q5, E) = {[_F →( E• )]}

{[_F→ • ( E)], {[_E→_E• +T]}

{[_F→ • int]}

q9 = δ(q6, T) = {[_E→ _E+T•], q₆ = δ(q₁,+) = {[E→E+• T], {[T→ T • ∗ F]}

{[T → • T∗ F],

{[T → • F], q10 = δ(q7, F) = {[T→T∗ F•]}

{[F→ • ( E)],

{[_F→ • int]} _q₁₁ = δ(q8, )) = {[_F →( E)•]}

(29)

Beachte:

Der kanonische LR(0)-Automat kann auch direkt aus der Grammatik konstruiert werden :-)

Man benötigt die Hilfsfunktion:

δ^∗(q) = q∪ {[B→ •γ] | ∃ [A→α • B⁰ β⁰] ∈ q,

∃ β ∈ (N ∪ _T)^∗ : B⁰ →^∗ _Bβ}

Dann definiert man:

Zustände: Mengen von Items;

Anfangszustand: δ^∗ {[_S⁰ → • _S]}

Endzustände: {q | ∃ A→α ∈ P : [A→α•] ∈ q}

Übergänge: δ(q, X) = δ^∗ {[A→α _X • β] | [A→α • Xβ] ∈ q}

(30)

Idee zu einem Parser:

• Der Parser verwaltet ein zuverlässiges Präfix α = X₁ . . .X_m auf dem Keller und benutzt LR(G) , um Reduktionsstellen zu entdecken.

• Er kann mit einer Regel A→γ reduzieren, falls [A→γ•] für α gültig ist :-)

• Damit der Automat nicht immer wieder neu über den Kellerinhalt laufen muss, kellern wir anstelle der X_i jeweils die Zustände !!!

Achtung:

Dieser Parser ist nur dann deterministisch, wenn jeder Endzustand des kanonischen LR(0)-Automaten keine Konflikte enthält ...

(31)

... im Beispiel:

q1 = {[S⁰ → E•],

{[E→ E • +T]}

q2 = {[_E→ _T•]_, _q₉ = {[_E→_E+T•]_, {[_T→_T • ∗ _F]} {[_T→ _T • ∗ _F]}

q3 = {[_T→_F •]} _q₁₀ = {[_T→ _T ∗ _F •]}

q4 = {[_F→int•]} _q₁₁ = {[_F→(E)•]}

Die Endzustände q1,q2,q9 enthalten mehr als ein Item :-(

Aber wir haben ja auch noch nicht Vorausschau eingesetzt :-)