Theoretische Informatik Automaten und formale Sprachen

(1)

Theoretische Informatik Automaten und formale Sprachen

Prof. Dr. Sibylle Schwarz HTWK Leipzig, Fakultät IMN Gustav-Freytag-Str. 42a, 04277 Leipzig

Zimmer Z 411 (Zuse-Bau)

http://www.imn.htwk-leipzig.de/~schwarz sibylle.schwarz@htwk-leipzig.de

Wintersemester 2015/16

(2)

Einordnung der Theoretischen Informatik

Informatik Lehre von derDarstellung undVerarbeitungvon InformationdurchAlgorithmen

Teilgebiete der Informatik:

theoretisch I Sprachen zur Formulierung von Information und Algorithmen,

I Möglichkeiten und Grenzen der maschinellen Berechenbarkeit,

I Grundlagen für technische und praktische (und angewandte) Informatik

technisch I maschinelle Darstellung von Information

I Mittel zur Ausführung von Algorithmen

(Rechnerarchitektur, Hardware-Entwurf, Netzwerk, . . . ) praktisch Entwurf und Implementierung von Algorithmen

(Betriebssysteme, Compilerbau, SE, . . . ) angewandt Anwendung von Algorithmen

(Text- und Bildverarbeitung, Datenbanken, KI, Medizin-, Bio-, Wirtschafts-, Medieninformatik, . . . )

(3)

Anwendungen der theoretischen Informatik

Formale Sprachen

I Repräsentation von Problemen in maschinenlesbarer Form (Mensch-Maschine-Kommunikation, Modellierung)

I Ausdrucksstärke und Flexibilität von Programmiersprachen

I Übersetzung von Programmiersprachen (z.B. in ausführbaren Code) Maschinenmodelle(Automaten)

I Möglichkeiten und Grenzen verschiedener Modelle zur Ausführung von Algorithmen

Berechenbarkeitstheorie(hier Ausblick, mehr dazu im Mastermodul)

I Welche Probleme sind überhaupt algorithmisch (mit Hilfe verschiedener Maschinenmodelle) lösbar?

Auch negative Antworten sind sehr hilfreich (sparen Aufwand für ungeeignete Lösungsansätze)

Komplexitätstheorie(hier Ausblick, mehr dazu im Mastermodul)

I Welche Probleme sind mit beschränkten Ressourcen (z.B. Zeit, Speicherplatz) lösbar?

I Für welche Probleme können schnelle Algorithmen existieren?

(4)

Prinzipien der theoretischen Informatik

ältester Zweig der Informatik (lange vor dem ersten Computer) Mathematische Prinzipien:

I Abstraktion

I ermöglicht verallgemeinerte Aussagen und breit einsetzbare Verfahren,

I Ergebnisse und Verfahren oft nicht sofort praktisch anwendbar, müssen auf spezielle Situationen angepasst werden.

I Beweisbarkeit

I erfordert präzise Modellierung des Problems

I Nachweis der Korrektheit von Hard- und Software (Tests können dies nicht !)

Wissen aus der theoretischen Informatik

I veraltet über viele Jahre kaum

I Grundlage für Verständnis von (schnelllebigem) Spezialwissen, z.B. konkrete Programmiersprachen, Domain-spezifische Sprachen, Transformationen

(5)

Aus der Modulbeschreibung

3010 Theoretische Informatik: Automaten und formale Sprachen Arbeitsaufwand: Präsenzzeit 60 h (= 2 h V+2 h Ü je Woche)

Vor- und Nachbereitungszeit 90 h (≈6 h je Woche) Voraussetzungen: anwendungsbereite Kenntnisse auf den Gebieten

Modellierung, Logik, Algorithmen und Datenstrukturen, Aufwandsabschätzungen

Lernziele: Die Studierenden sind in der Lage, wichtige Klassen formaler Sprachen als Grundlage von Programmier- und Beschreibungssprachen einzuordnen und kennen die wesentlichen Eigenschaften der Sprachklassen.

Sie kennen die entsprechenden abstrakten

Maschinenmodelle und Algorithmen und können sie zur Darstellung und Lösung praktischer

Aufgabenstellungen einsetzen.

Die Studierenden wissen, dass nicht jedes formal darstellbare Problem algorithmisch lösbar ist.

(6)

Inhalt der Lehrveranstaltung

I Formale Sprachen

I Wiederholung: Alphabet, Wort, Sprache, Operationen darauf

I reguläre Ausdrücke

I Wiederholung: Wortersetzung

I Grammatiken, Chomsky-Hierarchie

I Maschinenmodelle

I Endliche Automaten

I Kellerautomaten

I Turing-Maschinen

I Berechenbarkeit (Ausblick auf Master-Modul)

I berechenbare Funktionen

I Berechnungsmodelle

I These von Church

I algorithmische Entscheidbarkeit / Unentscheidbarkeit

I Komplexität (Ausblick auf Master-Modul)

I Komplexitätsmaße

I Komplexitätsklassen P, NP, PSPACE jeweils mit vielen Beispielen

(7)

Literatur

I Uwe Schöning:

Theoretische Informatik - kurzgefasst (Spektrum 2001)

I John E. Hopcroft, Jeffrey D. Ullman:

Einführung in die Automatentheorie, Formale Sprachen und Komplexitätstheorie (Addison-Wesley 1990)

I Dirk W. Hoffmann:

Theoretische Informatik (Hanser 2009)

I Rolf Socher:

Theoretische Grundlagen der Informatik (Hanser 2008)

I Ulrich Hedtstück:

Einführung in die Theoretische Informatik (Oldenbourg 2007)

I Gottfried Vossen, Kurt-Ulrich Witt:

Grundkurs Theoretische Informatik (Vieweg 2006)

I Alexander Asteroth, Christel Baier:

Theoretische Informatik. Eine Einführung in Berechenbarkeit, Komplexität und formale Sprachen (Pearson 2002)

I Renate Winter:

Theoretische Informatik (Oldenbourg 2002)

(8)

Lehrveranstaltungen

Folien, Übungsserien, aktuelle Informationen unter www.imn.htwk-leipzig.de/~schwarz/lehre/ws15/ti

Vorlesung jeden Freitag (2 h / Woche)

Selbststudium (Hausaufgaben): (6 h / Woche) schriftliche Übungsserien (ca. zu jeder Vorlesung)

Besprechung in der nächsten Übung Autotool je Freitag bis Donnerstag

Übung (2 Gruppen) jeden Dienstag: (2 h / Woche) alle Folien, Aufgaben, Lösungen mitbringen !

I Besprechung der Übungsserien (Vorrechnen),

I Fragen zum aktuellen Vorlesungsinhalt

(9)

Prüfung

Prüfungsvorleistungen:

I ≥ 50% aller Punkte für Autotool-Pflichtaufgaben und

I ≥ 3 Vorrechen-Punkte (Übungen) Prüfung: Klausur 90 min

Aufgabentypen ähnlich Übungsaufgaben

(Hilfsmittel: beidseiting handbeschriebenes A4-Blatt)

(10)

Formale Sprachen

Syntax natürlicher Sprachen:

I Rechtschreibung: korrekte Wörter

I Grammatik: Aufbau korrekter Sätze Definition von Programmiersprachen:

Syntax Form der Sprachelemente

Semantik Bedeutung der Sprachelemente und -strukturen Pragmatik Regeln zur zweckmäßigen Anwendung

Syntax von Programmiersprachen:

I Schlüsselwörter, Bezeichner, Darstellung von Zahlen, . . .

I Programmstrukturen:

Form der Ausdrücke, Anweisungen, Deklarationen, . . .

(11)

Formale Sprachen: Beispiele

Programmiersprachen:

while (b != 0) { if (a > b) a = a - b; else b = b - a; } Regeln für korrekte Syntax (EBNF):

Statement ::= ... | IfStmt | WhileStmt | ... ; WhileStmt ::= "while" "(" Expr ")" Statement;

IfStmt ::= "if" "(" Expr ")" Statement ( "else" Statement )?;

Expr ::= ...

Domain-spezifische Sprachen , z.B. Autotool-Lösungen zu AL-Modell listToFM[(x,True),(y,False),(z,False)]

Regeln für korrekte Syntax (EBNF):

belegung ::= "listToFM" "[" var-wert-paare "]"

var-wert-ps ::= "" | var-wert-paar | var-wert-paar "," var-wert-ps var-wert-paar ::= "(" var-name, wert ")"

wert ::= "True" | "False"

var-name ::= ...

Graphische Sprachen , z.B.

(12)

Maschinenmodell: endlicher Automat

Beschreibung des dynamischen Verhaltens von Systemen

Modellierung von Abläufen (Zustandsübergangssysteme)

Beispiele:

I Bedienoperationen an Geräten oder Software

I Schaltfolgen von Ampelanlagen

I Steuerung von Produktionsanlagen

I Ablauf von (Geschäfts-)Prozessen

(13)

Beispiel: (Pool-)Einlass mit Karte

Automat definiert durch

I Zustände: gesperrt, frei

I Startzustand: gesperrt

I Aktionen (Eingabesymbole): Karte (anlegen), Durchgehen, Timeout

I Zustandsübergänge(gesperrt, Karte) →frei (frei, Karte) →frei

(frei, Durchgehen)→ gesperrt (frei, Timeout)→ gesperrt

definiert mögliche (erlaubte) Folgen von Aktionen

Diese Folgen lassen sich durchreguläre Ausdrücke darstellen:

(Karte Karte^∗( Durchgehen + Timeout ))^∗

(14)

Anwendung bei der Übersetzung von Programmen

Übersetzung von Quell- in Zielsprache (z.B. C, Java in Maschinen- oder Byte-Code)

meist in zwei Phasen über eine (gemeinsame) Abstraktion:

Quellcode

↓ Analyse-Phase (Front-End) Zwischendarstellung

(oft Baumstruktur)

↓ Synthese-Phase (Back-End) Code in Zielsprache

(15)

Analyse-Phase

Quellcode Scanner Folge von Token Parser Syntaxbaum

lexikalische Analyse (Scanner)

lineare Analyse des Quelltextes, Aufteilung in Einheiten (Token)

z.B. Schlüsselwörter, Bezeichner, Zahlen reguläre Sprachen, endliche Automaten Syntaxnalyse (Parser)

hierarchische Struktur des Quelltextes z.B. Ausdrücke, Verzweigungen, Schleifen kontextfreie Sprachen, Kellerautomaten semantische Analyse Annotationen im Syntaxbaum,

z.B. Typprüfungen

(16)

Einsatz ähnlicher Transformations- und Analyse-Methoden

I Compiler für Programmiersprachen (z. B. Java → Bytecode)

I Interpreter für Programmiersprachen (z. B. Java-Bytecode)

I Übersetzung von Daten zwischen verschiedenen Formaten z. B. LilyPond (http://www.lilypond.org) übersetzt

\repeat volta 3 { c’ e’ g’ e’ | }

\alternative { { c’2 g’ | } { g’1 | } }

u. A. in

I Verarbeitung von Domain-spezifischen Sprachen

I Textformatierung

I Dokumentbeschreibungssprachen

I kontextabhängige Hilfe in Entwicklungsumgebungen

I statische Analyse zur Fehlersuche in Programmen

I graphische Editoren (z.B. für UML-Diagramme) mit automatischer Programmgenerierung

(17)

Berechenbarkeit / Entscheidbarkeit

Halteproblem:

Kann ein (Test-)programmU existieren, welches fürjedes beliebige (Dienst-)ProgrammP (Eingabe als Quelltext) entscheidet, obP nach endlich vielen Schritten anhält?

Nein

Folgerungen:

I Alle Versuche, ein solches Programm zu schreiben, müssen fehlschlagen.

I Suche nach Verfahren, die für einemöglichst große Teilmenge aller (Dienst-)Programme P entscheiden, obP nach endlich vielen Schritten anhält, ist sinnvoller.

I Entwickler von P (Dienstleister) muss nachweisen, dass sein Programm P nach endlich vielen Schritten anhält

(18)

Komplexität

Beispiel Primzahltest

Problem: Ist eine gegebene Zahln eine Primzahl?

Instanzdes Problems: Ist 12347 eine Primzahl?

lösbar durch den Algorithmus:

1. Für alle i ∈ {2, . . . ,n}:

Test: Istn durch i teilbar?

I ja: Ende mit Ausgabenistnicht prim.

I nein: weiter (mit Test füri+1) 2. Ausgabe: n istprim.

Test ist für große Zahlen aufwendig. Geht es besser?

I Was bedeutet aufwendigundbesser?

I Wie aufwendig ist eine Berechnung?

I Wie aufwendig ist die Lösung eines Problemes?

(19)

Wiederholung: Alphabet, Wort, Sprache

Für jede MengeAheißt Aⁿ =A× · · · ×A

| {z }

n

={w₁· · ·w_n| ∀i :w_i ∈A}

Menge allerWörter der Länge n überA

(n-Tupel, Vektoren, Folgen, Listen, Zeichenketten) A^∗ =S

{n∈N}Aⁿ Menge allerWörterüber A (endliche Folgen, Listen, Zeichenketten)

A⁰ ={ε} mitleerem Wort ε

Alphabet (endliche) MengeAvon Symbolen

Wort endliche Folge von Symbolen w =w1· · ·wn mit

∀i ∈ {1, . . . ,n}:w_i ∈A

Länge eines Wortes |w|=Anzahl der Symbole inw Anzahl der Vorkommen eines Symboles in einem Wort

|w|_a=Anzahl der ain w (für a∈A) Sprache Menge von WörternL⊆A^∗

(20)

Beispiele

I Alphabet A={0,1}

Wörter ∈A^∗={0,1}^∗: Menge aller Binärwörter Sprachen ⊆A^∗, z.B.

I {w ∈ {0,1}^∗|w16=0}Menge aller Binärzahlen ohne führende Nullen

I {w ∈ {0,1}^∗|w16=0∧w_|w|−1=w_|w|=0}

Menge aller Binärdarstellungen durch 4 teilbarer Zahlen ohne führende Nullen

I Alphabet A={a,b}

Wörter ∈A^∗={a,b}^∗: Menge aller Wörter, die höchstens die Buchstaben aund b enthalten Sprachen ⊆A^∗, z.B.

I ∅

I {a,b}

I {a}^∗={ε,a,aa,aaa, . . .}

I {w ∈ {a,b}^∗|w1=a∧w_|w|=a}= {a,aa,aaa,aba,aaaa,abaa,aaba,abba, . . .}

(21)

Beispiele für Sprachen

I Menge aller englischen Wörter L1⊂ {a, . . . ,z}^∗

I Menge aller deutschen WörterL2⊂ {a, . . . ,z,ß,ä,ö,ü}^∗

I Menge aller möglichen DNAL3⊆ {A,T,G,C}^∗

I Menge aller natürlichen Zahlen in Dezimaldarstellung L₄⊆ {0, . . . ,9}^∗ (evtl. mit führenden Nullen)

I Menge aller natürlichen Zahlen in Binärdarstellung (Bitfolgen beliebiger Länge)L5⊆ {0,1}^∗

I Menge aller aussagenlogischen Formeln in AL({p,q,r}) L6⊆ {p,q,r,t,f,¬,∨,∧,→,↔,(,)}^∗,

I Menge aller arithmetischen Ausdrücke überZ(ohne Variablen) L7⊂ {0, . . . ,9,+,·,−,/,(,)},

I Menge aller deutschen Sätze L8⊂(L2∪ {.,,,!,?,(,),−})^∗ Wie lassen sich unendliche Sprachenendlichdarstellen?

(Voraussetzung für maschinelle Verarbeitung) verschiedene Darstellungen später in dieser LV

(22)

Darstellung von Wörtern

extensional durch Angabe derSymbole in ihrerReihenfolge Beispiele:u =321,

v =abababababa,

w =w1· · ·w4 mitw1 =w2 =w3 =a,w4 =b intensional durch Angabe einerEigenschaft, die für jeden Indexi

das i-te Symbol eindeutig bestimmt.

Beispiele:

u ∈ {0, . . . ,4}³ mit∀i ∈ {1, . . . ,3}:u_i =4−i, v ∈ {a,b}¹¹mit∀i ∈ {1, . . . ,11}:v_i =

a fallsi ∈2N+1 b sonst

w ∈ {a,b}⁴ mitw4 =b∧ ∀i ∈ {1, . . . ,3}:wi =a

(23)

Darstellung von Sprachen

extensional durch Angabe derElemente

(nur Beschreibung endlicher Sprachen möglich) Beispiele:{ε,a,aa,aaa},{b,ba,baa,baaa}, {a,b,aa,bb,aaa,bbb}

intensional durch Angabe einerEigenschaft, die genau alle Wörter der Sprache haben.

(auch Beschreibung unendlicher Sprachen möglich) Beispiele:{w ∈ {a}^∗| |w| ≤3},

{w ∈ {a,b}∗ |w1 =b∧ ∀i ≥2:wi =a}, {w ∈ {a,b}∗ | ∀i ≥2:w_i =w1}

später in dieser LV noch mehr Formalismen zur endlichen Beschreibung von eingeschränkten Sprachklassen

(reguläre Ausdrücke, Grammatiken, Automaten, . . . )

(24)

Operationen auf Wörtern

Operationen auf Wörternu,v ∈A^∗: Verkettung ◦:A^∗×A^∗ →A^∗, wobei

∀u ∈A^∗ ∀v ∈A^∗ ∀i ∈ {1, . . . ,|u|+|v|}: (u◦v)i =

u_i fallsi ≤ |u|

vi−|u| sonst Beispiel:anne◦marie=annemarie assoziativ, nicht kommutativ,εist neutral Damit ist (A^∗,◦, ε) ein Monoid.

Spiegelung ^R :A^∗→A^∗, wobei

∀u ∈A^∗ ∀i ∈ {1, . . . ,|u|}:u_i^R =u|u|+1−i

Beispiel:marie^R =eiram,anna^R =anna u∈A^∗ heißt Palindromgdw. u^R =u Fakt

I Für jedes Wort u ∈A^∗ gilt u^RR

=u.

I Für je zwei beliebige Wörter u,v ∈A^∗ gilt(u◦v)^R =v^R ◦u^R.

(25)

Anwendung: Java-Standardbibliothek

Rotieren einer Liste injava.util.Collections:



x0, . . . ,xmid−1

| {z }

u

,x_mid, . . . ,x_size

| {z }

v



durchv◦u= (u^R◦v^R)^R

private static void rotate2(List<?> list, int distance) { int size = list.size();

if (size == 0) return;

int mid = -distance % size;

if (mid < 0) mid += size;

if (mid == 0) return;

reverse(list.subList(0, mid));

reverse(list.subList(mid, size));

reverse(list);

}

(26)

Relationen auf Wörtern

Präfixv(Anfangswort):

∀u∈A^∗ ∀v ∈A^∗: ((uvv) ↔ (∃w ∈A^∗(u◦w =v)))

z.B.tomvtomate (mitw =ate) Postfix(Suffix):

∀u∈A^∗ ∀v ∈A^∗: (uPostfix vonv ↔ (∃w∈A^∗(w◦u=v))) z.B.enten ist Postfix vonstudenten(mitw=stud)

Infix(Faktor, zusammenhängendes Teilwort):

∀u∈A^∗∀v ∈A^∗: (uInfix vonv ↔ (∃w ∈A^∗ ∃w⁰∈A^∗: (w◦u◦w⁰=v))) z.B.omaist Infix vontomate (mitw =t undw⁰=te)

(27)

Mehr Relationen auf Wörtern

Ordnungen bei gegebener Reihenfolge< auf dem AlphabetA:

lexikographisch Ordnung aufA^∗:

∀u,v ∈A^∗ :u ≤_lexv gdw.

1. u vv oder

2. ∃w ∈A^∗ ∃a,b ∈A:a<b∧wavu∧wbvv quasi-lexikographische Ordnung aufA^∗:

∀u,v ∈A^∗ :u ≤_qlexv gdw.

1. |u| ≤ |v|oder 2. |u|=|v| ∧u ≤_lexv Beispiele: fürA={a,b} mita<b

I ab vaba,ab ≤_lexaba,ab ≤_qlex aba

I abab6vabba, aber abab≤_lexabbaund abab≤_qlexabba,

I aaa≤_lexab, aber aaa6≤_qlexab

I ab 6≤_lexaaba, aber ab≤_qlex aaba

(28)

Sprachen als Mengen

SprachenL⊆A^∗ sindMengenvon Wörtern

Eigenschaften: leer, endlich, abzählbar, überabzählbar Mengenrelationen auf Sprachen:

L⊆L⁰ gdw. ∀w ∈A^∗:w ∈L→w ∈L⁰ gilt L=L⁰ gdw. ∀w ∈A^∗:w ∈L↔w ∈L⁰ gilt Mengenoperationen auf Sprachen:

L∪L⁰ = {w |w ∈L∨w ∈L⁰} L∩L⁰ = {w |w ∈L∧w ∈L⁰} L\L⁰ = {w |w ∈L∧w 6∈L⁰}

L∆L⁰ = (L\L⁰)∪(L⁰\L)

Komplement einer SpracheL⊆A^∗:L=A^∗\L Beispiel:

L= [

n∈3N

Aⁿ L= [

n∈{3i+1|i∈N}

Aⁿ∪ [

n∈{3i+2|i∈N}

Aⁿ

(29)

Weitere Operationen auf Sprachen

Verkettung◦ von Sprachen:

L1◦L2={u◦v |u ∈L1∧v ∈L2} Beispiel:

L1 = {111,1,10} L2 ={00,0}

L₁◦L₂ = {111,1,10} ◦ {00,0}

= {1110,11100,10,100,1000}

SpiegelungL^R ={w^R |w ∈L}

Beispiel:L= {a,ab,aba,abab}

L^R ={a,ba,aba,baba}

(30)

Iterierte Verkettung

I für SprachenL⊆A^∗

L⁰={ε} ∀n∈N: Lⁿ⁺¹=Lⁿ◦L=L◦ · · · ◦L

| {z }

n+1−mal

L^∗= [

n∈N

Lⁿ L⁺= [

n∈N\{0}

Lⁿ

I für Wörteru∈A^∗: uⁿ = u· · ·u

| {z }

n−mal

∈A^∗, u^∗={u}^∗={uⁿ|n∈N} ⊆A^∗ u⁺ = u^∗\ {ε}={u}⁺={uⁿ|n∈N\ {0}} ⊆A^∗ Beispiele:

(101)³ = 101101101 und 101³=10111 a^∗ = {aⁱ |i∈N}={ε,a,aa,aaa, . . .}

(ab)^∗ = {(ab)ⁱ|i∈N}={ε,ab,abab,ababab, . . .}

(31)

Reguläre Ausdrücke – Syntax

Die MengeRegExp(A) allerregulären Ausdrücke über einem AlphabetAist (induktiv) definiert durch:

IA ∅ ∈RegExp(A), ε∈RegExp(A)und

für jedes Symbol a∈Agilta∈RegExp(A) IS für alle E ∈RegExp(A) undF ∈RegExp(A) gilt

(E+F),EF,(E)^∗ ∈RegExp(A).

Beispiele:ε+a,ε+∅,(a+∅)^∗,ε+ ((ab)^∗a)^∗ dieselbe Definition kürzer:RegExp(A) =Term(Σ_F,∅) für die Signatur

Σ_F ={(∅,0),(ε,0),(^∗,1),(+,2),(·,2)} ∪ {(a,0)|a∈A}

(Baumdarstellung)

(32)

Beispiele

(ohne überflüssige Klammern)

I Für A={0,1,2,3,4,5,6,7,8,9} gilt

0+(1+2+3+4+5+6+7+8+9)(0+1+2+3+4+5+6+7+8+9)^∗

∈RegExp(A)

I Für A={0,1} gilt

I (1+ε)^∗+ (10)^∗∈RegExp(A)

I (0+11)^∗+ ((0+ (1)^∗)0)^∗∈RegExp(A) Oft werden

A

E⁺ = EE^∗ Eⁿ = E· · ·E

| {z }

n−mal

E^n∗ =



E· · ·E

| {z }

n−mal





∗

fürn∈Nals Kurzbezeichnungen verwendet.

(33)

Reguläre Ausdrücke – Semantik

Jeder reguläre AusdruckE∈RegExp(A)repräsentiert eine Sprache L(E)⊆A^∗.

L(∅) = ∅ L(ε) = {ε}

∀a∈A: L(a) = {a}

∀E,F∈RegExp(A) : L(E+F) = L(E)∪L(F)

∀E,F∈RegExp(A) : L(EF) = L(E)◦L(F)

∀E,F∈RegExp(A) : L(E^∗) = (L(E))^∗

Eine SpracheL⊆A^∗ heißt genau dannregulär, wenn ein regulärer AusdruckE ∈RegExp(A)mitL=L(E)existiert.

Beispiel: Die MengeLaller Dezimaldarstellungen natürlicher Zahlen ist regulär wegenL=L(0+ (1+2+· · ·+9)(0+1+· · ·+9)^∗)

(34)

Beispiele

FürA={a,b} gilt

L(ab^∗) = {a,ab,abb,abbb,abbbb, . . .}={abⁱ |i ∈N} L((ab)^∗) = {ε,ab,abab,ababab, . . .}={(ab)ⁱ |i ∈N} L((a+b)^∗) = {a,b}^∗

L(a^∗b^∗) = {u◦v |u ∈a^∗∧v∈b^∗} L((a^∗b^∗)^∗) = {a,b}^∗

L((a+b)^∗aba) = {u◦aba|u ∈A^∗}^∗

Reguläre Ausdrücke ermöglichen eineendliche Darstellung unendlicherSprachen.

(35)

Äquivalenz regulärer Ausdrücke

Zwei reguläre AusdrückeE,F ∈RegExp(A) heißen genau dann äquivalent, wenn L(E) =L(F) gilt.

Beispiele:

I (a+b)^∗,(a^∗+b^∗)^∗ und a^∗(ba^∗)^∗ sind äquivalent

I ab^∗ und(ab)^∗ sind nicht äquivalent

I (11+0+110+011)^∗ und(11+0)^∗ sind . . .

Fakt

Die Äquivalenz regulärer Ausdrücke ist eine Äquivalenzrelation.

(36)

Was bisher geschah

Alphabet, Wort, Sprache Wörterw ∈A^∗

I Operationen: Spiegelung ^R, Verkettung◦

I Palindrome

I Relationen: Präfix, Infix, Postfix,

lexikographische, quasi-lexikographische Ordnung SprachenL⊆A^∗ (L∈2^(A^∗⁾)

I Relationen: Mengenrelationen⊆,=

I Operationen: Mengenoperationen∪,∩, ,\ Verkettung◦, iterierte Verkettung^∗, Spiegelung ^R Reguläre Ausdrücke

I endliche Darstellung evtl. unendlicher Sprachen

I Syntax: RegExp(A) =Term(ΣF,∅)(Baumstruktur) für ΣF ={(∅,0),(ε,0),(^∗,1),(·,2),(+,2)} ∪ {(a,0)|a∈A}

I Semantik des regulären Ausdrucks E∈RegExp(A):

SpracheL(E)⊆A^∗

(37)

Interessante Fragen für Sprachen

I Ist ein gegebenes Wort w in der SpracheLenthalten?

(heißt oft Wortproblem)

I Enthält die SpracheLnur endlich viele Wörter?

I Gilt L1⊆L2 für zwei gegebene SprachenL1undL2?

I Gilt L1=L2 für zwei gegebene SprachenL1undL2? Fragen zur Regularität:

I Lässt sich die SpracheLdurch einen regulären Ausdruck definieren?

(Gilt ∃E ∈RegExp(A) :L=L(E)?)

I Woran erkennt man, ob sich eine Sprache durch einen regulären Ausdruck definieren lässt?

I Gilt L(E) =∅ für einen gegebenen regulären AusdruckE?

I Gilt L(E) =A^∗ für einen gegebenen regulären AusdruckE?

I Ist ein gegebenes Wort w in der durch den regulären AusdruckE definierten SpracheL(E)enthalten?

Alle Antworten sind für endliche Sprachen einfach, aber für unendliche Sprachen meist schwierig.

(38)

Wortersetzungssysteme

AlphabetA

Wortersetzungsregel (l,r)∈A^∗×A^∗ (geschrieben l →r) Wortersetzungssystem endliche Menge von Wortersetzungsregeln

Beispiele:

I Regel ba→ab,

I Wortersetzungssystem S ={a→ab,ba→c,abc →ε}

(39)

Anwendung von Wortersetzungsregeln

Eine Regell →r ist auf ein Wortw ∈A^∗ anwendbar, fallsl ein Infix von w ist.

Beispiel: Regelma→εist

I auf tomate anwendbar, u =to,v =te,

I auf am,motte undmeta nicht anwendbar.

EineAnwendungder Regel l →r auf ein Wort w =u◦l◦v ∈ergibt das Wort u◦r◦v.

(Ersetzung des Teilwortesl durchr)

Beispiel:ab→a angewendet aufbaababa=u◦l◦v

I mitu =ba und v=abaergibt baaaba

I mitu =baab undv =a ergibtbaabaa

(40)

Ableitungsschritt

Ableitungsschritt(u,(l →r),p,v)im Wortersetzungssystem S mit

I Ausgangswortu,

I auf u anwendbare Regel l →r aus S,

I Position p ∈ {1, . . . ,|u|} im Wortu, an der das Teilwort l beginnt

I v ist das nach Anwendung der Regell →r an Positionp auf u entstandene Wort.

Beispiel:

S ={ab→ba,a→b},u=aba mögliche Ableitungsschritte inS (aba,(ab→ba),1,baa)

(aba,(a→b),3,abb) (aba,(a→b),1,bba)

(41)

Ein-Schritt-Ableitungsrelation

Jedes WortersetzungssystemS ⊆A^∗×A^∗ definiert eine Relation

→_S ⊆A^∗×A^∗, wobei genau dann

u→_S v gilt, wenn ein Ableitungsschritt(u,(l →r),p,v) mit (l →r)∈S existiert.

Beispiel: FürS ={ab→ba,a→b} gilt

I aba→_S baa wegen(aba,(ab→ba),1,bba)

I aba→_S bbawegen(aba,(a→b),1,bba)

I aba→_S abb wegen(aba,(a→b),3,abb)

I aba6→_S bbb

(42)

Wiederholung: Hüllen binärer Relationen

R∪IM heißtreflexive HüllevonR⊆M² (mit IdentitätIM ={(x,x)|x ∈M})

R∪R⁻¹ heißtsymmetrische HüllevonR⊆M² (mit inverser RelationR⁻¹={(y,x)|(x,y)∈R})

Wiederholung: Verkettung◦der RelationenR⊆M² undS ⊆M² R◦S ={(x,z)∈M²| ∃y ∈M: (x,y)∈R∧(y,z)∈S}

Iterierte Verkettung vonR⊆M²mit sich selbst:

R⁰ = I_M Rⁿ⁺¹ = Rⁿ◦R

R⁺ = [

n∈N\{0}

Rⁿ⊆M² transitive Hülle

R^∗ = [

n∈N

Rⁿ⊆M² reflexiv-transitive Hülle

(43)

Ableitungen

Eine Folge von Ableitungsschritten

(u,(l1→r1),p1,u2),(u2,(l2→r2),p2,u3),· · ·,(u_n−1,(l_n−1→r_n−1,p_n−1,v) im Wortersetzungssystem S heißtAbleitungvon u nachv in S.

Beispiel:S ={ab →ba,a→b},u =aba Folge von Ableitungsschritten

(aba,(ab→ba),1,baa),(baa,(a→b),3,bab),(bab,(a→b),2,bbb) abaâb→ba−→ baaâ→b−→babâ→b−→bbb

Längeder Ableitung = Anzahl der Ableitungsschritte

In jedem SystemS existiert für jedes u∈A^∗ die leere Ableitung (der Länge 0) vonu nachu.

(44)

Beispiele

S1={||| → |}mitu =|||||||und v=||||

Was wird hier „berechnet“?

Anderes Wortersetzungssystem mit derselben Wirkung?

S2={11→1,00→1,01→0,10→0}und u =1101001 Wirkung verschiedener Ableitungreihenfolgen?

S3={c →aca,c →bcb,c →a,c →b,c →ε} undu =c Menge aller inS3 ableitbaren Wörter, die keinc enthalten?

(45)

Ersetzungsrelation

Jedes WortersetzungssystemS ⊆(A^∗×A^∗) definiert die Ersetzungsrelation→^∗_S ⊆(A^∗×A^∗), wobei genau dann u→^∗_S v gilt, wenn eine Ableitung vonu nach v existiert.

Beispiel:S ={a→aa},

I für jedesn ≥1 giltba →^∗_S b a· · ·a

| {z }

n

wegenba→_S baa→_S baaa→_S · · · →_S b a· · ·a

| {z }

n I b →^∗_S b, aber für kein Wort w 6=b giltb →^∗_S w (→^∗_S ist die reflexive transitive Hülle von →_S)

(46)

Modellierungsbeispiel: lineares Solitaire

Startkonfiguration : nSpielsteine aufnbenachbarten Spielfeldern.

Spielzug : Springe mit einem Stein übereinen benachbartenStein auf das nächstefreieFeld und entferne den

übersprungenen Stein.

Spielende , wenn kein Zug mehr möglich ist.

Modellierung als Wortersetzungssystem:

I Konfiguration:w ∈ {◦,•}^∗ (• - Stein,◦- leer,2- Rand)

I Startkonfiguration:2•ⁿ2

I zulässige Spielzüge:◦ • • → • ◦ ◦,• • ◦ → ◦ ◦ •,2• •2→2•2, . . . Fragen:

I Welche Konfigurationen / Endkonfigurationen sind von der Startkonfiguration erreichbar?

I Wieviele Züge sind mindestens / höchstens notwendig, um eine Endkonfiguration zu erreichen?

Jedes Paar (Wortersetzungssystem, Anfangskonfiguration) definiert die Menge (Sprache) aller erreichbaren Konfigurationen.

(47)

Sprachen aus Wortersetzungssystemen

Jedes Paar (WortersetzungssystemS, Anfangswort w) über einem AlphabetAdefiniert die Sprache

L(S,w)={v ∈A^∗|w →^∗_S v}

(alle Wörterv, die vonw durch eine Ableitung inS erreicht werden)

B:S ={c →aca,c →bcb,c →ε},w =c

L(S,w) ={w ◦c ◦w^R} (Menge aller Palindrome über{a,b,c}, die höchstens an der mittleren Position einc enthalten)

Jedes Paar (WortersetzungssystemS, MengeM von Wörtern) über einem AlphabetAdefiniert die Sprache

L(S,M)= [

w∈L

L(S,w)

(alle Wörterv, die von irgendeinemw ∈M durch eine Ableitung in S erreicht werden)

(48)

Ausdrucksstärke von Wortersetzungssystemen

Wortersetzungssysteme

I ermöglichen eineendliche Darstellung unendlicher Sprachen.

(als Erzeugungsvorschrift für alle Wörter der Sprache) Beispiele: L({ε→aaa}, ε) ={a³ⁿ|n∈N}= (aaa)^∗ L({2→020,2→121},2) ={w2w^R |w ∈ {0,1}^∗}

I können zur Modellierung von Zuständen und Übergängen dazwischen verwendet werden

z.B. Spiele, Ausführung von Programmen, Programmverifikation

Beispiel: Lineares Solitaire

I können Berechnungensimulieren

(Bestimmung von erreichbaren Wörtern ohne Nachfolger) Beispiel: ε∈L({||| → |},||||||)

(49)

Wortproblem für durch Wortersetzungssysteme definierte Sprachen

Ist ein gegebenes Wortw in der Sprache L(S,u) enthalten?

alternative Formulierung: Giltu →^∗_S w? Ableitungsrelation→_S als

(unendlicher) gerichteter GraphG_S = (V,E)mit Knoten:V =A^∗

Kanten:E ={(u,v)|u →_S v}

u→^∗_S w gilt genau dann, wenn in GS ein Pfad vonu nachw existiert.

Beispiel: (Tafel)S ={ab→ba},

abab→^∗_S baba, aberabab6→^∗_S abaa,abab6→^∗_S aabb

(50)

Sprachen aus Wortersetzungssystemen

Lösung des Wortproblems und anderer Fragen zu Sprachen ist für endliche Sprachen einfach, für unendliche Sprachen oft nicht.

Darstellung der Sprache durch ein Wortersetzungssystem kann helfen.

Lösung des Wortproblemw ∈L(S,u)durch Standardverfahren:

Suche eines Pfades vonu nachw im Ableitungsgraphen des WortersetzungssystemsS

Problem:

I Pfadsuche ist Standardverfahren für endliche Graphen.

I Ableitungsgraphen von Wortersetzungssystemen sind meist unendlich.

Standardverfahren anwendbar, wenn Suche in einem endlichen Teilgraphen genügt

(51)

Nichtverlängernde Wortersetzungssysteme

Ein WortersetzungssystemS heißt genau dannnichtverlängernd, wenn für jede Regel(l →r)∈S gilt:|l| ≥ |r|.

Wortproblem(L,w):

Eingabe : SpracheL⊆A^∗, Wortw ∈A^∗ Frage: Gilt w ∈L?

Ausgabe ja oder nein

Beispiel:S ={ab →ba,ac →a},u=abcac,v =aacb Satz

Es gibt einen Algorithmus, welcher für für jedes nichtverlängernde WortersetzungssystemS ⊆A^∗×A^∗ und beliebige Wörteru,w ∈A^∗ das Wortproblem(L(S,u),w)in endlicher Zeit korrekt löst.

Idee:

Suche im endlichen Teilgraphen aller Wörterv ∈A^∗ mit|v| ≤ |u|

(52)

Nichtverkürzende Wortersetzungssysteme

Ein WortersetzungssystemS heißt genau dannnichtverkürzend, wenn für jede Regel(l →r)∈S gilt:|l| ≤ |r|.

Beispiel:S ={a→ba,b→a},u =ba,w =aaba,w⁰ =abab

Satz

Es gibt einen Algorithmus, welcher für für jedes nichtverkürzende WortersetzungssystemS ⊆A^∗×A^∗ und beliebige Wörteru,w ∈A^∗ das Wortproblem(L(S,u),w)in endlicher Zeit korrekt löst.

Idee: Suche im endlichen Teilgraphen aller Wörterv ∈A^∗ mit

|u| ≤ |v| ≤ |w|

(53)

Wortersetzungssysteme mit verlängernden und verkürzenden Regeln

Beispiel:

S =











c → baaca, c → aacba, c → bbcabb, aca → d, bcb → d, ada → d, bdb → d











Für WortersetzungssystemeS mit verlängernden und verkürzenden Regeln existiert im AllgemeinenkeinAlgorithmus, der für beliebige Wörteru,w ∈A^∗ feststellt, obu →^∗_s w gilt.

(54)

Was bisher geschah

I Alphabet, Wort, Sprache

I Operationen und Relationen auf Wörtern und Sprachen

I interessante Fragen für Sprachen und Wörter Reguläre Ausdrücke

I Syntax, Semantik

I endliche Darstellung evtl. unendlicher Sprachen WortersetzungssystemeP⊆A^∗×A^∗

I Wortersetzungssregell→r mitl,r ∈A^∗

I Ableitung inP: endliche Folge von Ersetzungsschritten

I Ausdrucksstärke:

I Darstellung von (evtl. unendlichen) Sprachen

I Modellierung von Zustandsübergängen

I Ausführen von Berechnungen

(55)

Wiederholung Wortersetzungssysteme

I A={s,w},

R ={ww →s,ss→s,ws →w,sw →w} (nichtverlängernd)

Istww aus wsww ableitbar? (Giltwsww →_R ww?) L(R,wsww) ={wsww,www,wss,sw,ws,w}

I A={b,r,w},

S ={wr →rw,br →rb,bw →wb}

(nichtverlängernd und nichtverkürzend) Istwbbr ausbrwb ableitbar?

L(S,brwb) ={brwb,rbwb,rwbb}

I A={a,b,c},T ={a→ba,b→cc}

(nichtverkürzend)

Istaabbcc ausa ableitbar?

L(T,a) =L((b+cc)^∗a)

(56)

Ableitbare Wörter über Teilalphabet

Beispiele:A={a,b,c},

S =











c → aca, c → bcb, c → ε, c → a, c → b











L(S,c) ={u◦d ◦u^R |u ∈ {a,b}^∗∧d ∈ {a,b,c, ε}}

Menge aller Wörter inL(S,c)∩ {a,b}^∗: Palindrome über{a,b}

c istHilfssymbolzur Erzeugung der Palindrome

(57)

Natürliche Sprache

WortersetzungssystemS enthält die Regeln:

Satz → Subjekt Prädikat. Subjekt → mArtikel mSubstantiv Subjekt → wArtikel wSubstantiv

mArtikel → Der

wArtikel → Die

mSubstantiv → Hund wSubstantiv → Sonne Prädikat → bellt Prädikat → scheint

AlphabetA={Der,Die,Hund,Sonne,scheint,bellt,.}∪

{Satz,Subjekt, Prädikat, wArtikel, mArtikel, wSubstantiv, mSubstantiv}

Ableitbare Wörter inL(S,Satz)ohne Hilfssymbole aus der Menge{Satz, Subjekt, Prädikat, mArtikel, wArtikel, mSubstantiv, wSubstantiv}:

Menge korrekter deutscher Sätze (dieser einfachen Form mit ausschließlich den WortenDer,Die,Hund,Sonne,scheint,bellt).

(58)

Aussagenlogische Formeln

WortersetzungssystemS enthält die Regeln Formel → Variable

Formel → Konstante Formel → (¬Formel ) Formel → ( Formel∨Formel ) Formel → ( Formel∧Formel ) Variable → p

Variable → q Konstante → t Konstante → f

AlphabetA={t,f,p,q,¬,∨,∧,(,)} ∪ {Formel,Variable, Konstante}

Formel→S (Formel∧Formel)→²_S (Formel∧f)→^∗_S ((p∨(¬q))∧f) Wörter inL(S,Formel)∩ {t,f,p,q,¬,∨,∧,(,)}^∗ :

Menge AL({p,q})aller aussagenlogischen Formeln mit Aussagenvariablen aus der Menge{p,q}

(59)

Aussagenlogische DNF

WortersetzungssystemS enthält die Regeln

DNF → Minterm∨DNF

DNF → Minterm

Minterm → Literal∧Minterm Minterm → Literal

Literal → ¬Variable Literal → Variable Variable → p Variable → q

Alphabet A= {p,q,¬,∨,∧}

∪{ DNF, Minterm, Literal,Variable}

DNF→S Minterm∨DNF→³_S p∨DNF→^∗_S p∨q∧ ¬p∨ ¬q Wörter inL(S,Formel)∩ {t,f,p,q,¬,∨,∧,(,)}^∗ :

Menge AL({p,q})aller disjunktiven Normalformen mit Aussagenvariablen aus der Menge{p,q}

(60)

Dezimaldarstellung natürlicher Zahlen

WortersetzungssystemS enthält die Regeln

Zahl → 0

Zahl → 1Ziffernfolge ...

Zahl → 9Ziffernfolge Ziffernfolge → 0Ziffernfolge

...

Ziffernfolge → 9Ziffernfolge Ziffernfolge → ε

Alphabet{0, . . . ,9} ∪ {Zahl, Ziffernfolge}

Zahl→_S 3Ziffernfolge→_S 32Ziffernfolge→_S 327Ziffernfolge→_S 327

Wörter inL(S,Zahl )∩ {0, . . . ,9}^∗ :

Menge aller Dezimaldarstellungen natürlicher Zahlen

(61)

Programmiersprachen

Java-Syntax (Ausschnitt) in Backus-Naur Form (BNF) (John Backus, Peter Naur)

a→r₁|r₂|. . .|r_n statt mehrerer Regeln a→r₁, . . . ,a→r_n ::=statt→ (in ASCII darstellbar)

Hilfssymbole markiert durch<und>

(62)

Definition Grammatik

Grammatik G = (N,T,P,S) mit Nichtterminalsymbole endliche Menge N

(Hilfssymbole)

Terminalsymbole endliche Menge T (Alphabet der Sprache)

Wortersetzungssystem P ⊆(N∪T)⁺×(N∪T)^∗ (Produktionen) Startsymbol S ∈N

Beispiel:G = (N,T,P,S) mit N = {S}, T = {0,1}, P =

S → 0S1 S → ε

(63)

Grammatiken: Beispiele

I G = (N,T,P,E) mitN={E,F,G},T ={(,),a,+,·}und

P =











E → G, E → E +G, G → F, G → G ·F, F → a, F → (E)











I G = (N,T,P,S) mitN={S,A,B,C},T ={a,b,c}

P =











S → aSBC, S → aBC, CB → BC, aB → ab, bB → bb, bC → bc, cC → cc











(64)

Ableitungen in Grammatiken

Ableitung in GrammatikG = (N,T,P,S):

Ableitung im ErsetzungssystemP mit StartwortS Beispiel:G = (N,T,P,S) mit

N = {S,A,B}

T = {0,1}

P =











S → 0SA S → 0A A → 1 B → A











(65)

Durch Grammatiken definierte Sprachen

GrammatikG = (N,T,P,S) definiert die Sprache L(G)={w ∈T^∗|S →^∗_P w}=L(P,S)∩T^∗ Beispiel:G = (N,T,P,S) mit

N = {S,Z} T = {0,1}

P =











S → 1Z, S → 0, Z → 0Z, Z → 1Z, Z → ε









 definiert die SpracheL(G) =. . .

(66)

Äquivalenz von Grammatiken

Zwei GrammatikenG1 undG2 heißen genau dann äquivalent, wenn L(G₁) =L(G₂) gilt.

Beispiel:G1= (N1,{0,1},P1,S)mitN1 ={S,A,B} und

P1=











S → 0SA S → 0A A → 1 B → A









 undG2 = (N2,{0,1},P2,S⁰) mitN2 ={S⁰} und

P2=

S⁰ →0S⁰1,S⁰ →01 sind äquivalent wegenL(G₁) =L(G₂) =. . .

Äquivalenz von Grammatiken ist eine Äquivalenzrelation. (ÜA)

(67)

Grammatiken mit ε-Regeln

ε-Regel : Grammatik-Regel der Form l →ε

Beispiele:

I G1 = ({A,B},{0,1},P1,A) mit P1={A→1B0,B →1B0,B →ε}

äquivalent zuG₂ = ({A},{0,1},P₂,A) mit P2={A→1A0,A→10}

(ohne ε-Regel)

I G = ({A},{0,1},P,A) mitP ={A→1A0,A→ε}

nicht äquivalent zu einer Grammatik ohneε-Regel