C++ ist typsicher? Garantiert!

(1)

C++ ist typsicher? Garantiert!

Daniel Wasserrab¹ Tobias Nipkow² Gregor Snelting¹ Frank Tip³

1Universit¨at Passau

2Technische Universit¨at M¨unchen

3IBM T. J. Watson Research Center

D. Wasserrab, T. Nipkow, G. Snelting, F. Tip:

An Operational Semantics and Type Safety Proof for Multiple Inheritance in C++.

(2)

Inhalt

1 Motivation

Bedeutung von Typsicherheit Mehrfachvererbung in C++

CoreC++

2 Beispiele

3 Semantik und Typsystem von CoreC++

Formalismen

Typsicherheitsbeweis

4 Anwendbarkeit in der Softwaretechnik Ausf¨uhrbarkeit

Softwaresicherheit

(3)

Motivation Bedeutung von Typsicherheit

Softwaretechnische Bedeutung von Typsicherheit

Typsicherheit bedeutende Errungenschaft der Softwaretechnik:

kein unkontrolliertes Abst¨urzen mit Laufzeitfehlern (z.B. in C++: keinsegmentation fault) verst¨andlicher zu lesen und zu warten effizienter compilierbar

Typsicherheit einer Sprache erh¨oht Vertrauen inQualit¨atund Sicherheit der in ihr implementierten Anwendungen

(4)

Softwaretechnische Bedeutung von Typsicherheit

Typsicherheit bedeutende Errungenschaft der Softwaretechnik:

kein unkontrolliertes Abst¨urzen mit Laufzeitfehlern (z.B. in C++: keinsegmentation fault) verst¨andlicher zu lesen und zu warten effizienter compilierbar

Typsicherheit einer Sprache erh¨oht Vertrauen inQualit¨atund Sicherheit der in ihr implementierten Anwendungen

(5)

Typsicherheit f¨ ur reale Sprachen

erste Typsicherheitsbeweise f¨ur akademische Spielzeugsprachen schon vor Jahrzehnten (von Hand)

Problem f¨ur reale Sprachen: Komplexit¨atdes Typsystems

=⇒ maschinelle Unterst¨utzung unverzichtbar!

deshalb n¨otig:m¨achtigere Beweissysteme

Vor 10 Jahren Typsicherheit einer formalen Semantik von Java, Beweis in Isabelle/HOL (Nipkow et al.)

Darauf aufbauend unser Beweis f¨ur Vererbungsmechanismus in C++

(6)

Typsicherheit f¨ ur reale Sprachen

(7)

Typsicherheit f¨ ur reale Sprachen

(8)

Typsicherheit f¨ ur reale Sprachen

(9)

Unsere Ziele

Vorliegende Semantik mit Typsicherheitsbeweis soll Vertrauenin C++ erh¨ohen

Leistungsf¨ahigkeitvon Theorembeweiser und formalen Semantiken demonstrieren

Grundlage f¨urBeweisevon Sicherheitsanalysen bilden

(10)

Unsere Ziele

(11)

Unsere Ziele

(12)

Unsere Ziele

(13)

Motivation Mehrfachvererbung in C++

Mehrfachvererbung in C++

Kurze Zusammenfassung:

zwei Vererbungsarten:virtuelleund nichtvirtuelle

in einem Objekt besitzt jede Oberklasse ein oder mehrere Subobjekte (je nach Art der Vererbung)

Rossie und Friedman entwickelten Subobjektalgebra (keine Semantik!)

(14)

Motivation CoreC++

CoreC++

ausf¨uhrbare C++ Programme gegen die Formalisierung testen Formalisierung alle existierenden Spezifikationen benutzen

Implementationsdetails (z.B. v-tables) oder informelle Beschreibungen

von (Kern-)C++ Rossie/Friedman: keine Behandlung von Casts, dynamische Bindung nicht echtes C++

andere Ans¨atze ignorieren Mehrfachvererbung und seiner Kern von C++ (ohne Zeigerarithmetik) wurde als Typsicherheit typsicher angesehen (Rossie,Friedman,Wand ’96)

mittels eines nun Theorembeweiser m¨achtig (und benutzbar) genug Theorembeweisers f¨ur komplexe Semantik und Typsystem

CoreC++!

(15)

Motivation CoreC++

CoreC++

CoreC++!

(16)

Motivation CoreC++

CoreC++

CoreC++!

(17)

Motivation CoreC++

CoreC++

CoreC++!

(18)

Motivation CoreC++

CoreC++

CoreC++!

(19)

Motivation CoreC++

CoreC++

(20)

Beispiele

Codebeispiele

Dynamische Bindung

c l a s s A { v i r t u a l f( ) ; } ; c l a s s B : v i r t u a l A { };

c l a s s C : v i r t u a l A { v i r t u a l f( ) ; } ; c l a s s D : B , C { };

...

B * b = new D ();

b- >f();

Klassengraph

Subobjektgraph

D

B C

A

C

[D,D] [D,D.B] [D,D.C]

[D,A]

Welches f() wird aufgerufen?

Methodenaufruf aufgel¨ost zu C::f(), weder Ober- noch Unterklasse vonB L¨osung: D(dynamische Klasse) sieht “kleinste” Definition vonf()

in seinemC-Subobjekt (dominiert dasA-Subobjekt)

(21)

Beispiele

Codebeispiele

Dynamische Bindung

...

B * b = new D ();

b- >f();

Klassengraph

Subobjektgraph

D B

C

A

C

[D,D] [D,D.B] [D,D.C]

[D,A]

Methodenaufruf aufgel¨ost zuC::f(), weder Ober- noch Unterklasse vonB

L¨osung: D(dynamische Klasse) sieht “kleinste” Definition vonf() in seinemC-Subobjekt (dominiert dasA-Subobjekt)

(22)

Beispiele

Codebeispiele

Dynamische Bindung

...

B * b = new D ();

b- >f();

Klassengraph

Subobjektgraph

D

B C

A

C

[D,D]

[D,D.B] [D,D.C]

[D,A]

Methodenaufruf aufgel¨ost zuC::f(), weder Ober- noch Unterklasse vonB L¨osung: D(dynamische Klasse) sieht “kleinste” Definition vonf()

(23)

Beispiele

Codebeispiele

Von virtueller zu nichtvirtueller Vererbung

c l a s s A { v i r t u a l f( ) ; } ; c l a s s B : A { };

c l a s s C : A { v i r t u a l f( ) ; } ; c l a s s D : B , C { };

...

B * b = new D ();

b- >f();

Klassengraph

Subobjektgraph

D

B C

A

[D,D] [D,D.B] [D,D.C]

[D,D.C.A] [D,D.C.A]

[D,D.C] [D,D.B.A]

D(dyn. Klasse): zwei A-Subobjekte und einC-Subobjekt mit Def. von f() dynamisch mehrdeutig!

aber C++ verwendet statische Klasse Bf¨ur Eindeutigkeit

Methodenaufruf aufgel¨ost zu f() inA-Subobjekt innerhalbB-Subobjekts

(24)

Beispiele

Codebeispiele

...

B * b = new D ();

b- >f();

Klassengraph

Subobjektgraph

D

B C

A

[D,D]

[D,D.B] [D,D.C]

[D,D.C.A]

[D,D.C]

[D,D.B.A]

D(dyn. Klasse): zwei A-Subobjekte und einC-Subobjekt mit Def. vonf()

dynamisch mehrdeutig!

(25)

Beispiele

Codebeispiele

...

B * b = new D ();

b- >f();

Klassengraph

Subobjektgraph

D

B C

A

[D,D]

[D,D.B] [D,D.C]

[D,D.C.A]

[D,D.C]

[D,D.B.A]

D(dyn. Klasse): zwei A-Subobjekte und einC-Subobjekt mit Def. vonf() dynamisch mehrdeutig!

(26)

Beispiele

Codebeispiele

...

B * b = new D ();

b- >f();

Klassengraph

Subobjektgraph

D

B C

A

[D,D]

[D,D.B] [D,D.C]

[D,D.C.A]

[D,D.C]

[D,D.B.A]

(27)

Beispiele

Codebeispiele

...

B * b = new D ();

b- >f();

Klassengraph

Subobjektgraph

D

B C

A

[D,D]

[D,D.B]

[D,D.C] [D,D.C.A]

[D,D.C.A]

[D,D.C]

[D,D.B.A]

(28)

Beispiele

Codebeispiele

Und was macht der Compiler?

c l a s s A { int x; };

c l a s s B { int x; };

c l a s s C : v i r t u a l A , v i r t u a l B { int x; };

c l a s s D : v i r t u a l A , v i r t u a l B , v i r t u a l C { };

...

D * d = new D ();

d- >x = 42;

Klassengraph

Subobjektgraph

D C

A B

[D,D] [D,C] [D,A] [D,B][D,B] [D,A]

g++ weist Attributszuweisung als mehrdeutig zur¨uck (Kandidaten: A- andB-Subobjekt)

Intel Compiler weist korrektem x imC-Subobjekt zu

(29)

Beispiele

Codebeispiele

...

D * d = new D ();

d- >x = 42;

Klassengraph

Subobjektgraph

D C

A B

[D,D]

[D,C]

[D,A] [D,B]

[D,B] [D,A]

Intel Compiler weist korrektem x imC-Subobjekt zu

(30)

Beispiele

Codebeispiele

...

D * d = new D ();

d- >x = 42;

Klassengraph

Subobjektgraph

D C

A B

[D,D]

[D,C]

[D,A] [D,B]

[D,B]

[D,A]

(31)

Semantik und Typsystem von CoreC++ Formalismen

Formales Modell

Programm: Klassenhierarchie Programmanweisung:

Objekterzeugung Literal

sequentielle Komposition

statischer/dynamischer Cast Variablenzugriff/-zuweisung Attributzugriff/-zuweisung Bl¨ocke mit lokalen Variablen

Methodenaufruf bin¨are Operatoren if-then-else while

Ausnahmen: OutOfMemory,ClassCast,NullPointer

Werte:

Primitive (booleanund int) Zeiger auf Objekte (auf dem Heap) Zeiger: Tupel aus Heapadresse und Subobjektidentifikator (this-pointer,

bestimmt statische Klasse von gecasteten Objekten)

(32)

Formales Modell

Programm: Klassenhierarchie Programmanweisung:

Objekterzeugung Literal

sequentielle Komposition

statischer/dynamischer Cast Variablenzugriff/-zuweisung Attributzugriff/-zuweisung Bl¨ocke mit lokalen Variablen

Methodenaufruf bin¨are Operatoren if-then-else while

Ausnahmen: OutOfMemory,ClassCast,NullPointer Werte:

Primitive (booleanund int) Zeiger auf Objekte (auf dem Heap)

(33)

Typsystem

Typen: Boolean, Integer, Null, Class, Void

Ben¨otigt Typumgebung, bildet Variablennamen auf Typen ab Beispiel:

Statischer Up Cast:

P,E` e:: Class D is-class P C P`pathD toCunique P,E`stat castC e ::Class C

P`pathD toCunique≡KlasseDhat genau ein(en Pfad zu)CSubobjekt

Methodenaufruf:

P,E`e::Class C P`Chas leastM= (Ts,T,m)viaCs P,E`es[::]Ts⁰ P`Ts⁰[≤]Ts

P,E`e.M(es) ::T

P`Chas leastM= (Ts,T,m)viaCs≡kleinste Definition vonM f¨ur C

(34)

Typsystem

Typen: Boolean, Integer, Null, Class, Void

Ben¨otigt Typumgebung, bildet Variablennamen auf Typen ab Beispiel:

Statischer Up Cast:

P,E` e:: Class D is-class P C P`pathD toCunique P,E`stat castC e ::Class C

P`pathD toCunique≡KlasseDhat genau ein(en Pfad zu)CSubobjekt

Methodenaufruf:

P,E`e::Class C P`Chas leastM= (Ts,T,m)viaCs P,E`es[::]Ts⁰ P `Ts⁰[≤]Ts

P,E`e.M(es) ::T

(35)

Semantik

Semantik: Formelle Beschreibung des Programmverhalten

Operationelle Semantik:

simuliert Programmausf¨uhrung

beschreibt Transitionen auf einer Zustandsmaschine

“in ProgrammP, werden Anweisung e und Zustand s zu Restanweisunge⁰ und Zustand s⁰ ausgewertet”

Zustand: Tupel von Heap und Speicher f¨ur lokale Variablen

(36)

Beispiele

Statischer Up Cast:

P,E ` he,s0i ⇒ href(a,Cs),s₁i

P `pathlast CstoCviaCs⁰ Ds=Cs@_p Cs⁰ P,E` hstat castC e,s0i ⇒ href(a,Ds),s1i

P`pathDtoCviaCs⁰ ≡KlasseDerreicht einCSubobjekt mittels PfadCs’

Pfad entspricht Subobjekt, die letzte Klasse ist statische Klasse des Objekts

Methodenaufruf:

P,E` he,s0i ⇒ href(a,Cs),s1i P,E` hps,s1i[⇒] hmap Valvs,(h2,l2)i h2a=b(C, )c P`last Cshas leastM= ( ,T⁰, , )viaDs P`(C,Cs@p Ds)selectsM= (Ts,T,pns, body)viaCs⁰ |vs| =|pns|

P`TsCastsvstovs⁰ l20= [this 7→Ref (a,Cs⁰),pns[7→]vs⁰] new-body= (caseT⁰ofClass D⇒stat cast D body|-⇒body) P,E(this 7→Class(last Cs⁰),pns[7→] Ts)` hnew-body,(h2,l₂⁰)i ⇒ he⁰,(h₃,l₃)i

P,E` he.M(ps),s0i ⇒ he⁰,(h3, l2)i

(37)

Beispiele

Statischer Up Cast:

P,E ` he,s0i ⇒ href(a,Cs),s₁i

P `pathlast CstoCviaCs⁰ Ds=Cs@_p Cs⁰ P,E` hstat castC e,s0i ⇒ href(a,Ds),s1i

P`pathDtoCviaCs⁰ ≡KlasseDerreicht einCSubobjekt mittels PfadCs’

Pfad entspricht Subobjekt, die letzte Klasse ist statische Klasse des Objekts

Methodenaufruf:

P,E` he,s0i ⇒ href(a,Cs),s1i P,E` hps,s1i[⇒] hmap Valvs,(h2, l2)i h2a=b(C, )c P`last Cshas leastM= ( ,T⁰, , )viaDs P`(C,Cs@p Ds)selectsM= (Ts,T,pns, body)viaCs⁰ |vs| =|pns|

P`TsCastsvstovs⁰ l20= [this7→Ref (a,Cs⁰),pns[7→]vs⁰] new-body= (caseT⁰ofClass D⇒stat cast D body|-⇒body)

0 0 0

(38)

Semantik und Typsystem von CoreC++ Typsicherheitsbeweis

Typsicherheit

Typsicherheit: Ausf¨uhrung einer Programmanweisung e des Typs T in Zustand s resultiert in

entwedervollst¨andig ausgewerteter Anweisung e⁰ des Typs T⁰≤T oder kontrollierter Ausnahme

“No untrapped errors may occur!” (Cardelli ’04)

(39)

Typsicherheitsbeweis

Standard-Beweistechnik: (Wright, Felleisen ’94) Progress: “Semantik kann nicht steckenbleiben”

Preservation: “Auswertung einer wohlgetypten Anweisung resultiert in weiterer wohlgetypter Anweisung mit gleichem oder kleineren Typ”

Beweisinvariante als Laufzeit-Typsystem formuliert (Drossopoulou, Eisenbach ’97)

Das (formale) Typsicherheitstheorem: If wf-C-prog P and P,E `s√

and P,E`e::T and Debdom(lcl s)c and P,E` he,si →^∗ he⁰,s⁰i and

@e⁰⁰s⁰⁰. P,E` he⁰,s⁰i → he⁰⁰,s⁰⁰i then (∃v.e⁰=Valv∧P,hp s⁰`v:≤T)∨

(∃r.e⁰=Throw r∧the-addr(Ref r)∈dom(hp s⁰)).

(40)

Typsicherheitsbeweis

Standard-Beweistechnik: (Wright, Felleisen ’94) Progress: “Semantik kann nicht steckenbleiben”

Preservation: “Auswertung einer wohlgetypten Anweisung resultiert in weiterer wohlgetypter Anweisung mit gleichem oder kleineren Typ”

Beweisinvariante als Laufzeit-Typsystem formuliert (Drossopoulou, Eisenbach ’97)

Das (formale) Typsicherheitstheorem:

If wf-C-prog P and P,E `s√

and P,E`e::T and Debdom(lcl s)c and P,E` he,si →^∗ he⁰,s⁰i and

@e⁰⁰s⁰⁰. P,E` he⁰,s⁰i → he⁰⁰,s⁰⁰i then

0 0

(41)

Isabelle / HOL

Isabelle: generischer Theorembeweiser, Isar: verst¨andlich Beweisskripte HOL: Higher Order Logic (First order logic + Arithmetik)

(42)

Anwendbarkeit in der Softwaretechnik Ausf¨uhrbarkeit

Ausf¨ uhrbarkeit

Isabelle enth¨altCodegenerator, erstellt ML Dateien aus Beweisen

−→ ML Interpreter f¨ur Semantik and Typsystem Um C++ Dateien gegen die Formalisierung zu pr¨ufen:

C++ Programm darf nur CoreC++ Programmanweisungen verwenden

Programm als CoreC++ Repr¨asentation in ML umschreiben daf¨ur existiert ein Parser

Semantik formalisiert korrekt dynamisches Binden (vgl. Bsp. 1 und 2) Semantik formalisiert korrekt Subobjekt-Domination (vgl. Bsp. 3)

(43)

Anwendbarkeit in der Softwaretechnik Softwaresicherheit

Softwaresicherheit

Software-Sicherheitsanalyse heute unverzichtbar!

Algorithmen f¨ur verschiedenste Anwendungen existieren meist ohne oder bestenfalls mit manuellem Korrektheitsbeweis

Quis custodiet ipsos custodes?

Kann ich sicher sein, dass der Algorithmus das tut, was er behauptet? Ziel: Analyse und Verifikation von Sicherheitsanalysen

(44)

Softwaresicherheit

Quis custodiet ipsos custodes?

Kann ich sicher sein, dass der Algorithmus das tut, was er behauptet?

Ziel: Analyse und Verifikation von Sicherheitsanalysen

(45)

Softwaresicherheit

Quis custodiet ipsos custodes?

Kann ich sicher sein, dass der Algorithmus das tut, was er behauptet?

Ziel: Analyse und Verifikation von Sicherheitsanalysen

(46)

Analyse und Verifikation mittels formaler Semantik

Language Based Security: Verifikation mittels sprachlicher Eigenschaften Vorliegende Semantik:

exakte Formalisierung einer Sprache aussagekr¨aftige Basis f¨ur Verifikation

ideale Grundlage f¨ur LBS! Aktuelle und zuk¨unftige Arbeit:

Korrektheitsbeweise von Methoden der sprachbasierten Softwaresicherheit (z.B. Information Flow Control) mittels Theorembeweisern

dazu n¨otig: Formalisierung von CFGs, PDGs etc...

(47)

Analyse und Verifikation mittels formaler Semantik

exakte Formalisierung einer Sprache aussagekräftige Basis für Verifikation ideale Grundlage für LBS!

Aktuelle und zuk¨unftige Arbeit:

(48)

Analyse und Verifikation mittels formaler Semantik

exakte Formalisierung einer Sprache aussagekräftige Basis für Verifikation ideale Grundlage für LBS!

Aktuelle und zuk¨unftige Arbeit:

(49)

Zusammenfassung

ausf¨uhrbare Formalisierung von (Kern-)C++ und seiner Typsicherheit mittels eines Theorembeweisers

−→ Ziel erreicht!

vollst¨andige Semantik und Typsystem f¨ur Kern-C++ korrekte Behandlung von dynamischer Bindung und Subobjekt-Domination

(maschinengepr¨ufter) Typsicherheitsbeweis

Formalisierung unabh¨angig von Implementationsdetails neue Stufe der Komplexit¨at in maschinellem Beweisen

Ein paar Zahlen: 14,000 LoC, ∼500 Lemmas,∼120 Definitionen Durchlauf des Beweis:∼5min (Athlon 64 D.C. 3800+, 2GB RAM) Formalisierung ausführbar, C++ Code kann also geprüft werden ideale Basis für Verifikation von Sicherheitsanalysen

(50)

Zusammenfassung

vollst¨andige Semantik und Typsystem f¨ur Kern-C++ korrekte Behandlung von dynamischer Bindung und Subobjekt-Domination

Ein paar Zahlen: 14,000 LoC, ∼500 Lemmas,∼120 Definitionen Durchlauf des Beweis:∼5min (Athlon 64 D.C. 3800+, 2GB RAM) Formalisierung ausführbar, C++ Code kann also geprüft werden ideale Basis für Verifikation von Sicherheitsanalysen

(51)

Zusammenfassung

vollst¨andige Semantik und Typsystem f¨ur Kern-C++

korrekte Behandlung von dynamischer Bindung und Subobjekt-Domination

Ein paar Zahlen: 14,000 LoC, ∼500 Lemmas,∼120 Definitionen Durchlauf des Beweis:∼5min (Athlon 64 D.C. 3800+, 2GB RAM)