Basisverf¨ugbarkeit - Stochastische Analyse der Datenverf¨ugbarkeit

4.3 Stochastische Analyse der Datenverf¨ugbarkeit

4.3.3 Basisverf¨ugbarkeit

4.3.3.1 Annahmen und Voraussetzungen

Als Basisverf¨ugbarkeit wird im Rahmen dieser Arbeit die in [MaM02] herangezogene Datenverf¨ugbarkeit in einem idealisierten Netzwerk ohne Angreifer verstanden. F¨ur ih-re Beih-rechnung werden von Maymounkov und Mazi`eih-res die folgenden veih-reinfachenden Annahmen getroffen:

• Replikation mit festem Faktor: Es entstehen bei der Publikation eines Daten-satzes Replika auf allenk Knoten ausN_b.

• Diskrete Betrachtung: Es wird nur ein diskreter Zeitschritt untersucht, in wel-chem vom Zustand zum Anfang einer Periode zum Zustand am Periodenende

¨uber-gegangen wird, ohne Zwischenzust¨ande innerhalb dieses Zeitraums zu ber¨ucksich-tigen.

• St¨undliche Betrachtung:Ein Zeitschritt deckt eine Stunde ab.

• Keine Neuerstellung von Replika: Jedes Replikat, das auf einem Knoten aus N_b gespeichert ist, der in der betrachteten Periode in den Status offline wechselt, ist verloren. Der betrachtete Zeitschritt beinhaltet insbesonderekein Republishing, d.h. keine selbstorganisierende Neuerstellung von Replika durch die verbleibenden zust¨andigen Knoten.

• Keine Angreifer:Alle Knoten verhalten sich protokollgem¨aß - es gibt kein b¨oswil-liges Verhalten, f¨ur die Angriffswahrscheinlichkeit gilt daher hier zun¨achst p_a= 0.

Es ist einsichtig, dass die Basisverf¨ugbarkeit keine ausreichende Maßzahl f¨ur die Verf¨ugbar-keit in einem nicht idealen System darstellen kann. Daher werden in den sp¨ateren Ab-schnitten ab 4.3.4 erweiterte Formeln entwickelt, welche auf realistischere Annahmen aufbauen (siehe auch 4.3.3.4).

4.3.3.2 Formalisierung

Die Wahrscheinlichkeit, dass die - unter den obigen Voraussetzungen - am Ende der Periode noch vorhandene Replikazahl ˜kgenauimit 0≤i≤kentspricht⁶, bestimmt sich wie folgt:

p(˜k=i)_(p_oh_,k) = µk

·(1−p_o_h)ⁱ·(p_o_h)^k−i (4.3) Die Werte der Zufallsvariable ˜k sind binomialverteilt; (1−p_o_h)ⁱ bezeichnet die Wahr-scheinlichkeit, dass i Knoten in dieser Periode online bleiben, (p_o_h)^k−i die Wahrschein-lichkeit, dass alle weiteren Knoten aufgrund von Fluktuation das Netz verlassen.

Die Wahrscheinlichkeit, dassmindestens iReplika am Ende der Periode existieren, ergibt sich dann wie folgt:

p(˜k≥i)_(p_oh_,k)= Xk

j=i

p(˜k=j)_(p_oh_,k) (4.4) Insbesondere gilt f¨ur die Wahrscheinlichkeit, dass mindestens ein Replikat am Ende der Periode existiert:

p(˜k≥1)_(p_oh_,k)= 1−p(˜k= 0)_(p_oh_,k) (4.5) Der Erwartungswert f¨ur die Anzahl der vorhandenen Replika am Ende der Periode ist dann:

E(˜k)_(p_oh_,k)= Xk

i=0

i·p(˜k=i)_(p_oh_,k)

= (1−p_o_h)·k (4.6)

6Entgegen der g¨angigen Nomenklatur (z.B. [FKP04]) werden Zufallsvariablen hier ausschließlich in Kleinbuchstaben notiert.

4.3.3.3 Analyse

Die Basisformel gibt Aufschluss ¨uber die Wirksamkeit des Replikationsmechanismus von Kademlia unter der Annahme der Fluktuation von Knoten. Sie ist somit die Grundlage f¨ur alle weiteren Analyseschritte.

Abbildung 4.2 zeigt die Verteilung der Wahrscheinlichkeit f¨ur i Replika zum

0 0.05 0.1 0.15 0.2 0.25

0 5 10 15 20

p(k=i)

p_o h = 0.5 p_o

h = 0.8

Abbildung 4.2: Basisformel: Wahrscheinlichkeitsverteilungenp(˜k=i)_(p_oh_,k)f¨urp_o_h = 0.5, 0.8;k= 20

ende gem¨aß Formel 4.3 in Abh¨angigkeit von i. Der Erwartungswert E(˜k) ist auch aus der Abbildung ablesbar: Die Wahrscheinlichkeitsverteilung bildet stetig approximiert eine Normalverteilungskurve mit Maximum bei ˜k= 4 f¨urp_o_h = 0.8 bzw. ˜k= 10 f¨urp_o_h = 0.5.

Abbildung 4.3 zeigt die Wahrscheinlichkeit, dass bei dem in [MaM02] empfohlenen Re-plikationsfaktork= 20 zum Ende der Periode mindestens ein Replikat im Netz vorhan-den und der Datensatz somit verf¨ugbar bleibt, in Abh¨angigkeit von der Fluktationsrate p_o_h. Es ist zu sehen, dass bei Fluktuationsratenp_o_h <0.8 der Datensatz verf¨ugbar ist, da p(˜k ≥ 1)_(p_oh_,k) ≥ 0.99. Die Verf¨ugbarkeitswahrscheinlichkeit unterschreitet bei ca.

p_o_h= 0.795 die Grenzep_av_min = 0.99.

4.3.3.4 Bewertung der Basisverf¨ugbarkeit

Die vorgestellte Basisverf¨ugbarkeit ist die einzige von den Kademlia-Entwicklern in ih-rem Proof of Concept [MaM02] implizierte Formel, mit der die Sicherheit des Protokolls untermauert werden soll.

Sie weist aberwesentlicheDefizite in ihrer Aussagekraft auf, da bestimmte Eigenschaften des Kademlia-Regelwerks ebenso wie solche von P2P-Systemen allgemein nicht ber¨uck-sichtigt werden:

• Zeitaspekte:Die Basisformel betrachtet den Knotenausfall und die damit einher-gehende Verf¨ugbarkeit von Datens¨atzen nur in einem diskreten Abschnitt von einer Stunde. Es wird dabei angenommen, dass jeweils zum Beginn der n¨achsten Stunde

0.87 0.88 0.89 0.9 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99 1

0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9

p(k >= 1)

p_o

Abbildung 4.3: Basisformel: Verf¨ugbarkeitswahrscheinlichkeit p(˜k ≥ 1)_(p_oh_,k) in Abh¨angigkeit von p_o_h;k= 20

durch das Republishing wieder kReplika vorhanden sind, so dass die Betrachtung uber mehrere Stunden hinweg als nicht notwendig angesehen wird. Diese Annahme¨ kann in einem realen System abernicht erf¨ullt werden, wie in den folgenden Punk-ten erl¨autert wird.

Zudem kann die Entwicklung innerhalb jedes Zeitraums von einer Stunde mit Hil-fe der Basisformel nicht untersucht werden - dies ist aber f¨ur die Analyse inter-essant, z.B. um minutengenaue Verf¨ugbarkeitswahrscheinlichkeiten, feingranulare Verf¨ugbarkeitsentwicklung oder variierende Republishing-Zeitr¨aume untersuchen zu k¨onnen.

Zeitaspekte sind daher mit feinerer Granularit¨at und ¨uber l¨angere Zeitspannen, insbesondere im Hinblick auf die gesamte G¨ultigkeitsdauer eines Datensatzes, zu ber¨ucksichtigen.

• Transfer on Join:Betritt ein neuer Knotenn_i, der aufgrund seiner NodeID zuN_b geh¨ort, das Netz und erlangt der Peer n_e mit minimaler Distanz ∆(n_e, b) im Zuge dieses Join-Verfahrens von n_i Kenntnis⁷, so sendet n_e eine Speicheraufforderung (STORE-Request) f¨ur ein Replikat an den neuen Knoten. Durch diesen sogenann-ten Transfer on Join entstehen neue Replika, die aber in der Basisformel keine Ber¨ucksichtigung finden.

• Existenz von Angreifern:Die Annahme, dass alle Knoten protokollgem¨aß han-deln, ist in einem realen P2P-System nicht haltbar, da hier stets b¨oswillige Teil-nehmer existieren. F¨ur die Angriffswahrscheinlichkeit gilt im Folgenden:p_a>0. Es werden verschiedene Angriffszeitpunkte unterschieden:

– Angriffe zum Publikationszeitpunkt:Jeder derk Knoten, die ein STORE-Request f¨ur ein Replikat erhalten, wird mit Wahrscheinlichkeit p_a den

Da-7Danibeim Join einen Lookup nach seiner eigenen NodeID durchf¨uhrt, ist es wahrscheinlich, dassne

als Knoten mit geringer Distanz ∆(ne, ni) die Lookup-Nachricht erh¨alt und somit von dem neuen Knoten erf¨ahrt.

tensatz nicht speichern, obwohl er gegen¨uber dem Erzeuger der Replika die Speicherung best¨atigt. Damit ist es wahrscheinlich, dass schon zu Beginn der Lebensdauer des Datensatzes weniger als kReplika existieren.

– Angriffe in der Pre-Republishing-Phase:Knoten, die zum Publikations-zeitpunkt

”gut“ waren, bleiben auch in dieser Phase

”gut“. Angriffe k¨onnen nur stattfinden, indem Knoten beim Transfer on Join b¨oswillig handeln und dadurch weniger neue Replika als vorgesehen entstehen.

– Angriffe zum Republishing-Zeitpunkt: In regelm¨aßigen Zeitabst¨anden

ubermittelt jeder KnotenSTORE-Requests an die anderenk−1 Knoten ausN_b, um denjenigen neu hinzugekommenen Knoten inN_b, welche bisher noch kein Replikat besitzen, den Datensatz zur Speicherung zu ¨ubergeben. Auch hier werden mit hoher Wahrscheinlichkeit nicht alle diese Knoten Replika erzeu-gen. Weiterhin ist es auch m¨oglich, dass der f¨ur das Republishing verantwort-liche Knoten b¨ose ist und daher die Wiederver¨offentlichung des Datensatzes unterl¨asst.

In den folgenden Abschnitten werden die Formeln f¨ur die Basisverf¨ugbarkeit um die skiz-zierten Aspekte erweitert, um eine detaillierte Analyse von Kademlia unter realistischen Annahmen zu erm¨oglichen.

Zun¨achst wird das Formelwerk auf eine feinere Granularit¨at (min¨utliche Betrachtungs-weise) angepasst und um Angriffe zum Publikationszeitpunkt erweitert. Die Methode des Transfer on Join wird diskutiert.

Es folgt die formale Beschreibung des Republishing am Ende jeder Stunde und damit die Vervollst¨andigung des Formelwerks. Damit kann die Verf¨ugbarkeitswahrscheinlichkeit zu jedem beliebigen Zeitpunkt seit Publikation eines Datensatzes berechnet werden.

Im Anschluss erfolgt die ausf¨uhrliche Analyse auf Basis der entwickelten Formeln. Insbe-sondere wird die Langzeitverf¨ugbarkeit unter Ber¨ucksichtigung multipler Republishing-Zeitpunkte quantifiziert.

Im Dokument Verteiltes Datenverwaltungssystem f¨ur Authentiﬁzierungs- und Autorisierungsinfrastrukturen: P2P-ZuSI (Seite 87-91)