Nikolaus Augsten

(1)

Datenbanken 2

Indexstrukturen

Nikolaus Augsten

nikolaus.augsten@sbg.ac.at FB Computerwissenschaften

Universit¨at Salzburg

http://dbresearch.uni-salzburg.at

WS 2018/19

Version 20. November 2018

(2)

Inhalt

1

Indexstrukturen f¨ur Dateien Grundlagen

B

⁺

-Baum

Statisches Hashing

Dynamisches Hashing

Mehrschl¨ussel Indizes

Indizes in SQL

(3)

Literatur und Quellen

Lekt¨ure zum Thema “Indexstrukturen”:

Kapitel 7 aus Kemper und Eickler: Datenbanksysteme: Eine Einf¨uhrung.

Oldenbourg Verlag, 2013.

Chapter 11 in Silberschatz, Korth, and Sudarashan: Database System Concepts. McGraw Hill, 2011.

Danksagung Die Vorlage zu diesen Folien wurde entwickelt von:

Michael Böhlen, Universität Zürich, Schweiz Johann Gamper, Freie Universität Bozen, Italien

(4)

Indexstrukturen f¨ur Dateien Grundlagen

Inhalt

1

Indexstrukturen f¨ur Dateien Grundlagen

B

⁺

-Baum

Statisches Hashing

Dynamisches Hashing

Mehrschl¨ussel Indizes

Indizes in SQL

(5)

Grundlagen/1

Index beschleunigt Zugriff, z.B.:

Autorenkatalog in Bibliothek Index in einem Buch

Index-Datei besteht aus Datens¨atzen: den Index-Eintr¨agen Index-Eintrag hat die Form

(Suchschl¨ussel, Pointer)

Suchschl¨ussel: Attribut(liste) nach der Daten gesucht werden Pointer: Pointer auf einen Datensatz (TID)

Suchschl¨ussel darf mehrfach vorkommen

(im Gegensatz zu Schl¨usseln von Relationen)

Index-Datei meist viel kleiner als die indizierte Daten-Datei

(6)

Grundlagen/2

Merkmale des Index sind:

Zugriffszeit

Zeit für Einfügen Zeit für Löschen Speicherbedarf

effizient unterst¨utzte Zugriffsarten

Wichtigste Zugriffsarten sind:

Punktanfragen: z.B. Person mit SVN=1983-3920

Mehrpunktanfragen: z.B. Personen, die 1980 geboren wurden

Bereichsanfragen: z.B. Personen die mehr als 100.000 EUR verdienen

(7)

Grundlagen/3

Indextypen werden nach folgenden Kriterien unterschieden:

Ordnung der Daten- und Index-Datei:

Prim¨arindex Clustered Index Sekund¨arindex

Art der Index-Eintr¨agen :

sparse Index dense Index

Nicht alle Kombinationen ¨ublich/m¨oglich:

Prim¨arindex ist oft sparse

Sekund¨arindex ist immer dense

(8)

Prim¨arindex/1

Prim¨arindex :

Datensätze in der Daten-Datei sind nach Suchschlüssel sortiert Suchschlüssel ist eindeutig, d.h., Suche nach 1 Schlüssel ergibt (höchstens) 1 Tupel

..

. ... Key Ptr

..

. ...

Key

(9)

Prim¨arindex/2

Index-Datei:

sequentiell geordnet nach Suchschl¨ussel

Daten-Datei:

sequentiell geordnet nach Suchschl¨ussel jeder Suchschl¨ussel kommt nur 1 mal vor

Effiziente Zugriffsarten:

Punkt- und Bereichsanfragen

nicht-sequentieller Zugriff (random access)

sequentieller Zugriff nach Suchschl¨ussel sortiert (sequential access)

(10)

Clustered Index

Index-Datei:

sequentiell geordnet nach Suchschl¨ussel

Daten-Datei:

sequentiell geordnet nach Suchschl¨ussel Suchschl¨ussel kann mehrfach vorkommen

Effiziente Zugriffsarten:

Punkt-, Mehrpunkt-, und Bereichsanfragen nicht-sequentieller Zugriff (random access)

sequentieller Zugriff nach Suchschl¨ussel sortiert (sequential access)

Round Hill Redwood Perryridge

Mianus Downtown

Brighton A-217 Brighton 750

A-101 Downtown 500 A-110 Downtown 600

A-215 Mianus 700

A-102 Perryridge 400 A-201 Perryridge 900 A-218 Perryridge 700

(11)

Sekund¨arindex/1

Prim¨ar- vs. Sekund¨arindex:

nur 1 Primärindex (bzw. Clustered Index) möglich beliebig viele Sekundärindizes

Sekundärindex für schnellen Zugriff auf alle Felder, die nicht Suchschlüssel des Primärindex sind

Beispiel: Konten mit Prim¨arindex auf Kontonummer

Finde alle Konten einer bestimmten Filiale.

Finde alle Konten mit 1000 bis 1500 EUR Guthaben.

Ohne Index k¨onnen diese Anfragen nur durch sequentielles Lesen aller Knoten beantwortet werden – sehr langsam

Sekund¨arindex f¨ur schnellen Zugriff erforderlich

(12)

Sekund¨arindex/2

Index-Datei:

sequentiell nach Suchschl¨ussel geordnet

Daten-Datei:

Suchschl¨ussel kann mehrfach vorkommen nicht nach Suchschl¨ussel geordnet

..

. ... Key Ptr

..

. ... ...

Key

(13)

Sekund¨arindex/3

Effiziente Zugriffsarten:

sehr schnell f¨ur Punktanfragen

Mehrpunkt- und Bereichsanfragen: gut wenn nur kleiner Teil der Tabelle zur¨uckgeliefert wird (wenige %)

besonders f¨ur nicht-sequentiellen Zugriff (random access) geeignet

(14)

Duplikate/1

Umgang mit mehrfachen Suchschl¨usseln:

(a) Doppelte Indexeintr¨age:

ein Indexeintrag f¨ur jeden Datensatz

→ schwierig zu handhaben, z.B. in B⁺-Baum Index

(b) Buckets:

nur einen Indexeintrag pro Suchschl¨ussel Index-Eintrag zeigt auf ein Bucket

Bucket zeigt auf alle Datens¨atze zum entsprechenden Suchschl¨ussel

→ zus¨atzlicher Block (Bucket) muss gelesen werden

750 700 600 500 400 350 Key Ptr

A-305 Round Hill 350

A-222 Redwood 700

A-215 Mianus 700

A-110 Downtown 600

A-217 Brighton 750

A-101 Downtown 500

(15)

Duplikate/2

Umgang mit mehrfachen Suchschl¨usseln:

(c) Suchschl¨ussel eindeutig machen:

Einfügen: TID wird an Suchschlüssel angehängt (sodass dieser eindeutig wird)

Löschen: Suchschlüssel und TID werden benötigt (ergibt genau 1 Index-Eintrag)

Suche: nur Suchschlüssel wird benötigt (ergibt mehrere Index-Einträge)

→ wird in der Praxis verwendet

(16)

Sparse Index/1

Sparse Index

ein Index-Eintrag f¨ur mehrere Datens¨atze

kleiner Index: weniger Index-Eintr¨age als Datens¨atze

nur möglich wenn Datensätze nach Suchschlüssel geordnet sind (d.h. Primärindex oder Clustered Index)

Index-Datei Redwood

Mianus

Brighton A-217 Brighton 750

A-215 Mianus 700

A-102 Perryridge 400 A-201 Perryridge 900 A-218 Perryridge 700 A-222 Redwood 700 A-305 Round Hill 350

Daten-Datei

(17)

Sparse Index/2

Oft enth¨alt ein sparse Index einen Eintrag pro Block.

Der Suchschlüssel, der im Index für eine Block gespeichert wird, ist der kleinste Schlüssel in diesem Block .

.. . Datenblock 1

Datenblock 0 ..

. ...

(18)

Dense Index/1

Dense Index:

Index-Eintrag (bzw. Pointer in Bucket) f¨ur jeden Datensatz in der Daten-Datei

dense Index kann groß werden (aber normalerweise kleiner als Daten) Handhabung einfacher, da ein Pointer pro Datensatz

Sekund¨arindex ist immer dense

(19)

Gegen¨uberstellung von Index-Typen

Alle Index-Typen machen Punkt-Anfragen erheblich schneller.

Index erzeugt Kosten bei Updates: Index muss auch aktualisiert werden.

Dense/Sparse und Prim¨ar/Sekund¨ar :

Prim¨arindex kann dense oder sparse sein Sekund¨arindex ist immer dense

Sortiert lesen (=sequentielles Lesen nach Suchschl¨ussel-Ordnung):

mit Prim¨arindex schnell

mit Sekundärindex teuer, da sich aufeinander folgende Datensätze auf unterschiedlichen Blöcken befinden (können)

Dense vs. Sparse:

sparse Index braucht weniger Platz

sparse Index hat geringere Kosten beim Aktualisieren

dense Index erlaubt bestimmte Anfragen zu beantworten, ohne dass Datens¨atze gelesen werden m¨ussen (“covering index”)

(20)

Mehrstufiger Index/1

Großer Index wird teuer:

Index passt nicht mehr in Hauptspeicher und mehrere Block-Lese-Operationen werden erforderlich

bin¨are Suche: blog₂(B)c + 1 Block-Lese-Operationen (Index mit B Bl¨ocken)

eventuelle Overflow Bl¨ocke m¨ussen sequentiell gelesen werden

L¨osung: Mehrstufiger Index

Index wird selbst wieder indiziert

dabei wird der Index als sequentielle Daten-Datei behandelt

(21)

Mehrstufiger Index/2

Mehrstufiger Index:

Innerer Index: Index auf Daten-Datei Außerer Index: Index auf Index-Datei¨

Falls ¨außerer Index zu groß wird, kann eine weitere Index-Ebene eingef¨ugt werden.

.. . ..

. ...

Außerer¨ Index

.. . ...

.. . ... Innerer Index Index-

block 0

Index- block 1

Daten- block 0

Daten- block 1

Diese Art von (ein- oder mehrstufigem) Index wird auch als ISAM

(Index Sequential Access Method) oder index-sequentielle Datei

bezeichnet.

(22)

Mehrstufiger Index/3

Index Suche

beginne beim Root-Knoten

finde alle passenden Eintr¨age und verfolge die entsprechenden Pointer wiederhole bis Pointer auf Datensatz zeigt (Blatt-Ebene)

Index Update: L¨oschen und Einf¨ugen

Indizes aller Ebenen m¨ussen nachgef¨uhrt werden Update startet beim innersten Index

Erweiterungen der Algorithmen f¨ur einstufige Indizes

(23)

Inhalt

1

Indexstrukturen f¨ur Dateien Grundlagen

B

⁺

-Baum

Statisches Hashing

Dynamisches Hashing

Mehrschl¨ussel Indizes

Indizes in SQL

(24)

Indexstrukturen f¨ur Dateien B⁺-Baum

B

⁺

-Baum/1

B

⁺

-Baum: Alternative zu index-sequentiellen Dateien:

Vorteile von B

⁺

-B¨aumen:

Anzahl der Ebenen wird automatisch angepasst

reorganisiert sich selbst nach Einfüge- oder Lösch-Operationen durch kleine lokale Änderungen

reorganisieren des gesamten Indexes ist nie erforderlich

Nachteile von B

⁺

-B¨aumen:

evtl. Zusatzaufwand bei Einfügen und Löschen etwas höherer Speicherbedarf

komplexer zu implementieren

Vorteile wiegen Nachteile in den meisten Anwendungen bei weitem

auf, deshalb sind B

⁺

-B¨aume die meist-verbreitete Index-Struktur

(25)

B

⁺

-Baum/2

P₁ K₁ P₂ . . . P_m₋₁ K_m₋₁ P_m

P₁ K₁ P₂ . . . P_m₋₁ K_m₋₁ P_m P₁ K₁ P₂ . . . P_m₋₁ K_m₋₁ P_m

P₁ K₁ P₂ . . . P_m₋₁ K_m₋₁ P_m

Knoten mit Grad m : enth¨alt bis zu m − 1 Suchschl¨ussel und m Pointer

Knotengrad m > 2 entspricht der maximalen Anzahl der Pointer Suchschl¨ussel im Knoten sind sortiert

Knoten (außer Wurzel) sind mindestens halb voll

Wurzelknoten:

als Blattknoten: 0 bis m − 1 Suchschl¨ussel als Nicht-Blattknoten: mindestens 2 Kinder

Innerer Knoten: d m/2 e bis m Kinder (=Anzahl Pointer)

Blattknoten: d (m − 1)/2 e bis m − 1 Suchschl¨ussel bzw. Daten-Pointer

balancierter Baum : alle Pfade von der Wurzel zu den Bl¨attern sind

gleich lang (maximal d log

_d_m/2_e

(L) e Kanten f¨ur L Blattknoten)

(26)

Terminologie und Notation

Ein Paar (P

_i

, K

_i

) ist ein Eintrag

L[i ] = (P

_i

, K

_i

) bezeichnet den i -ten Eintrag von Knoten L

Daten-Pointer: Pointer zu Datens¨atzen sind nur in den Bl¨attern gespeichert

Verbindung zwischen Bl¨attern: der letzte Pointer im Blatt, P

_m

, zeigt auf das n¨achste Blatt

Anmerkung: Es gibt viele Varianten des B⁺-Baumes, die sich leicht unterscheiden.

Auch in Lehrbüchern werden unterschiedliche Varianten vorgestellt. Für diese Lehrveranstaltung gilt der B⁺-Baum, wie er hier präsentiert wird.

(27)

B

⁺

-Baum Knotenstruktur/1

P

₁

K

₁

P

₂

K

₂

P

₃

. . . P

_m₋₁

K

_m₋₁

P

_m

Blatt-Knoten:

K

₁

, . . . , K

_m₋₁

sind Suchschl¨ussel

P

₁

, ..., P

_m₋₁

sind Daten-Pointer

Suchschl¨ussel sind sortiert: K

₁

< K

₂

< K

₃

< . . . < K

_m₋₁

Daten-Pointer P

_i

, 1 ≤ i ≤ m − 1, zeigt auf

einen Datensatz mit Suchschl¨ussel K_i, oder

auf ein Bucket mit Pointern zu Datens¨atzen mit Suchschl¨ussel K_i

P

_m

zeigt auf das n¨achste Blatt in Suchschl¨ussel-Ordnung

(28)

B

⁺

-Baum Knotenstruktur/2

P

₁

K

₁

P

₂

K

₂

P

₃

. . . P

_m₋₁

K

_m₋₁

P

_m

Innere Knoten:

Stellen einen mehrstufigen sparse Index auf die Blattknoten dar Suchschl¨ussel im Knoten sind eindeutig

P

₁

, ..., P

_m

sind Pointer zu Kind-Knoten , d.h., zu Teilb¨aumen

Alle Suchschl¨ussel k im Teilbaum von P

_i

haben folgende Eigenschaften:

i = 1: k < K₁

1 < i < m: K_i₋₁ ≤ k < K_i i = m: k ≥ K

(29)

Beispiel: B

⁺

-Baum/1

Index auf Konto-Relation mit Suchschl¨ussel Filiale B

⁺

-Baum mit Knotengrad m = 5:

Wurzel: mindestens 2 Pointer zu Kind-Knoten

Innere Knoten: dm/2e = 3 bis m = 5 Pointer zu Kind-Knoten Bl¨atter: d(m − 1)/2e = 2 bis m − 1 = 4 Suchschl¨ussel

Perryridge

Brighton Downtown Mianus Perryridge Redwood Round Hill

(30)

Beispiel: B

⁺

-Baum/2

B

⁺

-Baum f¨ur Konto-Relation (Knotengrad m = 3)

Wurzel: mindestens 2 Pointer zu Kind-Knoten

Innere Knoten: dm/2e = 2 bis m = 3 Pointer zu Kind-Knoten Bl¨atter: d(m − 1)/2e = 1 bis m − 1 = 2 Suchschl¨ussel

Perryridge

Mianus Redwood

(31)

Suche im B

⁺

-Baum/1

Algorithmus: Suche alle Datens¨atze mit Suchschl¨ussel k (Annahme: dense B

⁺

-Baum Index):

1. C ← Wurzelknoten

2. while C keine Blattknoten do

suche im Knoten C nach dem größten Schlüssel K_i ≤ k if ein Schlüssel K_i ≤ k existiert

then C ← Knoten auf den P_i₊₁ zeigt else C ← Knoten auf den P₁ zeigt

3. if es gibt einen Schl¨ussel K_i in C sodass K_i = k

then folge Pointer P_i zum gesuchten Datensatz (oder Bucket) else kein Datensatz mit Suchschl¨ussel k existiert

(32)

Suche im B

⁺

-Baum/2

Beispiel: Finde alle Datens¨atze mit Suchschl¨ussel k =Mianus

Beginne mit dem Wurzelknoten

Kein Schl¨ussel K_i ≤Mianus existiert, also folge P₁

K₁ =Mianus ist der größte Suchschlüssel K_i ≤Mianus, also folge P₂ Suchschlüssel Mianus existiert, also folge dem ersten Datensatz-Pointer P₁ um zum Datensatz zu gelangen

Perryridge

Mianus Redwood

(33)

Suche im B

⁺

-Baum/3

Suche durchl¨auft Pfad von Wurzel bis Blatt:

Länge des Pfads höchstens dlog_d_m/2_e(L)e für L Blattknoten

⇒ dlog_d_m/2_e(L)e + 1 Bl¨ocke¹ m¨ussen gelesen werden sind die Blattknoten nur minimal voll (d(m − 1)/2e), ergibt sich die maximale Anzahl der Blattknoten: L =

K

d(m − 1)/2e

Wurzelknoten bleibt im Hauptspeicher, oft auch dessen Kinder, dadurch werden 1–2 Block-Zugriffe pro Suche gespart

Suche effizienter als in sequentiellem Index:

bis zu blog₂(B)c + 1 Blöcke¹ lesen im einstufigen sequentiellen Index (binäre Suche, Index mit B Blöcken, B = dK/(m − 1)e)

1nur Index Blöcke werden gezählt, Datenzugriff hier nicht berücksichtigt

(34)

Integrierte ¨ Ubung 2.1

Es soll ein Index mit 10

⁶

verschiedenen Suchschl¨usseln erstellt werden. Ein Knoten kann maximal 200 Schl¨ussel mit den entsprechenden Pointern

speichern. Es soll nach einem bestimmten Suchschl¨ussel k gesucht werden.

a) Wie viele Block-Zugriffe erfordert ein B

⁺

-Baum Index maximal, wenn kein Block im Hauptspeicher ist?

b) Wie viele Block-Zugriffe erfordert ein einstufiger, sequentieller Index

mit bin¨arer Suche?

(35)

Einf¨ugen in B

⁺

-Baum/1

Datensatz mit Suchschl¨ussel k einf¨ugen:

1. füge Datensatz in Daten-Datei ein (ergibt Pointer) 2. finde Blattknoten für Suchschlüssel k

3. falls im Blatt noch Platz ist dann:

füge (Pointer, Suchschlüssel)-Paar so in Blatt ein, dass Ordnung der Suchschlüssel erhalten bleibt

4. sonst (Blatt ist voll) teile Blatt-Knoten:

a) sortiere alle Suchschl¨ussel (einschließlich k)

b) die H¨alfte der Suchschl¨ussel bleiben im alten Knoten

c) die andere H¨alfte der Suchschl¨ussel kommt in einen neuen Knoten

d) f¨uge den kleinsten Eintrag des neuen Knotens in den Eltern-Knoten des geteilten Knotens ein

e) falls Eltern-Knoten voll ist dann:

teile den Knoten und propagiere Teilung nach oben, sofern n¨otig

(36)

Einf¨ugen in B

⁺

-Baum/2

Aufteilvorgang:

falls nach einer Teilung der neue Schl¨ussel im Elternknoten nicht Platz hat wird auch dieser geteilt

im schlimmsten Fall wird der Wurzelknoten geteilt und der B⁺-Baum wird um eine Ebene tiefer

(37)

Algorithmus: Einf¨ugen in B

⁺

-Baum/1

→ Knoten L , Suchschl¨ussel k , Pointer p (zu Datensatz oder Knoten) Algorithm 1: B+TreeInsert(L, k , p)

if L has less than m − 1 key values then insert(k,p) into L

else // Knoten teilen

T ← L ∪ (k, p); // tempor¨arer Speicher create new node L⁰;

L⁰.p_m ← L.p_m; L ← ∅;

L.p_m ← L⁰;

copy T.p₁ through T.k_d_m/2_e into L;

copy T.p_d_m/2_e₊₁ through T.k_m into L⁰; k⁰ ← T.k_d_m/2_e₊₁;

B+TreeInsertInParent(L,k⁰,L⁰);

(38)

Algorithmus: Einf¨ugen in B

⁺

-Baum/2

Algorithm 2: B+TreeInsertInParent(L, k , L

⁰

)

if L is root then

create new root with children L,L⁰ and value k; return;

P ← parent(L);

if P has less than m pointers then insert(k,L⁰) into P;

else // Knoten teilen

T ← P ∪ (k,L⁰);

erase all entries from P; create new node P⁰;

copy T.p₁ through T.p_d_m/2_e into P;

copy T.p_d_m/2_e₊₁ through T.p_m+1 into P⁰;

(39)

Blatt teilen/1

Kopiere L nach T und f¨uge ( k , p) ein: p

₁

k

₁

p

₂

k

₂

p

₃

m = 3 1. Anh¨angen und sortieren (z.B.: k

₁

< k < k

₂

)

T p

₁

k

₁

p k p

₂

k

₂

p

₃

2. Teilen (k

⁰

= T .k

_d_m/2_e₊₁

= T .k

₃

)

p

₁

k

₁

p k p

₂

k

₂

p

₃

p

₁

k

₁

p k • p

₂

k

₂

p

₃

k

⁰

T

L L

⁰

3. (k

⁰

, L

⁰

) in Elternknoten von L einf¨ugen

... L k

⁰

L

⁰

...

p

₁

k

₁

p k • p

₂

k

₂

p

₃

(40)

Blatt teilen/2

k

⁰

= T .k

_d_m/2_e₊₁

m gerade, z.B.: m=4

k

⁰

m ungerade, z.B.: m=5

k

⁰

(41)

Innere Knoten teilen/1

P p

₁

k

₁

p

₂

k

₂

p

₃

Kopiere P nach T und f¨uge ( k , p) ein:

1. Anh¨angen und sortieren (z.B.: k

₁

< k < k

₂

) T p

₁

k

₁

p

₂

k p k

₂

p

₃

2. Teilen (k

⁰

= T .k

_d_m/2_e

= T .k

₂

)

p

₁

k

₁

p

₂

k p k

₂

p

₃

p

₁

k

₁

p

₂

p k

₂

p

₃

L L

⁰

k⁰

(42)

Innere Knoten teilen/2

3. (k

⁰

, L

⁰

) in Elternknoten von L einf¨ugen L k L

⁰

p

₁

k

₁

p

₂

p k

₂

p

₃

(43)

Innere Knoten teilen/3

k

⁰

= T .k

_d_m/2_e

m gerade, z.B.: m=4

k

⁰

m ungerade, z.B.: m=5

k

⁰

nach oben

L L’

nach oben

L L’

(44)

Beispiel: Einf¨ugen in B

⁺

-Baum/1

B

⁺

-Baum vor Einf¨ugen von Clearview

Perryridge

Mianus

Brighton Downtown Mianus

Redwood

Perryridge Redwood Round Hill

B

⁺

-Baum nach Einf¨ugen von Clearview

Perryridge

(45)

Beispiel: Einf¨ugen in B

⁺

-Baum/2

B

⁺

-Baum vor Einf¨ugen von Greenwich

Perryridge

Clearview Mianus

Brighton Clearview Downtown Mianus

Redwood

B

⁺

-Baum nach Einf¨ugen von Greenwich

Greenwich Perryridge

Clearview

Brighton Clearview Downtown

Mianus

Greenwich Mianus

Redwood

(46)

L¨oschen von B

⁺

-Baum/1

Datensatz mit Suchschl¨ussel k l¨oschen:

1. finde Blattknoten mit Suchschl¨ussel k 2. l¨osche k von Knoten

3. falls Knoten durch L¨oschen von k zu wenige Eintr¨age hat:

a. Eintr¨age im Knoten und einem Geschwisterknoten passen in 1 Knoten dann:

vereinige die beiden Knoten in einen einzigen Knoten (den linken, falls er existiert; ansonsten den rechten) und l¨osche den anderen Knoten

l¨osche den Eintrag im Elternknoten der zwischen den beiden Knoten ist und wende L¨oschen rekursiv an

b. Eintr¨age im Knoten und einem Geschwisterknoten passen nicht in 1 Knoten dann:

verteile die Eintr¨age zwischen den beiden Knoten sodass beide die

(47)

L¨oschen von B

⁺

-Baum/2

Vereinigung:

Vereinigung zweier Knoten propagiert im Baum nach oben bis ein Knoten mit mehr als dm/2e Kindern gefunden wird

falls die Wurzel nach dem L¨oschen nur mehr ein Kind hat, wird sie gel¨oscht und der Kind-Knoten wird zur neuen Wurzel

(48)

Algorithmus: L¨oschen im B

⁺

-Baum

Algorithm 3: B+TreeDelete(L, k , p)

delete(k,p) from L

if L is root and has only one remaining child then make the child the new root and delete L

else if L has too few values/pointers then

L⁰ ← previous sibling of L [next, if there is no previous];

k⁰ ← value between L and L⁰ in parent(L);

if entries in L and L⁰ can fit in a single node then // vereinigen if L is a predecessor of L⁰ then swap L with L⁰;

if L is not a leaf then L⁰ ← L⁰ ∪ k⁰ and all (k_i,p_i) from L;

else L⁰ ← L⁰∪ all (k_i,p_i) from L;

B+TreeDelete(parent(L),k⁰,L);

else // verteilen

if L⁰ is a predecessor of L then if L is a nonleaf node then

remove the last (k,p) of L⁰;

insert the former last p of L⁰ and k⁰ as the first pointer and value in L;

else move the last (p,k) of L⁰ as the first pointer and value to L;

(49)

L¨oschen aus Blatt/1

(k , p) wird aus L gel¨oscht:

1. Vereinigen (m = 4) Vorher:

. . . L

⁰

k

⁰

L . . .

p

₁

k

₁

p

₂

k

₂

• p

₃

k

₃ _S

p

_S

k • parent (L)

L

⁰

L

Nachher:

. . . L

⁰ @@

k

⁰

L

_A

. . .

p

₁

k

₁

p

₂

k

₂

p

₃

k

₃

• •

(50)

L¨oschen aus Blatt/2

(k , p) wird aus L gel¨oscht:

2. Verteilen (m = 4) Vorher:

. . . L

⁰

k

⁰

L . . .

p

₁

k

₁

p

₂

k

₂

p

₃

k

₃

• p

₄

k

₄ _S

p

_S

k • parent (L)

L

⁰

L

Nachher:

. . . L

⁰

k

₃

L . . .

(51)

L¨oschen aus innerem Knoten/1

(k , p) wird aus L gel¨oscht:

1. Vereinigen (m = 4) Vorher:

. . . L

⁰

k

⁰

L . . .

p

₁

k

₁

p

₂

k

₂

p

₃

p

₄ _S

k

_S

p parent (L)

L

⁰

L

Nachher:

. . . L

⁰ @@

k

⁰

L

_A

. . .

p

₁

k

₁

p

₂

k

₂

p

₃

k

⁰

p

₄

(52)

L¨oschen aus innerem Knoten/2

(k , p) wird aus L gel¨oscht:

2. Verteilen (m = 4) Vorher:

. . . L

⁰

k

⁰

L . . .

p

₁

k

₁

p

₂

k

₂

p

₃

k

₃

p

₄

p

₅ _S

k

_S

p parent (L)

L

⁰

L

Nachher:

. . . L

⁰

k

₃

L . . .

(53)

Beispiel: L¨oschen von B

⁺

-Baum/1

Vor L¨oschen von Downtown:

Perryridge

Downtown Mianus

Redwood

Nach L¨oschen von Downtown:

Perryridge

Mianus

Brighton Clearview Mianus

Redwood

Nach L¨oschen des Blattes mit Downtown hat der Elternknoten noch genug Pointer.

Somit propagiert L¨oschen nicht weiter nach oben.

(54)

Beispiel: L¨oschen von B

⁺

-Baum/2

Vor L¨oschen von Perryridge :

Perryridge

Mianus

Brighton Clearview Mianus

Redwood

Nach L¨oschen von Perryridge :

Mianus Perryridge

Brighton Clearview Mianus Redwood Round Hill

Blatt mit Perryridge hat durch L¨oschen zu wenig Eintr¨age und wird mit dem (rechten) Nachbarknoten vereinigt.

Dadurch hat der Elternknoten zu wenig Pointer und wird mit seinem

(55)

Beispiel: L¨oschen von B

⁺

-Baum/3

Vor L¨oschen von Perryridge :

Perryridge Downtown Mianus

Redwood

Nach L¨oschen von Perryridge :

Mianus Downtown

Brighton Clearview Downtown

Perryridge

Mianus Redwood Round Hill

Elternknoten von Blatt mit Perryridge hat durch Löschen zu wenig Einträge und erhält einen Pointer vom linken Nachbarn ( Verteilung von Einträgen).

Schl¨ussel im Elternknoten des Elternknotens (Wurzel in diesem Fall)

¨andert sich ebenfalls.

(56)

Beispiel: L¨oschen von B

⁺

-Baum/4

Vor L¨oschen von Redwood :

Mianus

Brighton Clearview Downtown Mianus Redwood

Nach L¨oschen von Redwood :

Downtown

Knoten von Blatt mit Redwood hat durch L¨oschen zu wenig Eintr¨age

und erh¨alt einen Eintrag vom linken Nachbarn ( Verteilung von

(57)

Zusammenfassung B

⁺

-Baum

Knoten mit Pointern verkn¨upft:

logisch nahe Knoten m¨ussen nicht physisch nahe gespeichert sein erlaubt mehr Flexibilit¨at

erh¨oht die Anzahl der nicht-sequentiellen Zugriffe

B

⁺

-B¨aume sind flach:

maximale Tiefe dlog_d_m/2_e(L)e f¨ur L Blattknoten m ist groß in der Praxis (z.B. m = 200)

Suchschl¨ussel als “Wegweiser”:

einige Suchschl¨ussel kommen als Wegweiser in einem oder mehreren inneren Knoten vor

zu einem Wegweiser gibt es nicht immer einen Suchschl¨ussel in einem Blattknoten (z.B. weil der entsprechende Datensatz gel¨oscht wurde)

Einf¨ugen und L¨oschen sind effizient:

nur O(log(K)) viele Knoten m¨ussen ge¨andert werden

Index degeneriert nicht, d.h. Index muss nie von Grund auf rekonstruiert werden

(58)

Indexstrukturen f¨ur Dateien Statisches Hashing

Inhalt

1

Indexstrukturen f¨ur Dateien Grundlagen

B

⁺

-Baum

Statisches Hashing

Dynamisches Hashing

Mehrschl¨ussel Indizes

Indizes in SQL

(59)

Statisches Hashing

Nachteile von ISAM und B

⁺

-Baum Indizes:

B⁺-Baum: Suche muss Indexstruktur durchlaufen ISAM: bin¨are Suche in großen Dateien

das erfordert zus¨atzliche Zugriffe auf Plattenbl¨ocke

Hashing:

erlaubt es auf Daten direkt und ohne Indexstrukturen zuzugreifen kann auch zum Bauen eines Index verwendet werden

(60)

Hash Datei Organisation

Statisches Hashing ist eine Form der Dateiorganisation:

Datens¨atze werden in Buckets gespeichert Zugriff erfolgt ¨uber eine Hashfunktion

Eigenschaften: konstante Zugriffszeit, kein Index erforderlich

Bucket: Speichereinheit die ein oder mehrere Datens¨atze enth¨alt

ein Block oder mehrere benachbarte Bl¨ocke auf der Platte

alle Datensätze mit bestimmtem Suchschlüssel sind im selben Bucket Datensätze im Bucket können verschiedene Suchschlüssel haben

Hash Funktion h: bildet Menge der Suchschl¨ussel K auf Menge der Bucket Adressen B ab

wird in konstanter Zeit (in der Anzahl der Datensätze) berechnet mehrere Suchschlüssel können auf dasselbe Bucket abbilden

Suchen eines Datensatzes mit Suchschl¨ussel:

(61)

Beispiel: Hash Datei Organisation

Beispiel: Organisation der Konto-Relation als Hash Datei mit Filialname als Suchschl¨ussel.

10 Buckets

Numerischer Code des i -ten Zeichens im 26-Buchstaben-Alphabet wird als i angenommen, z.B., code(B)=2.

Hash Funktion h

Summe der Codes aller Zeichen modulo 10:

h(Perryridge) = 125 mod 10 = 5 h(Round Hill) = 113 mod 10 = 3 (code(’ ’)=0)

h(Brighton) = 93 mod 10 = 3

bucket 0

bucket 1

bucket 2

bucket 3

A-217 Brighton 750 A-305 Round Hill 350

bucket 4

A-222 Redwood 700

bucket 5

A-102 Perryridge 400 A-201 Perryrdige 900 A-218 Perryridge 700

bucket 6

bucket 7

A-215 Mianus 700

bucket 8

bucket 9

(62)

Hash Funktionen/1

Die Worst Case Hash Funktion bildet alle Suchschl¨ussel auf das gleiche Bucket ab.

Zugriffszeit wird linear in der Anzahl der Suchschl¨ussel.

Die Ideale Hash Funktion hat folgende Eigenschaften:

Die Verteilung ist uniform (gleichverteilt), d.h. jedes Bucket ist der gleichen Anzahl von Suchschl¨usseln aus der Menge aller Suchschl¨ussel zugewiesen.

Die Verteilung ist random (zufällig), d.h. im Mittel erhält jedes Bucket gleich viele Suchschlüssel unabhängig von der Verteilung der

Suchschl¨ussel.

(63)

Hash Funktionen/2

Beispiel: 26 Buckets und eine Hash Funktion welche Filialnamen die mit dem i -ten Buchstaben beginnen dem Bucket i zuordnet.

keine Gleichverteilung, da es in der Dom¨ane der Filialnamen (Menge aller m¨oglichen Filialnamen) vermutlich mehr Filialen gibt die mit B beginnen als mit X.

Beispiel: Hash Funktion die Kontostand nach gleich breiten Intervallen aufteilt: 1 - 10000 → 0, 10001 - 20000 → 1, usw.

uniform, da es f¨ur jedes Bucket gleich viele m¨ogliche Werte von Kontostand gibt

nicht random, da Kontost¨ande in bestimmten Intervallen h¨aufiger sind, aber jedem Intervall 1 Bucket zugeordnet ist

Typsiche Hash Funktion: Berechnung auf interner Binärdarstellung des Suchschlüssels, z.B. für String s mit n Zeichen, b Buckets:

(s[0] + s[1] + . . . + s[n − 1]) modb, oder

(31ⁿ⁻¹s[0] + 31ⁿ⁻²s[1] + . . . + s[n − 1]) modb

(64)

Bucket Overflow/1

Bucket Overflow: Wenn in einem Bucket nicht genug Platz für alle zugehörigen Datensätze ist, entsteht ein Bucket Overflow. Das kann aus zwei Gründen geschehen:

zu wenig Buckets

Skew: ungleichm¨aßige Verteilung der Hashwerte

Zu wenig Buckets: die Anzahl n

_B

der Buckets muss größer gewählt werden als die Anzahl der Datensätze n geteilt durch die Anzahl der Datensätze pro Bucket f : n

_B

> n/f

Skew: Ein Bucket ist überfüllt obwohl andere Buckets noch Platz haben. Zwei Gründe:

viele Datensätze haben gleichen Suchschlüssel (ungleichmäßige Verteiltung der Suchschlüssel)

Hash Funktion erzeugt ungleichm¨aßige Verteiltung

Obwohl die Wahrscheinlichkeit f¨ur Overflows reduziert werden kann,

(65)

Bucket Overflow/2

Overflow Chaining (closed addressing)

falls ein Datensatz in Bucket b eingef¨ugt wird und b schon voll ist, wird ein Overflow Bucket b⁰ erzeugt, in das der Datensatz gespeichert wird die Overflow Buckets f¨ur Bucket b werden in einer Liste verkettet

für einen Suchschlüssel in Bucket b müssen auch alle Overflow Buckets von b durchsucht werden

bucket 2 bucket 1 bucket 0

overflow buckets for bucket 1

(66)

Bucket Overflow/3

Open Addressing: Die Menge der Buckets ist fix und es gibt keine Overflow Buckets.

überzählige Datensätze werden in ein anderes (bereits vorhandenes) Bucket gegeben, z.B. das nächste das noch Platz hat (linear probing) wird z.B. für Symboltabellen in Compilern verwendet, hat aber wenig Bedeutung in Datenbanken, da Löschen schwieriger ist

(67)

Hash Index

Hash Index: organisiert (Suchschl¨ussel,Pointer) Paare als Hash Datei

Pointer zeigt auf Datensatz

Suchschl¨ussel kann mehrfach vorkommen

Beispiel: Index auf Konto-Relation

Hash Funktion h: Quersumme der Kontonummer modulo 7 Beachte: Konto-Relation ist nach Filialnamen geordnet

A-222 bucket 6 bucket 5 A-218 bucket 4

A-102 A-217 bucket 3

A-110 A-101 bucket 2

A-305 A-215 bucket 1 bucket 0

A-201 A-305 Round Hill 305

A-222 Redwood 700

A-215 Mianus 700

A-110 Downtown 600 A-101 Downtown 500 A-217 Brighton 750

Hash Index ist immer Sekund¨arindex:

ist deshalb immer “dense”

Primär- bzw. Clustered Hash Index entspricht einer Hash Datei Organisation (zusätzliche Index-Ebene überflüssig)

(68)

Indexstrukturen f¨ur Dateien Dynamisches Hashing

Inhalt

1

Indexstrukturen f¨ur Dateien Grundlagen

B

⁺

-Baum

Statisches Hashing

Dynamisches Hashing

Mehrschl¨ussel Indizes

Indizes in SQL

(69)

Probleme mit Statischem Hashing

Richtige Anzahl von Buckets ist kritisch f¨ur Performance:

zu wenig Buckets: Overflows reduzieren Performance

zu viele Buckets: Speicherplatz wird verschwendet (leere oder unterbesetzte Buckets)

Datenbank w¨achst oder schrumpft mit der Zeit:

großzügige Schätzung: Performance leidet zu Beginn knappe Schätzung: Performance leidet später

Reorganisation des Index als einziger Ausweg:

Index mit neuer Hash Funktion neu aufbauen

sehr teuer, w¨ahrend der Reorganisation darf niemand auf die Daten schreiben

Alternative: Anzahl der Buckets dynamisch anpassen

(70)

Dynamisches Hashing

Dynamisches Hashing (dynamic hashing): Hash Funktion wird dynamisch angepasst.

Erweiterbares Hashing (extendible hashing): Eine Form des

dynamischen Hashing.

(71)

Erweiterbares Hashing

Hash Funktion h berechnet Hash Wert f¨ur sehr viele Buckets:

eine b-Bit Integer Zahl

typisch b = 32, also ∼ 4 Milliarden (m¨ogliche) Buckets

Hash-Prefix:

nur die i h¨ochstwertigen Bits (MSB) des Hash-Wertes werden verwendet

0 ≤ i ≤ b ist die globale Tiefe

i w¨achst oder schrumpft mit Datenmenge, anfangs i = 0

Verzeichnis: (directory, bucket address table)

Hauptspeicherstruktur: Array mit 2ⁱ Eintr¨agen Hash-Prefix indiziert einen Eintrag im Verzeichnis jeder Eintrag verweist auf ein Bucket

mehrere aufeinanderfolgende Eintr¨age im Verzeichnis k¨onnen auf dasselbe Bucket zeigen

(72)

Erweiterbares Hashing

Buckets:

Anzahl der Buckets ≤ 2ⁱ

jedes Bucket j hat eine lokale Tiefe i_j

falls mehrere Verzeichnis-Pointer auf dasselbe Bucket j zeigen, haben die ensprechenden Hash Werte dasselbe i_j-Prefix.

Beispiel: i = 2, i

₁

= 1, i

₂

= i

₃

= 2,

. . .

i

11. . . 10. . . 01. . . 00. . . hash prefix

i₁

bucket 1 i₂

bucket 2 i₃

(73)

Erweiterbares Hashing: Suche

Suche: finde Bucket f¨ur Suchschl¨ussel K

1. berechne Hash Wert h(K) = X

2. verwende die i h¨ochstwertigen Bits (Hash Prefix) von X als Adresse ins Verzeichnis

3. folge dem Pointer zum entsprechenden Bucket

(74)

Erweiterbares Hashing: Einf¨ugen

Einfügen: füge Datensatz mit Suchschlüssel K ein

1. verwende Suche um richtiges Bucket j zu finden 2. If genug freier Platz in Bucket j then

f¨uge Datensatz in Bucket j ein

3. else

teile Bucket und versuche erneut

(75)

Erweiterbares Hashing: Bucket teilen

Bucket j teilen um Suchschl¨ussel K einzuf¨ugen

If i > i_j (mehrere Pointer zu Bucket j) then

lege neues Bucket z an und setze iz und ij auf das alte ij + 1

aktualisiere die Pointer die auf j zeigen (die Hälfte zeigt nun auf z) lösche alle Datensätze von Bucket j und füge sie neu ein

(sie verteilen sich auf Buckets j und z) versuche K erneut einzuf¨ugen

Else if i = i_j (nur 1 Pointer zu Bucket j) then

erh¨ohe i und verdopple die Gr¨oße des Verzeichnisses

ersetze jeden alten Eintrag durch zwei neue Eintr¨age die auf dasselbe Bucket zeigen

versuche K erneut einzuf¨ugen

Overflow Buckets m¨ussen nur erzeugt werden, wenn das Bucket voll

ist und die Hashwerte aller Suchschl¨ussel im Bucket identisch sind

(d.h., teilen w¨urde nichts n¨utzen)

(76)

Integrierte ¨ Ubung 2.2

Betrachten Sie die folgende Hashfunktion:

Schl¨ussel Hashwert Brighton 0010

Downtown 1010

Mianus 1100

Perryridge 1111 Redwood 0011

Nehmen Sie Buckets der Gr¨oße 2 an und erweiterbares Hashing mit einem anfangs leeren Verzeichnis. Zeigen Sie die Hashtabelle nach folgenden

Operationen:

füge 1 Brighton und 2 Downtown Datensätze ein füge 1 Mianus Datensatz ein

f¨uge 1 Redwood Datensatz ein

(77)

Erweiterbares Hashing: L¨oschen

L¨oschen eines Suchschl¨ussels K

1. suche Bucket j f¨ur Suchschl¨ussel K

2. entferne alle Datens¨atze mit Suchschl¨ussel K

3. Bucket j kann mit Nachbarbucket(s) verschmelzen falls

alle Suchschl¨ussel in einem Bucket Platz finden die Buckets dieselbe lokale Tiefe ij haben

die ij − 1 Prefixe der entsprechenden Hash-Werte identisch sind

4. Verzeichnis kann verkleinert werden, wenn i_j < i f¨ur alle Buckets j

(78)

Integrierte ¨ Ubung 2.3

Betrachten Sie die folgende Hashfunktion:

Schl¨ussel Hashwert Brighton 0010

Downtown 1010

Mianus 1100

Perryridge 1111 Redwood 0011

Gehen Sie vom Ergebnis der vorigen ¨ Ubung aus und f¨uhren Sie folgende Operationen durch:

1 Brighton und 1 Downtown l¨oschen 1 Redwood l¨oschen

2 Perryridge l¨oschen

(79)

Erweiterbares Hashing: Pro und Kontra

Vorteile von erweiterbarem Hashing

bleibt effizient auch wenn Datei w¨achst

Overhead f¨ur Verzeichnis ist normalerweise klein im Vergleich zu den Einsparungen an Buckets

keine Buckets für zukünftiges Wachstum müssen reserviert werden

Nachteile von erweiterbarem Hashing

zus¨atzliche Ebene der Indirektion – macht sich bemerkbar, wenn Verzeichnis zu groß f¨ur den Hauptspeicher wird

Verzeichnis vergr¨oßern oder verkleinern ist relativ teuer

(80)

B

⁺

-Baum vs. Hash Index

Hash Index degeneriert wenn es sehr viele identische (Hashwerte f¨ur) Suchschl¨ussel gibt – Overflows!

Im Average Case f¨ur Punktanfragen in n Datens¨atzen:

Hash index: O(1) (sehr gut) B⁺-Baum: O(log n)

Worst Case f¨ur Punktanfragen in n Datens¨atzen:

Hash index: O(n) (sehr schlecht) B⁺-Baum: O(log n)

Anfragetypen:

Punktanfragen: Hash und B⁺-Baum

Mehrpunktanfragen: Hash und B⁺-Baum

Bereichsanfragen: Hash Index nicht brauchbar

(81)

Inhalt

1

Indexstrukturen f¨ur Dateien Grundlagen

B

⁺

-Baum

Statisches Hashing

Dynamisches Hashing

Mehrschl¨ussel Indizes

Indizes in SQL

(82)

Indexstrukturen f¨ur Dateien Mehrschl¨ussel Indizes

Zugriffe ¨uber mehrere Suchschl¨ussel/1

Wie kann Index verwendet werden, um folgende Anfrage zu beantworten?

select AccNr from account

where BranchName = ”Perryridge” and Balance = 1000 Strategien mit mehreren Indizes (jeweils 1 Suchschl¨ussel):

a) BranchName = ”Perryridge” mit Index auf BranchName auswerten;

auf Ergebnis-Datens¨atzen Balance = 1000 testen.

b) Balance = 1000 mit Index auf Balance auswerten; auf

Ergebnis-Datens¨atzen BranchName = ”Perryridge” testen.

c) Verwende BranchName Index um Pointer zu Datens¨atzen mit

BranchName = ”Perryridge” zu erhalten; verwende Balance Index f¨ur Pointer zu Datens¨atzen mit Balance = 1000; berechne die

(83)

Zugriffe ¨uber mehrere Suchschl¨ussel/2

Nur die dritte Strategie n¨utzt das Vorhandensein mehrerer Indizes.

Auch diese Strategie kann eine schlechte Wahl sein:

es gibt viele Konten in der ”Perryridge”Filiale es gibt viele Konten mit Kontostand 1000

es gibt nur wenige Konten die beide Bedingungen erf¨ullen

Effizientere Indexstrukturen m¨ussen verwendet werden:

(traditionelle) Indizes auf kombinierten Schl¨usseln

spezielle mehrdimensionale Indexstrukturen, z.B., Grid Files, Quad-Trees, Bitmap Indizes.

(84)

Indexstrukturen f¨ur Dateien Mehrschl¨ussel Indizes

Zugriffe ¨uber mehrere Suchschl¨ussel/3

Annahme: Geordneter Index mit kombiniertem Suchschl¨ussel (BranchName, Balance)

Kombinierte Suchschl¨ussel haben eine Ordnung (BranchName ist das erstes Attribut, Balance ist das zweite Attribut)

Folgende Bedingung wird effizient behandelt (alle Attribute):

where BranchName = ”Perryridge” and Balance = 1000 Folgende Bedingung wird effizient behandelt (Prefix):

where BranchName = ”Perryridge”

Folgende Bedingung ist ineffizient (kein Prefix der Attribute):

where Balance = 1000

(85)

Inhalt

1

Indexstrukturen f¨ur Dateien Grundlagen

B

⁺

-Baum

Statisches Hashing

Dynamisches Hashing

Mehrschl¨ussel Indizes

Indizes in SQL

(86)

Indexstrukturen f¨ur Dateien Indizes in SQL