Datenstrukturen und Algorithmen Vorlesung 13: Hashing II Joost-Pieter Katoen

(1)

Hashing II

Datenstrukturen und Algorithmen

Vorlesung 13: Hashing II

Joost-Pieter Katoen

Lehrstuhl für Informatik 2 Software Modeling and Verification Group

https://moves.rwth-aachen.de/teaching/ss-18/dsal/

11. Juni 2018

(2)

Hashing II

Übersicht

1 Hashing und Verkettung

2 Offene Adressierung Lineares Sondieren Quadratisches Sondieren Doppeltes Hashing

Effizienz der offenen Adressierung

{

(3)

Hashing II Hashing und Verkettung

Übersicht

(4)

Hashing

Das Ziel von Hashingist:

I Einen extrem großen Schlüsselraum auf einen vernünftig kleinen Bereich von ganzen Zahlen abzubilden.

I Dass zwei Schlüssel auf die selbe Zahl abgebildet werden, soll möglichst unwahrscheinlich sein.

Hashfunktion, Hashtabelle, Hashkollision

Eine Hashfunktionbildet einen Schlüssel auf einen Index der HashtabelleT ab: h:U ≠æ{0, 1,. . .,m≠1} für Tabellengrößem und |U|=n.

Wir sagen, dass h(k) der Hashwertdes Schlüsselsk ist.

Das Auftreten von h(k) =h(k^Õ) für k ”=k^Õ nennt man eineKollision.

=

(5)

Hashing

(6)

Hashing

/

% N

q ^-

Univ . Schlissel m << N

der

h ( ⁱ) ⁼ ^r Osram Tfr ]

(7)

Hashing

YU

^{ ^°^, ^... ^,m ^. ^,

^}

:

^a ^N

(8)

Hashing

Das Auftreten von h(k) =h(k^Õ) für k”=k^Õ nennt man eineKollision.

IN

0

⁼

(9)

Hashing

U K

0 Schlüsselmenge

benutzte Schlüssel k2

k4 k3

k5

m≠1 k1

Hashfunktion

Hashtabelle h(k1)

h(k2) =h(k3) h(k5)

h(k4)

Kollision

I Wie behandeln wir dennoch auftretende Kollisionen?

I Zwei Varianten: Verkettung und Offene Adressierung

h

= 2

=3

(10)

Hashing

U K

0 Schlüsselmenge

benutzte Schlüssel k2

k4 k3

k5

m≠1 k1

Hashfunktion

Hashtabelle h(k1)

h(k2) =h(k3) h(k5)

h(k4)

Kollision

I Wie behandeln wir dennoch auftretende Kollisionen?

I Zwei Varianten: Verkettung und Offene Adressierung

00

(11)

Kollisionsauflösung durch Verkettung (I)

Idee

Alle Schlüssel, die zum gleichen Hash führen, werden in einer

verketteten Listegespeichert. [Luhn 1953]

k1 k3

k6 k7 k5

k2

U

⁰

k2

k4 k3

k5

K

m≠1 k1

k6

k7

k4

(12)

Kollisionsauflösung durch Verkettung (I)

Idee

Alle Schlüssel, die zum gleichen Hash führen, werden in einer

verketteten Listegespeichert. [Luhn 1953]

k1 k3

k6 k7 k5

k2

U

⁰

k2

k4 k3

k5

K

m≠1 k1

k6

k7

k4

O

^sa

hcks ) ⁼ hckb ⁾ ⁼ hckz )

(13)

Average-Case-Analyse von Verkettung

Erfolgreiche Suche

Die erfolgreiche Suche benötigt im Average-Case (1+–).

Erfolglose Suche

Die erfolglose Suche benötigt im Average-Case (1+–).

@

^Fullgrad

n = Anzahl belegtv ^slots ⁱⁿ ^T

IH ⁼ ^m ^K ^N ⁼ lul

(14)

Average-Case-Analyse von Verkettung

Erfolgreiche Suche

Die erfolgreiche Suche benötigt im Average-Case (1+–).

Erfolglose Suche

Die erfolglose Suche benötigt im Average-Case

_Q

(1+

:

–).

-

In neO_(m)

(15)

Hashing II Offene Adressierung

Übersicht

(16)

Kollisionsauflösung durch offene Adressierung

I Alle Elemente werden direkt in der Hashtabelle gespeichert (im Gegensatz zur Verkettung).

∆ Höchstens mSchlüssel können gespeichert werden, d. h.

–(n,m) = _mⁿ 61. [Amdahl 1954]

I Man spart aber den Platz für die Pointer. Einfügen von Schlüssel k

I Sondiere (to probe) die Positionen der Hashtabelle, bis ein leerer Slot gefunden wurde.

I Die zu überprüfenden Positionen sind vom einzufügenden Schlüsselk abgeleitet.

I Die Hashfunktion hängt also vom Schlüsselk und derNummer der Sondierung ab:

h :U◊{0, 1,. . .m≠1}≠æ{0, 1,. . .m≠1}

(17)

Kollisionsauflösung durch offene Adressierung

–(n,m) = _mⁿ 61. [Amdahl 1954]

I Man spart aber den Platz für die Pointer. Einfügen von Schlüssel k

h :U◊{0, 1,. . .m≠1}≠æ{0, 1,. . .m≠1}

(18)

Kollisionsauflösung durch offene Adressierung

–(n,m) = _mⁿ 61. [Amdahl 1954]

I Man spart aber den Platz für die Pointer.

Einfügen von Schlüssel k

h :U◊{0, 1,. . .m≠1}≠æ{0, 1,. . .m≠1}

(19)

Kollisionsauflösung durch offene Adressierung

–(n,m) = _mⁿ 61. [Amdahl 1954]

h :U◊{0, 1,. . .m≠1}≠æ{0, 1,. . .m≠1}

inmate

innit .net#.nn@

(20)

Kollisionsauflösung durch offene Adressierung

–(n,m) = _mⁿ 61. [Amdahl 1954]

h :U◊{0, 1,. . .m≠1}≠æ{0, 1,. . .m≠1}

17

(21)

Kollisionsauflösung durch offene Adressierung

–(n,m) = _mⁿ 61. [Amdahl 1954]

I Die Hashfunktion hängt also vom Schlüsselk und derNummer der Sondierungab:

h :U◊{0, 1,. . .m≠1}≠æ{0, 1,. . .m≠1}

hCtt@hhhDhCi7.z1hll7.m

^.^D

=

-

(22)

Einfügen bei offener Adressierung

1void hashInsert(int T[], int key) {

2 for (int i = 0; i < T.length; i++) { // Teste ganze Tabelle

3 int pos = h(key, i); // Berechne i-te Sondierung

4 if (!T[pos]) { // freier Platz

5 T[pos] = key;

6 return; // fertig

7 }

8 }

9 throw "Überlauf der Hashtabelle";

10}

O

Yang

^h⁽ 17,0)

^#

^is

(23)

Suche bei offener Adressierung

1int hashSearch(int T[], int key) {

2 for (int i = 0; i < T.length; i++) {

3 int pos = h(key, i); // Berechne i-te Sondierung

4 if (T[pos] == key) { // Schlüssel k gefunden

5 return T[pos];

6 } else if (!T[pos]) { // freier Platz, nicht gefunden

7 break;

8 }

9 }

10 return -1; // "nicht gefunden"

11}

(24)

Löschen bei offener Adressierung

Problem

Löschen des Schlüssels k aus Slot idurch T[i] = null istungeeignet:

I Wenn beim Einfügen von k der Sloti besetzt war, können wir k nicht mehr abrufen.

Lösung

Markiere T[i] mit demspeziellen Wert DELETED (oder: „veraltet“).

I hashInsert muss angepasst werden und solche Slots als leer betrachten.

I hashSearch bleibt unverändert, solche Slots werden einfach übergangen.

I Die Suchzeiten sind nun nicht mehr allein vom Füllgrad – abhängig.

∆ Wenn Schlüssel gelöscht werden sollen wird häufigerVerkettung verwendet.

(25)

Löschen bei offener Adressierung

Problem

I Wenn beim Einfügen von k der Sloti besetzt war, können wir k nicht mehr abrufen.

Lösung

(26)

Löschen bei offener Adressierung

Problem

I Wenn beim Einfügen von k der Slotibesetzt war, können wir k nicht mehr abrufen.

Lösung

.

/k'^/

1kt

/ ^hck ⁾⁼ⁱ

sei k ^' nach k

eingefigt

ⁱⁿ ^T

und bein Enfige ^von ^K ^' ^wurde malsondiert

so dap hck ^'_, j ⁾⁼ⁱ _hck ;j+ ^,⁾

suche k ^'

•

^' ^hcksjtz ⁾

nachda k |k'^/

#

gel ^"oscht ^wunde

TL

^NULL

(27)

Löschen bei offener Adressierung

Problem

Lösung

.

DELETED h ( ^k^'_, j ⁾

1kt # ⁼ ⁱ

i hcksjts ⁾

:

.

(28)

Löschen bei offener Adressierung

Problem

Lösung

.

(29)

Löschen bei offener Adressierung

Problem

Lösung

-

. -

(30)

Löschen bei offener Adressierung

Problem

Lösung

(31)

Löschen bei offener Adressierung

Problem

Lösung

(32)

Wie wählt man die nächste Sondierung?

Wir benötigen eine Sondierungssequenzfür einen gegebenen Schlüssel k: Èh(k, 0),h(k, 1),. . .,h(k,m≠1)Í

I Wenn es sich dabei um eine Permutation von È0,. . .m≠1Í handelt ist garantiert, dass jeder Slot letztlich geprüft wird.

I GleichverteiltesHashing wäre ideal, d. h. jede der m! Permutationen ist als Sondierungssequenz gleich wahrscheinlich.

I In der Praxis ist das aber zu aufwändig und wird approximiert. Sondierungsverfahren

I Wir behandeln Lineares Sondieren,Quadratisches Sondierenund Doppeltes Hashing.

I Die Qualität ist durch die Anzahl der verschiedenen

Sondierungssequenzen, die jeweils erzeugt werden, bestimmt.

h ( 17,0)

nam

}

h ( _17,2)

: :

.

(33)

Wie wählt man die nächste Sondierung?

Wir benötigen eine Sondierungssequenzfür einen gegebenen Schlüssel k:

Èh(k, 0),h(k, 1),. . .,h(k,m≠1)Í

Mm

^Position

- - - in T

(34)

Wie wählt man die nächste Sondierung?

Èh(k, 0),h(k, 1),. . .,h(k,m≠1)Í

- g

(35)

Wie wählt man die nächste Sondierung?

Èh(k, 0),h(k, 1),. . .,h(k,m≠1)Í

.

^Positions

m ! Permutations

Pr ( Permutation ^× ) ⁼ ¹

m !

(36)

Wie wählt man die nächste Sondierung?

Èh(k, 0),h(k, 1),. . .,h(k,m≠1)Í

I In der Praxis ist das aber zu aufwändig und wird approximiert.

Sondierungsverfahren

(37)

Wie wählt man die nächste Sondierung?

Èh(k, 0),h(k, 1),. . .,h(k,m≠1)Í

(38)

Wie wählt man die nächste Sondierung?

Èh(k, 0),h(k, 1),. . .,h(k,m≠1)Í

c-

^-

(39)

Wie wählt man die nächste Sondierung?

Èh(k, 0),h(k, 1),. . .,h(k,m≠1)Í

:

^-

(40)

Lineares Sondieren

Hashfunktion beim linearen Sondieren h(k,i) = (h^Õ(k) +i) modm (für i <m).

I k ist der Schlüssel

I i ist der Index im Sondierungssequenz

I h^Õ ist eine übliche Hashfunktion.

hi ⁽^k) ⁺ i { ⁰ ,^. ^. ^. ^. ,m ^.^,)

Tfnear

0

^-

(41)

Lineares Sondieren: Beispiel

22

154 28

3110

22

154 28

3110

22

154 2817

3110

0 0 0

1 1 1

2 2 2

3 3 3

4 4 4

5 5 5

6 6 6

7 7 7

8 8 8

9 9 9

10 10 10

ins(17) 1. Son- dierung

h^Õ(k) =k mod 11 h(k,i) = (h^Õ(k) +i) mod 11

men

* hG7,o)=

(^h ^'G7)+o ⁾ ^mod ^{^^}

-

6 ₌ 6 if

hC6)=h(

₁₇ ,n) ⁼

O

⁰ ⁽ ⁶ⁱⁿ ⁾ ^modn ⁼ ⁷

(42)

Lineares Sondieren: Beispiel

22

154 28

3110

22

154 28

3110

22

154 2817

3110

22

154 2817

3110

22

154 2817

3110

0 0 0 0 0

1 1 1 1 1

2 2 2 2 2

3 3 3 3 3

4 4 4 4 4

5 5 5 5 5

6 6 6 6 6

7 7 7 7 7

8 8 8 8 8

9 9 9 9 9

10 10 10 10 10

h^Õ(k) =k mod 11 h(k,i) = (h^Õ(k) +i) mod 11

/\

*

^° ^°←s

^.

(43)

hfsg ,o)

⁼

( ^h ^45g ⁾

^to

⁾ ^mod

^m

mo÷ :

=

4 g.

ⁿ

)

⁼

( ÷ ⁴ ⁺¹ ⁾

^mod ⁿ

= 5

-

sgz )

⁼

⁶

h ( _b

_, ^o

)

₌

7 hlsg

_,

4)

⁼

₈ I

(44)

Lineares Sondieren

I Die Verschiebung der nachfolgende Sondierungen ist linear voni abhängig.

I Die erste Sondierung bestimmt bereits die gesamte Sequenz.

∆ m verschiedene Sequenzen können erzeugt werden.

I Clustering, also lange Folgen von belegten Slots, führt zu Problemen:

I h^Õ(k)bleibt konstant, aber der Offset wird jedes Mal um eins größer.

I Ein leerer Slot, demi volle Slots vorausgehen, wird als nächstes mit Wahrscheinlichkeit ⁱ⁺¹_m gefüllt.

∆ Lange Folgen tendieren dazu länger zu werden.

(45)

Lineares Sondieren

-

(46)

Lineares Sondieren

#

¹

g-

¹ ¹ ¹ ¹¹

hck _,o)

(47)

Lineares Sondieren

=

m !

(48)

Lineares Sondieren

Yt×t*× .

^' ¹

(49)

Lineares Sondieren

0

.

(50)

Lineares Sondieren

min ^÷

±+±+

^- ^.^. .tn iti

ikkhlersefa

^1×1×1In ± ^- ⁱ ^' ^' In ^'^e ^Slot

(51)

Lineares Sondieren

.

(52)

Quadratisches Sondieren

Hashfunktion beim quadratischen Sondieren h(k,i) = (h^Õ(k) +c1·i+c2·i²) modm (für i <m).

I k ist der Schlüssel

I i ist der Index im Sondierungssequenz

I h^Õ ist eine übliche Hashfunktion, und

I c1,c2œN\ {0} geeignete Konstanten.

HMI

0

(53)

Quadratisches Sondieren: Beispiel

22

4 28 1531 10

22

4 28 1531 10

22

4 28 1531 10

22

4 28 1531 10

22

174

28 1531 10

0 0 0 0 0

1 1 1 1 1

2 2 2 2 2

3 3 3 3 3

4 4 4 4 4

5 5 5 5 5

6 6 6 6 6

7 7 7 7 7

8 8 8 8 8

9 9 9 9 9

10 10 10 10 10

h^Õ(k) = k mod 11 h(k,i) = (h^Õ(k) +i+3i²) mod 11

*

0 0

o 0

- 9=1 Cz= ³

(54)

h## ^h( hick )=

^k

^,i)= ⁽

k

^hkk

_mod ^mod

^)tit3i2

^^ ^{^^}

⁾

hc

_17,0

)

⁼

⁶

^mod ^{^^}

=6

-

h(

_17in ₎ ₌

( ⁶⁺¹⁺³ ⁾

^mod ^un= ^{^0}

h

(

_17,2

)

⁼

( ^btztnz ⁾

^mod ⁿ ⁼

_g

h ( _17,3

)

=

( ⁶

⁺ ^3. ⁺³ ^.

³² ⁾

^mod ^m ⁼ ³

(55)

Quadratisches Sondieren

I h^Õ ist eine übliche Hashfunktion, c1,c2”=0 Konstanten.

I Die Verschiebung der nachfolgende Sondierungen ist quadratisch von i abhängig.

∆ Auch hier können mverschiedene Sequenzen erzeugt werden (wenn c1,c2 geeignet gewählt wurden).

I Das Clustering von linearem Sondieren wird vermieden.

I Jedoch tritt sekundäres Clustering immer noch auf:

h(k, 0) =h(k^Õ, 0) verursacht h(k,i) =h(k^Õ,i) für alle i.

(56)

Quadratisches Sondieren

-

(57)

Quadratisches Sondieren

0

1 1

:

^k _, ^o)

(58)

Quadratisches Sondieren

O

ns ! Permutation en

(59)

Quadratisches Sondieren

-

(60)

Quadratisches Sondieren

h(k, 0) =h(k^Õ, 0) verursacht h(k,i) =h(k^Õ,i) für alle i.

¥nii

= _-0

^!

(61)

Doppeltes Hashing

Hashfunktion beim doppelten Hashing h(k,i) = (h1(k) +i·h2(k)) mod m(für i <m).

I h1,h2 sind übliche Hashfunktionen.

÷

i + i+si2

(62)

Doppeltes Hashing: Beispiel

22

154

28

3110

22

154

28

3110

22

154

28

3110

22

154

28

3110

22

154

28 1731 10

0 0 0 0 0

1 1 1 1 1

2 2 2 2 2

3 3 3 3 3

4 4 4 4 4

5 5 5 5 5

6 6 6 6 6

7 7 7 7 7

8 8 8 8 8

9 9 9 9 9

10 10 10 10 10

h1(k) =k mod 11

h2(k) =1+k mod 10 h(k,i) = (h1(k) +i ·h2(k)) mod 11

*

0

0 : _is

- _-

(63)

h , ( k

)

⁼

^k

^mod ¹¹

^

hz

⁽ ^k

⁾

⁼ ^t ⁺ ^K ^mod ¹⁰

hcksi ⁾

⁼

(

^h , ( ^k

)

⁺ ⁱⁿ

hzck ⁾ )

^mod ¹¹

insert ( i7

)

^:

h

(

_17,0

)

⁼

(

¹⁷ ^mod_- ⁱⁿ

⁾

^mod ⁿ ^s

⁶

= 6

h

Gan )

⁼

(

⁶ ⁺ ^1.

fit

¹⁷ ^mod_- ¹⁰

) )

^mod ¹¹

7

14 ^mod ¹¹ ⁼ 3

h(

17,2

)

⁼ ^. ^2.

⁽ (@t @

^ntttmodno^-

⁾ ⁾

^modes

= 22 mod _m

(64)

Doppeltes Hashing

I Die Verschiebung der nachfolgende Sondierungen ist vonh2(k) abhängig.

I Die erste Sondierung bestimmtnicht die gesamte Sequenz.

∆ Bessere Verteilung der Schlüssel in der Hashtabelle.

∆ Approximiert das gleichverteilte Hashing.

I Sindh2 und m relativ prim, wird die gesamte Hashtabelle abgesucht.

I Wähle z. B.m=2^k undh2 so, dass sie nur ungerade Zahlen erzeugt.

I Jedes mögliche Paarh1(k)und h2(k)erzeugt eine andere Sequenz.

∆ Daher könnenm² verschiedene Permutationen erzeugt werden.

(65)

Doppeltes Hashing

(66)

Doppeltes Hashing

h , (^k) ^mod ^m ^k ^, ^k

'

(

^h ^, ^Ck ^)t ^{heck )} ⁾ ^mod ^m ^h ^' ⁴⁾^hick⁼ ^'⁾

( ^h ^,⁽ ^k⁾ ^trhzck ⁾⁾ ^nod ^m ^immehin

hzck ⁾ =/ hzcky

Datenstrukturen und Algorithmen Vorlesung 13: Hashing II Joost-Pieter Katoen