Algorithmen auf Sequenzen Eine Rank-Datenstruktur f¨ur Bitsequenzen

(1)

Algorithmen auf Sequenzen

Eine Rank-Datenstruktur f¨ur Bitsequenzen

Sven Rahmann

Genominformatik Universitätsklinikum Essen Universität Duisburg-Essen Universitätsallianz Ruhr

(2)

Rank-Anfragen

Sei s eine Bitsequenz.

Die Anzahl der Eins-Bits in s[:i] wirdranks(i) genannt.

(Varianten: Bit i wird mitgez¨ahlt oder nicht) Ziel:Effiziente Berechnung von ranks(i) f¨ur alle i

Anwendung: Abbilden von großen dünnbesiedelten Arrays auf kleine komplett befüllte Arrays, wichtige Beispiele später

(3)

Einfache Rank-Algorithmen

rank_s(i): Anzahl der Einsen ins[:i]

Langsam, aber leichtgewichtig: Schleife O(n) Zeit, O(1) zusätzlicher Speicher Etwas schneller: Schleife mit popcount O(n/W) Zeit, O(1) zusätzlicher Speicher Schnell, aber schwergewichtig: Tabelle O(1) Zeit, aberO(nlogn) Bits zusätzlich

Gut w¨areO(1) Zeit,o(n) Bits zus¨atzlich, d.h.

ist x(n) der zusätzliche Platzbedarf neben n Bits für s selbst, dann soll x(n)/n →0 für n→ ∞ gelten.

(4)

Einfache Rank-Algorithmen

rank_s(i): Anzahl der Einsen ins[:i]

Langsam, aber leichtgewichtig: Schleife O(n) Zeit, O(1) zusätzlicher Speicher Etwas schneller: Schleife mit popcount O(n/W) Zeit, O(1) zusätzlicher Speicher Schnell, aber schwergewichtig: Tabelle O(1) Zeit, aberO(nlogn) Bits zusätzlich Gut wäreO(1) Zeit,o(n) Bits zusätzlich, d.h.

ist x(n) der zusätzliche Platzbedarf neben n Bits für s selbst, dann soll x(n)/n →0 für n→ ∞ gelten.

(5)

Eine effiziente Rank-Datenstruktur

Grundidee: Rank-Tabelle f¨ur jedenS-ten Eintrag;

jeS Bits bilden einen “Superblock”:

O(logn·n/S) Bits f¨ur Suberblock-Tabelle

W¨ahleS = Θ((logn)²);

somit O(n/logn) =o(n) Bits f¨ur Superblock-Tabelle Verbleibendes Problem:

Rank auf “Superblöcken” der Größe S zählen Damit: Laufzeit O(log²n), Speicher o(n)

(6)

Eine effiziente Rank-Datenstruktur

O(logn·n/S) Bits f¨ur Suberblock-Tabelle W¨ahleS = Θ((logn)²);

Rank auf “Superblöcken” der Größe S zählen

Damit: Laufzeit O(log²n), Speicher o(n)

(7)

Eine effiziente Rank-Datenstruktur

O(logn·n/S) Bits f¨ur Suberblock-Tabelle W¨ahleS = Θ((logn)²);

Rank auf “Superblöcken” der Größe S zählen Damit: Laufzeit O(log²n), Speicher o(n)

(8)

Eine effiziente Rank-Datenstruktur

Verfeinerung: Jeder Superblock wird in Θ(logn) Bl¨ocke der Gr¨oße Θ(logn) unterteilt.

Jeder Superblock hat Tabelle mit Ranks f¨ur jeden Block-Beginn:

Werte bis Θ(log²n) ben¨otigen O(log logn) Bits.

Es gibt Θ(logn·n/S) = Θ(n/logn) viele Bl¨ocke.

Insgesamt also O(nlog logn/logn) =o(n) Bits.

popcount innerhalb eines Blocks mit Θ(logn) Bits kann in konstanter Zeit berechnet werden (RAM-Modell)

Berechnung ben¨otigt konstante Zeit:

Superblock-Rank + Block-Rank + Block-popcount

(9)

Eine effiziente Rank-Datenstruktur

(10)

Eine effiziente Rank-Datenstruktur

(11)

Praxis

RAM-Modell: popcount vonO(logn) Bits in konstanter Zeit Praxis: popcount von 64 Bits in konstanter Zeit,n ≤2⁶⁴ W¨ahleS := 16·(64)² = 65536 = 2¹⁶

64-bit-ints f¨ur Superblock-Ranks, 16-bit-ints f¨ur Block-Ranks

n/2¹⁶ Superbl¨ocke mit 64-Bit-Werten

Jeder Superblock hat 1024 Bl¨ocke mit 16-Bit-Werten Insgesamt: n/65536·(64 + 1024·16)≈0.25·n Bits f¨ur verschiedene Werte vonn optimierbar

(12)

Praxis

64-bit-ints für Superblock-Ranks, 16-bit-ints für Block-Ranks n/2¹⁶ Superblöcke mit 64-Bit-Werten

Jeder Superblock hat 1024 Bl¨ocke mit 16-Bit-Werten Insgesamt: n/65536·(64 + 1024·16)≈0.25·n Bits

f¨ur verschiedene Werte vonn optimierbar

(13)

Praxis

64-bit-ints für Superblock-Ranks, 16-bit-ints für Block-Ranks n/2¹⁶ Superblöcke mit 64-Bit-Werten

Jeder Superblock hat 1024 Bl¨ocke mit 16-Bit-Werten Insgesamt: n/65536·(64 + 1024·16)≈0.25·n Bits f¨ur verschiedene Werte vonn optimierbar