Masterarbeit Otto-von-Guericke-Universit¨atMagdeburg

(1)

Fakult¨ at f¨ ur Informatik

Institut f¨ ur Technische und Betriebliche Informationssysteme

Masterarbeit

Adaptionsstrategien f¨ ur kosteneffizientes Complex Event Processing

Verfasser:

Andreas Meister

15. September 2013

Betreuer:

Prof. Dr. rer. nat. habil. Gunter Saake, M.Sc. Sebastian Breß

Universität Magdeburg Fakultät für Informatik Postfach 4120, D–39016 Magdeburg

Germany

Dr.-Ing. Zbigniew Jerzak Dipl. Inf. Thomas Heinze

SAP Dresden

Chemnitzer Strasse 48, D-01187 Dresden Germany

(2)

Masterarbeit, Otto-von-Guericke-Universit¨at Magdeburg, 2013.

(3)

Inhaltsverzeichnis

Inhaltsverzeichnis i

Abbildungsverzeichnis v

Tabellenverzeichnis ix

Verzeichnis der Abk¨urzungen xi

1 Einf¨uhrung 1

1.1 Hintergrund . . . 1

1.2 Motivation . . . 2

1.3 Ziele der Arbeit . . . 3

1.4 Methodik der Arbeit . . . 3

1.5 Aufbau der Arbeit . . . 3

2 Grundlagen 5 2.1 Complex Event Processing . . . 5

2.2 Cloud Computing . . . 7

2.3 Optimierung . . . 9

2.3.1 Adaptive Anfragebearbeitung . . . 9

2.3.2 Optimaler Optimierungsprozess . . . 10

2.4 Aufbau des Prototyps . . . 12

2.4.1 Multi Query Optimierung . . . 12

2.4.2 Platzierung von Operatoren . . . 13

2.4.3 Kostenmodell . . . 16

2.4.4 Systemoptimierung . . . 18

2.5 Zusammenfassung . . . 19

3 Anforderungsanalyse 21 3.1 Problemstellung . . . 21

3.1.1 Kosten der ¨Anderung der Systemkonfiguration . . . 22

(4)

3.1.2 Faktoren zur Kostenberechnung . . . 25

3.1.3 Bestimmung eines geeigneten Zeitpunkts der Optimierung . . . . 27

3.2 Anforderungen . . . 28

4 Konzeption 31 4.1 Modellierung der Migrationskosten . . . 31

4.1.1 Direkte Migrationskosten . . . 32

4.1.2 Indirekte Migrationskosten . . . 34

4.2 Berechnung der Migrationszeit . . . 35

4.3 Berechnung der indirekten Migrationskosten . . . 37

4.4 Sch¨atzung der Dauer einer Konfiguration des Systems . . . 40

4.5 Bestimmung eines geeigneten Optimierungszeitpunkts . . . 41

5 Systemintegration 45 5.1 Bestehender Optimierungsprozess . . . 45

5.2 Erweiterter Optimierungsprozess . . . 47

6 Evaluation 51 6.1 Auswirkungen der Migration von Operatoren . . . 51

6.1.1 Entwurf . . . 52

6.1.2 Variablen der Analyse . . . 53

6.1.3 Ergebnisse des Experiments . . . 54

6.1.4 Diskussion . . . 57

6.1.5 Bedrohung der Validit¨at . . . 59

6.2 Vergleich der unterschiedlichen Optimierungsprozesse . . . 60

6.2.1 Entwurf . . . 60

6.2.5 Bedrohung der Validit¨at . . . 70

6.3 Performanz der Berechnung der Migrationskosten . . . 70

6.3.1 Entwurf . . . 71

(5)

6.3.5 Bedrohung der Validit¨at . . . 75 6.4 Zusammenfassung . . . 75

7 Abschluss 79

7.1 Zusammenfassung . . . 79 7.2 Ausblick . . . 80

A Multi Query Optimierung 83

Literaturverzeichnis 85

(6)

(7)

Abbildungsverzeichnis

2.1 Zeitbasierte Fenster zur Verarbeitung von Ereignissen . . . 6

2.2 Problem der Unter- und ¨Uberversorgung . . . 8

2.3 Architektur der Optimierung der Anfragebearbeitung . . . 13

2.4 Ubersicht ¨¨ uber laufende Anfragen . . . 17

2.5 Zus¨atzliche Informationen einer Anfrage . . . 17

2.6 Visualisierung zum Hinzuf¨ugen neuer Anfragen . . . 17

2.7 Systemkosten in Abh¨angigkeit von plc und gran . . . 19

4.1 Verlauf der Migration eines Operators . . . 33

4.2 Verlauf der Verz¨ogerung der Anfragebearbeitung . . . 38

5.1 Optimierungsprozess ohne Ber¨ucksichtigung der Migrationskosten . . . . 46

5.2 Optimierungsprozess mit Ber¨ucksichtigung der Migrationskosten . . . 48

6.1 Steigerung des CPU-Verbrauchs bei der Erstellung und Wiedereinspielung des Zustands eines zustandsbehafteten Operators . . . 55

6.2 Steigerung des Speicherverbrauchs bei der Erstellung und Wiedereinspie- lung des Zustands eines zustandsbehafteten Operators . . . 55

6.3 Ben¨otigte Zeit zur Extraktion und Wiedereinspielung des Zustands eines zustandsbehafteten Operators . . . 55

6.4 Steigerung des CPU-Verbrauchs bei der Migration eines zustandslosen Operators . . . 56

6.5 Steigerung des Speicherverbrauchs bei der Migration eines zustandslosen Operators . . . 56

6.6 Zu ¨ubertragende Datenmenge bei der Migration eines zustandslosen Ope- rators . . . 56

6.7 Zeit zur Migration eines zustandslosen Operators . . . 57

6.8 Durchschnittliche, maximale und minimale Latenz der Anfragen (Anfrage- muster: linear, Ereignisrate: variabel) . . . 63

(8)

6.9 Durchschnittliche, maximale und minimale CPU-Auslastung der Rechner- knoten (Anfragemuster: linear, Ereignisrate: variabel) . . . 63 6.10 Anzahl an Operatormigrationen und durchschnittliche genutzte Rechner-

knotenanzahl (Anfragemuster: linear, Ereignisrate: variabel) . . . 63 6.11 Anzahl und gesamte Ausf¨uhrungszeit der Optimierungen (Anfragemuster:

linear, Ereignisrate: variabel) . . . 64 6.12 Ausf¨uhrungszeit und Kosten des Experiments (Anfragemuster: linear,

Ereignisrate: variabel) . . . 64 6.13 Durchschnittliche, maximale und minimale Latenz der Anfragen (Anfrage-

muster: real, Ereignisrate: konstant) . . . 64 6.14 Durchschnittliche, maximale und minimale CPU-Auslastung der Rechner-

knoten (Anfragemuster: real, Ereignisrate: konstant) . . . 65 6.15 Anzahl an Operatormigrationen und durchschnittliche genutzte Rechner-

knotenanzahl (Anfragemuster: real, Ereignisrate: konstant) . . . 65 6.16 Anzahl und gesamte Ausf¨uhrungszeit der Optimierungen (Anfragemuster:

real, Ereignisrate: konstant) . . . 65 6.17 Ausf¨uhrungszeit und Kosten des Experiments (Anfragemuster: real, Ereig-

nisrate: konstant) . . . 66 6.18 Durchschnittliche, maximale und minimale Latenz der Anfragen (Anfrage-

muster: real, Ereignisrate: variabel) . . . 66 6.19 Durchschnittliche, maximale und minimale CPU-Auslastung der Rechner-

knoten (Anfragemuster: real, Ereignisrate: variabel) . . . 66 6.20 Anzahl an Operatormigrationen und durchschnittliche genutzte Rechner-

knotenanzahl (Anfragemuster: real, Ereignisrate: variabel) . . . 67 6.21 Anzahl und gesamte Ausf¨uhrungszeit der Optimierungen (Anfragemuster:

real, Ereignisrate: variabel) . . . 67 6.22 Ausf¨uhrungszeit und Kosten des Experiments (Anfragemuster: real, Ereig-

nisrate: variabel) . . . 67 6.23 Ausf¨uhrungszeit der Kostenberechnung mit Ber¨ucksichtigung der Migrati-

onskosten . . . 72 6.24 Ausf¨uhrungszeit der Zielfunktion 1 mit Ber¨ucksichtigung der Migrations-

kosten . . . 72 6.25 Ausf¨uhrungszeit der Zielfunktion 1 ohne Ber¨ucksichtigung der Migrations-

kosten . . . 73 6.26 Ausf¨uhrungszeit der Zielfunktion 2 mit Ber¨ucksichtigung der Migrations-

kosten . . . 73

(9)

6.27 Ausf¨uhrungszeit der Zielfunktion 2 ohne Ber¨ucksichtigung der Migrations- kosten . . . 73 A.1 Prozess zum Vergleich von Operatoren . . . 83

(10)

(11)

Tabellenverzeichnis

3.1 Variablen zur Bestimmung des Optimierungszeitpunkts . . . 27

4.1 Variablen zur Modellierung der Migrationskosten . . . 32

4.2 Variablen zur Berechnung der Migrationszeit . . . 35

4.3 Variablen zur Berechnung der indirekten Migrationskosten . . . 37

4.4 Variablen zur Absch¨atzung der Dauer einer Systemkonfiguration . . . 41

4.5 Variablen zur Bestimmung eines Optimierungszeitpunkts . . . 42

6.1 Rechnerkonfigurationen . . . 52

6.2 Zielfunktionen der Optimierung . . . 61

6.3 Anfragemuster des Anfragegenerators . . . 61

6.4 Ereignisraten der Ereignisquellen . . . 62

(12)

(13)

Verzeichnis der Abk¨ urzungen

SLA Service Level Agreement CEP Complex Event Processing GA genetische Algorithmen RRS Recursive Random Search DBMS Datenbankmanagementsystem CQL Continuous Query Language MQO Multi Query Optimierung

CCL Continuous Computation Language

(14)

(15)

Kapitel 1 Einf¨ uhrung

In diesem Kapitel wird eine kurze Einführung in diese Arbeit gegeben. Hierbei wird sowohl der Hintergrund, als auch die Motivation dieser Arbeit erläutert. Zusätzlich werden die Ziele der Arbeit definiert sowie die Methodik zum Erreichen der Ziele erklärt. Als letzter Abschnitt dieses Kapitels wird der Aufbau dieser Arbeit beschrieben.

1.1 Hintergrund

Die Problemstellung der zeitnahen Verarbeitung von Ereignissen von Ereignisströmen gewann in den letzten Jahren an Bedeutung [CJ09]. Ein Beispiel für die zeitnahe Ver- arbeitung von Ereignissen ist die Auswertung von An- und Verkäufen von Aktien zur Ermittlung des Aktienwerts an einem Aktienmarkt [BDG07]. Die Ereignisse der unterschiedlichen Ereignisströme können in einem logischen oder temporalen Zusammenhang stehen, der durch eine geeignete Analyse genutzt werden kann, um Informationen und komplexe Zusammenhänge aus den einzelnen Ereignissen zu gewinnen. Die Auswertung der einzelnen Ereignisse zur Gewinnung neuer Erkenntnisse bezeichnet man als Complex Event Processing (CEP). Um festzulegen wie die Analyse der Ereignisse ausgeführt werden soll, werden Anfragen definiert, die unterschiedliche Typen und eine variierende Anzahl von Operationen besitzen können.

Die Operationen, die in Anfragen des CEP verwendet werden, sind aus dem Kontext von Datenbankmanagementsystemen (DBMS) bekannt, z.B. Selektionen, Aggregationen und Joins, wurden jedoch an die Anforderungen des CEP angepasst. Besonderheit des CEP ist, dass Ereignisstr¨ome und damit die Ereignis- bzw. Datenmenge, die verarbeitet werden, potentiell unendlich ist, da Ereignisse, z.B. Aktienk¨aufe, kontinuierlich erzeugt werden.

Anfragen, z.B. die Ermittlung eines Aktienkurses, werden hierbei über einen längeren Zeitraum ausgeführt, weshalb die Verarbeitung der Ereignisse durch die Operationen einer Anfrage kontinuierlich durchgeführt werden muss. Eine effiziente Verarbeitung von Ereignissen ist hierbei notwendig, um Ergebnisse einer Anfrage zeitnah bereitzustellen.

Durch die langlaufenden Anfragen zur Bearbeitung der Ereignisse ist die Wahrschein- lichkeit groß, dass sich Anforderungen, z.B. die Anzahl an Ereignissen je Zeiteinheit, zur Laufzeit ¨andern [MSHR02].

(16)

1.2 Motivation

Durch die variierenden Anforderungen, die durch die beschriebenen Eigenschaften des CEP eintreten können, ändert sich ebenfalls die Menge an Ressourcen, die zur Verarbei- tung der Ereignisse benötigt wird. Es ist wichtig einem CEP System genug Ressourcen bereitzustellen, um eine zeitnahe Verarbeitung der Ereignisse zu gewährleisten. Werden nicht genug Ressourcen bereitgestellt, kann dies zu einer Verzögerung der Ereignisver- arbeitung führen. Falls Ereignisse dabei schneller erzeugt werden, als die Ereignisse verarbeitet werden können, müssen gegebenenfalls Ereignisse vom System ohne Bear- beitung verworfen werden [BBD⁺02]. Je nach vereinbarten Qualitätsmerkmalen in den Service Level Agreements (SLA), können dem Anbieter eines CEP Systems hierdurch zusätzliche Kosten in Form von Strafzahlungen entstehen. Auf der anderen Seite sorgt die Bereitstellung von zu vielen Ressourcen zu einer Ineffizienz des Systems. Es ist deshalb wünschenswert, dass das CEP System und die verwendete Ressourcenmenge elastisch sind. Elastizität bedeutet hierbei, dass sowohl eine Abwärts-, als auch Aufwärtsskalierung des Systems durchgeführt werden kann.

Die Verwendung von Cloud Computing kann hierbei genutzt werden, um die Ressourcen des Systems dynamisch an die aktuellen Anforderungen der Anfragebearbeitung anzupassen. Cloud Computing ermöglicht durch die Verwendung verschiedener Prinzipien und Mechanismen, z.B. Virtualisierung der Ressourcen, die Bereitstellung einer prinzipiell unendlichen Ressourcenmenge. Ressourcen werden in Form von Rechnerknoten bereitgestellt, die eine begrenzte Menge an CPU-Kapazität, Arbeitsspeicher und Netzwerkbandbreite besitzen. Die Anzahl an verwendeten Rechnerknoten kann hierbei dynamisch an die mo- mentanen Anforderungen des Systems angepasst werden, wobei einzelne Rechnerknoten zeitnah bereitgestellt und freigegeben werden können. Beispielsweise dauert die Bereitstel- lung zusätzlicher Ressourcen bei dem Cloud-Anbieter Amazon EC2 [Ama] in der Regel nur 2 bis 5 Minuten [AFG⁺09]. Besonderheit bei der Verwendung von Cloud Computing ist, dass kaum Investitionen notwendig sind, sondern die verwendeten Ressourcen auf Basis der Nutzung bezahlt werden. Ziel bei der Verwendung von Cloud Computing ist die Gesamtbetriebskosten durch die geringeren Investitions- und Wartungskosten zu reduzieren.

Um eine kosteneffiziente Anfragebearbeitung zu ermöglichen, muss das System ständig optimiert werden, um das System auf geänderte Anforderungen der Anfragebearbeitung anzupassen. Eine Optimierung der Anfragebearbeitung kann hierbei z.B. durch die Mi- nimierung der Anzahl an verwendeten Rechnerknoten durchgeführt werden. Durch die Optimierung soll zum einen sichergestellt werden, dass dem System genug Ressourcen zur Bearbeitung aller Anfragen bereitgestellt werden. Zum anderen soll durch die Optimierung eine effiziente Konfiguration des Systems bestimmt werden, wodurch die Gesamtkosten des Systems möglichst minimiert werden sollen.

Problematisch bei der Optimierung ist, dass die Änderung der Systemkonfiguration Auswirkungen auf die Ereignisverarbeitung haben kann. Durch die Verschiebung von Ope- ratoren einer Anfrage ist es je nach verwendeten CEP System gegebenenfalls notwendig die Anfragebearbeitung zeitweise zu unterbrechen. Je nach Art der Konfigurationsänderung, die durch die Optimierung bestimmt wird, kann die Anfragebearbeitung durch verschiedene Auswirkungen beeinflusst werden. Es ist wichtig diese Auswirkungen abschätzen zu können, und in den Optimierungsprozess zu integrieren, da sonst die Kosten durch die Konfigurationsänderung höher sein können als die Kosteneinsparung durch die optimierte

(17)

Anfragebearbeitung [BB05]. Ein weiteres Problem der Optimierung ist, dass die Optimie- rung selbst Ressourcen verbraucht. Da die Gesamtkosten des Systems abhängig von der Ressourcennutzung sind, sollte eine Optimierung nur dann ausgeführt werden, falls durch die Optimierung eine effizientere Ereignisverarbeitung erreicht wird, und hierdurch die Gesamtkosten des Systems reduziert werden. Durch die effizientere Ausführung müssen die Kosten, die durch die Optimierung und die Änderung der Konfiguration entstehen, zur Laufzeit der optimierten Konfiguration amortisiert werden.

1.3 Ziele der Arbeit

Ziel dieser Arbeit ist es Möglichkeiten zur Steigerung der Effizienz bzw. zur Minimierung der Kosten des vorhandenen cloudbasierten CEP Systems zu bestimmen. Hierbei sollen zwei unterschiedliche Aspekte untersucht werden. Zum einen soll überprüft werden, ob die Effizienz des bestehenden cloudbasierten CEP Systems gesteigert werden kann, indem die Auswirkungen der Änderung der Systemkonfiguration im Optimierungsprozess berücksichtigt werden. Zum anderen soll eine Möglichkeit erarbeitet werden, geeignete Optimierungszeitpunkte im vorhandenen Prototypen zu bestimmen.

1.4 Methodik der Arbeit

Zum Erreichen des Ziels dieser Arbeit müssen verschiedene Schritte ausgeführt werden, die im Folgenden kurz erläutert werden.

Erster Schritt ist die Analyse bestehender Verfahren zur Abschätzung der Auswirkungen einer Konfigurationsänderung in CEP bzw. cloudbasierten Systemen um mögliche Arten der Auswirkungen sowie Einflussfaktoren einer Optimierung bzw. Konfigurationsänderung zu bestimmen. Zusätzlich müssen bestehende Verfahren ermittelt und analysiert werden, die zur Bestimmung eines geeigneten Optimierungszeitpunkts verwendet werden können.

Anhand der durchgeführten Analyse müssen im zweiten Schritt Modelle entwickelt werden, die die Auswirkungen einer Optimierung im vorhandenen cloudbasierten CEP System abschätzen bzw. geeignete Zeitpunkte für eine Optimierung ermitteln können.

Die entwickelten Modelle m¨ussen im Anschluss im dritten Schritt in den existierenden Prototypen integriert werden, um den aktuellen Optimierungsprozess zu erweitern.

Im vierten Schritt muss eine geeignete Evaluation der vorgenommen ¨Anderungen des Systems durchgef¨uhrt werden, in der die Auswirkungen bestimmt werden, die durch die Verwendung der entwickelten Modelle entstehen.

1.5 Aufbau der Arbeit

Um einen genaueren Einblick in die Problemstellung und Ziele dieser Arbeit zu geben, werden in Kapitel 2 die Grundlagen dieser Arbeit erl¨autert. Hierbei werden die Begriffe CEP, Cloud Computing und adaptive Anfragebearbeitung erkl¨art. Außerdem wird das vorhandene cloudbasierte CEP System beschrieben.

Im Anschluss wird in Kapitel 3 die Problemstellung dieser Arbeit angegeben sowie die m¨oglichen Arten der Auswirkungen und Einflussfaktoren einer Konfigurations¨anderung

(18)

dargestellt, die in bestehenden Arbeiten verwendet werden. Außerdem werden in diesem Kapitel die Anforderungen dieser Arbeit analysiert.

In Kapitel 4 wird im Anschluss beschrieben, wie die verschiedenen Arten der Auswirkungen einer Optimierung im bestehenden cloudbasierten CEP System anhand der verschiedenen Einflussfaktoren im System gesch¨atzt werden k¨onnen.

Sowohl der bestehende Prozess der Optimierung, als auch die Integration der entwickelten Modelle in den vorhandenen Optimierungsprozess wird in Kapitel 5 beschrieben.

Die notwendige Evaluation zur Bewertung der Umsetzung der entwickelten Modelle wird in Kapitel 6 dargestellt. Hierbei werden sowohl die durchgef¨uhrten Messungen, als auch die erhaltenen Ergebnisse erl¨autert und ausgewertet.

In Kapitel 7 wird abschließend eine Zusammenfassung der Arbeit gegeben und mögliche Themen für zukünftige Arbeiten sowie zusätzliche Erweiterungen der entwickelten Modelle beschrieben.

(19)

Kapitel 2 Grundlagen

Diese Arbeit beschäftigt sich mit der adaptiven Anpassung der Anfragebearbeitung eines cloudbasierten Complex Event Processing (CEP) Systems. Um die Aufgabenstellung dieser Arbeit besser verstehen zu können, werden im Folgenden die Grundlagen zu CEP, Cloud Computing und adaptiver Anfragebearbeitung erläutert. Da diese Arbeit auf einem bestehenden Prototypen aufbaut und das existierende System erweitern soll, werden ebenfalls relevante Informationen bezüglich des vorhandenen CEP Prototypen kurz beschrieben.

2.1 Complex Event Processing

Complex Event Processing beschreibt die Erkennung von Mustern der Eigenschaften bzw.

zeitlichen Zusammenhängen von Ereignissen innerhalb einem oder mehreren kontinuierlichen Ereignisströmen [Luc01]. Die Verarbeitung der Ereignisse erfolgt hierbei nach dem Eintreffen des Ereignisses kontinuierlich und zeitnah, im Gegensatz zu Datenbankanfragen, die einmalig gegen eine endliche Datenmenge ausgeführt werden [EB09]. Ereignisse sind erkennbare relevante Zustandsänderungen [MFP06], die für die weitere Verarbeitung von Bedeutung sind, z.B. An- und Verkäufe von Aktien. Zu beachten ist, dass die einzelnen Ereignisse, im Gegensatz zu Datenbankmanagementsystemen (DBMS), im Allgemeinen nicht persistent gespeichert, sondern direkt verarbeitet werden.

Die einzelnen Ereignisströme, die zur Musteranalyse verarbeitet werden, sind unabhängig, und können verschiedene Eigenschaften wie Ereignisformat oder Ereignisraten besitzen.

Die gegebenenfalls unterschiedlichen Formate der Ereignisse der Ereignisströme sind jedoch zu Beginn bekannt, und ändern sich zur Laufzeit nicht. Obwohl die einzelnen Ereignisströme unabhängig voneinander sind, können zwischen den Ereignisströmen logische Verbindungen bestehen [LF98]. Entsprechend können die zugehörigen Ereignisse zu komplexen Ereignissen aggregiert werden, die höhere und wertvollere Informationen darstellen [EB09]. Diese Mustererkennung bzw. Analyse basiert auf formulierten, kontinuierlichen Anfragen.

Zur Definition von kontinuierlichen Anfragen, können unter anderem graphische Interfa- ces [KS04] genutzt werden. Alternativ dazu können deklarative, SQL-basierte Anfragespra- chen, z.B. Continuous Query Language (CQL) [ABW06] oder Continuous Computation Language (CCL) [Syb12] verwendet werden. Ausgangspunkt einer kontinuierlichen An- frage sind ein oder mehrere Ereignisströme, die in der Anfrage durch Ereignisquellen

(20)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

EreignisstromvA EreignisstromvB VerarbeitungsreihenfolgevdervEreignissev

verworfenevEreignisse zukünftigevEreignisse

Abbildung 2.1: Zeitbasierte Fenster zur Verarbeitung von Ereignissen

repr¨asentiert werden. Die Ergebnisse einer Anfrage werden in Ereignissenken bereitgestellt. Zwischen den Ereignisquellen und Ereignissenken k¨onnen sich eine beliebige Anzahl unterschiedlicher Operationen befinden, z.B. Selektionen, Aggregationen, Joins usw.

Obwohl die genannten Operationen aus dem Kontext von DBMS bekannt sind, gibt es dennoch Unterschiede. Zum einen werden Operationen zur Ausführung in Operatoren gekapselt, die neben den Informationen der Operationen, z.B. Bedingung einer Selektion, zusätzliche Informationen enthalten, z.B. Verbindungsinformationen zu anderen Operato- ren. Die Operatoren werden hierbei zur Anfragebearbeitung bzw. Ereignisverarbeitung kontinuierlich ausgeführt. Zum anderen wird in einigen Operatoren, z.B. Aggregatio- nen oder Joins, das Prinzip der Akkumulation verwendet. Akkumulation in Bezug auf CEP bedeutet, dass nur ein endlicher Ausschnitt der Ereignisströme gespeichert und weiterverarbeitet wird, da die Verarbeitung aller Ereignisse der potentiell unendlichen Ereignisströme nicht möglich ist [EB09].

Zur Umsetzung des Prinzips der Akkumulation werden in CEP Systemen zeitbasierte Fenster [BDM02], die nur einen gewissen Zeitraum betrachten, oder anzahlbasierte Fenster [GO03] verwendet, die die Anzahl der ber¨ucksichtigten Ereignisse beschr¨anken.

Abbildung 2.1 könnte die zeitbasierten Fenster eines Joins darstellen, der die Ereignisse zweier EreignisströmeA und B miteinander verbindet. Die Zahlen repräsentieren hierbei die Positionen der Ereignisse in den Ereignisströmen. Die Ereignisse innerhalb der Rechtecke werden zur Anfragebearbeitung zwischengespeichert. Die Ereignisse, die sich außerhalb der Rechtecke befinden, wurden entweder noch nicht verarbeitet, oder wurden bereits verworfen. Zu beachten ist, dass die Größe der Fenster selbst innerhalb eines Operators variieren kann, z.B. wenn zeitliche Bedingungen verwendet werden, um zu entscheiden wann ein Ereignis des Fensters verworfen werden kann. Operatoren, die zur Ausführung zeit- oder anzahlbasierte Fenster verwenden, werden als zustandsbehaftete Operatoren bezeichnet, wobei die Ereignisse, die in den Fenstern gespeichert werden, unter anderem den Zustand der entsprechenden Operatoren bilden. Operatoren, die keine zeit- oder anzahlbasierten Fenster zur Ereignisverarbeitung benötigen, z.B. Selektionen, werden zustandslose Operatoren genannt.

Zus¨atzlich muss bei der Ereignisverarbeitung in CEP ber¨ucksichtigt werden, dass das Ergebnis eines Operators bzw. einer kontinuierlichen Anfrage kein einmaliges Ergebnis wie in DBMS ist, sondern erneut ein kontinuierlicher Ereignisstrom ist.

Die durch die Analyse der Ereignisstr¨ome gewonnen Erkenntnisse dienen als Aus- gangspunkt f¨ur Entscheidungen oder Aktionen, z.B. Aktienkauf, Starten eines neuen Prozesses usw. [EB09]. Anwendungsgebiete von CEP sind unter anderem Finanzan- wendungen [ScZ05], z.B. Betrugserkennung durch Analyse von Kreditkartentransaktio- nen [SMMP09], Sensornetzwerke [CcC⁺02] zur Verarbeitung von Sensordaten, Business

(21)

Activity Monitoring [EB09] in dem z.B. Geschäftsprozesse überwacht werden, und die Uberwachung von Netzwerken und Infrastrukturen [WDR06]. Bei der Auswertung von¨ Ereignisströmen können sowohl bekannte Muster, oder durch Verwendung von Mechanis- men des maschinellen Lernens unbekannte Muster gesucht werden [JHJ13].

In der Praxis, z.B. bei der Verarbeitung von Informationen aus Finanztransaktionen, müssen CEP Systeme die Ereignisse von verschiedenen Ereignisströmen verarbeiten, die Millionen von Ereignissen in der Sekunde erzeugen [Cor11]. Die Ereignisse müssen gegebenenfalls von einer hohen Anzahl von gleichzeitig laufenden Anfragen bearbeitet werden.

Entsprechend können die Ressourcenanforderungen für einen einzelnen Rechnerknoten zu hoch sein. Um dennoch eine zeitnahe Ereignisverarbeitung zu ermöglichen, kann ein verteiltes System zur Ereignisverarbeitung verwendet werden. Hierbei entstehen jedoch neue Problemstellungen, z.B. wie die Operatoren der kontinuierlichen Anfragen auf die vorhandenen Rechnerknoten des verteilten CEP Systems platziert werden [LLS08]. Bei der Platzierung der Operatoren müssen die Eigenschaften von CEP Anfragen berück- sichtigt werden. Im Gegensatz zur Problemstellung des Schedulings [BSBS13] können mehrere Operatoren gleichzeitig einem Rechnerknoten zugeordnet werden, und über einen längeren Zeitraum ausgeführt werden. Können trotz der Verwendung mehrerer Rechner- knoten nicht genügend Ressourcen zur Anfragebearbeitung bereitgestellt werden, müssen Ereignisse der Operatoren oder Ereignisströme ohne Bearbeitung verworfen werden (load shedding) [BBD⁺02].

Um Qualitätsanforderungen, z.B. Antwortzeiten oder Ereignisdurchsatz, einhalten zu können, muss das CEP System kontinuierlich überwacht und an die aktuellen Anforde- rungen der Anfragebearbeitung angepasst werden. Problematisch hierbei ist, dass die Ereignisraten mit der Zeit variieren, oder Ereignisse stoßweise auftreten können [CJ09].

Entsprechend wichtig sind eine effiziente Anfragebearbeitung und -optimierung, gute Skalierbarkeit und hohe Verfügbarkeit des Systems [ScZ05]. Durch diese komplexen Anfor- derungen, die durch die zeitnahe Verarbeitung einer hohen Anzahl von Ereignissen (große Datenmenge) im Kontext von CEP auftreten können, stoßen bestehende Datenverarbei- tungsinfrastrukturen, z.B. DBMS, an ihre Grenzen [ScZ05]. Um die hohen Anforderungen des CEP zu erfüllen, kann z.B. Cloud Computing verwendet werden, das unter anderem gute Eigenschaften bezüglich der Skalierbarkeit und Verfügbarkeit bietet.

2.2 Cloud Computing

Die Ergebnisse dieser Arbeit werden innerhalb eines CEP Prototypen implementiert, der die Probleme bez¨uglich der hohen Effizienzanforderungen des CEP durch die Verwendung von Cloud Computing l¨ost.

F¨ur Cloud Computing gibt es eine Vielzahl von unterschiedlichen Definitionen [VRMCL08].

Die folgende Definition von Cloud Computing wird hierbei vom National Institute of Standards and Technology (NIST) ¨ubernommen [MG09]:

”Cloud Computing ist ein Model, das jederzeit eine praktische Nutzung geteilter, konfigurierbarer Rechenressourcen (z.B. Netzwerke, Server, Speicher, Anwendungen und Dienste) auf Anfrage ¨uber ein Netzwerk erlaubt, wobei eine schnelle Bereitstellung und Freigabe mit minimalen Managementaufwand oder Serviceprovider-Interaktion erm¨oglicht wird.“

(22)

Systemlast Statische Ressourcenbereitstellung Elastische Ressourcenbereitstellung

Ressourcenmenge

Zeit Überversorgung

Unterversorgung

Abbildung 2.2: Problem der Unter- und ¨Uberversorgung

Die wesentlichen Neuerungen, die durch Cloud Computing eingef¨uhrt werden, sind hierbei folgende Merkmale [AFG⁺09]:

1. Illusion einer unendlichen verf¨ugbaren Ressourcenmenge 2. Keine Investitionskosten

3. Bezahlung der Ressourcen auf Basis der Nutzung 4. Schnelle Bereitstellung bzw. Freigabe von Ressourcen

Außerdem bietet Cloud Computing die M¨oglichkeit Anwendungen durch ¨Anderungen des Rechnerknotens zu verschieben sowie eine automatische Ressourcenverwaltung [ZCB10].

Obwohl die meisten Anwendungen vorhersagbaren, periodischen oder saisonalen Schwan- kungen unterliegen, treten oft unvorhersehbare Spitzenlasten auf [AFG⁺09]. Um diese Spitzenlasten abzufangen, und genügend Ressourcen bereitzustellen, können Cloud- Technologien verwendet werden. Die genutzten Anwendungen müssen hierbei elastisch sein, um sich entsprechend schnell an geänderte Anforderungen durch eine Aufwärts- oder Abwärtsskalierung anpassen zu können [AFG⁺09]. Die Anforderungen bezüglich der Elastizität werden von modernen Cloud-Anbietern wie Amazon EC2 [Ama] un- terstützt, indem z.B. zusätzliche Ressourcen innerhalb von 2 bis 5 Minuten angeboten werden können [AFG⁺09]. Diese schnelle Bereitstellung neuer Ressourcen ist ein enormer Vorteil im Vergleich zur traditioneller Ressourcenbeschaffung in der von der Finanzie- rung, Kauf, Lieferung und Installation neuer Hardware mehrere Monate verstreichen können [KHSS10].

Durch die schnelle Ressourcenbereitstellung bzw. -freigabe bei der Verwendung von Cloud-Technologien ist es möglich die Kosten für die Überversorgung (Over Provisioning) bzw. das Risiko der Unterversorgung (Under Provisioning) zu reduzieren [AFG⁺09]. Die Probleme der Überversorgung bzw. Unterversorgung werden in Abbildung 2.2 dargestellt.

Uberversorgung bezeichnet hierbei die Bereitstellung von zu vielen Ressourcen f¨¨ ur die aktuellen Anforderungen, was zu einer ineffizienten Hardwarenutzung führt, da nur ein Teil der vorhandenen Hardware genutzt wird. Bei einer Unterversorgung hingegen werden zu wenig Ressourcen für die aktuellen Anforderungen bereitgestellt, wodurch gegebenenfalls Laufzeitanforderungen der Anwendungen bezüglich Antwortzeit oder Durchsatz nicht mehr gewährleistet werden können. Können die Kosten für die Überversorgung konkret bestimmt werden, ist dies für eine Unterversorgung nur schwer möglich [AFG⁺09]. Eine

(23)

Unterversorgung kann zu einem Verlust von Kunden f¨uhren, falls eine Anfragebearbeitung zu lange dauert, oder zu Strafzahlungen, falls vereinbarte Service Level Agreements (SLA) nicht eingehalten werden [AFG⁺09].

Um die Elastizität von cloudbasierten Systemen zu ermöglichen, werden unter anderem Prinzipien der Virtualisierung und Skalierbarkeit im Bereich der Hardware eingesetzt [VRMCL08]. Anwender haben den Vorteil, dass zur Bereitstellung von Anwendungen bzw. Diensten kaum Hardware benötigt wird, weshalb nur ein geringer Installations- und Wartungsaufwand existiert. Die Hardware kann hierbei entsprechend den aktuellen Anforderungen gemietet bzw. angefordert werden [Hay08].

Es gibt eine Vielzahl unterschiedlicher Dienste, die per Cloud Computing genutzt werden k¨onnen. Hierbei reicht das Angebot von Software, z.B. Google Docs [Goo], ¨uber Plattform, z.B. Microsoft Azure [Win], bis hin zur reinen Infrastruktur, z.B. Amazon EC2 [WAB⁺09].

Die anfallenden Kosten bei der Verwendung von Cloud-Technologien sind abhängig von den genutzten Ressourcen, entsprechend ist bei der Benutzung von Cloud Computing neben der Berücksichtigung von Qualitätseigenschaften der Anwendungen, wie Antwort- zeit oder Durchsatz, ebenfalls eine effiziente Nutzung der Ressourcen notwendig. Im Vergleich zur Verwendung von herkömmlicher Hardware erfordert der Einsatz von Cloud- Technologien oft eine Architekturänderung existierender Systeme, um eine kosteneffiziente Ausführung zu ermöglichen [FK09]. Um die Effizienz eines Systems zur Laufzeit, auch unter sich ändernden Bedingungen, zu gewährleisten, ist eine ständige Optimierung des Systems notwendig.

2.3 Optimierung

Ziel des vorhandenen CEP Systems ist eine kosteneffiziente, elastische Anfragebearbeitung unter Verwendung von Cloud-Technologien zu ermöglichen. Um die Ziele der Kosteneffizi- enz und Elastizität zu erfüllen, ist eine kontinuierliche Adaption der Anfragebearbeitung des CEP Systems an die aktuellen Anforderungen, z.B. Qualitätsanforderungen der Anfragebearbeitung, notwendig.

2.3.1 Adaptive Anfragebearbeitung

Die traditionelle Anfragebearbeitung innerhalb eines DBMS verwendet den Plan First Execute Next Ansatz, in dem eine Anfrage einmalig optimiert wird, und nach der Optimie- rung ausgeführt wird [BB05]. Um mit dem Plan First Execute Next Ansatz ein optimales Ergebnis zu erhalten, müssen Informationen, z.B. Laufzeitverhalten, Dateneigenschaften usw., zum Optimierungszeitpunkt, also vor der Ausführung der Anfrage, vorhanden sein [DIR07]. Gerade in CEP Systemen ist aufgrund der lang laufenden Anfragen die Wahrscheinlichkeit jedoch groß, dass sich Ereignis- oder Systemeigenschaften zur Laufzeit

ändern [MSHR02]. Entsprechend schwierig ist es, einen effizienten Ausführungsplan vor der Bearbeitung einer Anfrage zu bestimmen, weshalb eine adaptive Anfragebearbeitung verwendet werden muss, um eine hohe Effizienz zu gewährleisten [CG13].

Adaptive Anfragebearbeitung bedeutet hierbei, dass die Optimierung der Anfragebear- beitung zur Laufzeit gegebenenfalls mehrmals durchgeführt wird, um eine optimale An- fragebearbeitung bei variierenden Bedingungen zur Laufzeit zu gewährleisten [BB05]. Bei längerer Laufzeit, oder mehrmaliger Ausführung kann eine adaptive Anfragebearbeitung

(24)

genutzt werden, um Fehler des Optimierers, unbekannte oder geänderte Statistiken, Ände- rungen der Dateneigenschaften und Systembedingungen zu berücksichtigen [BBR⁺12].

Weitere Anwendungsbeispiele neben CEP f¨ur adaptive Anfragebearbeitung sind Anwen- dungen zur Datenintegration [BFMV00] und gegebenenfalls auch relationale Anfragen in DBMS [NWMN99].

Da bei der Optimierung eine hohe Zahl von Faktoren ber¨ucksichtigt werden muss, z.B.

Systemkonfiguration, Eigenschaften der Ereignisstr¨ome usw., ist es kaum m¨oglich die An- fragebearbeitung effizient manuell zu optimieren, weshalb eine automatische Optimierung erfolgen sollte [KCS05].

2.3.2 Optimaler Optimierungsprozess

Eine Optimierung erfolgt in der Regel in drei Schritten [BB05]:

1. Bestimmung des Optimierungszeitpunkts 2. Berechnung der Optimierungsm¨oglichkeiten 3. Umsetzung der besten Optimierungsm¨oglichkeit

Teilweise wird die Optimierung auch in vier Phasen getrennt, dem MAPE (Monitor, Analyse, Process, Execute) Zyklus [DIR07]:

Monitor Um eine Optimierung durchführen zu können, ist es notwendig vorhandene In- formation zu verwenden, um eine Effizienzsteigerung zu erreichen. Um Informationen zu nutzen, müssen relevante Eigenschaften, z.B. Ereignisraten der Ereignisquel- len, überwacht werden. Diese Überwachung muss kontinuierlich erfolgen, da sich Eigenschaften zur Laufzeit des Systems ändern können.

Analyse Informationen, die durch die Überwachung der Systemeigenschaften gewonnen wurden, müssen analysiert werden, um z.B. zeitliche Zusammenhänge erkennen zu können.

Process Auf Grundlage der analysierten Informationen kann durch geeignete Opti- mierungsverfahren verschiedene Möglichkeiten zur Steigerung der Effizienz des Systems ermittelt werden. Die unterschiedlichen Möglichkeiten müssen miteinander verglichen, und die beste Möglichkeit ausgewählt werden. Je nach Ziel der Optimierung müssen unterschiedliche Aspekte, z.B. Ausführungszeit, Kosten oder Ressourcenverbrauch, bei der Auswahl der Optimierungsmöglichkeit berücksichtigt werden.

Execute Die ermittelte Möglichkeit zur Optimierung muss in der letzten Phase im System umgesetzt werden. Zur Umsetzung können dabei mehrere Schritte notwendig sein, z.B. Änderung der Systemkonfiguration, Berechnung einer optimierten Platzierung der Operatoren oder Verschiebung von Operatoren.

Innerhalb der drei bzw. vier Phasen müssen verschiedene Faktoren der Optimierung festgelegt werden. Es müssen Art, Ziel und Zeitpunkt der Optimierung bestimmt werden [BCM⁺12]. Zum besseren Verständnis werden die genannten Punkte im Folgenden kurz erläutert:

Arten der Optimierung Prinzipiell k¨onnen verschiedene Verfahren zur Optimierung verwendet werden. Hierbei k¨onnen zwei Arten von Verfahren unterschieden werden, deterministische und heuristische Verfahren. Der Unterschied zwischen den beiden Arten ist, dass deterministische Verfahren mit der gleichen Eingabe im-

(25)

mer das gleiche Ergebnis liefern. Heuristische Verfahren, z.B. genetische Algorith- men (GA) [VKP11], können bei der selben Eingabe unterschiedliche Ergebnisse liefern. Im Gegensatz zu heuristischen Verfahren können deterministische Verfah- ren eine optimale Lösung finden. Der Grund, warum häufig dennoch heuristische Verfahren eingesetzt werden, ist, dass heuristische Verfahren teilweise ausreichend gute Ergebnisse finden, und dabei eine geringere Laufzeit oder geringeren Ressour- cenverbrauch im Vergleich zu deterministischen Verfahren haben.

Optimierungsziel In einem System gibt es prinzipiell verschiedene Ansatzpunkte für eine Optimierung. Ein mögliches Ziel einer Optimierung kann die Minimierung der Kosten bzw. des Ressourcenverbrauchs des Systems sein. Hierzu können verschiedene Systemeigenschaften, z.B. Anzahl und Konfiguration der Rechnerknoten, bei der Optimierung berücksichtigt werden. Innerhalb eines verteilten Systems muss ebenfalls entschieden werden, ob das gesamte System optimiert werden soll, oder nur einzelne Rechnerknoten. Neben der Optimierung der Rechnerknoten ist ebenfalls eine Optimierung des CEP Systems möglich. Hierbei können unter anderem die Strategie zur Platzierung der Operatoren einer Anfrage bestimmt werden, oder die Anzahl an Ereignissen angepasst werden, die zwischengespeichert werden, falls ein Rechnerknoten die erzeugten Ereignisse nicht direkt verarbeiten kann.

Zeitpunkt der Optimierung Problematisch bezüglich der Optimierung ist, dass zum einen die Optimierungsalgorithmen Ressourcen und Zeit benötigen. Zum anderen benötigt die Umsetzung der bestimmten Änderungen der Optimierung ebenfalls Ressourcen und Zeit [VBVB09] bzw. hat gegebenenfalls negative Auswirkung auf das System, z.B. höhere Antwortzeiten oder geringerer Durchsatz der Anfragen.

Entsprechend wichtig ist die Bestimmung eines geeigneten Optimierungszeitpunkts.

Die Eignung eines Zeitpunkts zur Optimierung kann je nach Ziel der Optimierung variieren, entsprechend m¨ussen die Ziele bei der Auswahl des Optimierungszeit- punkts ber¨ucksichtigt werden.

Hierbei können zwei Zeitpunkte der Entscheidungsfindung der Optimierung unterschieden werden, Start und Umsetzung (Migration) der bestimmten Änderungen der Optimierung. Eine Optimierung zu starten ist sinnvoll, falls neue Informationen vorhanden sind [ZZSB13], z.B. aktuellere Statistiken, oder geänderte Systemanfor- derungen, da bei der Optimierung sonst die selben (deterministische Verfahren) oder ähnliche (heuristische Verfahren) Ergebnisse zu erwarten sind. Entsprechend wichtig ist es abzuschätzen, wie gravierend sich die aktuellen Änderungen auf die Effizienz des Systems auswirken. Eine Optimierung sollte nur ausgeführt werden, falls eine relevanten Steigerung der Effizienz erwartet wird [KD98].

Wurde eine Optimierung gestartet und Änderungen zur Effizienzsteigerung ermittelt, muss ebenfalls überprüft werden, ob die bestimmten Änderungen sinnvoll sind und durchgeführt werden sollen [LXJ⁺11]. Die Kosten, die durch die Änderungen des Systems entstehen, müssen sich zur Laufzeit durch die Effizienzsteigerung des Systems amortisieren [JJH⁺09].

Problematisch in CEP Systemen ist, dass die exakte Laufzeit einer Konfiguration im voraus nicht berechnet werden kann, entsprechend muss eine Abschätzung der Laufzeit durchgeführt werden, und entschieden werden, ob eine Änderung der Sy- stemkonfiguration sinnvoll ist [JJH⁺09]. Bei einer bestimmten Effizienzsteigerung

(26)

des Systems gilt, je länger die erwartete Laufzeit einer Konfiguration ist, desto höher können die Migrationskosten sein, um dennoch eine Kostenreduktion zu bewirken.

Sowohl Art [Ji11], als auch Ziel [Röd12] der Optimierung der Anfragebearbeitung wurden bereits in vorherigen Arbeiten für den vorhandenen CEP Prototypen erarbeitet und integriert. Ziel dieser Arbeit ist es den Optimierungsprozess des bestehenden cloudbasierten CEP Systems zu erweitern, und so die Kosteneffizienz des Prototyps weiter zu verbessern. Hierbei sollen Mechanismen entwickelt werden, die zum einen geeignete Opti- mierungszeitpunkte bestimmen können, und zum anderen die Auswirkungen abschätzen können, die durch Änderung des Systems während der Optimierung im bestehenden System entstehen. Um mehr Verständnis für die Problemstellung dieser Arbeit zu erhalten, werden im nächsten Abschnitt die relevanten Verfahren des bestehenden Prototypen erläutert.

2.4 Aufbau des Prototyps

Ziel des bestehenden Prototyps ist es ein kosteneffizientes CEP System auf Basis von Cloud- Technologien bereitzustellen. Um dieses Ziel umzusetzen, wurden bereits mehrere System- komponenten entwickelt. Es wurden unter anderem verschiedene Strategien zur Platzie- rung von Operatoren und ein Verfahren zur Multi Query Optimierung (MQO) [Ji11], ein Kostenmodell [Mey12] und Verfahren zur Systemoptimierung [R¨od12] umgesetzt, die im Folgenden erl¨autert werden.

2.4.1 Multi Query Optimierung

Kern der Optimierung des existierenden CEP Systems ist das Verfahren zur MQO und verschiedene Strategien zur Platzierung der Operatoren [Ji11]. Sobald Nutzer des CEP Sy- stems neue Anfragen formulieren, werden diese durch die MQO Komponente verarbeitet, siehe Abbildung 2.3. Hierbei wird durch die MQO versucht, (Teil-)Ergebnisse von bestehenden Anfragen wiederzuverwenden, um eine höhere Effizienz der Anfragebearbeitung zu erreichen. Wichtig ist hierbei, dass der verwendete Ansatz ein inkrementelles Hinzufügen bzw. Entfernen von Anfragen ermöglicht. Hierdurch ist es möglich Anfragen zur Laufzeit hinzuzufügen bzw. zu entfernen, ohne einen zu großen Mehraufwand zu verursachen, da gegebenenfalls nur bestehende Anfragen, deren (Teil-)Ergebnisse wiederverwendet werden, durch die MQO beeinträchtigt werden. Anfragen, deren Ergebnisse nicht wiederverwendet werden, werden bei dem Hinzufügen bzw. Entfernen von Anfragen nicht beeinflusst.

Zur Wiederverwendung bestehender (Teil-)Ergebnisse werden neue Anfragen mit einem globalen Anfragegraphen verglichen. Der globale Anfragegraph enthält hierbei alle aktiven Operatoren der aktuell bearbeiteten Anfragen und entsprechend die Verbindun- gen zwischen den Operatoren. Der Suchraum zur Bestimmung einer Äquivalenz von (Teil-)Anfragen ist groß, da es z.B. unterschiedliche semantisch-äquivalente Anfragepläne für eine Anfrage gibt. Grund hierfür ist, dass die Möglichkeit besteht eine semantisch-

äquivalente Umformung einer Anfrage durchzuführen, z.B. auf Basis der Kommutativität von Selektionen. Um dennoch eine effiziente MQO zu ermöglichen wurde ein geeignetes Verfahren [Ji11] entwickelt, welches in Anhang A genauer beschrieben wird.

Kann das Ergebnis einer neuen Anfrage nicht durch die Wiederverwendung der Ergebnisse

(27)

neueQAnfragen

GlobalerQAnfragegraph

Platzierungskomponente initialeQPlatzierung

Platzierungsentscheidung Laufzeitinformationen

Laufzeitplatzierung

verteiltesQCEPQSystem MultiQQueryQOptimierungskomponente

Systemoptimierungskomponente

Abbildung 2.3: Architektur der Optimierung der Anfragebearbeitung

vorhandener Operatoren bereitgestellt werden, müssen neue Operatoren im System erzeugt werden. Das bestehende CEP System ist ein verteiltes System, weshalb entschieden werden muss, auf welchem Rechnerknoten des Systems die benötigten Operatoren erzeugt bzw. platziert werden sollen. Zur Platzierung der Operatoren können im vorhandenen Pro- totypen verschiedene Verfahren genutzt werden, die im nächsten Abschnitt beschrieben werden.

2.4.2 Platzierung von Operatoren

Alle Operatoren von neuen Anfragen, deren Ergebnisse nicht durch die Wiederverwen- dung bestehender Operatoren bereitgestellt werden können, müssen entsprechend im System erzeugt bzw. platziert werden. Hierbei müssen unterschiedliche Problemstellungen berücksichtigt werden.

Da das vorhandene CEP System cloudbasiert ist, können prinzipiell unendlich viele Ressourcen zur Bearbeitung der Anfragen im CEP genutzt werden. Da die verwendeten Ressourcen jedoch auf Basis der Nutzung bezahlt werden müssen, ist eine effiziente Nutzung der Ressourcen notwendig. Ziel der Komponente zur Platzierung der Operatoren ist es eine minimale Ressourcenmenge bei der Platzierung von Operatoren zu verwenden, ohne dabei das gesamte oder Teile des Systems zu überlasten. Die verfügbaren Ressourcen

(28)

stehen hierbei in Form von Rechnerknoten zur Verfügung, die entsprechend begrenzte Ressourcenkapazitäten, z.B. CPU-Kapazität und Netzwerkbandbreite, besitzen.

Zur Parallelisierung der Anfragebearbeitung können (logische) Operatoren mehrere un- abhängige Instanzen besitzen, die parallel Ereignisse verarbeiten können [SHCF03]. Durch die Parallelisierung kann zum einen die Verarbeitungszeit der Ereignisse reduziert werden, zum anderen kann die Last auf die unterschiedlichen Instanzen eines Operators verteilt werden, wodurch ein besserer Lastenausgleich im bestehenden Prototypen erreicht werden kann. Um sicherzustellen, dass kein Rechnerknoten des Systems bei der Anfragebearbei- tung überlastet ist, muss bei der Platzierung der Operatoren der Ressourcenverbrauch der Operatoren berücksichtigt werden.

Bei der Ausführung der Operatoren wird der Ressourcenverbrauch kontinuierlich über- wacht und ausgewertet, um sicherzustellen, dass genügend Ressourcen bereitgestellt werden können. Beim Hinzufügen einer Anfrage kann dieses Verfahren jedoch noch keine Informationen bereitstellen. Zur Ermittlung des Ressourcenverbrauchs der Operatoren neuer Anfragen wurde deshalb ein Verfahren implementiert, das eine Kombination aus einem stichproben- und schätzungsbasierten Verfahren ist. Durch eine Schätzung wird hierbei der Ressourcenaufwand für die Verarbeitung eines Ereignisses innerhalb eines Operators geschätzt und mit den Ereignisraten der genutzten Ereignisquellen multipliziert.

Zur Bestimmung der Ereignisraten werden Messungen des Systems verwendet. Anhand des ermittelten Ressourcenverbrauchs der einzelnen Operatoren kann die Anzahl an Rechnerknoten bestimmt werden, die benötigt werden, um die vorhandenen Anfragen zu bearbeiten ohne einzelne Rechnerknoten zu überlasten. Wurde die Anzahl an Rech- nerknoten bestimmt, die das System zur Bearbeitung der Anfragen benötigt, muss die eigentliche Platzierung der Operatoren durchgeführt werden. Hierbei müssen zwei Teil- probleme berücksichtigt werden, die initiale Platzierung sowie die Laufzeitplatzierung der Operatoren. Beide Problemstellungen, initiale und Laufzeitplatzierung der Operatoren, werden in den nächsten Abschnitten beschrieben.

Initiale Platzierung der Operatoren

Zur L¨osung der Problemstellung der Platzierung der Operatoren wurden unterschiedliche heuristische Verfahren in das System integriert, die im Kontext des Bin Packing Problems entwickelt wurden.

Das Bin Packing Problem [MT90] beschreibt allgemein das Problem der Aufteilung von unterschiedlich großen Elementen auf vorhandene Behälter. Im vorhandenen CEP System sind die Operatoren äquivalent mit den Elementen und die Rechnerknoten entsprechen den Behältern. Innerhalb des Prototypen wurden sechs verschiedene Verfahren zur Platzierung der Operatoren implementiert [Ji11].

Innerhalb des First Fit Verfahren werden die Behälter beliebig geordnet und ein Element wird auf den ersten Behälter platziert, der genug freie Ressourcen besitzt, wobei die Behälter auf Basis der Ordnung überprüft werden. Das Best Fit Verfahren sucht einen gefüllten Behälter, der noch genug Ressourcen hat, um das Element zu beherbergen.

Finden die entsprechenden Verfahren keinen Behälter, der genügend freie Ressourcen besitzt, müssen neue Behälter hinzugefügt werden. Zusätzlich wurden zwei Erweiterungen der First Fit und Best Fit Verfahren implementiert. Bei der Erweiterung Decreasing werden die Elemente vor der Zuordnung durch das entsprechende Verfahren nach Größe geordnet, wobei die Zuordnung mit dem größten Element beginnt. Bei der anderen Erweiterung

(29)

With Prioritized Host werden die Beh¨alter in Abh¨angigkeit des Elements geordnet.

Innerhalb von Anfragen stehen Operatoren in einer Beziehung zu anderen Operatoren.

Operatoren k¨onnen eine beliebige Anzahl von Vorg¨angern und Nachfolgern besitzen.

Zwischen den benachbarten Operatoren müssen Daten bzw. Ereignisse übertragen werden, diese Beziehung wird entsprechend bei der Ordnung der Behälter berücksichtigt.

Die unterschiedlichen Verfahren haben unterschiedliche Vor- bzw. Nachteile. Je nach gew¨ahlten Verfahren kann z.B. die Netzwerklast oder Knotenanzahl minimiert werden.

Bei der initialen Platzierung der Operatoren findet im Gegensatz zur Laufzeitplatzierung keine Bearbeitung von Anfragen statt. Da sich zur Laufzeit die Anforderungen ändern können, ist es teilweise notwendig die initiale Platzierung der Operatoren zu ändern.

Diese ¨Anderung der Platzierung erfolgt durch die Laufzeitplatzierung der Operatoren.

Laufzeitplatzierung der Operatoren

Aufgabe der Laufzeitplatzierung der Operatoren ist es, das System auf geänderte Anfor- derungen anzupassen. Mit der Zeit können z.B. neue Anfragen gestartet oder bestehende Anfragen beendet werden. Zusätzlich kann sich die Last des Systems ändern, indem sich z.B. Eigenschaften der Ereignisse oder Ereignisraten der Ereignisquellen ändern. Die Ände- rung von Anforderungen zur Laufzeit können zu einer Überlastung (zu wenig Ressourcen) oder Ineffizienz (zu viele Ressourcen) des Systems führen, weshalb die aktuelle Last der Rechnerknoten überwacht wird. Anhand der Daten, die während der Überwachung ermittelt werden, z.B. CPU- oder Netzwerk-Auslastung, wird entschieden, ob und auf welche Rechnerknoten Operatoren migriert werden sollen. Die Entscheidung auf welchen Rechnerknoten ein Operator migriert werden soll, erfolgt hierbei erneut mit den bereits vorgestellten Lösungsverfahren für das Bin Packing Problem, siehe Abschnitt 2.4.2.

Um zu entscheiden wann ein Rechnerknoten ¨uberlastet ist, oder aufgrund einer zu gerin- gen Auslastung freigegeben werden kann, wird die sogenannte Elasticity Policy [HJJF13]

genutzt. Hierbei können sowohl grenzwert- also auch tendenzbasierte Regeln verwendet werden. Bei beiden Regeln können spezifische Eigenschaften der Rechnerknoten oder globale Eigenschaften verwendet und überwacht werden. Für grenzwertbasierte Regeln wird der entsprechend definierte Grenzwert überwacht und bei Eintreten der Regel, die vorgegebene Aktion durchgeführt. Ein Beispiel für grenzwertbasierte Regeln ist das Freigeben eines Rechnerknotens, sobald die Last unter eine definierte Auslastungsgrenze fällt. Tendenzbasierte Regeln versuchen das Über- bzw. Unterschreiten eines Grenzwerts noch vor dem Eintritt abzuschätzen. Hierzu nutzen tendenzbasierte Regeln lineare Ap- proximationen der letzten Messungen. Ein Beispiel für eine tendenzbasierte Regel ist z.B.

falls die Last steigt und der Grenzwert innerhalb der nächsten 5 Sekunden überschritten wird, ist der Rechnerknoten überlastet. Um eine effiziente Ausführung des Systems zu ermöglichen, müssen geeignete Regeln definiert werden.

Wie bereits in Abschnitt 2.3.1 beschrieben, müssen zur Definition der Regeln der Elasticity Policy jedoch viele unterschiedliche Aspekte und anwendungsspezifische Anforderungen beachtet werden. Für einen Nutzer ist es kaum möglich alle Anforderungen zu berück- sichtigen. Zur Unterstützung des Nutzers können durch die Verwendung der Systemopti- mierung, siehe Abschnitt 2.4.4, diese Regeln teilweise automatisch ermittelt werden, bzw.

an ge¨anderte Anforderungen angepasst werden. Ein Beispiel f¨ur einen Parameter, der automatisch durch die Systemoptimierung bestimmt werden kann, ist LOAD LOWER BOUND, die die untere Auslastungsgrenze eines Rechnerknotens definiert. Unterschreitet

(30)

ein Rechnerknoten, diese Grenze f¨ur eine gewisse Zeit, werden die Operatoren des Rech- nerknotens migriert und der Knoten entsprechend freigegeben.

Andere Faktoren, die sich zur Laufzeit kaum oder gar nicht ¨andern, bzw. leicht durch den Nutzer selbst ermittelt werden k¨onnen, werden bei der Optimierung nicht betrachtet.

Diese Faktoren m¨ussen entsprechend vom Nutzer beim Start des Systems selbst festgelegt werden. Die maximale bzw. minimale Anzahl an Rechnerknoten, die vom System verwendet werden kann, sind Beispiele f¨ur vom Nutzer festgelegte Parameter.

Je nach Nutzung der bestehenden Rechnerknoten des cloudbasierten CEP Systems entstehen Kosten. Um diese Kosten bestimmen zu k¨onnen, wurde ein Kostenmodell erstellt, das unter anderem im n¨achsten Abschnitt beschrieben wird.

2.4.3 Kostenmodell

Um die Kosten des Systems zu bestimmen, wurde ein Kostenmodell [Mey12] entwickelt und in den vorhandenen Prototypen integriert. Zur Entwicklung des Kostenmodells wurden bestehende Kostenmodelle im Bereich Cloud Computing [TD10] sowie vorhandene Angebots- und Preismodelle von Cloud-Anbietern analysiert, z.B. Amazon EC2 [Ama], Microsoft Azure [Win] usw. Ergebnis der Arbeit war unter anderem ein generisches Kostenmodell, das bei beliebigen Cloud-Anbietern eingesetzt werden kann und die Kosten einer Anfrage auf Basis der folgenden Faktoren berechnet:

• Reservierte und genutzte CPU-Kapazit¨at

• Reservierter und genutzter Arbeitsspeicher

• Zahl der reservierten Rechnerknoten

• Ein- und ausgehender Netzwerkverkehr

• Fixkosten und Zeitraum zur Verrechnung der Fixkosten

Zur Verwendung des generischen Kostenmodells m¨ussen die entsprechenden Kosten des genutzten Cloud-Anbieters hinterlegt werden, und eine gew¨unschte Systemkonfiguration eingestellt werden, z.B. Festlegung der Anzahl an reservierten Rechnerknoten.

Die Kosten einer Anfrage werden zum einen durch die Kosten der genutzten Ressourcen, zum anderen durch Fixkosten bestimmt, die z.B. durch die Reservierung oder die Konfi- guration von Rechnerknoten entstehen. Um die Kosten der genutzten Ressourcen einer Anfrage zu bestimmen, werden hierbei die Kosten der einzelnen Operatoren auf Basis des Ressourcenverbrauchs bestimmt und die einzelnen Kosten der Operatoren summiert.

Werden Ergebnisse eines Operators von mehreren Anfragen wiederverwendet, werden die Kosten eines Operators auf die entsprechenden Anfragen aufgeteilt.

Neben der Entwicklung und Integration des Kostenmodells wurden weitere Funktiona- lit¨aten in den CEP Prototypen integriert. Durch die integrierte Komponenten [Mey12]

ist es möglich die Kosten einer Anfrage zu schätzen und zu überwachen. Die Schätzung der erwarteten Kosten einer Anfrage wird hierbei durch Simulation der Anfragen im CEP System bestimmt. Die Überwachung der Kosten wird durch Kontrolle des Systems erreicht, indem zum einen der Ressourcenverbrauch der einzelnen Operatoren kontinuierlich überprüft wird, und zum anderen entsprechende Ergebnisse anhand des verwendeten Kostenmodells ausgewertet werden. Neben der Überwachung der Kosten können ebenfalls Qualitätseigenschaften definiert und kontrolliert werden, z.B. Latenz oder Durchsatz von Anfragen.

Um die Benutzerfreundlichkeit zu erh¨ohen, wurde ebenfalls eine Visualisierung integriert,

(31)

Abbildung 2.4: ¨Ubersicht ¨uber laufende Anfragen

Abbildung 2.5: Zus¨atzliche Informationen einer Anfrage

Abbildung 2.6: Visualisierung zum Hinzuf¨ugen neuer Anfragen

(32)

die dem Nutzer sowohl Informationen über alle laufende Anfragen darstellt, als auch die Möglichkeit bietet laufende Anfragen zu löschen, siehe Abbildung 2.4. Zusätzlich ist es möglich Detailinformationen einer Anfragen anzeigen zu lassen, z.B. den zeitlichen Verlauf der Kosten der einzelnen Operatoren einer Anfrage, siehe Abbildung 2.5. Des Weiteren ist es in der Visualisierung möglich neue Anfragen zu starten, siehe Abbildung 2.6.

Die berechneten bzw. gesch¨atzten Kosten der Anfragen bzw. des Systems werden im bestehenden CEP System zur Optimierung der Anfragebearbeitung genutzt. Der Optimie- rungsprozess des existierenden Prototyps wird hierbei im n¨achsten Abschnitt beschrieben.

2.4.4 Systemoptimierung

In Abschnitt 2.4.2 wurden bereits die verschiedenen Platzierungsstrategien der Operatoren erl¨autert. Neben den verschiedenen Strategien existieren noch weitere Parameter des Systems, die die Effizienz der Anfragebearbeitung im CEP System beeinflussen [R¨od12].

In der aktuellen Version des Prototyps können bis zu 15 verschiedene Faktoren automatisch optimiert werden, die die Ausführung beeinflussen. Durch diese 15 Faktoren und die entsprechenden Wertebereiche sind insgesamt 3,9·10¹⁷ unterschiedliche Konfigurationen des Systems möglich.

Es wurde festgestellt, dass keine eindeutige Tendenz zwischen den einzelnen Faktoren und der Effizienz des Systems besteht, siehe Abbildung 2.7. In dem durchgeführten Experiment wurden zwei Konfigurationsparameter variiert und die entsprechenden Sy- stemkosten ermittelt. Der Parameter plc steht hierbei für die Platzierungsstrategien der Operatoren. gran definiert die Granularität der Operatoren, wodurch die maximale Anzahl an Instanzen für die (logischen) Operatoren bestimmt wird.

Durch die hohe Zahl an Konfigurationen und den nicht linearen Zusammenhang der einzelnen Parameter ist es schwierig eine Konfiguration des Systems für die aktuellen Anforderungen zu finden, die die Kosten des Systems minimiert. Da der Aufwand zur Suche einer effizienten Konfiguration bei deterministischen Verfahren aufgrund der Größe des Suchraums zu hoch ist, wurden zwei heuristische Verfahren, Recursive Random Search (RRS) [YK03] und GA [Hol92] zur Suche einer Systemkonfiguration implementiert [Röd12].

RRS versucht durch zufallsbasierte Stichproben relevante Teilsuchräume im globalen Suchraum zu finden (Exploration). Innerhalb der bestimmten Teilsuchräume wird eine lokale Suche (Exploitation) durchgeführt. Bei GA werden zufallsbasiert initiale Konfigu- rationen erzeugt. Ausgehend von den initialen Konfigurationen werden durch Austausch von Merkmalen zwischen zwei beliebigen existierenden Konfigurationen (Crossover) oder zufallsbasierten Änderungen einzelner Merkmale einer Konfiguration (Mutation) inkremen- tell neue Konfigurationen erzeugt. Auf Basis einer Fitnessfunktion (Kostenberechnung), und einer Selektionsstrategie werden Konfigurationen ausgewählt bzw. verworfen. Beide Verfahren können durch eine zeitliche Grenze bzw. eine maximale Iterationsstufe begrenzt werden. Wurde die Suche beendet bzw. abgebrochen, wird in beiden Strategien die gefun- dene Konfiguration zurückgeliefert, die die geringsten Kosten verursacht.

Die Kosten der Konfiguration, die durch die Suche bestimmt wurde, werden im Anschluss mit den Kosten der aktuellen Konfiguration des Systems verglichen. Wird durch die Ände- rung der Konfiguration eine Kostenreduktion erreicht, wird die aktuelle Konfiguration in die neue Konfiguration überführt, wodurch die Anfragebearbeitung des CEP Systems (z.B. Platzierung der Operatoren) gegebenenfalls adaptiert wird. Die Kosten, die durch

(33)

FF FFD

FFP FFDP

BF BFD

BFP BFDP plc

1 3

5 7

9 11

13 15

17 19

gran 14.00

14.50 15.00 15.50 16.00 16.50 17.00 17.50 18.00 18.50

Kosten [Euro/h]

14 14.5 15 15.5 16 16.5 17 17.5 18 18.5

Abbildung 2.7: Systemkosten in Abhängigkeit der Platzierungsstrategie plc und der maximalen Anzahl an Instanzen pro Operator gran (5000 Êreignisse_Sekunde ) [Röd12]

die Änderung der Konfiguration bzw. Anpassung der Anfragebearbeitung entstehen, werden in dem aktuellen Optimierungsprozess nicht berücksichtigt. Die Optimierung erfolgt periodisch, entsprechend kann die Konfiguration ebenfalls nur periodisch angepasst werden, falls die Kosten des Systems durch die Änderung der Konfiguration gesenkt werden können.

2.5 Zusammenfassung

In diesem Kapitel wurden die Grundlagen dieser Arbeit erläutert. Es wurde das Konzept von CEP eingeführt, dass die zeitnahe Bearbeitung von kontinuierlichen Anfragen über Ereignisströme definiert. Da innerhalb der Ereignisströme potentiell unendlich viele Er- eignisse erzeugt werden und durch die Anfragebearbeitung verarbeitet werden müssen, stellen CEP Systeme hohe Anforderungen bezüglich der Performanz. Des Weiteren können sich Eigenschaften des Systems, z.B. Ereignisraten der Ereignisströme zur Laufzeit ändern, wodurch eine höhere oder geringere Last des Systems erzeugt wird. Durch diese variierenden Anforderungen ist es notwendig, dass sich das CEP System elastisch (Auf- und Abwärtsskalierung) an die aktuellen Anforderungen anpassen kann, um eine effiziente Ausführung der Anfragebearbeitung zu gewährleisten.

(34)

Der existierende CEP Prototyp nutzt Cloud Computing, um die Anforderungen der Elastizität zu erfüllen. Cloud Computing verwendet Prinzipien der Virtualisierung und Skalierbarkeit, um prinzipiell unendlich viele Ressourcen auf Anfrage über ein Netzwerk bereitzustellen. Besonderheit von Cloud Computing ist, dass kaum Investitionskosten entstehen, sondern die Ressourcen auf Basis der Nutzung bezahlt werden. Da die Kosten des Systems abhängig von der Nutzung der Ressourcen sind, ist eine effiziente Ressourcen- verwendung notwendig. Entsprechend ist eine adaptive Anfragebearbeitung notwendig, die die Ausführung der Anfragen kontinuierlich optimiert, um das System auf geänderte Anforderungen, Lasten und aktualisierte Statistiken anzupassen und die Effizienz des CEP Systems zu gewährleisten.

Der bestehende CEP Prototyp besitzt mehrere Mechanismen zur Anpassung der Anfra- gebearbeitung an die aktuellen Anforderungen des Systems. Zum einen ist eine MQO vorhanden, die für neue Anfragen überprüft, ob (Teil-)Ergebnisse bestehender Anfragen in neuen Anfragen wiederverwendet werden können. Können Ergebnisse neuer Anfragen nicht durch die Wiederverwendung bestehender Ergebnisse bereitgestellt werden, werden neue Operatoren im verteilen CEP System erzeugt bzw. platziert. Zur Platzierung der Operatoren im verteilten CEP System wurden verschiedene Strategien implementiert, die unterschiedliche Vor- und Nachteile mit sich bringen. Da die Effizienz von einer Vielzahl von Faktoren abhängig ist, wurden Suchstrategien implementiert, die auf Basis des vorhandenen Kostenmodells für die aktuellen Anforderungen und Last eine effiziente Konfiguration des Systems ermitteln.

Problematisch an dem aktuellen Optimierungsprozess ist, dass die Optimierung periodisch ausgeführt wird. Sowohl die Optimierung als auch die Änderung (Migration) der Kon- figuration verbrauchen Ressourcen bzw. beeinflussen die Anfragebearbeitung, wodurch zusätzliche Kosten entstehen können. Da das bestehende CEP System cloudbasiert ist, müssen z.B. die durch die Optimierung verbrauchten Ressourcen gegebenenfalls zusätzlich bezahlt werden. Es ist deshalb zum einen notwendig die Optimierung nur an geeigneten Zeitpunkten auszuführen. Zum anderen sollten die Kosten der Optimierung im Optimie- rungsprozess berücksichtigt werden, da sonst die Effizienz des Systems beeinflusst werden kann.

Diese Arbeit beschäftigt sich hierbei sowohl mit der Problemstellung einen geeigneten Zeitpunkt für die Optimierung des existierenden Prototyps zu bestimmen, als auch mit den Fragen welche Kosten durch die Migration der Konfiguration entstehen und wie die Migrationskosten in dem vorhandenen Optimierungsprozess berücksichtigt werden können. Welche Aspekte bei den entsprechenden Problemstellungen berücksichtigt werden müssen, werden im nächsten Kapitel näher erläutert.

(35)

Kapitel 3

Anforderungsanalyse

Ziel des vorhandenen cloudbasierten Complex Event Processing (CEP) Systems ist es eine kosteneffiziente Anfragebearbeitung durchzuf¨uhren. Um die Probleme der sich

ändernden Anforderung bezüglich der Auslastung der Ressourcen zu lösen, werden Cloud- Technologien verwendet, siehe Abschnitt 2.2. Um die Kosteneffizienz zu gewährleisten, ist eine kontinuierliche Optimierung notwendig, die die Anfragebearbeitung an die aktuellen Anforderungen anpasst, siehe Abschnitt 2.3. Zur Optimierung der Anfragebearbeitung wurden bereits verschiedene Verfahren implementiert, die auf Grundlage der bestehenden Anfragen und Anforderungen eine kosteneffiziente Systemkonfiguration ermitteln, siehe Abschnitt 2.4. Da die Optimierung und die Änderung einer Konfiguration jedoch selbst Kosten verursachen, z.B. durch den Ressourcenverbrauch der Optimierungsverfahren, ist es notwendig einen geeigneten Zeitpunkt zur Durchführung der Optimierung zu bestimmen, und die Kosten der Optimierung im Optimierungsprozess zu berücksichtigen.

Ziel dieser Arbeit ist die Effizienz des bestehenden Prototypen zu steigern, indem der Optimierungsprozess erweitert wird, so dass die Kosten, die durch die Optimierung entstehen, bei der Optimierung berücksichtigt werden. Zusätzlich soll ein Verfahren umgesetzt werden, das geeignete Zeitpunkte zur Optimierung bestimmen kann. In diesem Kapitel werden die genaue Problemstellung und Anforderungen dieser Arbeit erläutert.

3.1 Problemstellung

Kontinuierliche Anfragen eines CEP Systems werden über einen längeren Zeitraum bearbeitet. Die Wahrscheinlichkeit, dass sich während der Bearbeitungszeit einer Anfrage Systemeigenschaften, wie Ereignisraten, Eigenschaften der Ereignisse (z.B. Verteilung der Attribute), oder Anforderungen ändern ist hoch [MSHR02]. Entsprechend wichtig ist eine geeignete Optimierung, die die Anfragebearbeitung an die aktuellen Anforderungen anpasst.

Wird durch die Optimierung eine effizientere Systemkonfiguration ermittelt, muss die aktuelle in die effizientere Konfiguration überführt werden. Die Änderung der Konfiguration des Systems kann jedoch Auswirkungen auf die Anfragebearbeitung haben und zusätzliche Kosten im System verursachen. Durch die kontinuierliche, periodische Optimierung ist die Anzahl an Migrationen der Systemkonfiguration groß, weshalb die Kosten, die durch eine Migration der Konfiguration des Systems verursacht werden, bei der Optimierung berücksichtigt werden sollten [VAN08].

(36)

Im Kontext der Migration von virtuellen Maschinen konnte gezeigt werden, dass falls die Auswirkungen einer Migration berücksichtigt werden, die Effizienz des Systems gesteigert werden kann. Faktoren, die hierbei berücksichtigt werden können sind z.B.

Energieverbrauch [GSF11], Antwortzeit [QZW⁺12], Kosten [SSSS10] bzw. Einnahmever- lust [ZZSB13]. Es wurde ebenfalls im Kontext der Migration von virtuellen Maschinen gezeigt, dass der Aufwand, der durch eine Migration entsteht, zwar akzeptabel ist, jedoch nicht vernachlässigt werden sollte [SD13], insbesondere in Umgebungen, die Service Level Agreements (SLA) erfüllen müssen [VBVB09]. Im ungünstigsten Fall übersteigen die Migrationskosten die durch die Optimierung eingesparten Kosten [BB05].

Die Problemstellung der Migration von virtuellen Maschinen ist hierbei ähnlich zur Problemstellung der Verschiebung der Operatoren in einem CEP System, die als Folge einer Konfigurationsänderung des Systems auftreten kann. Bei beiden Problemstellungen werden Objekte (virtuelle Maschinen bzw. Operatoren) verschoben, die Ressourcen eines Rechnerknotens benötigen (z.B. CPU-Kapazität). Ziel ist hierbei die Anzahl der benötig- ten Rechnerknoten zu minimieren bzw. die Auslastung der genutzten Rechnerknoten zu maximieren und somit die Effizienz des Systems zu steigern. Jedoch unterscheiden sich die beiden Problemstellungen, z.B. sind virtuelle Maschinen im Allgemeinen un- abhängig von anderen virtuellen Maschinen. Operatoren eines CEP Systems hingegen bilden zur Anfragebearbeitung ein Netzwerk aus Operatoren, wodurch Abhängigkeiten zwischen einzelnen Operatoren entstehen. Des Weiteren unterscheiden sich die beiden Problemstellungen bezüglich der genutzten Ressourcen und Anforderungen. Da bei virtuellen Maschinen auch Festplattenspeicher genutzt werden, müssen andere Betrachtungen durchgeführt werden im Vergleich zur Migration von Operatoren eines CEP Systems, bei dem lediglich CPU und Arbeitsspeicher genutzt werden. Trotz der Unterschiede der beiden Problemstellungen werden innerhalb des vorhandenen cloudbasierten CEP Systems ähnliche Ergebnisse erwartet wie in den Arbeiten, die im Kontext der Migration von virtuellen Maschinen durchgeführt wurden.

Ein Ziel dieser Arbeit ist deshalb die Effizienz des Systems durch ein Modell zu steigern, das die Auswirkungen der Änderung einer Systemkonfiguration bei einer Optimierung abschätzt, und die Abschätzung der Migrationskosten entsprechend in den Optimierungs- prozess zu integrieren. Hierdurch soll erreicht werden, dass eine Migration nur dann ausgeführt wird, wenn ein signifikanter Nutzen erwartet wird. Um ein geeignetes Modell zur Bestimmung der Migrationskosten entwickeln zu können, werden im Folgenden sowohl die Auswirkungen der Migration der Konfiguration erläutert, als auch mögliche Faktoren bestimmt, die zur Kostenberechnung der Auswirkungen dienen können.

3.1.1 Kosten der ¨ Anderung der Systemkonfiguration

Wird eine Optimierung und eine Änderung der Konfiguration des Systems durchgeführt, wirkt sich dies auf die Anfragebearbeitung aus. Der Grund hierfür ist, dass viele Para- meter, die zur Platzierung der Operatoren verwendet werden, durch die Optimierung des Systems bestimmt werden. Beispielsweise wird durch die Optimierung entschieden welche der Platzierungsstrategien (siehe Abschnitt 2.4.2) verwendet werden sollen. Je nach Änderung der Systemkonfiguration, die durch die Optimierung bestimmt wurde, müssen unterschiedliche Faktoren berücksichtigt werden.

Zur Kostenberechnung bezüglich der Migration von Operatoren kontinuierlicher Anfragen in Ereignisströmen wurden bereits Überlegungen durchgeführt, z.B. von Zu et al. [ZRH04].