Anwendungen Maschinellen Lernens: Projekte & Abschlussarbeiten

(1)

Anwendungen Maschinellen Lernens: Projekte &

Abschlussarbeiten

Stefan Edelkamp

(2)

Projekte (Auswahl)

iMonitor: intelligentes IT- Monitoring durch KI-

Ereignisverarbeitung http://www.imonitor-proj ect.de/startseite/welcom e.html

The specific and ultimate goal of the REMPARK

project is to develop a Personal Health System for management of

Parkinson's Disease http://www.rempark.eu/

The main project objective behind FLOURplus is to exploit the full baking potential of flour in the baking process. The bakery production process can be

fully adapted to the varying natural flour properties

(3)

Abschlussarbeiten (Auswahl)

● Zhihao Tang. Monte-Carlo Search for Multiple Sequence Alignment. (Supervisor, Reviewer: Stefan Kurtz), 2015

● Paul Wichern. Solution of Packing Problems in Additive Manufacturing. (Supervisor, Reviewer:

Gabriel Zachmann), 2014.

● Simon Frerichs. Choice, Evaluation and

Implementation of an Suitable Algorithm on Netflow Data for Defending Distributed-Denial-of-Service- Attacks. (Reviewer, Supervisor Carsten Bormann), 2014.

● Christoph Greulich. Agent-based Intermodal Navigation in Dynamic Environments. (Supervisor, Reviewer: Klaus-Dieter Thoben), 2013.

● Dominik Elsbroek. Monitoring Network Traffic With IPFIX to Detect Well-Known IPv6 Attacks.

(Reviewer, Supervision: Carsten Bormann), 2012.

● Marten Wirsik. Statistical Pattern Matching and Machine Learning for Analyzing Computer Networks (Reviewer, Supervision: Carsten Bormann), 2012.

● David Zastrau. Accelerated Machine Learning

Algorithms on the GPU (Supervisor, Reviewer: Lutz Frommberger), 2011.

● Ali Shabani. Improved Inference of Street Maps on Basis of Open-Street-Map Raw Data (Supervisor, Reviewer: Gerrit Kalkbrenner), 2010.

● Cengizhan Yücel. Solving One- and Two-Player Games on the Graphics Card with Perfect Hash Functions (Supervisor, Reviewer: Jan Vahrenhold), 2010.

● Mark Kellershoff. Abstraction & Planning for Program Model Checking (addtitional Reviewer:

Bernhard Steffen), 2008.

● Damian Sulewski. Parallel Software Model

Checking in StEAM (Supervisor, Reviewer: Bernhard Steffen), 2007.

● Björn Borowsky. Optimal Metric Planning with Presburger Automata (Supervisor, Reviewer:

Thomas Schwentick), 2007.

● Kenneth Kahl. Machine Learning Algorithms for the Strategic Game Hex (Supervisor, Reviewer: Lars

(4)

Abschlussarbeiten (tbc)

Kai Hillman. Darstellung und Analyse eines Konzeptes zur digitalen Beweissicherung (BA)

Philipp Nguyen. NFC-Sicherheitanalyse mit Smartphones -- Sicherheitsanalyse von Android-Applikationen mit NFC-Funktionalität (BA)

Axel Auffarth. Modeling of Security Aspects in Software Architectures (MA) Timo Reimerdes. Sicherheit und Privatsphähre in Sozialen Netzwerken (DA)

Markus Gulmann. Sicherheitsanalyse ausgewählter Systemservices des mobilen Betriebssystems Android, (BA)

Aleksej Michalik: Einsatz neuronaler Netze zur Erkennung von Schadsoftware (BA) Bastian Breit. Sicherheitsaspekte von Android und mobilen Verkaufsportale (DA) Dimitri Hellmann. Angriffsszenarien ausgehend von Android-Anwendungen (DA) Bernd Samieske. Entwicklung eines erweiterbaren onologiebasierten Asset-

Management (DA)

Stefan Klement: Security Aspects of the Google Android Platform (DA)

(5)

Abschlussarbeit: Gestenerkennung (Daniel Kohlsdorf)

●

TZI-Absolvent erhält Contact Förderpreis für Abschlussarbeit

●

Er entwickelte ein Verfahren, das die

Erkennung von Gesten in der Mensch-Computer-

Interaktion, wie

beispielsweise bei einer

Wii, verbessert, und dieses auch international

publiziert. Der Preis ist mit

●

Für seine Promotion ist

Kohlsdorf an die renommierte Georgia Tech. zum Wearable Computing Pionier Thad

Starner gegangen

●

Der hoffnungsvolle

Nachwuchswissenschaftler aus der Arbeitsgruppe

Künstliche Intelligenz kam

bereits während des Studium auf wissenschaftliche

Veröffentlichungen.

(6)

Gesture Recognition

●

Shake-to-Shuffle vs. Walking

●

Touchpad vs. Mouse

(7)

Symbolic Aggregate approXimation

(SAX)

(8)

IiSAX: Indexing and Mining Terabyte Sized Time Series, by Shieh & Keogh

http://www.cs.ucr.edu/~eamonn/iSAX/iSAX.html

(9)

MA Zhihao Tang: MCTS4MSA

●

TSPTW, PDP, VRP

^●

PTSP

●

Container Packing

●

Inspection

(10)

●

AGCT−TG

●

A−CTCG−

MSA

Optimal MSA: Let A be the set of all MSAs that can be generated by a set of sequences S = {s

¹

,…, s

^n}

. The

optimal MSA O for S wrt. evaluation F is an alignm. with

(Pair) Alignment

(11)

Evaluation Functions

Pairwise Sum

F(A) = F(a ¹ ,...,a ⁿ ) =

∑ 0<i<n ∑ i<j<n+1 F(a ⁱ ,a ^j ).

General Scores

Affine Gap Costs

Opening + |Gap|*Extension

(12)

MSA Search Tree

●

Hirschberg's Algor.

●

Dynamic

Programming

●

IDDP

●

Frontier Search

●

External Search

●

Partial Expansion

(13)

MCTS 4 1P

Nested Monte Carlo Search (Cazenave)

Algorithm (~UCT) defined in terms of

Nested Rollout Policy Adaptation (Rosin)

Algorithm defined in

terms of Adapt and

(14)

Beam NRPA(level,policy)

if level = 0 then

seq := Rollout(policy)

return (eval(seq),seq,policy) Beam := (inf,{},policy)

for N iterations do newBeam := {}

for all (v,s,p) in Beam do insert (v,s,p) in newBeam

tempBeam := BeamNRPA(level-1,p) for all (v',s',p') in tempBeam do

p' := Adapt(p,s') B B

N

(v,s,p)

(15)

Learning Curve 1ped

(16)

Posterior Optimization

(17)

Aktuelle Masterarbeit

●

Fritz Jacob: Ereignis-basierte Analyse von Mediendateien mit Methoden des

maschinellen Lernens

(18)

Ereignisszeitreihe

(19)

Scoring

(20)

Fingerprints

(21)

Akzeptierte Fälle

(22)

Aktuellste Arbeit

(Motivation KIVA, GCom)

●

Denis Golubev:

Effiziente

Bewegungsplanung für ein und mehrere Agenten

●

https://www.youtube.c

om/channel/UCHhXrh

MGNOrXDR2MG_eh

wWA

(23)

Aktuelle Dissertation

●

Claas Ahlrich:

Development and Evaluation of AI-

based Parkinson’s Disease Related Motor Symptom

Detection Algorithms

[Extra Folien]

(24)

Grundlage iMonitor

(Dissertation Carsten Elfers)

Die Angriffserkennung in Datenströmen und liegt im Schnittfeld von Forschungen in den

Disziplinen Rechnernetze und Künstliche

Intelligenz. Dabei werden Ereignismeldungen von mehreren Programmen zur Datenstromanalyse, den sogenannten Sensoren, intelligent korreliert, Hypothesen gebildet und Gefahrenspotentiale

aufgezeigt.

(25)

Alleinstellungsmerkmal iMonitor

Das Alleinstellungsmerkmal ist die tolerante

Mustererkennung bei der Analyse der Ereignisse.

Dabei wird taxonomisches Hintergrundwissen z.B. über die Struktur von Angriffstypen zur

Definition von Ähnlichkeitsbeziehungen

herangezogen, um aus exemplarisch als Angriff vorab erkannten und nach Signifikanz und

Gefährlichkeit eingestuften Ereignissen, verwandte

Ergeignisse abzuleiten und Hypothesen über zum

Teil mehrstufige Angriffe abzuleiten.

(26)

Hintergrundwissen

Das Hintergrundwissen ist als Ontologie abgelegt und wird über eine Schnittstellensprache SPARQL (in

Anlehnung an die Datenbankabfragesprache SQL) vom Lernverfahren in seinem Schlussfolgerungsmechanismus mehrfach angefragt. CRFs fallen in die Klasse

graphischer (probabilisitschen) Modelle mit gerichteten Abhängigkeitsgraphen,

Die Einbeziehung von Hintergrundwissen ist zentral, da

die Information über Angriffe punktuell ist und über ein in

der Taxonomie verankertes Ähnlichkeitsmaß auf

(27)

ML

Als maschinelles Lernverfahren wurden vorab

Conditional Random Fields (CRFs), eine Teilklasse

graphischer (probabilistischer) Modelle, eingesetzt und mit der obige Expressivität angereichert. Man kann sich die exponentiellen Modelle als temporal erweiterete

Hidden Markov Modelle vorstellen, die einen Schluss über zeitlich weiter entfernte Evidenzen ermöglichen.

In iMonitor wurde aus Effizienzgründen auf

probabilistischen Schluss verzichtet und ein schlankere

Analyse für den toleranten Regelschluss implementiert

(→ Carsten Elfers, Neusta)

(28)

FIDES - Projektziele

• Erweiterung von SIEM um intelligente Korrelationsverfahren

– Qualität der Algorithmen

– Anreicherung des strukturierten Wissens

• Überwachung und Zusammenführung verschiedener Datenquellen (wie z.B. Snort/IDS, Firewall-Logs, Honeypots, …)

• Frühwarnung – Erkennung von Angriffen nach ersten Angriffsschritten

• Assistenz

(29)

Mehrwert

(30)

Korrelationsar- chitektur

●

Mehrere Datenquellen

• Redundanzen berücksichtigen

• Semantische Normalisierung

●

Assistenz

• Angriffs-Modellierung anhand von normalisierten Eventströmen

●

Intelligente Korrelation

• Variationen von Angriffen über semantische Verwandtschaft detektieren

●

Reduktion der Ereignisse auf die

Wesentlichen

(31)

Architektur

Wissensbasis

(32)

Vorverarbeitung

= snort

= 192.168.0.11

= 192.168.0.12

= ET EXPLOIT MS04-007

(33)

Aufarbeitung

Abgleich

– Matching von vordefinierten

(und abstrakten)

Mustern

(34)

Beispiel eines Musters

IF

(Classification sameAs

AttemptedKnowledgeGainClassi fication)

AND

(Source-IP part-of

InternalAddressRange) AND

NOT

(Source-IP is-a AdministratorPC)

(35)

Musterabstraktion

Signatur/Muster:

IF Classification =

AttemptedAdminClassificat ion …

Einkommendes Ereignis Classification =

AttemptedUserClassificatio n …

Abstraktion

-> Signatur trifft Muster

besser

(36)

Hypothesen-Pool

• Analysiere

Permutationen der Ereignis

• „Survival of the fittest“

Hypothesen

• Fitness = W‘keit von normalen Verhalten

gegenüber

(37)

Interpretation

• Conditional Random Field bestimmt W‘keit eines Angriffs

• Nutze Beispiele, um

die Zuverlässigkeit

der Sensoren Muster

zu trainieren.

(38)

fides und herkömmliche SIEM- Systeme

●

Ontologische Schlüsse

• Breites Spektrum des modellierbaren Wissens

●

Abstraktion der Regeln

• Für jedes Event gibt es immer eine Bewertung

●

Probabilistische Inferenz

• Liste der wahrscheinlichsten Hypothesen

• Verwendung der Inferenz-

ergebnisse auch in den Regeln

• Lernfähigkeit ermöglicht eine einfache Adaption an die

●

Keine Ontologie

• Wissen ist statisch und Anwendungsabhängig

●

Statische Regelmenge

• Regeln werden nicht

abstrahiert sondern nur auf exakte Erfüllung geprüft

●

Statische Inferenz

• Keine wahrscheinlichen

Angriffe, sondern nur „Regel- matches“

• Adaption nur durch

(39)

fides - Annotationswerkzeug

(40)

fides - Dashboard

(41)

Ausblick Leitwarte - Industrie

4.0

(42)

Anomalieerkennung (Malte Humann)

Viele Systeme, die heutzutage eingesetzt werden, arbeiten mit Signaturanalyse, da die

Anomalieerkennung mit Schwellwertanalyse von praktischer Einsetzbarkeit noch weit entfernt war.

Manchmal gab es eine Mischform bei der Methoden, die schwellwertgesteuerte

Signaturanalyse, eingesetzt.

(43)

Ziele der Zeitreihenanalyse

●

kompakte Beschreibung einer historischen Zeitreihe

●

Vorhersage von künftigen Zeitreihenwerten (Prognose) auf der Basis der Kenntnis ihrer bisherigen Werte

●

Erkennung von Veränderungen in Zeitreihen (Monitoring in der Medizin bei chirurgischen Eingriffen, Veränderung der globalen

Vegetationsphänologie durch anthropogene Klimaänderungen)

●

Eliminierung von seriellen oder saisonalen

Abhängigkeiten oder Trends in Zeitreihen

(44)

Beispiel: ausgehender Traffic

(45)

ETS (Error, Trend, Seasonal) ohne

Muster (R)

(46)

Muster finden: Power Spectral

Density Estimation

(47)

Seasonal-Trend Decomposition

Procedure Based on Loess (STL)

(48)

Ohne Trend und Ausreißer

(49)

Muster finden: PSDE ohne Trend

und Ausreißer

(50)

Aberrant Behavior Detection

(RRDtool)

(51)

Holt-Winters (R) mit Muster

(52)

Holt-Winters (R) mit Muster +

Ausreißer entfernt

(53)

Trend + durchschnittliches Muster

(54)

Trend + durchschnittliches Muster

(55)

Beispiel: CPU Auslastung

(56)

Holt-Winters (R) mit Muster

(57)

Add-On: String-Matching Algorithmen

/home/edelkamp/iMonitor-files/strings/aho- corasick

/home/edelkamp/iMonitor-files/strings/bdds /home/edelkamp/iMonitor-files/strings/huffman

/home/edelkamp/iMonitor-files/strings/msa

/home/edelkamp/iMonitor-files/strings/mst

(58)

Zeichenkettenanalyse für Zeitreihen

●

Editierdistanz

●

Mehrfachsequenz-Alignierung

●

Approximative Zeichenkettensuche

●

Bellmann-Ford Algorithmus

●

Wertiteration

●

Das Optimalitätsprinzip nach Bellmann

(59)

Wissenschaftliche Verwertung

●

Carsten Elfers Dissertation

Event Correlation Using Conditional Exponential Models with Tolerant Pattern Matching Applied to Incident Detection

●

Papiere

●

KaiOliver Detken, Carsten Elfers, Marcel Jahnke, and Malte Humann, Stefan Edelkamp. Intelligentes Monitoring der IT Sicherheit durch den Einsatz von SIEM. Conference on

Security (DACH), Sankt Augustin, 2015.

●

KaiOliver Detken, Stefan Edelkamp, Carsten Elfers, Malte

Humann, Thomas Rix. Intelligent monitoring with background

knowledge. IEEE International Conference on Intelligent Data

Acquisition and Advanced Computing Systems: Technology and

Applications (IDAACS). Warsaw, 2015.

(60)

Draft

●

Parameter-Free Time Series Analysis with

Application to Anomaly Detection in Computer Networks

Malte Human, Stefan Edelkamp

TZI, Bremen, Germany

(61)

Nachbereitung

●

Auswertung der Analyse auf Benchmark und TZI-Daten

●

Java-Implementierung

●

Anbindung der Zeitreihenanalyse an das iMonitor Werkzeug

●

Auswertung erfolgreich

●

Video beschreibt funktionierdes Tool

●

Anträge: ZIM 2, KMU innovativ

●

Vorlage: “Leitwarte”, Partner: HanseWasser

(62)

Big Data Analytics

●

Riesiges Forschungsfeld

●

Forensik großer Datenmengen

●

Automatische Wissensakquisation

●

Ontologische Datenbanken

●

Semantic Full Text Search (a la Brokkoli)

●

Datenstrukturen: Sax/iSax

Rel. Work Planning 4 Penetration Testing

(63)

Fazit

●

Intensive Zusammenarbeit mit den Firmen großer Gewinn.

●

ZIM für universitäre Prozesse aufwändig (Stundenzettel, keine Reisemittel)

●

Hoffen auf Zusammenarbeit mit HanseWasser und Stadtwerke Essen

●

Resultat: Funktionierendes Tool, siehe Video

●

Lightweight-”FIDES”; breitere Sensoranbindung und schlankerer Oberfläche.

●

Wissenstransfer: Malte Humann ist Mitarbeiter bei DekoIT

●

Dank an die professionelle Projektleitung!

(64)

Development of process tools and database

FP7 Capacities, SME-2013-2 Research for SME Associations

www.flourplus.eu

(65)

Overall Schedule

(66)

T 4.2; Data Inclusion and Optimization (4M) T 4.3; Algorithm and Interface Development T 4.4; Assembling of FlourPlus System

T 4.1; Prototype web server und interface (8M)

Tasks in WP4

(67)

AI Inside

• Can we predict the characteristics of the baked goods from

the analytical data?

(68)

Anwendungen Maschinellen Lernens: Projekte & Abschlussarbeiten