• Keine Ergebnisse gefunden

Anwendungen Maschinellen Lernens: Projekte & Abschlussarbeiten

N/A
N/A
Protected

Academic year: 2021

Aktie "Anwendungen Maschinellen Lernens: Projekte & Abschlussarbeiten"

Copied!
78
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Anwendungen Maschinellen Lernens: Projekte &

Abschlussarbeiten

Stefan Edelkamp

(2)

Projekte (Auswahl)

iMonitor: intelligentes IT- Monitoring durch KI-

Ereignisverarbeitung http://www.imonitor-proj ect.de/startseite/welcom e.html

The specific and ultimate goal of the REMPARK

project is to develop a Personal Health System for management of

Parkinson's Disease http://www.rempark.eu/

The main project objective behind FLOURplus is to exploit the full baking potential of flour in the baking process. The bakery production process can be

fully adapted to the varying natural flour properties

(3)

Abschlussarbeiten (Auswahl)

Zhihao Tang. Monte-Carlo Search for Multiple Sequence Alignment. (Supervisor, Reviewer: Stefan Kurtz), 2015

Paul Wichern. Solution of Packing Problems in Additive Manufacturing. (Supervisor, Reviewer:

Gabriel Zachmann), 2014.

Simon Frerichs. Choice, Evaluation and

Implementation of an Suitable Algorithm on Netflow Data for Defending Distributed-Denial-of-Service- Attacks. (Reviewer, Supervisor Carsten Bormann), 2014.

Christoph Greulich. Agent-based Intermodal Navigation in Dynamic Environments. (Supervisor, Reviewer: Klaus-Dieter Thoben), 2013.

Dominik Elsbroek. Monitoring Network Traffic With IPFIX to Detect Well-Known IPv6 Attacks.

(Reviewer, Supervision: Carsten Bormann), 2012.

Marten Wirsik. Statistical Pattern Matching and Machine Learning for Analyzing Computer Networks (Reviewer, Supervision: Carsten Bormann), 2012.

David Zastrau. Accelerated Machine Learning

Algorithms on the GPU (Supervisor, Reviewer: Lutz Frommberger), 2011.

Ali Shabani. Improved Inference of Street Maps on Basis of Open-Street-Map Raw Data (Supervisor, Reviewer: Gerrit Kalkbrenner), 2010.

Cengizhan Yücel. Solving One- and Two-Player Games on the Graphics Card with Perfect Hash Functions (Supervisor, Reviewer: Jan Vahrenhold), 2010.

Mark Kellershoff. Abstraction & Planning for Program Model Checking (addtitional Reviewer:

Bernhard Steffen), 2008.

Damian Sulewski. Parallel Software Model

Checking in StEAM (Supervisor, Reviewer: Bernhard Steffen), 2007.

Björn Borowsky. Optimal Metric Planning with Presburger Automata (Supervisor, Reviewer:

Thomas Schwentick), 2007.

Kenneth Kahl. Machine Learning Algorithms for the Strategic Game Hex (Supervisor, Reviewer: Lars

(4)

Abschlussarbeiten (tbc)

Kai Hillman. Darstellung und Analyse eines Konzeptes zur digitalen Beweissicherung (BA)

Philipp Nguyen. NFC-Sicherheitanalyse mit Smartphones -- Sicherheitsanalyse von Android-Applikationen mit NFC-Funktionalität (BA)

Axel Auffarth. Modeling of Security Aspects in Software Architectures (MA) Timo Reimerdes. Sicherheit und Privatsphähre in Sozialen Netzwerken (DA)

Markus Gulmann. Sicherheitsanalyse ausgewählter Systemservices des mobilen Betriebssystems Android, (BA)

Aleksej Michalik: Einsatz neuronaler Netze zur Erkennung von Schadsoftware (BA) Bastian Breit. Sicherheitsaspekte von Android und mobilen Verkaufsportale (DA) Dimitri Hellmann. Angriffsszenarien ausgehend von Android-Anwendungen (DA) Bernd Samieske. Entwicklung eines erweiterbaren onologiebasierten Asset-

Management (DA)

Stefan Klement: Security Aspects of the Google Android Platform (DA)

(5)

Abschlussarbeit: Gestenerkennung (Daniel Kohlsdorf)

TZI-Absolvent erhält Contact Förderpreis für Abschlussarbeit

Er entwickelte ein Verfahren, das die

Erkennung von Gesten in der Mensch-Computer-

Interaktion, wie

beispielsweise bei einer

Wii, verbessert, und dieses auch international

publiziert. Der Preis ist mit

Für seine Promotion ist

Kohlsdorf an die renommierte Georgia Tech. zum Wearable Computing Pionier Thad

Starner gegangen

Der hoffnungsvolle

Nachwuchswissenschaftler aus der Arbeitsgruppe

Künstliche Intelligenz kam

bereits während des Studium auf wissenschaftliche

Veröffentlichungen.

(6)

Gesture Recognition

Shake-to-Shuffle vs. Walking

Touchpad vs. Mouse

(7)

Symbolic Aggregate approXimation

(SAX)

(8)

IiSAX: Indexing and Mining Terabyte Sized Time Series, by Shieh & Keogh

http://www.cs.ucr.edu/~eamonn/iSAX/iSAX.html

(9)

MA Zhihao Tang: MCTS4MSA

TSPTW, PDP, VRP

PTSP

Container Packing

Inspection

(10)

AGCT−TG

A−CTCG−

MSA

Optimal MSA: Let A be the set of all MSAs that can be generated by a set of sequences S = {s

1

,…, s

n}

. The

optimal MSA O for S wrt. evaluation F is an alignm. with

(Pair) Alignment

(11)

Evaluation Functions

Pairwise Sum

F(A) = F(a 1 ,...,a n ) =

∑ 0<i<n ∑ i<j<n+1 F(a i ,a j ).

General Scores

Affine Gap Costs

Opening + |Gap|*Extension

(12)

MSA Search Tree

Hirschberg's Algor.

Dynamic

Programming

IDDP

Frontier Search

External Search

Partial Expansion

(13)

MCTS 4 1P

Nested Monte Carlo Search (Cazenave)

Algorithm (~UCT) defined in terms of

Nested Rollout Policy Adaptation (Rosin)

Algorithm defined in

terms of Adapt and

(14)

Beam NRPA(level,policy)

if level = 0 then

seq := Rollout(policy)

return (eval(seq),seq,policy) Beam := (inf,{},policy)

for N iterations do newBeam := {}

for all (v,s,p) in Beam do insert (v,s,p) in newBeam

tempBeam := BeamNRPA(level-1,p) for all (v',s',p') in tempBeam do

p' := Adapt(p,s') B B

N

(v,s,p)

(15)

Learning Curve 1ped

(16)

Posterior Optimization

(17)

Aktuelle Masterarbeit

Fritz Jacob: Ereignis-basierte Analyse von Mediendateien mit Methoden des

maschinellen Lernens

(18)

Ereignisszeitreihe

(19)

Scoring

(20)

Fingerprints

(21)

Akzeptierte Fälle

(22)

Aktuellste Arbeit

(Motivation KIVA, GCom)

Denis Golubev:

Effiziente

Bewegungsplanung für ein und mehrere Agenten

https://www.youtube.c

om/channel/UCHhXrh

MGNOrXDR2MG_eh

wWA

(23)

Aktuelle Dissertation

Claas Ahlrich:

Development and Evaluation of AI-

based Parkinson’s Disease Related Motor Symptom

Detection Algorithms

[Extra Folien]

(24)

Grundlage iMonitor

(Dissertation Carsten Elfers)

Die Angriffserkennung in Datenströmen und liegt im Schnittfeld von Forschungen in den

Disziplinen Rechnernetze und Künstliche

Intelligenz. Dabei werden Ereignismeldungen von mehreren Programmen zur Datenstromanalyse, den sogenannten Sensoren, intelligent korreliert, Hypothesen gebildet und Gefahrenspotentiale

aufgezeigt.

(25)

Alleinstellungsmerkmal iMonitor

Das Alleinstellungsmerkmal ist die tolerante

Mustererkennung bei der Analyse der Ereignisse.

Dabei wird taxonomisches Hintergrundwissen z.B. über die Struktur von Angriffstypen zur

Definition von Ähnlichkeitsbeziehungen

herangezogen, um aus exemplarisch als Angriff vorab erkannten und nach Signifikanz und

Gefährlichkeit eingestuften Ereignissen, verwandte

Ergeignisse abzuleiten und Hypothesen über zum

Teil mehrstufige Angriffe abzuleiten.

(26)

Hintergrundwissen

Das Hintergrundwissen ist als Ontologie abgelegt und wird über eine Schnittstellensprache SPARQL (in

Anlehnung an die Datenbankabfragesprache SQL) vom Lernverfahren in seinem Schlussfolgerungsmechanismus mehrfach angefragt. CRFs fallen in die Klasse

graphischer (probabilisitschen) Modelle mit gerichteten Abhängigkeitsgraphen,

Die Einbeziehung von Hintergrundwissen ist zentral, da

die Information über Angriffe punktuell ist und über ein in

der Taxonomie verankertes Ähnlichkeitsmaß auf

(27)

ML

Als maschinelles Lernverfahren wurden vorab

Conditional Random Fields (CRFs), eine Teilklasse

graphischer (probabilistischer) Modelle, eingesetzt und mit der obige Expressivität angereichert. Man kann sich die exponentiellen Modelle als temporal erweiterete

Hidden Markov Modelle vorstellen, die einen Schluss über zeitlich weiter entfernte Evidenzen ermöglichen.

In iMonitor wurde aus Effizienzgründen auf

probabilistischen Schluss verzichtet und ein schlankere

Analyse für den toleranten Regelschluss implementiert

(→ Carsten Elfers, Neusta)

(28)

FIDES - Projektziele

• Erweiterung von SIEM um intelligente Korrelationsverfahren

– Qualität der Algorithmen

– Anreicherung des strukturierten Wissens

• Überwachung und Zusammenführung verschiedener Datenquellen (wie z.B. Snort/IDS, Firewall-Logs, Honeypots, …)

• Frühwarnung – Erkennung von Angriffen nach ersten Angriffsschritten

• Assistenz

(29)

Mehrwert

(30)

Korrelationsar- chitektur

Mehrere Datenquellen

• Redundanzen berücksichtigen

• Semantische Normalisierung

Assistenz

• Angriffs-Modellierung anhand von normalisierten Eventströmen

Intelligente Korrelation

• Variationen von Angriffen über semantische Verwandtschaft detektieren

Reduktion der Ereignisse auf die

Wesentlichen

(31)

Architektur

Wissensbasis

(32)

Vorverarbeitung

= snort

= 192.168.0.11

= 192.168.0.12

= ET EXPLOIT MS04-007

(33)

Aufarbeitung

Abgleich

– Matching von vordefinierten

(und abstrakten)

Mustern

(34)

Beispiel eines Musters

IF

(Classification sameAs

AttemptedKnowledgeGainClassi fication)

AND

(Source-IP part-of

InternalAddressRange) AND

NOT

(Source-IP is-a AdministratorPC)

(35)

Musterabstraktion

Signatur/Muster:

IF Classification =

AttemptedAdminClassificat ion …

Einkommendes Ereignis Classification =

AttemptedUserClassificatio n …

Abstraktion

-> Signatur trifft Muster

besser

(36)

Hypothesen-Pool

• Analysiere

Permutationen der Ereignis

• „Survival of the fittest“

Hypothesen

• Fitness = W‘keit von normalen Verhalten

gegenüber

(37)

Interpretation

• Conditional Random Field bestimmt W‘keit eines Angriffs

• Nutze Beispiele, um

die Zuverlässigkeit

der Sensoren Muster

zu trainieren.

(38)

fides und herkömmliche SIEM- Systeme

Ontologische Schlüsse

• Breites Spektrum des modellierbaren Wissens

Abstraktion der Regeln

• Für jedes Event gibt es immer eine Bewertung

Probabilistische Inferenz

• Liste der wahrscheinlichsten Hypothesen

• Verwendung der Inferenz-

ergebnisse auch in den Regeln

• Lernfähigkeit ermöglicht eine einfache Adaption an die

Keine Ontologie

• Wissen ist statisch und Anwendungsabhängig

Statische Regelmenge

• Regeln werden nicht

abstrahiert sondern nur auf exakte Erfüllung geprüft

Statische Inferenz

• Keine wahrscheinlichen

Angriffe, sondern nur „Regel- matches“

• Adaption nur durch

(39)

fides - Annotationswerkzeug

(40)

fides - Dashboard

(41)

Ausblick Leitwarte - Industrie

4.0

(42)

Anomalieerkennung (Malte Humann)

Viele Systeme, die heutzutage eingesetzt werden, arbeiten mit Signaturanalyse, da die

Anomalieerkennung mit Schwellwertanalyse von praktischer Einsetzbarkeit noch weit entfernt war.

Manchmal gab es eine Mischform bei der Methoden, die schwellwertgesteuerte

Signaturanalyse, eingesetzt.

(43)

Ziele der Zeitreihenanalyse

kompakte Beschreibung einer historischen Zeitreihe

Vorhersage von künftigen Zeitreihenwerten (Prognose) auf der Basis der Kenntnis ihrer bisherigen Werte

Erkennung von Veränderungen in Zeitreihen (Monitoring in der Medizin bei chirurgischen Eingriffen, Veränderung der globalen

Vegetationsphänologie durch anthropogene Klimaänderungen)

Eliminierung von seriellen oder saisonalen

Abhängigkeiten oder Trends in Zeitreihen

(44)

Beispiel: ausgehender Traffic

(45)

ETS (Error, Trend, Seasonal) ohne

Muster (R)

(46)

Muster finden: Power Spectral

Density Estimation

(47)

Seasonal-Trend Decomposition

Procedure Based on Loess (STL)

(48)

Ohne Trend und Ausreißer

(49)

Muster finden: PSDE ohne Trend

und Ausreißer

(50)

Aberrant Behavior Detection

(RRDtool)

(51)

Holt-Winters (R) mit Muster

(52)

Holt-Winters (R) mit Muster +

Ausreißer entfernt

(53)

Trend + durchschnittliches Muster

(54)

Trend + durchschnittliches Muster

(55)

Beispiel: CPU Auslastung

(56)

Holt-Winters (R) mit Muster

(57)

Add-On: String-Matching Algorithmen

/home/edelkamp/iMonitor-files/strings/aho- corasick

/home/edelkamp/iMonitor-files/strings/bdds /home/edelkamp/iMonitor-files/strings/huffman

/home/edelkamp/iMonitor-files/strings/msa

/home/edelkamp/iMonitor-files/strings/mst

(58)

Zeichenkettenanalyse für Zeitreihen

Editierdistanz

Mehrfachsequenz-Alignierung

Approximative Zeichenkettensuche

Bellmann-Ford Algorithmus

Wertiteration

Das Optimalitätsprinzip nach Bellmann

(59)

Wissenschaftliche Verwertung

Carsten Elfers Dissertation

Event Correlation Using Conditional Exponential Models with  Tolerant Pattern Matching Applied to Incident Detection

Papiere

Kai­Oliver Detken, Carsten Elfers, Marcel Jahnke, and Malte  Humann, Stefan Edelkamp. Intelligentes Monitoring der IT ­  Sicherheit durch den Einsatz von SIEM. Conference on 

Security (DACH), Sankt Augustin, 2015.

Kai­Oliver Detken, Stefan Edelkamp, Carsten Elfers, Malte 

Humann, Thomas Rix. Intelligent monitoring with background 

knowledge. IEEE International Conference on Intelligent Data 

Acquisition and Advanced Computing Systems: Technology and 

Applications (IDAACS). Warsaw, 2015.  

(60)

Draft

Parameter-Free Time Series Analysis with

Application to Anomaly Detection in Computer Networks

Malte Human, Stefan Edelkamp

TZI, Bremen, Germany

(61)

Nachbereitung

Auswertung der Analyse auf Benchmark und TZI-Daten

Java-Implementierung

Anbindung der Zeitreihenanalyse an das iMonitor Werkzeug

Auswertung erfolgreich

Video beschreibt funktionierdes Tool

Anträge: ZIM 2, KMU innovativ

Vorlage: “Leitwarte”, Partner: HanseWasser

(62)

Big Data Analytics

Riesiges Forschungsfeld

Forensik großer Datenmengen

Automatische Wissensakquisation

Ontologische Datenbanken

Semantic Full Text Search (a la Brokkoli)

Datenstrukturen: Sax/iSax

Rel. Work Planning 4 Penetration Testing

(63)

Fazit

Intensive Zusammenarbeit mit den Firmen großer Gewinn.

ZIM für universitäre Prozesse aufwändig (Stundenzettel, keine Reisemittel)

Hoffen auf Zusammenarbeit mit HanseWasser und Stadtwerke Essen

Resultat: Funktionierendes Tool, siehe Video

Lightweight-”FIDES”; breitere Sensoranbindung und schlankerer Oberfläche.

Wissenstransfer: Malte Humann ist Mitarbeiter bei DekoIT

Dank an die professionelle Projektleitung!

(64)

Development of process tools and database

FP7 Capacities, SME-2013-2 Research for SME Associations

www.flourplus.eu

(65)

Overall Schedule

(66)

T 4.2; Data Inclusion and Optimization (4M) T 4.3; Algorithm and Interface Development T 4.4; Assembling of FlourPlus System

T 4.1; Prototype web server und interface (8M)

Tasks in WP4

(67)

AI Inside

• Can we predict the characteristics of the baked goods from

the analytical data?

(68)

http://www.cs.waikato.ac.nz/ml/weka/

Java, GPL, over 20 years, continuously improved, not always fastest but robust Alternative: RapidMiner, libSVM, etc.

Weka Toolkit

(69)

Server

Mirror @ UHB

• Processor: Intel Xeon

– 2 Processors with 8 Cores each running at 2.2GHz

• 128 GB main memory

• MS SQL Server (Mirror Image of TTZ DB)

• JAVA

• Weka

(70)

FP System Architecture

(71)

Database Schema

(72)

SQL Query & Results

(73)

MS Server SQL

(74)

Java ML Sample Code

(75)

Java Sample Output

(76)

Weka Data Explorer

(77)

DATA Pre-Processing

• About 150 values for each flour

– 90 for the flour analytics – 60 for the rolls and breads

• Multivariate data analysis (Feature Selection)

• PCA Principal Component Analysis – → Reduce number of values

– PLS Partial Least Squares Regression – → Create models

• Which analytical methods are the most meaningful?

(78)

FLOURPLUS UI

Remote access via internet

Data upload already possible

Integration with

FP Correlation ongoing

Referenzen

ÄHNLICHE DOKUMENTE

Ø Inhaltsverzeichnis: Kapitelüberschriften mit Angabe der Seitenzahlen; die Gliederung Ihrer Arbeit muss sich im Inhaltsverzeichnis widerspiegeln... § Personennamen allein

Gesundheits- und Sozialwirtschaft, Logistik und E-Business, Lasertechnik, Applied Physics, Sportmanagement, Medizintechnik, Wirtschaftsmathematik,

(Gleichgroße Einrückung links und rechts, Empfehlung: 1,25 cm, einfacher Zeilenabstand, Schriftgröße: 10 pt, Leerzeile davor und danach bzw. 12 pt Abstand vor und nach

18 Siehe ausführlich zur Rechtsgrundlage für das Trainieren von KI-Modellen: Kaulartz in Kaulartz/Braegelmann, Rechtshandbuch Artificial Intelligence und Machine Learning, Kapitel

Wenn die Arbeit am Lehrstuhl betreut werden kann, vereinbaren wir einen Termin mit Ihnen und legen gemeinsam das Thema der Arbeit fest... 2 Informationen

 Bei der Aufgabenstellung sind möglichst Schwerpunkte im eigenen Unterricht zu setzen - Klassenlehrer Gruppeneinteilung beachten – nach dem ersten Gruppenwechsel sind

Wesentlich für die Bewertung der Abschlussarbeit ist ausschließlich die Qualität der wissenschaftlichen Arbeit entsprechend der Vorgaben; eine erfolgreiche Umsetzung

• Feedback ist für jegliches zielorientiertes Handeln und auf allen Ebenen (Individuum, Gruppe, Gesamt- organisation) in Organisationen von zentraler Bedeutung, und zwar sowohl