Motivation - Interaktive Unterstützung für Malware Klassifikation

geschieht meist interaktiv über verschiedene Input-Möglichkeiten des Nutzers und über Visualisierungen, die der Nutzer leicht verstehen und für sich sinnvoll umsetzen kann.

Diese Visualisierungen sollen sich bei Nutzer-Interaktion verändern und es so dem Nutzer ermöglichen seine Ideen auszuprobieren und direkte Ergebnisse zu erhalten.

Diese dynamische Arbeit zwischen Mensch und Maschine auf Grunde von Daten und Visualisierungen wird Visual Analytics genannt.

„Interaktive Unterstützung für Malware Klassifikation“ versucht die Aspekte von Malware Samples, Machine Learning und Visual Analytics zu verbinden. Dabei soll eine Umgebung geschaffen werden mit deren Hilfe man eine interaktive Unterstützung für die Klassifikation von Malware erschafft. Es steht vor allem die Interaktion des Nutzers im Vordergrund, der mit Hilfe verschiedener Visualiserungsverfahren und Ein-stellmöglichkeiten Wissen aus Malware generieren kann und um dieses Wissen wieder auf neue Malware anwenden zu können.

1.2 Motivation

Die Motivation dieser Arbeit besteht in der Analyse der Klassifikation. Das heißt, warum bestimmte Malware Samples zu falschen Familien klassifiziert werden und an-dere wiederum richtig. Dabei steht vor allem hier die Analyse der verschiedenen Mal-ware Familien im Vordergrund. Der Nutzer soll eine Umgebung haben, die es ihm erlaubt verschiedene Möglichkeiten zu testen und zu evaluieren um Malware Samples zu klassifizieren. Damit soll er die Chance haben die Malware Samples zu erkunden und sich stärker damit zu beschäftigen. Er soll vor allem auch die Möglichkeit bekommen über die Auswahl von verschiedenen Attributen und Klassifikatoren bestimmte Mal-ware Samples besser zu klassifizieren oder heraus zu finden warum bestimmte MalMal-ware Samples nicht richtig klassifiziert werden. Darüber hinaus soll er vergleichen können, wie sich bestimmte Malware Samples gegenüber anderen unterscheiden und wie man den Klassifikator dadurch verbessern könnte.

Der Nutzer soll unterstützt werden durch eine kombinierte Visualisierung aus einer Matrix und verschiedenen Treemaps. Eine Treemap ist hier eine verschachtelte hierar-chische Darstellung von Features. Diese wird mittels unterschiedlich großen Rechtecken je nach Feature visualisiert. Dabei wird in den gefüllten Zellen der Matrix eine Tree-map für diese Zelle erstellt. Die Matrix ist hierbei eine Confusion Matrix und steht

für eine Matrix in der die Zeilen die wirkliche Familie und die Spalten die klassifizier-te Familie der Testdaklassifizier-ten darsklassifizier-tellt. Die Treemaps sollen weiklassifizier-ter nicht nur eine Hilfe in den Zellen der Matrize sein, sondern auch in einer weiteren Visualisierung dem Nutzer ermöglichen verschiedene Malware Familien Treemaps miteinander zu vergleichen.

Außerdem soll der Nutzer die Möglichkeit haben zu erkennen was bestimmte Mal-ware Familien an Merkmalen besitzen, die bei einer Klassifikation zu einem falschen Ergebnis führen. Das heißt, er soll mithilfe der Treemaps einen Einblick in die Mal-ware Familie selbst bekommen. Dabei soll er jedoch auch die Möglichkeit haben miss-klassifizierte Malware Samples als Treemaps zu betrachten, um heraus zu finden was an ihnen so verschieden zu der richtigen Klasse ist und warum es zu einer anderen geordnet wurde. Hierbei soll der Nutzer erkennen können, was die miss-klassifizierte Malware Samples und die falsch klassifizierte Malware Familie an Features teilen.

2 Verwandte Arbeiten

2.1 Datensätze

Im Bezug auf verwandte Arbeiten liegt eine der wichtigsten Arbeiten bei dem „Dre-bin: Effective and explainable detection of android malware in your pocket“ [Arp+14]

Paper und dessen Datensatz anhand welchem die ersten Ideen entstanden sind.

Dieses Paper beschreibt dabei mithilfe von gesammelten Android Malware Samples eine neue Möglichkeit Android Applications auf dem Smartphone zu analysieren und zu klassifizieren. Dabei steht jedoch vor allem die Erklärbarkeit und das maschinelle Lernen im Vordergrund und weniger wie Nutzer und Experten Wissen aus dem gefun-denen Wissen erlangen können. Hier wird dank der Erklärbarkeit nur Support Vector Machines als Klassifikator verwendet, um die Gewichte der Support Vector Machine auf die jeweiligen Malware Familien zu analysieren.

Dieser Ansatz steht gegenüber dieser Arbeit in dem Sinne gegenüber, da hier der Nut-zer und die interaktiven Möglichkeiten für den NutNut-zer im Vordergrund stehen.

Weiter ist besonders auch das „Mobile-sandbox: Having a Deeper Look into Android Applications“ [Spr+13] wichtig, da in diesem beschrieben wird, wie der Datensatz, der in „Drebin: Effective and explainable detection of android malware in your pocket“

[Arp+14] verwendet wird, in einer Sandbox analysiert und Daten aus den Android Applikationen extrahiert wird. Sandbox bedeutet hier ein Android Betriebssystem wird auf einem normalen Computer simuliert und die Android Applikation wird in dieser ausgeführt. Die meisten Analyse Systeme für Android Applikationen betreiben dabei nur „static analysis“ und nicht „dynamic analysis“.

Dabei bedeutet „static analysis“, dass das Programm nicht ausgeführt wird, sondern die Analyse nur auf der Datei in ihrem Zustand im Speicher angewandt wird. Während bei „dynamic analysis“ die Datei ausgeführt und die Aktionen der Datei unter Laufzeit aufgezeichnet und analysiert werden. „Mobile-sandbox: Having a Deeper Look into An-droid Applications“ betreibt sowohl „static analysis“ als auch „dynamic analysis“ von darauf angewendeten Malware Samples um Malware Analysten ein breites Spektrum

an Informationen zur weiteren Verarbeitung zu liefern. Das System der Sandbox wird verwendet um eine „dynamic analysis“ zu ermöglichen.

Ferner wurde noch ein Intrusion Detection Datensatz integriert. Dieser stammt aus dem KDD-Cup 1999¹. Dieser wurde jedoch aus „Cost-based modeling for fraud and intrusion detection: results from the JAM project“ [Sto+00] entnommen.

Im Dokument Interaktive Unterstützung für Malware Klassifikation (Seite 11-14)