Ausblick - Interaktive Unterstützung für Malware Klassifikation

Die erweiterte Confusion Matrix wird hier nur mit einer squarified Treemap unter-stützt, jedoch kann man diese mit anderen Visualisierungstechniken erweitern. Dabei kann man diese Erweiterungen direkt an die jeweiligen Features der zu klassifizieren-den Daten anpassen um so einen besseren Überblick zu bieten. Es muss jedoch hierfür eine Möglichkeit gefunden werden kontinuierliche Features darzustellen. Dabei muss darauf geachtet werden, dass die Erweiterung in der Matrix so viel Informationen wie möglich visualisiert und so bei der weiteren Klassifikation unterstützt. Bei Beginn der Arbeit wurde über mögliche andere Typen nachgedacht, darunter ein Star Glyph der die jeweilige Anzahl der Features in der Kategorie angezeigt hätte. Jedoch wurde diese Idee wieder verworfen, da ein Star Glyph den Raum in einer Matrix nicht gut ausfüllt und darin nicht besonders gut erkannt werden kann.

Eine mögliche andere Visualisierung, die als Erweiterung für die Matrix eingesetzt werden kann, wäre die Pie Chart. Dabei würde die Möglichkeit bestehen, die Varianz von kontinuierlichen Features als Gewichtung für die Größe der Segmente einzusetzen, um die einzelnen Klassen von einander abzuheben. Es würde jedoch damit nur einen Fingerabdruck der Klasse darstellen, da die Varianz auch bei anderen Klassen die selbe sein könnte und sie bei der Feature Selection wenig aussagt.

Als Alternative für die Varianz könnte, wie in dieser Arbeit, das arithmetische Mit-tel betrachtet werden. Dabei müsste die Pie Chart angepasst werden, um diese neuen Daten darzustellen, da das arithmetische Mittel bei verschiedenen Features in sehr verschiedenen Wertebereichen liegen kann. Hier würde statt der Pie Chart eine Clock Map, wobei die Features sozusagen verschiedene Uhrzeiten abbilden und die Farbe der Uhrzeiten die Werte anzeigt, mehr Sinn machen, da mit einer Normalisierung ein guter Fingerabdruck zustande kommen könnte. Dabei könnte dann über Feature Selection ausprobiert werden, was passiert falls ein Feature mit stark unterschiedlichen Werten oder nicht sehr stark schwankenden Werten entfernt wird.

Eine weiterer sinnvoller Ausbau wäre die Möglichkeit Ensembles von Klassifikatoren zu bauen. Dabei soll es möglich sein über die derzeitige Arbeitsoberfläche einen gu-ten Klassifikator mit bestimmgu-ten Features zu finden und diesen für das Ensemble zu speichern. Damit würde eine Idee wie in „EnsembleMatrix: Interactive Visualization to Support Machine Learning with Multiple Classifiers“[Tal+09] eingebaut werden.

Das heißt, die vorher gefundenen Klassifikatoren würden gewichtet werden und es

5.2 Ausblick 43 könnte über das Ensemble eine Verbesserung der Klassifikation ermöglicht werden.

Dabei würde eine Situation entstehen in der mehrere, womöglich schlechtere Klassifi-katoren zu einer guten Klassifikation mittels Gewichtung der KlassifiKlassifi-katoren vereint werden. Jedoch könnte man auch eine Stacking Situation ermitteln, in der die miss-klassifizierten Dateien noch einmal in die Ansicht der Arbeit geladen werden und ein neuer Klassifikator für diese Dateien gefunden werden soll. Dabei sollte immer ein Ex-perte miteingebunden sein, der sich über die möglichen Klassifikatoren und vor allem Features Gedanken machen kann, um die Klassifikation zu verbessern.

Anhang

Literaturverzeichnis 47

Literatur

[Ank+99] Mihael Ankerst, Christian Elsen, Martin Ester und Hans-Peter Kriegel.

„Visual Classification: An Interactive Approach to Decision Tree Construc-tion“. In:Proceedings of the Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. KDD ’99. San Diego, Califor-nia, USA: ACM, 1999, S. 392–396. doi: 10.1145/312129.312298 (siehe S. 10).

[Arp+14] Daniel Arp, Michael Spreitzenbarth, Malte Hübner, Hugo Gascon, Konrad Rieck und CERT Siemens. „Drebin: Effective and explainable detection of android malware in your pocket“. In:Proceedings of the Annual Symposium on Network and Distributed System Security (NDSS)(2014) (siehe S. 5, 13, 16).

[BHW99] Mark Bruls, Kees Huizing und Jarke van Wijk. „Squarified Treemaps“. In:

In Proceedings of the Joint Eurographics and IEEE TCVG Symposium on Visualization. Press, 1999, S. 33–42 (siehe S. 7, 19).

[CG16] T. Chen und C. Guestrin. „XGBoost: A Scalable Tree Boosting System“.

In: ArXiv e-prints (März 2016). arXiv: 1603.02754 [cs.LG] (siehe S. 6, 17).

[EW11] S. van den Elzen und J.J. van Wijk. „BaobabView: Interactive construction and analysis of decision trees“. In:Visual Analytics Science and Technology (VAST), 2011 IEEE Conference on. Okt. 2011, S. 151–160.doi:10.1109/

VAST.2011.6102453(siehe S. 10).

[FO03] Jerry Alan Fails und Dan R. Olsen Jr. „Interactive Machine Learning“.

In: Proceedings of the 8th International Conference on Intelligent User Interfaces. IUI ’03. Miami, Florida, USA: ACM, 2003, S. 39–45. doi: 10.

1145/604045.604056 (siehe S. 6, 7).

[Gov+14] Robert Gove, Joshua Saxe, Sigfried Gold, Alex Long und Giacomo Berga-mo. „SEEM: A Scalable Visualization for Comparing Multiple Large Sets of Attributes for Malware Analysis“. In:Proceedings of the Eleventh Work-shop on Visualization for Cyber Security. VizSec ’14. Paris, France: ACM, 2014, S. 72–79. doi: 10.1145/2671491.2671496 (siehe S. 8).

[Hei+12] Florian Heimerl, Charles Jochim, Steffen Koch und Thomas Ertl. „Fea-tureForge: A Novel Tool for Visually Supported Feature Engineering and Corpus Revision“. In:COLING (Posters). Bd. 2012. 2012, S. 461–470 (sie-he S. 11, 12).

[IML13] J.-F. Im, M.J. McGuffin und R. Leung. „GPLOM: The Generalized Plot Matrix for Visualizing Multidimensional Multivariate Data“. In: Visuali-zation and Computer Graphics, IEEE Transactions on 19.12 (Dez. 2013), S. 2606–2614. doi: 10.1109/TVCG.2013.160 (siehe S. 7, 8).

[Sar+14] A. Sarikaya, D. Albers, J. Mitchell und M. Gleicher. „Visualizing Valida-tion of Protein Surface Classifiers“. In: Computer Graphics Forum 33.3 (2014), S. 171–180. doi: 10.1111/cgf.12373 (siehe S. 9).

[Spr+13] Michael Spreitzenbarth, Felix Freiling, Florian Echtler, Thomas Schreck und Johannes Hoffmann. „Mobile-sandbox: Having a Deeper Look into Android Applications“. In: Proceedings of the 28th Annual ACM Sympo-sium on Applied Computing. SAC ’13. Coimbra, Portugal: ACM, 2013, S. 1808–1815. doi: 10.1145/2480362.2480701 (siehe S. 5, 14).

[SS05] Jinwook Seo und Ben Shneiderman. „A Rank-by-feature Framework for Interactive Exploration of Multidimensional Data“. In:Information Visua-lization 4.2 (Juli 2005), S. 96–113. doi: 10.1057/palgrave.ivs.9500091 (siehe S. 11).

[SSG10] Christin Seifert, Vedran Sabol und Michael Granitzer. „Classifier Hypothe-sis Generation Using Visual AnalyHypothe-sis Methods“. In: Hrsg. von Filip Zavoral, Jakub Yaghob, Pit Pichappan und Eyas El-Qawasmeh. Berlin, Heidelberg:

Springer Berlin Heidelberg, 2010, S. 98–111. doi: 10.1007/978- 3- 642-14292-5_11 (siehe S. 11).

[Sto+00] S. J. Stolfo, Wei Fan, Wenke Lee, A. Prodromidis und P. K. Chan. „Cost-based modeling for fraud and intrusion detection: results from the JAM project“. In:DARPA Information Survivability Conference and Exposition,

Literaturverzeichnis 49 2000. DISCEX ’00. Proceedings. Bd. 2. 2000, 130–144 vol.2.doi:10.1109/

DISCEX.2000.821515 (siehe S. 6).

[Tal+09] Justin Talbot, Bongshin Lee, Ashish Kapoor und Desney Tan. „Ensemble-Matrix: Interactive Visualization to Support Machine Learning with Mul-tiple Classifiers“. In: ACM Human Factors in Computing Systems (CHI).

2009 (siehe S. 9, 10, 42).

Abbildungsverzeichnis 51

Abbildungsverzeichnis

2.1 Die Hauptmatrix von „GPLOM: The Generalized Plot Matrix for Vi-sualizing Multidimensional Multivariate Data“[IML13]. . . 8 2.2 Die Hauptansicht von „EnsembleMatrix: Interactive Visualization to

Support Machine Learning with Multiple Classifiers“[Tal+09]. . . 10 3.1 Die Hauptansicht des Programmes. . . 20 3.2 Die Hauptansicht des Programmes - (A) präsentiert die „Feature and

Classifier Selection View“, (B) zeigt die „Enhanced Confusion Matrix View“ und (C) stellt die „Helper Box“ dar. . . 21 3.3 Die drei Einstellung-Tabs der „Feature and Classifier Selection View“ . 22 3.4 Zwei weitere Ansichten für die Confusion Matrix mit unterschiedlichen

Sortierungen. . . 25 3.5 Confusion Matrix mit nicht quadratischem Layout. . . 25 3.6 Die erste Ansicht der „Treemap Compare View“, wenn der Nutzer auf

eine Zelle mit Treemap klickt. . . 26 3.7 Die vier verschiedenen Möglichkeiten der „Treemap Compare View“ am

Beispiel von miss-klassifizierten Samples. . . 27 3.8 Allgemeine weitere Funktionen der „Treemap Compare View“. . . 27 3.9 Die „Helper Box“ zeigt Features die sowohl in der anfänglichen Treemap

vorkommen als auch in der klassifizierten, jedoch nicht in der wirklichen. 28 3.10 Workflow für Interaktive Unterstützung für Malware Klassifikation . . . 29 4.1 Die verschiedenen Klassifikatoren und ihr F1-Maß. . . 32 4.2 Verschiedene Ergebnisse von ausgeschlossen Featurekategorien in der

Logical Regression Klassifikation. . . 33 4.3 „Treemap Compare View“ mit Hervorhebung von der „Helper Box“. . . 34 4.4 Miss-klassifizierte Samples richtig klassifizieren. . . 36 4.5 Die Hauptansicht des Programmes mit dem Intrusion Detection

Daten-satzes. . . 38

4.6 „Treemap Compare View“ miss-klassifizierter Samples mit dem Intrusi-on DetectiIntrusi-on Datensatz. . . 39 4.7 „Treemap Compare View“ miss-klassifizierter Samples mit dem

Intrusi-on DetectiIntrusi-on Datensatz mit unklaren Ergebnissen. . . 40

Erklärung 53

Erklärung

Die vorliegende Arbeit habe ich selbstständig ohne Benutzung anderer als der angege-benen Quellen angefertigt. Alle Stellen, die wörtlich oder sinngemäß aus veröffentlich-ten Quellen entnommen wurden, sind als solche kenntlich gemacht. Die Arbeit ist in gleicher oder ähnlicher Form oder auszugsweise im Rahmen einer oder anderer Prü-fungen noch nicht vorgelegt worden.

Konstanz, den 3. Mai 2018 Udo Schlegel

Im Dokument Interaktive Unterstützung für Malware Klassifikation (Seite 50-61)