Viele Fragen?
Und doch kurze Interviews!
Über Modularisierung und Data Mining
Frank Zander Julia Georgi
Institut für angewandte Datenanalyse GmbH
• Full Service Institut für Markt- und Trendforschung
• Gegründet 1998, unabhängig, inhabergeführt
• Pionier Onlineforschung
• Schwerpunkte: FMCG, OTC, Finanzen
• Forschung in über 30 Ländern
Frank E. Zander
• 20+ Jahre in der Marktforschung
• Zuletzt: Division Manager Consumer Research und Key Account Manager bei einem Global Player
• Seit 3/2012 bei EARSandEYES
• Client Service Manager
• Schwerpunkte: Strategische
Markenführung, Innovationsforschung, Marketing-Mix
• Institut für angewandte Datenanalyse
• All-in-one-Dienstleister für
Marktforschung und Research Support
• Erfassung, Codierung, Tabellierung
• Softwareentwicklung, speziell CIS
• Services rundum CIS
• Data Sciences und Data Mining
Julia S. Georgi
• 8 Jahre in der Neurowissenschaft
• Zuletzt: Wissenschaftliche
Mitarbeiterin beim Leibnitz-Institut für Neurobiologie
• Seit 4/2014 bei IfaD
• Projektleiterin Data Sciences
• Schwerpunkte: Data Sciences,
Methodenentwicklung, Data Mining, Artificial Intelligence
Institut für angewandte Datenanalyse GmbH
Zwei Themen
• Warum Interviews kürzer werden
• Wie Interviews kürzer werden
Quellen: AGOF eV, Internet facts, Sep 2014, Basis: Deutschsprachige Wohnbevölkerung in Deutschland ab 10 Jahre, ARD/ZDF- Onlinestudie 2014, Basis: Deutschsprachige Wohnbevölkerung in Deutschland ab 14 Jahre
Internet Facts
DEgriffen in den letzten 3 Monaten auf das Internet zu
76%
der Teenager in den letzten 12 Monaten
98%
der Onliner nutzen dafür das Smart- phone oder Handy, überholten den Computer/PC
60%
Quellen: ARD/ZDF-Onlinestudie 2014; Best for Planning 2014, Basen: Deutschsprachige Wohnbevölkerung in Deutschland ab 14 Jahre
50%
Mobilisten (2012: 23%
2013: 41%)
31%
via Smartphone
Mobile Facts
DEQuelle: http://think.withgoogle.com/mobileplanet/en/
2011 18
%
2012
29
%
2013
40
%
Smartphone Penetration
DEDE #27
weltweit = Philippinen,
Mexiko
73%
Süd-Korea
Quelle: http://think.withgoogle.com/mobileplanet/en/, Basis: Smartphone-Besitzer
61%
gingen in den letzten 7 Tagen täglich mobil ins
Internet
87%
verwenden das Smartphone
unterwegs
Smartphone Facts
DE76%
verwenden es während des
Transports/
Fahrens
72%
im Geschäft
Smarties
= Heavy- Onliner (öfter, länger)
Audio, Video
Facts über smarte Mobilisten
Shopping
Such- maschinen
Informa- tionen
Lokale Services &
Infos Banking
Kommuni- kation
Gaming Fotos
2012:
133 m/t
2013:
169 m/t
Das heißt:
• Onliner verbringen immer mehr Zeit online
• und haben immer weniger Zeit
• für Online-
Befragungen.
Quelle: ARD/ZDF-Onlinestudie 2014, Basis: Deutschsprachige Wohnbevölkerung in Deutschland ab 14 Jahre
Ein-Blick in die Zukunft
• Die Zukunft geht smart.
• Beträgt die optimale Interviewzeit für
Onlinebefragungen mit stationäre Geräten heute noch 15-20 Minuten,
• liegt sie für Befragungen von „Smarties“ eher bei der Hälfte, optimal 7, max.
10 Minuten.
2014: 20 Min.
2016: 10 Min.
Konsequenzen für die Auftraggeber?
• Qualitätsverzicht bei längeren Interviews?
• Informationsbedarf
reduzieren bei kürzeren Interviews?
• Studien aufteilen?
• Dadurch längere Projektzeiten?
• Dadurch mehr Budget
für noch mehr Studien?
Möglichkeiten für die
Auftragnehmer/ Institute?
• Back to the roots: Face-to-face oder Telefon statt Online?
• Geringere Ausschöpfung bei
längeren Interviews ausgleichen durch größere „Mailouts“?
• Qualitätsverluste ausgleichen durch größere Stichproben?
• Anzahl der Stichproben
vergrößern? Aber: Informationen nicht verknüpfbar.
• Oder: Modularisierung von
Fragebogen und Prognose von
fehlenden Daten in einer Studie.
Das Ziel
• Frage: Wie den Fragebogen in Module zerlegen, Daten
prognostizieren und damit für den Befragten das Interview kürzen?
• Zielsetzung: Entwicklung eines Modells, das nicht erhobene Daten prognostiziert.
• Ergo: Gleiche Zahl an Antworten bei kürzeren Interviews.
Die Studie
Die Studie
• Thema: Sportprodukte, Zielgruppe: potenzielle Verwender
• Ansatz: Usage & Attitude, Kauf und Verwendung, Segmentation (Bedürfnisse), Treiber, Need Gaps, Medianutzung, u.a.m.
Methode:
• Online Access Panel
• Selbstausfüller
• Interview: 20 Minuten
Vorgehensweise
• Modularisierung des Fragebogens
• Prognose der nicht erhobenen Daten
Gemeinsamer Fragebogenteil
Stichprobe 3:
Smartphone
(n =100)
Fragebogenmodul 1 Fragebogenmodul 2 Stichprobe 2:
Smartphone
(n=100)
Stichprobe 1:
Stationär PC
(n =800)
Das Testdesign
Training (n=500)
Test (n=300)
Gesamter Fragebogen
Der Weg durch‘s Interview
Einstellungen Sport (Bedürfnisse)
Sport &
Produkt- verwendung
Einstellungen Produkt- verwendung
Kaufverhalten
Brand Funnel Produkt- bewertung
Media- nutzung*
Einstellungen Lifestyle
Soziodemo- grafie
+ Datenbank-
informationen Dauer: 20 Minuten
* Übernahme diverser Fragen und Antworten zum Mediaverhalten mit freundlicher Genehmigung von Best-for-planning
Artgerechte Anpassung: Responsives Design
Entwicklung eines Modells mit Data Mining Methoden
Modell mit erlerntem Antwortverhalten Vollständiger Datensatz mit
empirischen Antworten
Vollständiger Datensatz mit realen und prognostizierten
Antworten
Lückenhafter Datensatz
Fragebogenaufteilung
– abgeschlossene Themenblöcke
Stationär Befragte beantworten alle Fragen notwendig für die Modellerstellung.
Smartphone Befragte erhalten alle Kernfragen und einen von zwei Themenblöcken.
Themenblock 2 Themenblock 1
Kernfragen
Frage gestellt Frage nicht gestellt Stationär
Smartphone 1 Smartphone 2
Fragebogenaufteilung
– Aufgrund der Zusammenhangstruktur
Aufteilung nach unterschwelligen und nicht-linearen Zusammenhängen
Identifizieren von „Schlüssel-Variablen“ für eine optimale Fragebogenaufteilung
Eine Vorstudie ist notwendig längere Feldphase und mögliche systematische Fehler
1 A B
C 2
R
Fragebogenaufteilung
– alternierende Fragen
Stationär Befragte beantworten alle Fragen notwendig für die Modellerstellung.
Smartphone Befragte erhalten alle Kernfragen und einen von zwei alternierenden Fragebogen.
Themenblock 2 Themenblock 1
Kernfragen
Frage gestellt Frage nicht gestellt Stationär
Smartphone 1 Smartphone 2
Entwicklung eines Modells mit Data Mining Methoden
Modell mit erlerntem Antwortverhalten Vollständiger Datensatz mit
empirischen Antworten
Lückenhafter Datensatz
Vollständiger Datensatz mit realen und prognostizierten
Antworten
Anwendung von Data Mining Tools
– zur direkten Schätzung fehlender Werte
Klassische lineare Regression
y
x
Support Vector Machine
y
x 0 +Ԑ ᶊ -Ԑ
y
ϕ(x)
ᶊ 0
+Ԑ -Ԑ
Neuronale Netze
Entscheidungsbaum
Ich esse regelmäßig Energieriegel.
Entscheidungsbaum zur Prognose fehlender Werte
Alter
>= 45 Jahre
< 45 Jahre
Sportart
Joggen Andere
Motivation
Gut aussehen Fit bleiben
Autotyp
Sportwagen Anderer n = 5 n = 30
n = 35
n = 38 n = 15
n = 53
n = 88
n = 4 n = 34
Ja/Nein
Entscheidungsbaum im Überblick
Stärken von Entscheidungsbäumen:
Lineare und nicht-lineare Zusammenhänge
Keine Umwandlung kategorialer Variablen notwendig
Fehlende Werte
Robust bei Ausreißern
Anschaulich nachvollziehbares Modell
Grenzen bei Entscheidungsbäumen:
• Tendenz zum Overfitten
• Das Ergebnis ist eine Stufenfunktion
• Bei metrischen Variablen, Tendenz zur Mitte
• Bei kategorialen Variablen, Tendenz zur Mehrheitsklasse
Höhere Entscheidungsbaum-Verfahren
– Boosted Tree
Schrittweise Kombination einfacher Entscheidungsbäume
Stärken von Boosted Trees:
Hohe Prognosegüte
Sehr gute Kontrolle des Overfittens
Fokussierung auf die schwierigen Fälle
Grenzen bei Boosted Trees:
• Black Box – nicht anschaulich nachvollziehbar
0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 1.000
Prognosegüte
Variablen
Prognosegüte des Modells
Einstellung zu Sport
r = 0.646
Produkteinstellung
r = 0.686
Leistungsversprechen
r = 0.653
Interessenthemen Print
r = 0.554
TV Sendungen/-Themen (kategorial)
Trefferquote = 0.757
Lebens- einstellung
r = 0.580
Ich mache Sport,
um wieder gesund zu werden Ich mache Sport,
um an die frische Luft zu kommen
Entwicklung eines Modells mit Data Mining Methoden
Modell mit erlerntem Antwortverhalten Vollständiger Datensatz mit
empirischen Antworten
Lückenhafter Datensatz
Vollständiger Datensatz mit realen und prognostizierten
Antworten
Ergebnisse:
– Clusteranalyse: eine Segmentierungsstudie
21%
39% 23%
17%
Vollständig erhobene Desktop-Daten (n = 770)
Hedonisten
Gesundheits- orientiert
Prophylaktiker
Leistungs- orientierte
Ergebnisse:
– Clusteranalyse: eine Segmentierungsstudie
26%
33% 21%
20%
Sehr hohe Übereinstimmung der prognostizierten Smartphone-Daten mit Desktop-Daten (Korrelation 0.93) Teilweise prognostizierte Smartphone-Daten (n = 196)
Hedonisten
Gesundheits- orientiert
Prophylaktiker
Leistungs- orientierte
Haben wir unsere Zeitvorgabe geschafft?
18,0 17,5
16,0
Smartphone Desktop Tablet