• Keine Ergebnisse gefunden

MARTIN-LUTHER-UNIVERSITÄT HALLE-WITTENBERG

N/A
N/A
Protected

Academic year: 2022

Aktie "MARTIN-LUTHER-UNIVERSITÄT HALLE-WITTENBERG"

Copied!
15
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

MARTIN-LUTHER-UNIVERSITÄT HALLE-WITTENBERG

Juristische und Wirtschaftswissenschaftliche Fakultät Wirtschaftswissenschaftlicher Bereich

Lehrstuhl für Statistik Prof. Dr. Claudia Becker

Wintersemester 2011/12 1. Termin

Klausur Anwendungsprojekte

über Clusteranalyse

Ausgewogene Ernährung

- Ein Beitrag der Statistik zur Klassifizierung von Nahrungsmitteln -

10.02.2012

Name: ...

Matrikelnummer: ...

(2)

Inhaltsverzeichnis

1. Einleitung ... 1

2. Problemstellung ... 2

3. Theoretische Grundlagen der statistischen Verfahren ... 3

3.1 Deskriptive Verfahren ... 3

3.2 Clusteranalyse ... 4

3.2.1 Vorgehensweise ... 5

4. Statistische Auswertung ... 7

4.1 Deskriptive Auswertung ... 7

4.2 Clusteranalyse ... 8

5. Fazit ... 10

Literaturverzeichnis ... 11

Abkürzungsverzeichnis ... 12

(3)

1. Einleitung

Das Streben nach einem gesunden Lebensstil ist in einer modernen Gesell- schaft ein verbreitetes Phänomen. Die Menschen haben bereits erkannt, dass eine bewusste Lebensweise in den meisten Fällen zu einer Verlänge- rung der Lebenserwartung führt.

Wie es in jedem Gesundheitsratgeber zu lesen ist, gehört zu einer gesunden Lebensführung nicht nur Bewegung und Entspannung, sondern auch eine ausgewogene Ernährung. Dabei stellt sich die Frage, was als ausgewogen gilt. Hierbei sind die Meinungen widersprüchlich, denn die Nahrungsmittel lassen sich nicht so eindeutig zu Gruppen zusammenfassen. Es reicht der Blick in drei verschiedene Ratgeber, um festzustellen, dass jeder einem an- deren Konzept folgt bzw. andere Lebensmittel bevorzugt.

Ziel dieses Berichts ist es, Nahrungsmittel zu erkennen, die ähnliche Eigen- schaften besitzen und sich somit gegenseitig substituieren lassen. Im Um- kehrschluss werden dadurch Gruppen von Lebensmitteln identifiziert, die sich unähnlich sind und deswegen für eine ausgewogene Ernährung nicht fehlen dürfen. Diese Arbeit hat nicht zum Ziel, Informationen darüber zu lie- fern, in welchen Mengen und Verhältnissen Nahrungsmittel konsumiert wer- den sollen.

Kapitel 2 beschäftigt sich mit der Problemstellung dieses Berichtes und liefert Informationen über den verwendeten Datensatz. In Kapitel 3 werden die sta- tistischen Methoden vorgestellt, die in der Auswertung (Kapitel 4) eingesetzt werden. Kapitel 5 fasst die Erkenntnisse zusammen und gibt einen Ausblick über die zukünftige Forschung.

(4)

2. Problemstellung

Wie bereits in der Einleitung dargestellt, besteht das Ziel dieses Berichts da- rin, Nahrungsmittel zu Gruppen (Clustern) zusammenzufassen. Diese lassen sich über verschiedene Eigenschaften definieren. Es stellt sich also die Fra- ge: Welche Eigenschaften sind relevant, um die Ähnlichkeit zwischen zwei verschiedenen Lebensmitteln zu ermitteln?

Im Wesentlichen können Energieträger, Mineralstoffe und Vitamine in jedem Lebensmittel vorhanden sein. Um diese also ausreichend zu charakterisie- ren, wird ein Datensatz herangezogen, der genau diese Informationen über 77 unterschiedliche Lebensmittel enthält.1 Zu den Energieträgern zählen hierbei die Variablen: Kalorien, Eiweiß, Kohlenhydrate, Cholesterin und Fett.

Natrium, Kalium, Magnesium, Kalzium, Phosphor, Eisen und Zink gehören zu den Mineralstoffen. Die erfassten Vitamine umfassen Vitamin A, B1, B2, B6, C, E, Folsäure und Karotin. Tabelle 1 gibt eine Übersicht über diese Variab- len.

Tabelle 1: Variablen

Variablen

Energieträger Kalorien, Eiweiß, Kohlenhydrate, Cholesterin und Fett Mineralstoffe Natrium, Kalium, Magnesium, Kalzium, Phosphor, Ei-

sen und Zink

Vitamine Vitamin A, B1, B2, B6, C, E, Folsäure und Karotin

Die Daten wurden von einer Internetseite extrahiert. Aus der vorliegenden

„pdf“-Datei wurde eine Textdatei gemacht, die in R eingelesen werden konn- te. Für die Auswertung der Daten wurde die Software R x64 2.14.0 genutzt.

1 Der Datensatz befindet sich im Anhang.

(5)

3. Theoretische Grundlagen der statistischen Verfahren

3.1 Deskriptive Verfahren

Bevor die eigentliche Auswertung der Daten mit Hilfe der Clusteranalyse er- folgt, ist es empfehlenswert, den Datensatz deskriptiv zu analysieren. Dabei wird das Ziel verfolgt, durch die Angabe einiger weniger Kennzahlen die ge- samten Verteilungen der einzelnen Merkmale zu charakterisieren und somit die zu analysierende statistische Masse zusammenfassend beurteilen zu können. Solche Kennzahlen werden auch Parameter einer Verteilung ge- nannt. Die unterschiedlichen Kennzahlen geben u.a. Auskunft zur Lage, Streuung oder Schiefe der Verteilung einer Variablen.

Lageparameter geben Auskunft über die durchschnittliche Größenordnung der Merkmalswerte einer Beobachtungsreihe und somit über die Lage des Zentrums einer Verteilung. Sie sollen die Gesamtheit der Beobachtungswerte möglichst gut repräsentieren. Der für quantitative Merkmale am häufigsten verwendete Lageparameter ist das arithmetische Mittel x. Es beschreibt je- nen Wert, der sich ergibt, wenn die Merkmalswerte auf die Merkmalsträger aufgeteilt werden:

=

=

i

n

xi

n x

1 ) (

1 .

Die Aussagefähigkeit von x wird dadurch eingeschränkt, dass es von Aus- reißern beeinflusst wird. Als robuste Alternative zu x wird daher für quantita- tive Merkmale als Lageparameter bevorzugt der Modus berechnet. Als Mo- dus xmod wird jene Merkmalsausprägung eines mindestens metrisch skalier- ten Merkmals bezeichnet, welche die geordnete Reihe der Beobachtungs- werte x1x2 ≤ ≤... xn in zwei gleichbreite Hälften teilt. Er repräsentiert die Mit- te der Verteilung und ist aufgrund seiner Berechnung extrem unempfindlich gegenüber außergewöhnlich hohen/niedrigen und somit untypischen Be- obachtungen (Ausreißer).

Die Lageparameter reichen zur Charakterisierung einer Häufigkeitsverteilung oft nicht aus. In vielen Fällen ist es auch wichtig zu wissen, wie eng die Be- obachtungswerte beieinander liegen oder wie weit sie um einen Lagepara- meter streuen. Je geringer die Abweichungen vom Lageparameter sind, des-

(6)

to besser repräsentiert dieser den Datensatz. Das am häufigsten verwendete Streuungsmaß sind die p-Quantile. Als p-Quantil xp wird eine Merkmalsaus- prägung eines mindestens ordinal skalierten Merkmals bezeichnet, wenn dieser Wert die Reihe der Beobachtungswerte so aufteilt, dass mindestens p% der Beobachtungswerte kleiner als xp sind und gleichzeitig mindestens (1-p)% der Beobachtungswerte größer als xp sind. Je größer der Wert (1-p) ausfällt, desto größer ist die Streuung des Merkmals. Die großen Vorteile dieses Streuungsmaßes liegen zum einen in der einfachen Berechenbarkeit und zum anderen darin, dass es sich gegenüber Ausreißern robust verhält.

Durch Lage- und Streuungsparameter kann eine Häufigkeitsverteilung oft ausreichend charakterisiert werden. Es gibt aber Fälle, in denen Verteilungen sowohl in Lageparametern als auch in Streuungsmaßen übereinstimmen, aber eine völlig unterschiedliche Gestalt aufweisen. So ist es in diesen Fällen erforderlich, weitere Kennzahlen wie z.B. die Schiefe zur Charakterisierung der Verteilung heranzuziehen. Die Schiefe beschreibt dabei, inwieweit bei der Verteilung eine Symmetrie bzw. Asymmetrie vorliegt. Verteilen sich die Beobachtungswerte eines mindestens nominal skalierten Merkmals gleich- förmig zu beiden Seiten um den Mittelwert x, liegt eine asymmetrische Häu- figkeitsverteilung vor. Anderenfalls ist die Häufigkeitsverteilung symmetrisch.

Neben der Berechnung der Parameter einer Verteilung empfiehlt es sich, auch die graphische Darstellung einer Häufigkeitsverteilung zu analysieren.

Zur graphischen Darstellung eignen sich Kreisdiagramme für diskrete Merk- male, Boxplots für nominale Merkmale und Stab- bzw. Balkendiagramme für stetige Merkmale. In allen Graphiken werden die Verteilungsparameter mit ihren relativen bzw. absoluten Häufigkeiten abgetragen.

3.2 Clusteranalyse

Die Clusteranalyse wird den deskriptiven multivariaten Analysemethoden zugeordnet und hat zum Ziel, Beobachtungseinheiten so zu Gruppen (Clus- ter) zusammenzufassen, dass innerhalb der Gruppen möglichst Heterogeni- tät und zwischen den Gruppen Homogenität bezüglich der erfassten Merk- male herrscht.

(7)

Allgemein können Verfahren der Clusteranalyse hinsichtlich zwei Kriterien unterschieden werden. Zum einen basieren sie auf unterschiedlichen Proxi- mitätsmaßen. Zum anderen werden unterschiedliche Algorithmen für die Gruppenbildung verwendet.

3.2.1 Vorgehensweise

Allgemein werden bei einer Clusteranalyse folgende Schritte durchlaufen:2 1. Es werden Ähnlichkeiten bestimmt,

2. ein Fusionierungsalgorithmus wird gewählt und 3. die Clusteranzahl wird festgelegt.

Im Folgenden werden diese Ablaufschritte erläutert.

Bestimmung von Ähnlichkeiten

Im ersten Schritt werden die Beobachtungseinheiten paarweise miteinander verglichen. Hierbei können unterschiedliche so genannte Proximitätsmaße zum Einsatz kommen. Diese lassen sich entweder den Ähnlichkeits- oder den Distanzmaßen zuordnen. Maßgeblich für diese Unterscheidung ist das Skalenniveau der Merkmale. Auf der einen Seite lassen sich Ähnlichkeits- maße nur für metrisch skalierte Merkmale bestimmen. Auf der anderen Seite werden Distanzmaße vor allem bei nominal skalierten Merkmalen angewen- det. Da nur die Euklidische Distanz in R implementiert ist, kommt kein ande- res Maß für die Auswertung in Frage. Die Euklidische Distanz d lässt sich ij wie folgt ermitteln:3

( )

1/2

p

1 k

2 jk ik

ij x x

d 

 

 −

=

=

.

Hierbei bezeichnen xikund x die Werte, die die k-te Variable für die Be-jk obachtungseinheiten i und j annimmt. Die Anzahl an Merkmalen wird in der Formel als p bezeichnet.

Die ermittelten Distanzen oder Ähnlichkeiten sind der Ausgangspunkt für den im nächsten Schritt gewählten Cluster-Algorithmus.

2 Vgl. Backhaus et al. (2008), S. 392.

3 Vgl. Everitt et al. (2011), S. 49.

(8)

Fusionierungsalgorithmus

Die Wahl eines Fusionierungsalgorithmus ist in der Regel nicht schwer, da es lediglich zwei konkurrierende Verfahren gibt: das Ward- und das Single- Linkage-Verfahren. Diese lassen sich dadurch unterscheiden, dass es sich beim Ward-Verfahren um einen hierarchischen und beim Single-Linkage- Verfahren um einen partitionierenden Cluster-Algorithmus handelt.

Bei partitionierenden Verfahren wird eine Gruppierung der Beobachtungen im Vorfeld vorgenommen. Ausgehend von dieser Startlösung werden die einzelnen Beobachtungen zwischen den Clustern so lange vertauscht, bis das globale Optimum erreicht wird. Die vorgegebene Anzahl an Clustern bleibt dabei unverändert.

Im Gegensatz dazu bildet bei den hierarchischen Verfahren zunächst jede Beobachtung ein eigenes Cluster. Diese werden dann nach den gewählten Kriterien nach und nach gruppiert, bis ein einziges Cluster mit allen Beobach- tungen entsteht. Hierbei stellt sich die Frage, wie viele Cluster optimal sind.

Um die optimale Entscheidung zu treffen, werden die im nächsten Schritt vorgestellten Methoden angewendet.

(9)

4. Statistische Auswertung

4.1 Deskriptive Auswertung

Einen ersten Einblick in die Struktur der Daten liefert der R-Befehl summary. Dieser fasst alle Informationen über die Verteilung der betrachteten Variablen zusammen. Die Ergebnisse sind in Abbildung 1 dargestellt.

Abbildung 1: Summary

Da vor allem bei einer Clusteranalyse die Autokorrelation ein Problem dar- stellt, werden Streudiagramme zur Beurteilung der linearen Abhängigkeit zwischen den unabhängigen Variablen herangezogen.

(10)

Abbildung 2: Streudiagramme

kcal

0 0 0 0 0 0 5 0 0 0.0 0

0

0 KH

Eiw 0

0 Chol

Fett 0

0 Na

Ka 0

0 Mg

Ca 0

0 Ph

Fe 04

05

Zn

A 0

0 Caro

E 0

0 Fols

B1

0.0

0.0 B2

B6

0.0

0

0

0 0 0 0 0 4 0 0 0.0 0.0

C

4.2 Clusteranalyse

Im nächsten Schritt werden die Cluster mithilfe der Ward-Methode bestimmt.

Es ergeben sich fünf verschiedene Gruppen von Nahrungsmitteln (siehe rote Markierungen in Abbildung 3). Die erste Gruppe umfasst ausschließlich Kä- sesorten. Der zweite Cluster beinhaltet Fleisch und Fisch. Die Süßigkeiten sind im Cluster drei, die Öle im Cluster vier zusammengefasst. Obst und Gemüse bilden den fünften Cluster.

Um die statistische Signifikanz dieser Clustereinteilung zu prüfen, wird der Elbow-Test herangezogen. Das Ergebnis dieser Analyse wird in Abbildung 4 präsentiert. Es zeigt sich, dass eine Clusteranzahl von fünf in diesem Fall mit einem p-value von weniger als 0.05 signifikant ist.

(11)

Abbildung 3: Dendrogramm

Go ud

a se er se äs am rtk rg itt Ed Ha Be hn Sc

e e tse n se llaert rsrsse Bri rehe mb wu wu tc taza elz ch ck gd me Fe ürs isMo hm Ja Bo Ca r WSc Fle ne Wie

t mi llach hig la de La hfä Sa rta ic treMo t s urs ttw Me

s ze nit ch es ein hw Sc

l ttn urs er rsge lle ke urs ele ch rw nd re un wu rnrs tw hin be Fo Za ez rry Ba Ga sc Le Bra Se Cu ch Ko

t r tltln rat s llka ttel t n nt öl t lzt i sli e n i lnöl l en ne hl tette en ten e n it h n e jarelehe ne ke labro riepri sa bro oh ne fehe pin ne leel ett Bu rkiche ere -Nma ari ala ere ch eu ttehin he tchtkofrurfirlima ng Wa isKiw uc flave sa ee me telleke tcze So rsttsnk uc ari lnrgPa Ap gu me Bir robe ch ch be Gu cc sc ku arg db pfs pe de rnrgTo Be Ro bk au ko brö äc Oli an Se Pfi mb nd Ora Cro We me ork es Ba Brö Bla se blu Wa Ma Ka Zu mil Sp be die Erd Ko Le Co Pfl Him Rin Kn Pfl Gra Win orn mm rmMa oll en Bro ein Blu Ra Eis llk La Vnn Ma hw Vo de So Sc la ko ho sc ch Mil

0 20 40 60

Cluster Dendrogram hclust (*, "ward")

dist(scale(nahrung)) hclust(*,"complete")

He ig ht

(12)

Abbildung 4: Screeplot

Clusteranzahl

p-value

1 2 3 4 5 6 7 8 9 10

00.050.10.150.20.25

5. Fazit

(13)

Literaturverzeichnis

Backhaus et al. (2009), "Multivariate Analysemethoden", 10. Aufl., Springer, Berlin.

Zuur et al. (2009), A Beginner's Guide to R, Springer, Dordrecht.

Heizmann (2011), Ich bin dann mal schlank: das Erfolgsprogramm, Gräfer und Unzer Verlag, München.

o.A. (2012), Fit For Fun, http://www.fitforfun.de/, Zugriff am 09.02.2020.

(14)

Abkürzungsverzeichnis

KH Kohlenhydraten

kcal Kilokalorien

Eiw Eiweiß

Chol Cholesterin

Ka Kalium

(15)

Anhang

Walnuß Müsli Vollkornbtchen Webrot Lebkuchen Milchschokolade Vollmilch-Nuß Mozarella Schmelzkäse Schnittkäse Mettwurst streichhig Salami Mortadella Wiener Würstchen Lammkotelette Rinderfilet Seezunge Zander Kochschinken Schweineschnitzel Leberwurst Marmorkuchen Windbeutel Rotkohl Radieschen Tomate Mandarine Orange Pfirsich Pflaumen Spargel Zucchini Sellerie Sojaöl Pflanzenöl Sonnenblumenöl Margarine Schweineschmalz Olivenöl Walnußöl

010203040

Cluster Dendrogram

hclust (*, "ward") dist(scale(nahrung2[39:77, ]))

Height Hartkäse Bergkäse Edamer Gouda Fetakäse Brie Camembert Grapefruit Gurke Apfel Birne Eisbergsalat Kopfsalat Paprika Brombeere Himbeere Blumenkohl Erdbeere Kiwi Bratwurst Jagdwurst Currywurst Bockwurst Fleischkäse Butter Knäckebrot Cornflakes Baguette Btchen Croissant Berliner Käsekuchen Blattspinat Karotten Lachs Garnele Barsch Forelle

0102030

Cluster Dendrogram

hclust (*, "ward") dist(scale(nahrung2[1:38, ]))

Height

Abbildung

Abbildung 1: Summary
Abbildung 2: Streudiagramme  kcal 0 0 0 0 0 0 5 0 0 0.0 0 0 0 KH Eiw 0 0 Chol Fett 0 0 Na Ka 0 0 Mg Ca 0 0 Ph Fe 04 05 Zn A 0 0 Caro E 0 0 Fols B1 0.0 0.0 B2 B6 0.0 00 0 0 0 0 0 4 0 0 0.0 0.0 C 4.2  Clusteranalyse
Abbildung 3: Dendrogramm
Abbildung 4: Screeplot  Clusteranzahlp-value123456 7 8 9 1000.050.10.150.20.25 5.  Fazit

Referenzen

ÄHNLICHE DOKUMENTE

Das Ergebnis in Tabelle 5 zeigt, dass von einem signifikanten Zusammenhang zwischen den beiden Variablen auszugehen ist und somit die Variable Arbeitslosenrate für die

Die Mitglieder der Doktorandenvertretung werden in- nerhalb der jeweiligen Sektion alle 4 Jahre von den Doktorandinnen und Doktoranden des Promotionskollegs Medizin gewählt..

7. Kognitive Einschränkungen sowie vermehrtes Auftreten von NSS bei Patientinnen mit AN und BN werden bestätigt. Die Ergebnisse der Testverfahren mit guten psychometri-

"Zehn Jahre Service Learning an der MLU ist ein hervorragendes Beispiel für eine gelungene Öffnung der Universität zur Stadtgesellschaft“ – so Olaf Ebert, Geschäftsführer

So wurden zunächst Gesprächsaktivitäten und -strategien für kulturreflexives Sprechen besprochen (Nazarkiewicz) und es wurde diskutiert, welche Praktiken eine

Den zunehmenden Erwartungen an Hochschulen Rechnung tragend, ihre positiven Wirkungen für Wirtschaft und Gesellschaft systematischer zu fördern und sichtbarer zu machen, wurde

But even if the Copts had not been particularly eager to study the theological texts trans- lated by the Germans, the importance of these documents for the history of Ara-

Vor vielen Jahren fragte mich Y IGAL B RONNER brieflich, als er mit der Arbeit an seiner Dissertation begann, ob ich ihm eine sinnvolle Begründung für die Wahl einer solch