• Keine Ergebnisse gefunden

Statistik f¨ur Ingenieure 4 Deskriptive Statistik

N/A
N/A
Protected

Academic year: 2021

Aktie "Statistik f¨ur Ingenieure 4 Deskriptive Statistik"

Copied!
141
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Statistik f¨ ur Ingenieure 4 Deskriptive Statistik

Prof. Dr. Hans-J¨ org Starkloff

TU Bergakademie Freiberg Institut f¨ur Stochastik

Wintersemester 2019/2020

letzte ¨ Anderung: 15.11.2019

(2)

4 Deskriptive Statistik

4.1 Grundbegriffe der Statistik

I Der Begriff Statistik wurde Ende des 17. Jahrhunderts gepr¨ agt f¨ ur die verbale oder numerische Beschreibung eines bestimmten Staates oder den Inbegriff der

” Staatsmerkw¨ urdigkeiten“ eines Landes oder Volkes (er hat dieselbe Wortwurzel wie

” Staat“ oder

” Staatsmann“).

I Heute hat dieser Begriff viele verschiedene Bedeutungen, z.B. f¨ ur I eine tabellarische oder grafische Darstellung von erhobenen Daten;

I einen Fachausdruck f¨ ur eine Stichprobenfunktion;

I eine

” methodische Hilfswissenschaft zur quantitativen Untersuchung von Massenerscheinungen“.

I Hier soll mit dem Begriff

” Statistik“ eine Zusammenfassung von

Methoden verstanden werden, die zur zahlenm¨ aßigen oder grafischen

Analyse von Daten dienen soll, insbesondere im Zusammenhang mit

Massenerscheinungen und zufallsbehafteten Vorg¨ angen.

(3)

Teilgebiete der Statistik

I Die beschreibende oder deskriptive Statistik behandelt zum Beispiel beschreibende Aussagen ¨ uber statistische Daten, deren

Veranschaulichung oder M¨ oglichkeiten der Datenreduktion.

I Eng damit verwandt ist die explorative Datenanalyse, bei der zum Beispiel Daten auf Unstimmigkeiten hin untersucht werden oder Modellvorstellungen ¨ uber die den Daten zugrundeliegenden Gesetzm¨ aßigkeiten entwickelt werden.

I Die Methoden der schließenden oder beurteilenden Statistik dienen zum Beispiel zur Ableitung von statistisch gesicherten Aussagen ¨ uber die den Daten zugrunde liegenden Sachverhalte, etwa die Sch¨ atzung von Kenngr¨ oßen oder die Durchf¨ uhrung von statistischen Tests.

I Insbesondere in der schließenden Statistik werden Methoden verwendet, deren (Weiter-)Entwicklung und Begr¨ undung durch die mathematische Statistik erfolgt. Insgesamt bestehen enge

Beziehungen zwischen Statistik und Wahrscheinlichkeitstheorie.

(4)

Untersuchungseinheiten, Grundgesamtheit und Stichprobe

I Daten werden an gewissen Objekten (den Untersuchungseinheiten, Merkmalstr¨ agern oder statistischen Einheiten) beobachtet, z.B.

die Wirksamkeit eines Medikaments an Patienten;

Lebensdauern an elektronischen Ger¨ aten;

Ankunftszeiten an Kunden.

I Eine Untersuchungseinheit ist ein Einzelobjekt einer statistischen Untersuchung.

I Eine Grundgesamtheit ist eine Menge von Untersuchungseinheiten, f¨ ur die vom Untersuchungsziel her eine Frage gekl¨ art werden soll.

Sie muss durch ¨ ubereinstimmende Identifikationskriterien der betrachteten Untersuchungseinheiten zeitlich, r¨ aumlich und sachlich eindeutig abgegrenzt werden.

I Eine Stichprobe ist die Teilmenge der Grundgesamtheit, die bei einer

statistischen Untersuchung (Teilerhebung) erfasst wird.

(5)

Merkmale und Merkmalsauspr¨ agungen

I Eigentlich interessieren nicht die Untersuchungseinheiten selbst, sondern bestimmte Eigenschaften der Untersuchungseinheiten (sogenannte Merkmale).

I Z.B. interessiert nicht der Patient selbst, sondern ob oder wie das Medikament bei ihm wirkt; bei Umfragen interessiert nicht der Passant, sondern seine Meinung.

I Ein Merkmal ist eine Gr¨ oße oder Eigenschaft einer Untersuchungseinheit, die auf Grund der interessierenden Fragestellung erhoben bzw. gemessen wird.

I Eine Merkmalsauspr¨ agung ist ein m¨ oglicher Wert, den ein Merkmal annehmen kann.

I Eine Untersuchungseinheit wird auch Merkmalstr¨ ager genannt.

(6)

Beispiel Mietspiegel

I Nettomiete abh¨ angig von Merkmalen wie Art: Altbau, Neubau, . . . ; Lage: Innenstadt, Stadtrand,. . . ; Gr¨ oße: 40m

2

, 95m

2

, . . . ;

Baujahr:

| {z }

1932, 1965, 1983, 1995, . . . .

| {z }

Merkmale Auspr¨ agungen

I In der Regel werden mehrere Merkmale an einem Merkmalstr¨ ager beobachtet; z.B.

I Merkmalstr¨ ager: Wetter zu einem bestimmten Zeitpunkt an einem bestimmten Ort;

I Merkmale: Temperatur, Niederschlagsmenge, Luftdruck, Bew¨ olkung, Luftfeuchtigkeit, Sicht, . . . .

I Merkmalsauspr¨ agungen m¨ ussen keine Zahlen sein, z.B.

I Bew¨ olkung: wolkenlos, heiter, leicht bew¨ olkt, wolkig, bedeckt, . . . ;

I Autofarbe: rot, gr¨ un, schwarz, . . . .

(7)

Bezeichnungen und Klassifikationen von Merkmalen

I Bezeichnungen:

I Grundgesamtheit: Ω .

I Untersuchungseinheit: ω oder i .

I Merkmale: X , Y , Z oder auch X

1

, X

2

, X

3

, . . . . I Menge der Merkmalsauspr¨ agungen: S .

I Merkmalsauspr¨ agungen oder -werte: x = X (ω) oder x

i

= X (i) . I Mathematisch betrachtet ist ein Merkmal eine Funktion X : Ω → S ,

die jeder Untersuchungseinheit die zugeh¨ orige Merkmalsauspr¨ agung zuordnet.

I Klassifikationen von Merkmalen:

zum Beispiel

I qualitative Merkmale, Rangmerkmale und quantitative Merkmale;

I diskrete, stetige und spezielle Merkmale.

(8)

Merkmalstypen

I Qualitatives Merkmal: es gibt weder eine nat¨ urliche Ordnung der Auspr¨ agungen, noch ist es sinnvoll, Abst¨ ande oder Verh¨ altnisse der Auspr¨ agungen zu betrachten; Auspr¨ agungen werden meist verbal beschrieben.

I Rangmerkmal: es gibt eine nat¨ urliche Ordnung der Auspr¨ agungen, aber es ist nicht sinnvoll, Abst¨ ande oder Verh¨ altnisse zu betrachten;

Auspr¨ agungen werden verbal oder durch ganze Zahlen beschrieben.

I Quantitatives Merkmal: Auspr¨ agungen sind Zahlen, es gibt eine nat¨ urliche Ordnung, Abst¨ ande oder Verh¨ altnisse sind interpretierbar.

I Diskretes Merkmal: Auspr¨ agungen sind isolierte Zust¨ ande, die Menge der m¨ oglichen Auspr¨ agungen ist h¨ ochstens abz¨ ahlbar.

I Stetiges Merkmal: Auspr¨ agungen (Werte) sind Zahlen, sie liegen dicht, zwischen je zwei Auspr¨ agungen ist stets eine weitere m¨ oglich.

I Beachte: Jede praktische Messung bei stetigen Merkmalen ist –

durch die jeweilige Grenze der Messgenauigkeit bedingt – diskret.

(9)

Merkmalstypen (Beispiele)

Merkmal Auspr¨ agungen Art

Geschlecht m / w keine Ordnung qualitativ

Automarke Fiat, Toyota, ... keine Ordnung qualitativ Pr¨ ufungsnote 1, 2, 3, 4, 5 Ordnung, Rangmerkmal

Abst. nicht interpr.

Beliebtheit von sehr, m¨ aßig, nicht Ordnung, Rangmerkmal

Politikern Abst. nicht interpr.

Anzahl Kinder 0, 1, 2, 3, ... Ordnung, quantitativ,

in einer Familie Abst. interpr., diskret

keine Auspr. zw.

2 anderen m¨ ogl.

Regenmenge 20mm, 50mm, ... Ordnung, quantitativ,

an einem Tag Abst. interpr., stetig

Verh¨ altn. interpr., zwischen 2 Auspr.

immer weitere m¨ ogl.

(10)

Skalenniveaus

I Je nach Art des Merkmals werden die Merkmalsauspr¨ agungen anhand verschiedener Skalen gemessen:

I Nominalskala (lat. nomen = Name);

I Ordinalskala (lat. ordinare = ordnen, auch Rangskala);

I Intervallskala;

I Verh¨ altnisskala (auch Ratioskala, Rationalskala, Proportionalskala);

I Absolutskala.

I Intervall-, Verh¨ altnis- und Absolutskala werden auch in dem Oberbegriff metrische Skala (oder Kardinalskala; griech.

metron = Maß) zusammengefasst.

I Auch feinere oder andere Unterteilungen und spezielle Skalen

werden genutzt.

(11)

Nominalskala

I Die Merkmalsauspr¨ agungen entsprechen begrifflichen Kategorien.

I Es gibt keine nat¨ urliche Ordnungsrelation.

I Sind nur zwei Auspr¨ agungen vorhanden, spricht man auch von dichotomen Merkmalen, z.B.

I Geschlecht (

” m¨ annlich“,

” weiblich“);

I Zustimmung (

” Ja“,

” Nein“).

I Gibt es eine vor der Datenerhebung feststehende Einteilung der Grundgesamtheit in endlich viele disjunkte Klassen und wird jede Untersuchungseinheit eindeutig in eine der Klassen eingeordnet, spricht man auch von einer kategoriellen Skala. Die Auspr¨ agungen heißen dann auch Kategorien oder Stufen des Merkmals.

I Beispiele sind I Familienstand (

” ledig“,

” verheiratet“,

” geschieden“,

” verwitwet“);

I Status (

” Eigent¨ umer“,

” Hauptmieter“,

” Untermieter“);

I Status (

” Azubi“,

” Geselle“,

” Meister“);

I Behandlung ( Placebo“, altes Medikament“, neues Medikament“).

(12)

Ordinalskala

I Zwischen den Merkmalsauspr¨ agungen besteht eine nat¨ urliche Reihenfolge (Ordnungsrelation, Anordnung).

I Abst¨ ande zwischen zwei Auspr¨ agungen (oder Quotienten) haben keine inhaltliche Bedeutung.

I Beispiele sind

I H¨ ochster Schulabschluss (

” Keiner“,

” Hauptschule“,

” Mittlere Reife“,

” Hochschulreife“);

I Status (

” Eigent¨ umer“,

” Hauptmieter“,

” Untermieter“);

I Status (

” Azubi“,

” Geselle“,

” Meister“);

I Bewertung (

” gut“,

” mittel“,

” schlecht“).

I Eine Ordinalskala mit ganzzahligen Ordungsziffern (R¨ angen,

Rangziffern), die mit 1 beginnend in ununterbrochener Reihenfolge

hintereinander stehen, heißt auch Rangskala, z.B. Rangpl¨ atze in der

Bundesliga.

(13)

Intervallskala

I Merkmalsauspr¨ agungen (Merkmalswerte) sind reelle Zahlen.

I Neben der Ordnungsrelation zwischen den Merkmalsauspr¨ agungen lassen sich auch deren Abst¨ ande interpretieren. Es existiert allerdings ein willk¨ urlich gesetzter Nullpunkt.

I Beispiel: Temperatur in

C .

I Quotienten d¨ urfen nicht gebildet werden, so ist z.B. die Aussage

” 20

C ist doppelt so warm wie 10

C “ sinnlos.

I Eine Intervallskala wird auch reelle Skala genannt.

(14)

Verh¨ altnisskala

I Bei einer Verh¨ altnisskala (auch ratio, positiv reell, relativen Skala) k¨ onnen nur positive Zahlen beobachtet werden.

I Zus¨ atzlich zu den Eigenschaften der Intervallskala gibt es einen nat¨ urlichen Nullpunkt.

I Multiplikation und Division sind inhaltlich sinnvolle Operationen, der Quotient von zwei Werten ist inhaltlich sinnvoll (4 ist doppelt so groß wie 2).

I Beispiele: Gewichte, L¨ angen.

I Bei stetigen Merkmalen in der relativen Skala kann man ¨ uberlegen

(und eventuell versuchen), durch Logarithmieren der Daten zu einer

reellen Skala zu gelangen. Oft kann man dann zugrundeliegende

Gesetzm¨ aßigkeiten viel besser erkennen.

(15)

Absolutskala

I Zus¨ atzlich zu den Forderungen der Verh¨ altnisskala ist neben dem nat¨ urlichen Nullpunkt hier auch eine nat¨ urliche Einheit zwingend vorgeschrieben.

I Dies ist zum Beispiel bei Merkmalen der Fall, wenn die Merkmalsauspr¨ agungen Anzahlen sind.

I Beispiel Anzahl von Kindern in einem Haushalt.

(16)

Bemerkungen

I Auch andere bzw. weitere Einteilungen und spezielle Skalen werden genutzt, z.B. die Anteilskala.

I Bei einer Variable in der Anteilskala (auch Wahrscheinlichkeitsskala) k¨ onnen nur Werte zwischen 0 und 1 beobachtet werden. Die Werte sind als Anteile interpretierbar.

I Durch die nat¨ urliche Beschr¨ ankung auf das Intervall [0, 1] k¨ onnen die Werte nicht beliebig addiert werden und der

” Rest“ bis zur 1 spielt immer eine Rolle.

I Sind nur kleine Anteile von Interesse, kann oft mit einer Ratio-Skala

gearbeitet werden, sind auch gr¨ oßere Anteile wichtig, sollte man mit

der Anteilskala rechnen.

(17)

Das Problem der Repr¨ asentativit¨ at

Die Repr¨ asentativit¨ at spielt f¨ ur statistische Auswertungen und Aussagen eine sehr große Rolle. Dabei k¨ onnen unter anderem zwei Probleme bei Teilerhebungen von Bedeutung sein.

I Das Auswahlverfahren der Individuen aus der Grundgesamtheit (das Ziehen der Stichprobe). Dieses sollte so organisiert sein, dass

I jedes Individuum die gleiche Chance hat, ausgew¨ ahlt zu werden und I dass die Individuen unabh¨ angig voneinander ausgew¨ ahlt werden.

Zu beachten ist, dass zu jedem Individuum auch mehrere Merkmale beobachtet werden k¨ onnen.

I Die Erhebung einer Stichprobe aus Zufallsexperimenten. Dabei sollte gew¨ ahrleistet sein, dass

I die Versuche unter gleichbleibenden Versuchsbedingungen durchgef¨ uhrt werden und dass

I die Zufallsexperimente unabh¨ angig voneinander durchgef¨ uhrt werden.

Auch in diesem Fall k¨ onnen mehrere Merkmale von Interesse sein.

(18)

Verbundene Stichproben

I Liegen zwei oder mehr Stichproben vor, deren Werte einander paarweise zugeordnet sind, spricht man von einer gepaarten Stichprobe bzw. von verbundenen Stichproben.

I Diese entstehen zum Beispiel dann, wenn man zwei oder mehr Merkmale an ein- und demselben statistischen Objekt beobachtet.

I Beispiele:

I Messwerte f¨ ur die Wirkungen jeweils zweier Medikamente f¨ ur ein- und dieselben Patienten;

I Anzahl von Bestellungen einer Kundengruppe vor (1. Stichprobe) und nach (2. Stichprobe) einer Werbeaktion.

I Verbundene (mathematische) Stichproben werden durch

unabh¨ angige Zufallsvektoren (X

1

, Y

1

) , . . . , (X

n

, Y

n

) modelliert.

(19)

Erste Analyseschritte f¨ ur einen neuen Datensatz

Eine Datenauswertung beginnt mit folgenden Analyseschritten:

I Wie liegen die Daten vor ?

Datenmatrix, Datentafel, unvorbereitet, . . . .

I Welche Variablen gibt es und was bedeuten sie ? Dazugeh¨ orige Beschreibung beachten .

I Welche Skala haben die einzelnen Variablen ? diskret: nominal, kategoriell, ordinal, Intervall, Anzahl;

stetig: reell, ratio, Anteil, (Anzahlverstetigung, z.B. Preise);

speziell: irgendwie anders .

I Ein-, Zwei-, oder Mehrstichprobensituation, verbundene

(gepaarte) oder gepoolte Gr¨ oßen in der Stichprobe ?

Eine Grundgesamtheit, zwei oder mehrere bzw. ein

Zufallsexperiment, zwei oder mehrere ?

(20)

Fortsetzung: erste Analyseschritte

I Was sind die Grundgesamtheiten ? Welche w¨ unschen wir uns ?

F¨ ur welche sind die Daten wohl repr¨ asentativ ?

I Sind die Daten f¨ ur die Grundgesamtheit repr¨ asentativ ?

Wie sind die Daten zustandegekommen, gab es eine unabh¨ angige

und gleichwahrscheinliche Auswahl der statistischen Individuen

und/oder unabh¨ angige Zufallsexperimente unter gleichbleibenden

Bedingungen, so dass die Variablen als unabh¨ angig und identisch

verteilt angesehen werden k¨ onnen ?

(21)

Nutzung von Statistik-Computerprogrammen

I Statistische Untersuchungen werden heutzutage im Allgemeinen unter Verwendung von Statistik-Computerprogrammen durchgef¨ uhrt.

I Im Rahmen dieser Vorlesung werden entsprechende Vorgehensweisen mit Hilfe des Programmpakets

” R“ illustriert.

I Es k¨ onnen nat¨ urlich nicht alle Details im Zusammenhang mit diesem Programmpaket in den ¨ Ubungen ge¨ ubt werden, deshalb sind hier selbstst¨ andige Bem¨ uhungen w¨ unschenswert.

I Die Interpretation der Ausgabeinformationen der Programme und

die prinzipielle Vorgehensweise (die Schritte, die nacheinander und in

Abh¨ angigkeit von bereits erzielten Ergebnissen durchzuf¨ uhren sind)

sind jedoch Bestandteil der Vorlesung und auch der ¨ Ubung und

geh¨ oren zum Pr¨ ufungsstoff.

(22)

Das Programmpaket

” R“

I ” R“ ist ein freies Statistik-Softwarepaket.

I Es kann unter http://www.cran.r-project.org/ kostenlos heruntergeladen werden.

I R ist ein kommandozeilenorientiertes Programm. Man gibt Befehle ein, die sofort ausgef¨ uhrt werden und oft Ausgabeinformationen erzeugen.

I Benutzeroberfl¨ achen, wie z.B.

” RStudio“ erleichtern das Arbeiten mit R.

I Mit Hilfe von Skripten k¨ onnen aufeinanderfolgende Befehlsketten zur Verarbeitung vorbereitet und dann jedes Mal bei Bedarf ausgef¨ uhrt werden.

I Durch die Mitarbeit vieler Personen w¨ achst der Umfang der

Programme und damit der Umfang der mit R bearbeitbaren

Probleme st¨ andig.

(23)

Beispieldatensatz

” Iris“

I Der Datensatz enth¨ alt Werte von jeweils 50 Blumen von 3 Blumenarten

” Iris setosa“ (Borsten-Schwertlilie),

” Iris versicolor“

(Schwertlilie) und

” Iris virginica“ (Virginische oder Blaue Sumpfschwertlilie).

I Zu jeder Blume wurden jeweils die folgenden Informationen erhoben:

I die L¨ ange des Kelchblattes in cm (

” Sepal.Length“);

I die Breite des Kelchblattes in cm (

” Sepal.Width“);

I die L¨ ange des Bl¨ utenblattes in cm (

” Petal.Length“);

I die Breite des Bl¨ utenblattes in cm (

” Petal.Width“);

I die Blumenart (

” Species“).

I Die Daten k¨ onnen in R wie folgt geladen werden:

> data(iris).

I Informationen zum Datensatz erh¨ alt man in R durch

> help(iris).

(24)

R Dokumentation zum Iris-Beispieldatensatz

iris {datasets} R Documentation

Edgar Anderson's Iris Data Description

This famous (Fisher's or Anderson's) iris data set gives the measurements in centimeters of the variables sepal length and width and petal length and width, respectively, for 50 flowers from each of 3 species of iris. The species are Iris setosa, versicolor, and virginica.

Usage iris iris3

Format

iris is a data frame with 150 cases (rows) and 5 variables (columns) named Sepal.Length, Sepal.Width, Petal.Length, Petal.Width, and Species.

iris3 gives the same data arranged as a 3-dimensional array of size 50 by 4 by 3, as represented by S-PLUS. The first dimension gives the case number within the species subsample, the second the measurements with names Sepal L., Sepal W., Petal L., and Petal W., and the third the species.

Source

Fisher, R. A. (1936) The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7, Part II, 179–188.

The data were collected by Anderson, Edgar (1935). The irises of the Gaspe Peninsula, Bulletin of the American Iris Society, 59, 2–5.

References

Becker, R. A., Chambers, J. M. and Wilks, A. R. (1988) The New S Language. Wadsworth &

Brooks/Cole. (has iris3 as iris.) See Also

matplot some examples of which use iris. Examples

dni3 <- dimnames(iris3)

ii <- data.frame(matrix(aperm(iris3, c(1,3,2)), ncol=4, dimnames = list(NULL, sub(" L.",".Length", sub(" W.",".Width", dni3[[2]])))), Species = gl(3, 50, labels=sub("S", "s", sub("V", "v", dni3[[3]])))) all.equal(ii, iris) # TRUE

[Package datasets version 2.15.2 Index]

R: Edgar Anderson's Iris Data http://127.0.0.1:28690/library/datasets/html/iris.html

Prof. Dr. Hans-J¨org Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 24

(25)

” Iris setosa“ (Borsten-Schwertlilie)

Quelle: Wikipedia, CC BY-SA 3.0,https://commons.wikimedia.org/w/index.php?curid=170298

(26)

” Iris versicolor“ (Verschiedenfarbige Schwertlilie)

Quelle: Wikipedia, Paul Adam, CC BY-SA 3.0 de,https://commons.wikimedia.org/w/index.php?curid=22792483

(27)

” Iris virginica“ (Virginische Schwertlilie)

Quelle: Wikipedia, Eric Hunt, CC BY-SA 4.0,https://commons.wikimedia.org/w/index.php?curid=72555262

(28)

Datenmatrix als Darstellungsform f¨ ur statistische Daten

I Eine Darstellung der von den Untersuchungseinheiten erhobenen gleichartigen Daten in einer Tabelle mit Zeilen und Spalten ist eine Datenmatrix. Von jeder Untersuchungseinheit werden die gleichen Merkmale erhoben.

I Die Informationen zu einer Untersuchungseinheit werden in einer Zeile dargestellt. Die zu den einzelnen Zeilen geh¨ orenden Individuen bezeichnet man auch als F¨ alle und die zugeh¨ origen Daten

(individuelle) Datens¨ atze.

I Die zu einem Merkmal geh¨ orende Information wird jeweils in einer Spalte dargestellt. Die Spalten bezeichnet man auch als Variable und die Spalten¨ uberschrift als den Namen der Variable.

I Am Schnittpunkt der i−ten Zeile mit der j −ten Spalte ist also der

Beobachtungswert x

ij

f¨ ur die j −te Variable beim i −ten Individuum

eingetragen. Zur modellbasierten Analyse werden die Werte x

ij

als

Realisierungen von Zufallsgr¨ oßen X

ij

angesehen.

(29)

Ausschnitt Datensatz

” Iris“

> data(iris)

> iris

zzgr_daten_iris.txt

Sepal.Length Sepal.Width Petal.Length Petal.Width Species

1 5.1 3.5 1.4 0.2 setosa

2 4.9 3.0 1.4 0.2 setosa

3 4.7 3.2 1.3 0.2 setosa

4 4.6 3.1 1.5 0.2 setosa

5 5.0 3.6 1.4 0.2 setosa

6 5.4 3.9 1.7 0.4 setosa

7 4.6 3.4 1.4 0.3 setosa

8 5.0 3.4 1.5 0.2 setosa

9 4.4 2.9 1.4 0.2 setosa

10 4.9 3.1 1.5 0.1 setosa

11 5.4 3.7 1.5 0.2 setosa

12 4.8 3.4 1.6 0.2 setosa

13 4.8 3.0 1.4 0.1 setosa

14 4.3 3.0 1.1 0.1 setosa

15 5.8 4.0 1.2 0.2 setosa

16 5.7 4.4 1.5 0.4 setosa

17 5.4 3.9 1.3 0.4 setosa

18 5.1 3.5 1.4 0.3 setosa

19 5.7 3.8 1.7 0.3 setosa

20 5.1 3.8 1.5 0.3 setosa

21 5.4 3.4 1.7 0.2 setosa

22 5.1 3.7 1.5 0.4 setosa

23 4.6 3.6 1.0 0.2 setosa

24 5.1 3.3 1.7 0.5 setosa

25 4.8 3.4 1.9 0.2 setosa

26 5.0 3.0 1.6 0.2 setosa

27 5.0 3.4 1.6 0.4 setosa

28 5.2 3.5 1.5 0.2 setosa

29 5.2 3.4 1.4 0.2 setosa

30 4.7 3.2 1.6 0.2 setosa

Prof. Dr. Hans-J¨org Starkloff Stat. f. Ing. Wi 2019/2020 4 Deskriptive Statistik 15.11.2019 29

(30)

Datenliste

I Gibt es nur Beobachtungen zu einem Merkmal, k¨ onnen die Beobachtungswerte in einer Datenliste angegeben werden.

I Beispiel: R-Datensatz

” morley“ (Lichtgeschwindigkeitsmessungen)

> data(morley)

> help(morley)

> morley

> lightspeeds=morley$Speed + 299000

> lightspeeds[1:20]

[1] 299850 299740 299900 300070 299930 299850 299950

[8] 299980 299980 299880 300000 299980 299930 299650

[15] 299760 299810 300000 300000 299960 299960

(31)

Datentafel

I Die Datentafel ist eine alternative Darstellung der Daten zur Datenmatrix, wenn nur diskrete Merkmale auftreten und die

statistische Information durch Anzahlen von Untersuchungseinheiten angegeben werden kann.

I Eine Datentafel enth¨ alt die Anzahl der Untersuchungseinheiten mit

der gegebenen Faktorkombination in der jeweiligen Zelle.

(32)

Beispiel Datentafel f¨ ur Datensatz

” Titanic“

Ein Beispieldatensatz in R ist der Datensatz

” Titanic“:

> data(Titanic)

> help(Titanic)

> Titanic

> ftable(Titanic,col.vars=c("Class","Survived"))

Class 1st 2nd 3rd Crew

Survived No Yes No Yes No Yes No Yes

Sex Age

Male Child 0 5 0 11 35 13 0 0

Adult 118 57 154 14 387 75 670 192

Female Child 0 1 0 13 17 14 0 0

Adult 4 140 13 80 89 76 3 20

(33)

4.2 Grafiken und statistische Maßzahlen (Kenngr¨ oßen, Parameter) f¨ ur Daten

I Grafiken und statistische Maßzahlen dienen dazu, einen ¨ Uberblick

¨

uber die vorliegenden Daten zu erhalten, Vorstellungen ¨ uber m¨ ogliche zugrundeliegende Verteilungen, Eigenschaften oder Besonderheiten zu entwickeln oder einfache Beschreibungen der Daten mit wenigen, m¨ oglichst aussagekr¨ aftigen Kenngr¨ oßen zu erm¨ oglichen.

I In Abh¨ angigkeit von den Skalenniveaus und anderen Eigenschaften der Daten (wie z.B. univariate, bivariate oder multivariate

Datens¨ atze) k¨ onnen unterschiedliche Grafiken und Kenngr¨ oßen genutzt werden.

I Im Rahmen dieser Vorlesung werden nicht alle M¨ oglichkeiten

vorgestellt, sondern nur eine Auswahl von h¨ aufiger verwendeten bzw.

aussagekr¨ aftigen Grafiken und Maßzahlen.

(34)

Fragestellungen im Zusammenhang mit den Grafiken

I F¨ ur welche Daten eignet sich die Grafik ? I Wie ist die Grafik aufgebaut ?

I Wie interpretiert man die Grafik ?

I Welche Informationen kann die Grafik liefern und warum ? I Welche Informationen kann die Grafik nicht liefern und warum ? I Versucht man mit einer vorliegenden Grafik zu t¨ auschen, etwas

bestimmtes zu suggerieren ?

(Zitat, zu finden z.B. in Benesch , Schl¨ usselkonzepte zur Statistik, Springer, 2013, S.2:

” Die Statistik ist dem Politiker, was die Laterne dem Betrunkenen ist: Sie dient zum Festhalten, nicht der

Erleuchtung.“

Siehe dazu zum Beispiel auch die

” Unstatistiken des Monats“ unter

http://www.rwi-essen.de/unstatistik/.)

(35)

4.2.1 Grafiken f¨ ur univariate stetige Daten (a) Punktdiagramm

I Ein Punktdiagramm kann f¨ ur ein stetiges Merkmal erstellt werden.

Dabei werden die Beobachtungswerte durch Punkte auf einem geeigneten Abschnitt der reellen Zahlengeraden markiert.

I Man erh¨ alt einen ¨ Uberblick ¨ uber den Bereich, in dem Beobachtungswerte liegen und wie stark sie streuen.

I Teilweise kann man Teilbereiche erkennen, in denen sich die Beobachtungswerte h¨ aufen oder seltener vorkommen.

I Ebenfalls kann man sehr große oder sehr kleine Beobachtungswerte, die von der

” Masse“ der Werte relativ weit entfernt sind und eventuell als Ausreißer zu behandeln sind, erkennen.

I Die Zusatzinformationen zum Datensatz muss ggf. mit genutzt

werden (falls Daten transformiert sind etc.).

(36)

Punktdiagramm f¨ ur Datensatz

” morley“

> data(morley)

> lightspeeds=morley$Speed+299000

> stripchart(lightspeeds, main="Punktdiagramm Lichtgeschwindigkeitsmessungen")

(37)

Probleme mit Punktdiagrammen

I Zusammenfallende oder sehr nah beieinander liegende

Beobachtungswerte sind im Diagramm nicht mehr unterscheidbar, so dass Punkte durch

” Uberdeckung“ verloren gehen k¨ ¨ onnen.

I Dieses Problem kann man beheben, indem man die Punktpositionen in die ungenutzte Richtung (vertikal bei horizontalen

Punktdiagrammen) durch systematisches Stapeln (gestapeltes Punktdiagramm) oder durch zuf¨ alliges Verzittern (verzittertes Punktdiagramm) verschiebt.

I Ein verzittertes Punktdiagramm sieht nach jedem Neuzeichnen anders aus.

I Beim gestapelten Punktdiagramm k¨ onnen Muster vorgegaukelt

werden, die aber nur sehr zuf¨ allig und damit wenig aussagekr¨ aftig

sind. Die Verteilung der Punkte kann nicht immer gut erfasst

werden.

(38)

Gestapeltes Punktdiagramm f¨ ur Beispiel

> stripchart(lightspeeds,method="stack", main="Gestapeltes Punktdiagramm + Lichtgeschwindigkeitsmessungen")

(39)

Verzittertes Punktdiagramm f¨ ur Beispiel

> stripchart(lightspeeds,method="jitter", main="Verzittertes Punktdiagramm + Lichtgeschwindigkeitsmessungen")

(40)

(b) Histogramm

I Ausgangspunkt ist eine Klasseneinteilung der Beobachtungswerte.

I Dazu wird ein Intervall, in dem alle Beobachtungswerte liegen, in eine endliche Anzahl disjunkter Teilintervalle, die sogenannten Klassen oder Gruppen zerlegt. Jede Klasse ist dann eindeutig durch die Klassenmitte und die Klassenbreite bzw. durch die untere und obere Klassengrenze bestimmt.

I Die Anzahl der Klassen sollte nicht zu klein und nicht zu groß sein.

I Die Klassenbreiten sollten ¨ ubereinstimmen (ggf. mit Ausnahme der Randklassen).

I Nach Festlegung einer Klasseneinteilung werden die absoluten Klassenh¨ aufigkeiten bestimmt, d.h. f¨ ur jede Klasse wird die Anzahl der Beobachtungswerte in der Klasse gez¨ ahlt.

I Dann werden in einem Koordinatensystem aneinanderstoßende Rechtecke mit Fl¨ acheninhalten proportional zur

Klassenh¨ aufigkeit und Klassenintervallen als Basis gezeichnet.

(41)

Histogramm f¨ ur Beispiel Lichtgeschwindigkeiten

> hist(lightspeeds)

(42)

Histogramm und gestapeltes Punktdiagramm f¨ ur Beispiel

> hist(lightspeeds)

> stripchart(lightspeeds,method="stack", add=TRUE,col="red")

(43)

Histogramm mit 3 Klassen und Beispielpunktdiagramm

> b=c(299600,299800,300000,300200)

> hist(lightspeeds,breaks=b)

> stripchart(lightspeeds,method="stack", add=TRUE,col="red")

(44)

Histogramm mit 50 Klassen und Beispielpunktdiagramm

> b=c(seq(299600,300100,by=10))

> hist(lightspeeds,breaks=b)

> stripchart(lightspeeds,method="stack", add=TRUE,col="red")

(45)

Bemerkungen zu Histogrammen

I Die Gestalt eines Histogramms h¨ angt stark von der gew¨ ahlten Klasseneinteilung (und auch des gew¨ ahlten Gesamtintervalls) ab, deshalb sollte man ggf. etwas experimentieren, um ein m¨ oglichst aussagekr¨ aftiges Histogramm zu erzeugen.

I Durch die Klasseneinteilung geht Information verloren.

I Man kann ggf. Ausreißer am linken oder rechten Rand erkennen.

I Man kann eventuell Verteilungseigenschaften, wie Symmetrie oder Schiefe, erkennen (oder erahnen).

I Bei ¨ ubereinstimmenden Klassenbreiten sind die H¨ ohen der Rechtecke proportional zu den H¨ aufigkeiten.

I Statt der absoluten H¨ aufigkeiten k¨ onnen die H¨ ohen der Rechtecke

auch so normiert werden, dass der Gesamtfl¨ acheninhalt unter allen

Rechtecken gleich 1 ist. Dann ist ein (meist nicht sehr belastbarer)

Vergleich mit einer Verteilungsdichte m¨ oglich.

(46)

Beispielhistogramm mit Normalverteilungsdichtesch¨ atzung

> hist(lightspeeds,freq=F)

> curve(dnorm(x,mean(lightspeeds),sd(lightspeeds)), add=TRUE,col="red")

(47)

4.2.2 Grafiken f¨ ur univariate diskrete Daten (a) Balkendiagramm

I Bei Balkendiagrammen werden die Anzahlen der Beobachtungswerte in den einzelnen Kategorien (Klassen) durch gleich breite Balken fl¨ achen- und auch h¨ ohenproportional dargestellt.

I Im Unterschied zum Histogramm f¨ ur stetige Daten haben die Balken beim Balkendiagramm einen Abstand, um den diskreten Charakter der Daten zu unterstreichen.

I Sowohl beim Histogramm als auch beim Balkendiagramm werden aber H¨ aufigkeiten oder Anteile fl¨ achenproportional dargestellt.

I Bei der Anzeige ordinaler Daten sollte die Reihenfolge der Balken

der nat¨ urlichen Ordnung der Merkmalsauspr¨ agungen entsprechen.

(48)

Beispiel Datensatz

” Titanic“ R–Befehle

Funktion zur Gewinnung von Summenanzahlen z.B.

> margin=function(x, ...)

+ apply(x,pmatch(c(...),names(dimnames(x))), sum)

> margin(Titanic,"Survived") No Yes

1490 711

Erzeugung der Balkendiagramme

> opar=par(mfrow=c(1,3))

> barplot(margin(Titanic,"Survived"),main="Survived")

> barplot(margin(Titanic,"Sex"),main="Sex")

> barplot(margin(Titanic,"Class"),main="Class")

> par(opar)

(49)

Balkendiagramme im Beispiel

” Titanic“

(50)

(b) Kreisdiagramm

Die Anzahlen (oder Anteile) der Beobachtungswerte in den einzelnen Kategorien (Klassen) k¨ onnen ggf. auch durch ein Kreisdiagramm (Tortendiagramm, Kuchendiagramm) fl¨ achenproportional (hier auch winkelproportional) dargestellt werden.

R–Befehle zur Erzeugung der Kreisdiagramme im Beispiel:

> opar=par(mfrow=c(1,3))

> pie(margin(Titanic,"Survived"),main="Survived")

> pie(margin(Titanic,"Sex"),main="Sex")

> pie(margin(Titanic,"Class"),main="Class")

> par(opar)

(51)

Beispielkreisdiagramme

(52)

4.2.3 Kenngr¨ oßen und Parameter zur Beschreibung univariater Daten

I Lageparameter

I Mittelwerte (arithmetisch, geometrisch, harmonisch) I empirischer Median

I empirische Quantile (Quartile, Dezentile, . . . ) I Variabililit¨ atsparameter (Streuparameter)

I empirische Varianz

I empirische Standardabweichung I Spannweite

I empirischer (Inter-)Quartilsabstand IQR I empirischer Variationskoeffizient

I empirische geometrische Standardabweichung I Formparameter

I empirische Schiefe

I empirische W¨ olbung

(53)

(a) Arithmetischer Mittelwert

I F¨ ur reelle Beobachtungswerte x

1

, x

2

, . . . , x

n

ist der arithmetische Mittelwert definiert durch

x = 1 n

n

X

i=1

x

i

= 1

n (x

1

+ x

2

+ . . . + x

n

) .

I In der Statistik wird er als Realisierung des Stichprobenmittelwerts (eine spezielle Stichproben- oder Sch¨ atzfunktion)

X = 1 n

n

X

i=1

X

i

= 1

n (X

1

+ X

2

+ . . . + X

n

)

einer mathematischen Stichprobe (X

1

, X

2

, . . . , X

n

) (unabh¨ angige

und identisch verteilte Zufallsgr¨ oßen) betrachtet. Unter geeigneten

Voraussetzungen liefert er eine erwartungstreue und konsistente

Sch¨ atzfunktion f¨ ur den Erwartungswert der X

i

: EX c = X .

(54)

Unterschied konkrete und mathematische Stichprobe

I Liegen n beobachtete Werte x

1

, . . . , x

n

eines Merkmals X vor, so bilden diese eine konkrete Stichprobe vom Umfang n .

I Man betrachtet jeden beobachteten Wert x

i

als Realisierung einer Zufallsgr¨ oße X

i

, wobei die X

i

(i = 1, ..., n) alle unabh¨ angig und identisch verteilt (engl.: i.i.d.) mit F

Xi

= F

X

seien.

I Die Zufallsgr¨ oße X

i

beschreibt also das zuf¨ allige Ergebnis der i -ten Messung, des i-ten Zufallsexperiments oder der i -ten Auswahl eines Merkmalstr¨ agers, je nachdem wie die konkrete Stichprobe zustande gekommen ist.

I Die Zufallsgr¨ oßen X

1

, . . . , X

n

bilden die mathematische Stichprobe.

(55)

Arithmetischer Mittelwert in R

Der Befehl in R zur Berechnung des (arithmetischen) Mittelwertes ist

”mean()”.

> mean(lightspeeds) [1] 299852.4

Ein Histogramm mit Mittelwertslinie kann dann z.B. so erzeugt werden:

> hist(lightspeeds)

> abline(v=mean(lightspeeds),col="red")

(56)

(b) Geometrischer Mittelwert

I F¨ ur nichtnegative reelle Beobachtungswerte (einer ratio-Skala) x

1

, x

2

, . . . , x

n

ist der geometrische Mittelwert definiert durch

x

G

=

n

v u u t

n

Y

i=1

x

i

= (x

1

· x

2

· . . . · x

n

)

1n

. I Bemerkung: Es gilt immer x

G

≤ x .

I Anwendung findet er zum Beispiel, wenn eine logarithmische Skala (Transformation) sinnvoll ist oder die Merkmalsauspr¨ agungen relative ¨ Anderungen sind, so bei der Mittelung von

Wachstumsfaktoren.

I In R kann man die Exponentialfunktion zur Berechnung von geometrischen Mittelwerten nutzen:

x

G

= exp 1 n

n

X

i=1

ln(x

i

)

!

.

(57)

Beispiel zum geometrischen Mittelwert

I Beispiel:

Zeitpunkt 0 1 2

Zustandswert 100 81 100

Merkmalswert=Wachstumsfaktor x

1

= 0.81 x

2

= 1.234

⇒ x

G

= 1.000

aber x = 1.022 (obwohl insgesamt keine ¨ Anderung des Zustandswerts zum Ausgangszeitpunkt vorliegt).

I In R ergibt zum Beispiel:

> x=c(81/100,100/81)

> exp(mean(log(x))) [1] 1

> mean(x) [1] 1.022284

I Bemerkung: log(x) berechnet in R den Vektor der nat¨ urlichen

Logarithmen des Vektors x .

(58)

(c) Harmonischer Mittelwert

I In manchen Situationen ist f¨ ur nur positive (oder nur negative) Beobachtungswerte x

1

, x

2

, . . . , x

n

der harmonische Mittelwert

x

H

= n

n

P

i=1 1 xi

besser geeignet, so z.B. bei Mittelwertbildung von Verh¨ altniszahlen (bei gleichem Z¨ ahler) wie Durchschittsgeschwindigkeiten

(gleichlange Teilstrecken) oder Durchschnittspreisen (gleiche Geldbetr¨ age).

I Gilt x

i

> 0 f¨ ur alle i = 1, . . . , n , dann gilt immer x

H

≤ x

G

≤ x .

I Im Fall von x

1

= x

2

= . . . = x

n

= x > 0 erh¨ alt man

x

H

= x

G

= x = x .

(59)

Beispiel zum harmonischen Mittelwert

I Beispiel: Konstante Geschwindigkeiten auf jeweiligen Teilstrecken

Teil-/Gesamtstrecke 1 2 1 + 2

Streckenl¨ ange in km 100 100 200

Zeit in h 2 1 3

Geschwindigkeit in km/h x

1

= 50 x

2

= 100

2003

= 66.6

⇒ x

H

= 2

1

50

+

1001

= 66.66 , aber x = 75 und x

G

= 70.71 . I In R (ab dem Zeichen # beginnt ein Kommentar):

> x=c(50,100)

> 1/mean(1/x) # Harmonisches Mittel [1] 66.66667

> mean(x) # Arithmetisches Mittel [1] 75

> exp(mean(log(x))) # Geometrisches Mittel

[1] 70.71068

(60)

(d) Empirischer Median

I Der empirische Median oder Zentralwert der Beobachtungsreihe x

1

, x

2

, . . . , x

n

ist dadurch gekennzeichnet, dass jeweils 50 % der Beobachtungswerte einen Wert gr¨ oßer oder gleich bzw. kleiner oder gleich dem empirischen Median annehmen.

I Sind

x

(1)

≤ x

(2)

≤ . . . ≤ x

(n)

die der Gr¨ oße nach geordneten Beobachtungswerte, kann der (empirische) Median ˜ x bestimmt werden durch

˜ x =

x (

n+12

) , falls n ungerade,

1 2

x (

n2

) + x (

n2+1

)

, falls n gerade .

(61)

Beispiele zum empirischen Median

I Beobachtungswerte 4, 5, 1, 3, 6, 7, 8 ⇒ n = 7 , x ˜ = 5 , x = 4.857 . I Beobachtungswerte 4, 5, 1, 3, 6, 7 ⇒ n = 6, x ˜ = 4.5 , x = 4.33 . I Beobachtungswerte 4, 5, 1, 3, 6, 7, 800 ⇒ n = 7 , x ˜ = 5 , x = 118 . I Der Median ist weniger empfindlich gegen¨ uber Ausreißern in der

Beobachtungsreihe, d.h. Werte, die weit von den ¨ ubrigen entfernt liegen, beeinflussen den Median nicht (oder kaum). Dies trifft auf den arithmetischen Mittelwert im Allgemeinen nicht zu.

I In R:

> median(lightspeeds) [1] 299850

I Der Median kann sogar f¨ ur Daten auf einer nur ordinalen Skala

genutzt werden (wenn z.B. die Addition, die zur Bildung des

arithmetischen Mittelwerts notwendig ist, gar keinen Sinn macht).

(62)

Histogramm mit Mittelwert (rot) und Median (blau)

> hist(lightspeeds)

> abline(v=mean(lightspeeds),col="red")

> abline(v=median(lightspeeds),col="blue")

(63)

(e) Empirische Quantile

I Ein Ordnen der Datenreihe x

1

, x

2

, . . . , x

n

der Gr¨ oße nach ergibt die geordnete Datenreihe (geordnete Stichprobe, Variationsreihe)

x

min

:= x

(1)

≤ x

(2)

≤ . . . ≤ x

(n−1)

≤ x

(n)

=: x

max

. I Andere Bezeichnungen f¨ ur die Variationsreihe sind

x

1

≤ x

2

≤ . . . ≤ x

n

oder x

1:n

≤ x

2:n

≤ . . . ≤ x

n:n

. I Das empirische p−Quantil mit 0 < p < 1 ist ein Zahlenwert ˆ x

p

(oder bezeichnet mit ˜ x

p

) f¨ ur den gilt, dass p · 100% der Werte in der Variationsreihe kleiner oder gleich ˆ x

p

und (1 − p) · 100% der Werte gr¨ oßer oder gleich ˆ x

p

sind, z.B.

ˆ x

p

=

 

 

x

(k)

, falls np keine ganze Zahl ist, k ist dann die auf np folgende ganze Zahl;

1

2

x

(k)

+ x

(k+1)

, falls np =: k eine ganze Zahl ist.

(64)

Beispiel zu empirischen Quantilen

I 10 Beobachtungswerte: 1, 3, 7, 2, 20, 9, 15, 2, 11, 10 .

I Variationsreihe: 1 ≤ 2 ≤ 2 ≤ 3 ≤ 7 ≤ 9 ≤ 10 ≤ 11 ≤ 15 ≤ 20 . I 0.05−Quantil :

p = 0.05, np = 0.5 ⇒ k = 1 , x ˆ

0.05

= x

(1)

= 1 . I 0.10−Quantil :

p = 0.10, np = 1 = k ⇒ x ˆ

0.05

=

12

(x

(1)

+ x

(2)

) = 1.5 . I 0.20−Quantil :

p = 0.20, np = 2 = k ⇒ x ˆ

0.20

=

12

(x

(2)

+ x

(3)

) = 2 . I 0.25−Quantil :

p = 0.25, np = 2.5 ⇒ k = 3, x ˆ

0.25

= x

(3)

= 2 . I 0.50−Quantil :

p = 0.50, np = 5 = k ⇒ x ˆ

0.50

=

12

(x

(5)

+ x

(6)

) = 8 = ˜ x .

(65)

Spezielle empirische Quantile

I Das 0.5−Quantil ist der Median.

I Das 0.25−Quantil heißt auch unteres oder erstes Quartil (oder auch unterer Viertelwert).

I Das 0.75−Quantil heißt auch oberes oder drittes Quartil (oder auch oberer Viertelwert).

I Das

10n

−Quantil mit n ∈ {1, 2, 3, 4, 5, 6, 7, 8, 9} heißt auch n−tes Dezentil .

I Als 0−Quantil kann man das Minumum x

min

= x

(1)

ansehen.

I Als 1−Quantil kann man das Maximum x

max

= x

(n)

ansehen.

(66)

Berechnung von Quantilen mit R

I Der Befehl quantile() erzeugt als Ausgabe eine Tabelle mit Werten f¨ ur das Minimum, das Maximum, den Median und die Quartile.

I Damit die Quantile nach der oben angegebenen Formel berechnet werden, muss type=2 angegeben werden.

I Beispiel:

> quantile(lightspeeds,type=2)

0% 25% 50% 75% 100%

299620 299805 299850 299895 300070

> quantile(lightspeeds)

0% 25% 50% 75% 100%

299620.0 299807.5 299850.0 299892.5 300070.0

(67)

Berechnung von Quantilen mit R

I Sollen f¨ ur bestimmte Niveaus p die zugeh¨ origen Quantile

berechnet werden, k¨ onnen diese dem Befehl mit ¨ ubergeben werden.

I Beispiele:

> quantile(lightspeeds,c(0.1,0.2,0.3))

10% 20% 30%

299760 299798 299810

> quantile(lightspeeds,c(0.1,0.2,0.3),type=2)

10% 20% 30%

299760 299795 299810

> quantile(lightspeeds,seq(0.85,0.95,0.05))

85% 90% 95%

299941.5 299960.0 299980.0

> quantile(lightspeeds,seq(0.85,0.95,0.05),type=2)

85% 90% 95%

299945 299960 299980

(68)

(f) Empirische Varianz

I F¨ ur reelle Beobachtungswerte x

1

, x

2

, . . . , x

n

ist die empirische Varianz

s

2

= 1 n − 1

n

X

i=1

(x

i

− x)

2

= 1 n − 1

n

X

i=1

x

i2

− nx

2

! .

I In der Statistik wird sie als Realisierung des Stichprobenvarianz S

2

= 1

n − 1

n

X

i=1

(X

i

− X )

2

einer mathematischen Stichprobe (X

1

, X

2

, . . . , X

n

) betrachtet.

Diese definiert unter geeigneten Voraussetzungen durch die Wahl des Nenners n − 1 eine erwartungstreue und konsistente

Sch¨ atzfunktion f¨ ur die Varianz der Zufallsgr¨ oßen X

i

: \ VarX = S

2

.

(69)

Exkurs zur Parametersch¨ atzung

I Es wird eine Annahme ¨ uber die den Beobachtungen zugrunde liegende Verteilung getroffen, z.B. X ∼ N(µ, σ

2

) oder X ∼ B(p) . I Ein unbekannter Parameter ϑ der Verteilung soll aus den Daten

gesch¨ atzt werden.

I Als Sch¨ atzfunktion verwendet man eine geeignete Funktion der mathematischen Stichprobe (eine Stichprobenfunktion)

ϑ b

n

= f (X

1

, ..., X

n

) .

I W¨ unschenschenswerte Eigenschaften einer Sch¨ atzfunktion sind:

I Erwartungstreue: Eb ϑ

n

= ϑ (im Mittel trifft die Sch¨ atzung den wahren Parameter);

I Konsistenz: lim

n→∞

ϑ b

n

= ϑ (die Sch¨ atzung konvergiert gegen den

wahren Parameterwert mit wachsendem Stichprobenumfang).

(70)

(g) Empirische Standardabweichung

I So wie die (theoretische) Standardabweichung einer Zufallsgr¨ oße als Quadratwurzel aus der Varianz definiert wird, ist die empirische Standardabweichung die Quadratwurzel aus der empirischen Varianz:

s =

√ s

2

=

v u u t

1 n − 1

n

X

i=1

(x

i

− x)

2

. I Sowohl die empirische Varianz als auch die empirische

Standardabweichung sind empfindlich gegen¨ uber Ausreißern.

I Beide Maßzahlen k¨ onnen nur bei bestimmten Verteilungen, wie z.B. der Normalverteilung, gut interpretiert werden.

I Bei Merkmalswerten mit (physikalischen etc.) Maßeinheiten kommt

bei der empirischen Varianz diese Maßeinheit im Quadrat vor, bei

der empirischen Standardabweichung die Maßeinheit selber.

(71)

(h) Spannweite

I Die Spannweite (oder Variationsbreite) der Stichprobe ist die Differenz der extremalen Werte,

∆ = x

max

− x

min

= x

(n)

− x

(1)

.

Sie gibt folglich die L¨ ange des kleinsten Intervalls an, in das alle Beobachtungswerte fallen.

I Die Spannweite ist empfindlich gegen¨ uber Ausreißern, da sie nur von den extremen Werten abh¨ angt.

I Berechnung der bisher behandelten drei Streumaße in R:

> var(lightspeeds) # empirische Varianz [1] 6242.667

> sd(lightspeeds) # empirische Standardabweichung [1] 79.01055

> max(lightspeeds)-min(lightspeeds) # Spannweite

[1] 450

(72)

(i) Empirischer Interquartilsabstand

I Der empirische Interquartilsabstand ist die Differenz des oberen und des unteren Quartils,

IQR(x) = ˆ d x

0.75

− x ˆ

0.25

.

I Da die sehr großen und sehr kleinen Beobachtungswerte bei der Berechnung des Interquartilsabstands keine Rolle spielen, ist er relativ unempfindlich gegen¨ uber Ausreißern.

I In dem Intervall der L¨ ange des Interquartilabstandes vom unteren zum oberen Quartil liegt die H¨ alfte der Beobachtungswerte.

I Beispielberechnung in R:

> IQR(lightspeeds) [1] 85

> IQR(lightspeeds,type=2)

[1] 90

(73)

(j) Empirischer Variationskoeffizient

I F¨ ur Merkmalswerte in der Verh¨ altnisskala k¨ onnen Streumaße durch Quotientenbildung in Bezug zu Lagemaßen gebracht werden.

Dadurch entstehen einheitenlose Maßzahlen, die z.B. zum Vergleich unterschiedlicher Daten genutzt werden k¨ onnen.

I Der empirische Variationskoeffizient ist definiert durch v(x) = s

x ,

er ist eine Sch¨ atzung f¨ ur den theoretischen Variationskoeffizienten.

I Beispielberechnung in R:

> sd(lightspeeds)/mean(lightspeeds)

[1] 0.0002634981

(74)

(k) Geometrische Standardabweichung

I Die (theoretische) geometrische Standardabweichung einer positiven Zufallsgr¨ oße X ist definiert durch

exp p

Var (ln(X )) .

Den entsprechenden empirischen Wert f¨ ur eine Datenreihe dazu erh¨ alt man, in dem man die Standardabweichung durch die empirische Standardabweichung ersetzt.

I Beispielberechnung in R:

> exp(sd(log(lightspeeds)))

[1] 1.000264

(75)

(l) Schiefe (engl. ”skewness”) als Formparameter

I Oft spielt auch die Form z.B. der Verteilungsdichte bei Untersuchungen oder bei der Modellierung eine Rolle.

I Die Schiefe der Zufallsvariablen X wird definiert als E(X − EX )

3

(VarX )

3/2

.

Damit ist die Schiefe auch das 3. Moment der standardisierten Zufallsgr¨ oße zu X .

I Die empirische Schiefe f¨ ur eine konkrete Stichprobe x

1

, . . . , x

n

ist 1

n

n

X

i=1

x

i

− x s

3

.

I Rechtsschief (oder linkssteil) ist eine Verteilung, wenn die Dichte nach rechts hin langsamer ausl¨ auft, dann ist der Schiefeparameter positiv. Analog ist der Schiefeparameter bei linksschiefen

(bzw. rechtssteilen) Verteilungen negativ.

(76)

Ein- und Mehrgipfligkeit

I Eine Rolle spielt h¨ aufig auch, ob eine Dichtefunktion (oder H¨ aufigkeitsverteilung) ein ausgepr¨ agtes Maximum (eingipflige Verteilung), oder mehrere derartige Maxima (mehrgipflige Verteilung) besitzt oder keine dieser Situationen vorliegt.

I Mehrgipflige Verteilungen ergeben sich oft durch Mischungen mehrerer eingipfliger Verteilungen. Im Beispiel wird eine

Normalverteilung mit Erwartungswert -5 und Varianz 1 (Dichte f

1

)

mit einer solchen mit Erwartungswert 5 (Dichte f

2

) gemischt, die

Dichte der gemischten Zufallsgr¨ oße ist hier f = 0.5f

1

+ 0.5f

2

.

(77)

(m) W¨ olbung und Exzess als Formparameter

I Die W¨ olbung oder Kurtosis ist eine Maßzahl f¨ ur die Steilheit oder

” Spitzigkeit“ einer eingipfligen Dichtefunktion. Verteilungen mit geringer W¨ olbung streuen relativ gleichm¨ aßig; bei Verteilungen mit hoher W¨ olbung resultiert die Streuung mehr aus extremen, aber seltenen Ereignissen.

I Die W¨ olbung der Zufallsgr¨ oße X ist E(X − EX )

4

(VarX )

2

, die empirische W¨ olbung 1

n

n

X

i=1

x

i

− x s

4

.

I Der Exzess (auch: ¨ Uberkurtosis) ist definiert als E(X − EX )

4

(VarX )

2

− 3 , so erfolgt ein Vergleich mit der W¨ olbung einer Normalverteilung.

I Eingipflige Verteilungen mit einem positiven Exzess haben im Vergleich zur Normalverteilung spitzere Verteilungen (

” steilgipflig“

im Gegensatz zu

” normalgipflig“ bzw.

” flachgipflig“).

(78)

Grafiken zur Schiefe und zum Exzess

links: Dichte ein lognormalverteilten Zufallsgr¨ oße exp(X ) mit X ∼ N(0, 0.5

2

) : rechtsschiefe Verteilung mit Schiefe ≈ 1.75 ;

rechts: Dichte einer Normalverteilung und einer t−Verteilung mit 5 Freiheitsgraden, Erwartungswerte 0 ; Varianzen 5/3 , Exzess

Normalverteilung: 0 , t−Verteilung : 6 .

(79)

4.2.4 Weitere Grafiken f¨ ur univariate stetige Daten (a) Box-Plots

I Ein Box-Plot (Box-Whisker-Plot, Kasten-Diagramm) ist eine aussagekr¨ aftige grafische Darstellung der F¨ unfer-Charakteristik, bestehend aus dem Median ˜ x = ˆ x

0.5

, den empirischen Quartilen (Viertelwerten) ˆ x

0.25

und ˆ x

0.75

und den Ausreißergrenzen A

u

, A

o

. I Die Ausreißergrenzen werden dabei definiert durch

A

u

= ˆ x

0.25

− 1.5 · IQR(x) d und A

o

= ˆ x

0.75

+ 1.5 · IQR(x) d . Dies betrifft die sogenannten inneren Z¨ aune (”inner fences”); f¨ ur manche Fragen verwendet man auch die sogenannten ¨ außeren Z¨ aune (”outer fences”), definiert durch ±3 · IQR(x) . d

I Die Grenzen f¨ ur die Box (”hinges”, Tukeys Scharniere (T¨ urangel)) werden durch das untere und das obere Quartil bestimmt.

I Eine gerade Linie kennzeichnet innerhalb der Box den Median.

(80)

Fortsetzung Box-Plots

I Die untere Begrenzungslinie wird dabei nicht durch die untere Ausreißergrenze definiert, sondern durch den kleinsten

Beobachtungswert, der ≥ A

u

ist.

I Analog wird die obere Begrenzungslinie definiert durch den gr¨ oßten Beobachtungswert, der ≤ A

o

ist.

I Diese Grenzen heißen auch Whisker-Grenzen (”whisker”:

Schnurrhaare der Katze).

I Ausreißer (d.h. Datenwerte außerhalb der Ausreißergrenzen) werden

extra durch Punkte angegeben.

(81)

Erzeugung von Box-Plots in R

I Beispielhaft in R:

> boxplot(lightspeeds)

erzeugt ein vertikales Box-Plot vom Datensatz lightspeeds, ein horizontales Box-Plot wird erzeugt durch

> boxplot(lightspeeds,horizontal=TRUE) I Die Kenngr¨ oßen in diesem Datensatz waren:

Median x ˜ = ˆ x

0.5

= 299850 ; unteres Quartil x ˆ

0.25

= 299805 ; oberes Quartil x ˆ

0.75

= 299895 ; Quartilsabstand IQR(x) = 90 ; d

untere Ausreißergrenze A

u

= ˆ x

0.25

− 1.5 · IQR(x) = 299670 ; d

obere Ausreißergrenze A

o

= ˆ x

0.75

+ 1.5 · IQR(x) = 300030 . d

(82)

Vertikales Box-Plot f¨ ur Beispiel Lichtgeschwindigkeiten

> boxplot(lightspeeds, main="Box-Plot Lichtgeschwindigkeiten")

(83)

Horizontales Box-Plot f¨ ur Beispiel Lichtgeschwindigkeiten

> boxplot(lightspeeds,horizontal=TRUE, main="Box-Plot Lichtgeschwindigkeiten")

(84)

Horizontales Box-Plot mit Punktdiagramm f¨ ur Beispiel

> boxplot(lightspeeds,horizontal=TRUE, main="Box-Plot Lichtgeschwindigkeiten")

> stripchart(lightspeeds,method="stack", col="red",add=TRUE)

(85)

Daten f¨ ur Box-Plots in R

I Die Zahlenwerte f¨ ur das Box-Whisker-Plot, aus denen sich die grafische Darstellung ergibt, k¨ onnen durch den Funktionsaufruf boxplot()$stats abgefragt werden.

I Im Beispiel:

> boxplot(lightspeeds)$stats [,1]

[1,] 299720

[2,] 299805

[3,] 299850

[4,] 299895

[5,] 300000

(86)

Gekerbte Box-Whisker-Plots

I Als zus¨ atzliche Information werden manchmal zus¨ atzlich Kerben (”notches”) zur Kennzeichnung eines 95%-Konfidenzintervalles f¨ ur den Median (unter Normalverteilungsannahme berechnet) mit eingezeichnet.

I Ein 95%-Konfidenzintervall f¨ ur den Median ist dabei ein zuf¨ alliges Intervall, welches unter der bestimmten Verteilungsannahme den tats¨ achlichen oder wahren Median mit einer Wahrscheinlichkeit von 0.95 ¨ uberdeckt. F¨ ur vorliegende Beobachtungswerte kann dann ein konkretes Intervall berechnet werden.

I In R kann ein solches gekerbtes Box-Plot durch den zus¨ atzlichen Parameter notch=TRUE im Befehl boxplot() erzeugt werden.

Die Zahlenwerte dazu k¨ onnen mit boxplot()$conf abgefragt

werden.

(87)

Gekerbtes Box-Plot f¨ ur Beispiel Lichtgeschwindigkeiten

> boxplot(lightspeeds,main="gekerbtes Box-Plot Lichtgeschwindigkeiten", + notch=TRUE)

> boxplot(lightspeeds)$conf [,1]

[1,] 299835.8 [2,] 299864.2

(88)

Weitere Bemerkungen zu Box-Plots

I Mit Box-Plots k¨ onnen Informationen gewonnen werden ¨ uber I die Lage der Daten (durch den Median);

I die Streuung der Daten (durch den Interquartilsabstand);

I besondere Werte (durch die extra Angabe der Ausreißer);

I den Bereich der Datenwerte (durch die Z¨ aune und die extra Angabe der Ausreißer);

I ggf. die Symmetrie (Symmetrie in der Box und den Z¨ aunen).

I Die folgenden Details k¨ onnen zum Beispiel im Allgemeinen nicht aus einem Box-Plot abgelesen werden:

I die Anzahl der Beobachtungen;

I Bindungen oder Werth¨ aufungen;

I Mittelwert und empirische Varianz;

I die allgemeine Verteilungsform.

I Bei einer kleinen Anzahl von Beobachtungswerten sind Box-Plots

nicht sehr aussagekr¨ aftig.

(89)

(b) Q-Q-Plots

I Ein Q-Q-Plot oder (empirisches) Quantil-Quantil-Diagramm dient z.B. zum Vergleich der Beobachtungswerte x

1

, . . . , x

n

mit einer theoretischen Verteilung.

I Dazu werden in ein kartesisches Koordinatensystem in der Ebene Punkte mit theoretischen Quantilen x

p

als Abszissenkoordinaten (x-Werte) und empirischen Quantilen ˆ x

p

(oder den Werten der geordneten Stichprobe) als Ordinatenkoordinaten (y-Werte) f¨ ur bestimmte Niveaus p eingezeichnet.

I Beispielniveaus: p

i

=

n+1i

oder p

i

=

i−0.5n

, i = 1, . . . , n . I Sind die Beobachtungswerte x

1

, . . . , x

n

Realisierungen von

unabh¨ angigen Zufallsgr¨ oßen mit der gew¨ ahlten theoretischen Verteilung, dann liegen die Punkte etwa auf einer Geraden mit Anstieg 1 durch den Koordinatenursprung.

I Starke Abweichungen von der Geraden signalisieren ein

Nichtzutreffen der Verteilung.

(90)

Erstes Beispiel Q-Q-Plot: Gleichverteilung U[0,1]

> xu=c(seq(0.1,0.9,by=0.1))

> xu

[1] 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

> qqplot(qunif(ppoints(9),min=0,max=1),xu, xlab="Theoret. Quantile U[0,1]", + main="Q-Q-Plot xu gegen U[0,1]")

(91)

Q-Q-Plot Lichtgeschwindigkeiten gegen Normalverteilung mit gesch¨ atzten Parametern

> qqplot(qnorm(ppoints(100),mean=mean(lightspeeds), sd=sd(lightspeeds)), + lightspeeds,xlab="Theoret. Quantile",

+ main="Q-Q-Plot Lichtgeschw. gegen Normalvert.")

> curve(1*x,299600,301000,col="red",add=TRUE)

Referenzen

ÄHNLICHE DOKUMENTE

Dazu wurden von den Patienten, die in einer Klinik f¨ur Schlafst¨orungen eingewiesen waren, zuf¨allig 10 Patienten ausgew¨ahlt, die ein neuartiges Schlafmit- tel

∗ Zusammenfallende oder sehr nah beieinander liegende Beobachtungswer- te sind im Diagramm nicht mehr unterscheidbar, so dass Punkte durch Uberdeckung verloren gehen

2. Aufgabe: In einer großen industriellen Kooperation war das Ziel, Stahlkugeln f¨ur Kugellager mit einem Durchmesser von 1 mm zu produzieren. Am Ende eines Tages wurden 10

• Klassenzahl k richtet sich nach dem Stichprobenumfang n Anhaltspunkt: oder für n ≥ 1000:. • Klassenmitten sollen rechentechnisch günstige

Genauer da auch Messwerte mit Q1 übereinstimmen können: Mindestens ein Viertel der Beobachtungen sind kleiner oder gleich und mindestens drei Viertel sind größer oder gleich..

(5.4) Definition Unter einer Kodierung oder Skalierung eines Merkmals versteht man eine Abbildung der Auspragungen des Merkmals in die Menge der reellen Zahlen.. Der Skalentyp

Aber den Auspr¨agungen einer Zufallsvariable k¨onnen Wahrscheinlichkeiten zuge- ordnet werden; f¨ur eine Zufallsvariable X existiert f¨ur jede reelle Zahl c eine Wahr-

r Anzahl der Merkmalsauspr¨