Statistik Statistik
» Kapitel 1: Einführung und Übersicht
» Kapitel 2: Datengewinnung
» Kapitel 3: Beschreibende Statistik
1 Einführung und Übersicht
Eine Definition von „Statistik“:
Die Statistik befasst sich mit Gewinnung und Auswertung von Daten. Ziel ist die und Auswertung von Daten. Ziel ist die
Vorbereitung von Entscheidungen.
1 Einführung und Übersicht
Phasen einer statistischen Untersuchung und Kapitel der Vorlesung Planung
Erhebung Datengewinnung
(Kurzer Überblick in Kap. 2) Bereinigung
Darstellung
Statistik, Prof. Dr. K. Melzer 3
Hochschule Esslingen
Darstellung
(Kap. 3: Beschreibende Statistik)
Auswertung Analyse, Interpretation
(Kap. 5: Schließende Statistik)
Entscheidung
Hilfsmittel für Kapitel 5: Kapitel 4: Wahrscheinlichkeitsrechnung
Spezialfall von Kap. 5: Kapitel 6: Statistische Methoden in der Qualitätssicherung
2 Datengewinnung
2.1 Planungsphase einer statistischen Untersuchung
a) Festlegung des Untersuchungsziels
b) Festlegung der Grundgesamtheit und der statistischen Einheiten
c) Festlegung der zu erhebenden Merkmale c) Festlegung der zu erhebenden Merkmale
d) Festlegung von Art und Methode der Erhebung
zu a) Untersuchungsziel: Fragestellung formulieren!
2.1 Planungsphase einer statistischen Untersuchung
zu b) Grundgesamtheit und statistische Einheiten Die zu untersuchende Grundgesamtheit muss präzise abgegrenzt werden in
» räumlicher
» zeitlicher
» sachlicher
Hinsicht, d. h. es muss definiert werden,
Statistik, Prof. Dr. K. Melzer 5
Hochschule Esslingen
Hinsicht, d. h. es muss definiert werden,
welche statistischen Einheiten (man sagt auch:
„Merkmalsträger“ oder „Objekte“) dazugehören und welche nicht.
2.1 Planungsphase einer statistischen Untersuchung
zu c) zu erhebende Merkmale festlegen
Arten von Merkmalen und ihre möglichen Ausprägungen:
Merkmal
quantitativ qualitativ
ordinal nominal stetig diskret
2.1 Planungsphase einer statistischen Untersuchung: Merkmale
zu c) Merkmale
» Quantitative Merkmale (metrische Merkmale, kardinale Merkmale)
» Die Merkmalsausprägungen sind Zahlen aus Messungen oder Zählungen
» Differenz zwischen zwei Ausprägungen hat einen Sinn, z. B. eine Schraube ist um 2 mm länger als eine andere
» Quantitativ-stetige Merkmale
» z.B.: Gewicht, Länge, Temperatur, Preis in EUR (!)
Statistik, Prof. Dr. K. Melzer 7
Hochschule Esslingen
» z.B.: Gewicht, Länge, Temperatur, Preis in EUR (!)
» können jeden Wert in einem vorgegebenen Intervall annehmen
» kommen meist durch Messung zustande
» Quantitativ-diskrete Merkmale
» Anzahl der Ausschussstücke einer Lieferung/Stichprobe, Tore pro Spiel
» Werte sind einzelne Punkte auf dem Zahlenstrahl z. B. 1,2,3,…
» treten vorzugsweise bei Zählungen auf
2.1 Planungsphase einer statistischen Untersuchung: Merkmale
zu c) Merkmale
» Qualitative Merkmale
» Beschreibende Eigenschaften, die sich nicht durch Messen oder Zählen ermitteln lassen
» Werte können auch durch Zahlen codiert werden, z. B. 3 = „gelb“, 6
= „grün“ (mit diesen Zahlen kann man aber nicht rechnen).
» Qualitativ-ordinale Merkmale (Rangmerkmale)
» z. B.: Besoldungsgruppen bei Beamten, Interesse an einer
» z. B.: Besoldungsgruppen bei Beamten, Interesse an einer Veranstaltung mit Ausprägung „sehr groß“, „groß“, „mittel“,
„gering“,…
» Merkmalsausprägung lässt sich in eine (natürliche) Rangfolge bringen
» Qualitativ-nominale Merkmale (beschreibende Merkmale)
» z. B.: Religionszugehörigkeit, Farbe, gewählte Partei,…
» Merkmalsausprägung lässt sich nicht in eine Rangfolge bringen
2.1 Planungsphase einer statistischen Untersuchung: Merkmale
zu d) Arten der Erhebung
» Vollerhebung (oder Totalerhebung) ⇒ Untersuchung der Grundgesamtheit
» Teilerhebung ⇒ Untersuchung einer Stichprobe Einige Methoden zur Durchführung von Stichprobenuntersuchungen
» (reine) Zufallsstichprobe
» Systematische Auswahl: objektives Kriterium, z. B. jeder 100. Artikel
» Schichtenstichprobe: Die Grundgesamtheit wird auf Basis eines oder mehrerer Merkmale in Schichten eingeteilt. Die Schichten sollen bezüglich
Statistik, Prof. Dr. K. Melzer 9
Hochschule Esslingen
mehrerer Merkmale in Schichten eingeteilt. Die Schichten sollen bezüglich des Untersuchungsmerkmals möglichst homogen sein. Anschließend: ziehe aus jeder Schicht eine bestimmte Anzahl von Stichprobenstücken. Der Anteil der in die Stichprobe aufgenommenen Objekte kann von Schicht zu Schicht unterschiedlich sein.
» Klumpenstichprobe: Aus der Grundgesamtheit werden Gruppen (Klumpen) von statistischen Einheiten (oft geographisch definiert) zufällig ausgewählt.
Innerhalb dieser Klumpen wird dann eine Vollerhebung durchgeführt.
» Quotenverfahren: Die Stichprobe soll die Werte gewisser Merkmale mit den gleichen Quoten/Anteilen, wie in der Grundgesamtheit enthalten.
Repräsentative Stichprobe
2.2 Durchführung der Erhebung
» Eine Erhebung wird technisch durchgeführt z. B. durch Befragung (Fragebogen, Internet...), Beobachtung oder Experiment.
» Die Nutzung von bereits vorhandenem (evtl. früher für
andere Zwecke erhobenem) Datenmaterial bezeichnet
man als „Sekundärerhebung“
2.3 Datenbereinigung
» Behandlung von Datenausreißern
» Ein „Ausreißer“ ist ein Extremwert innerhalb einer Stichprobe, der so extrem ist, dass die Person, die die Stichprobe prüft, glaubt, dass er nicht stimmen kann.
» = Daten, die offenbar viel zu groß oder viel zu klein sind.
» Vorgehen:
1. Ausreißer identifizieren;
2. überprüfen, ggf. berichtigen;
Statistik, Prof. Dr. K. Melzer 11
Hochschule Esslingen
3. wenn die Ausreißer nicht berichtigt werden können, a) Datensatz streichen oder
b) fehlerhafte Daten abändern (z. B. Ersetzen durch den Mittelwert der nicht fraglichen Daten) oder
c) Datensatz unverändert beibehalten.
Die Möglichkeiten 3b) und 3c) sollten nur mit größter Zurückhaltung angewendet werden. Im Zweifelsfall 3a)!
» Genauso behandelt man andere unmögliche oder unplausible Werte.
» Behandlung von Fehlern: wie Ausreißer aber ohne 3c)
2.4 Grundbegriffe der Statistik (I)
» Grundgesamtheit: Objekte, an denen die interessierende
Größe beobachtet und erfasst wird, über die man eine Aussage gewinnen will
» alle Mietwohnungen von Stuttgart,
» alle Wahlberechtigten,
» alle Würfe eines Würfels,
» alle Teile, die eine Maschine produziert
» Eine Grundgesamtheit kann aus endlich vielen oder unendlich vielen Elementen bestehen.
vielen Elementen bestehen.
» Eine Grundgesamtheit kann real oder hypothetisch sein.
» Stichprobe: Tatsächlich untersuchte Teilmenge der Grundgesamtheit.
» verschiedene Arten der Stichprobengewinnung Kapitel 2.1
» Umfang der Stichprobe n: Anzahl der Elemente in der
Stichprobe (immer endlich).
2.4 Grundbegriffe der Statistik (II)
» Merkmal:
Interessierend Größe, die an den Elementen in der Stichprobe beobachtet (gemessen, erhoben) wird.
» z.B. Grundgesamtheit sind alle Mietwohnungen von Stuttgart
» Merkmal 1: Nettomiete,
» Merkmal 2: Baualter,
» Merkmal 3: Größe in qm
Statistik, Prof. Dr. K. Melzer 13
Hochschule Esslingen
» Merkmal 3: Größe in qm
» Es können ein oder mehrere Merkmale an einem Element der Grundgesamtheit erhoben werden.
» Merkmalsausprägung:
Werte, die jedes Merkmal annehmen kann.
3 Beschreibende Statistik
3.1 Ziel der beschreibenden Statistik
» Sachverhalte aufzeigen, die sonst nicht oder nicht so leicht ersichtlich wären.
3.2 Tabellarische und graphische Darstellung eines Merkmals
» „Ein Bild sagt mehr als tausend Worte“
» Wir betrachten folgende Darstellungsmöglichkeiten Merkmal
qualitativ oder
diskret stetig*
Häufigkeits- tabelle (ohne Klassen-
einteilung)
Häufigkeits- tabelle (mit Klassen-
einteilung) Säulen-
diagramm (Stabdiagramm)
Kreis- diagramm (Tortendiagramm)
Histogramm
* oder diskrete Merkmale mit vielen Ausprägungen
3.2 Tabellarische und graphische Darstellung eines Merkmals (I)
Vorbemerkung zur Objektivität bei Grafiken:
» Die darzustellenden Größen müssen objektiv wiedergeben werden.
Hierzu gehören u. a. auch folgende Regeln, die hier aufgeführt werden, weil gegen sie besonders oft verstoßen wird:
» Proportionalität von Fläche und darzustellendem Wert.
» Flächenim Diagramm müssen proportional zu den darzustellenden Werten sein.
» Falsch: zwei Werte – zweiter Wert doppelt so groß ist wie der erste – grafisch durch zwei Quadrate wiederzugeben, von denen das zweite eine doppelt so große Seitenlänge wie das erste hat (denn die Fläche wäre dann viermal so groß wie die erste statt richtig doppelt so groß).
Statistik, Prof. Dr. K. Melzer 15
Hochschule Esslingen
dann viermal so groß wie die erste statt richtig doppelt so groß).
» Skalierung der Achsen.
» Bei Säulendiagrammen wird auf der y-Achse ein quantitatives Merkmal aufgetragen. Nach der Regel 1) oben müssen (bei konstanter
Säulenbreite) die Höhen der Säulen proportional zu den darzustellenden Werten sein. Insbesondere darf daher die y-Achse nicht verzerrt sein und muss bei 0 beginnen.
» Sollte es ausnahmsweise erforderlich sein, die Achse nicht bei 0 beginnen zu lassen, muss dies deutlich kenntlich gemacht werden.
» Sinngemäß das gleiche gilt natürlich auch für die x-Achse (sofern hier ein quantitatives Merkmal aufgetragen wird) und für andere
Diagrammtypen.
3.2 Tabellarische und
graphische Darstellung (II)
3.2.1 Qualitative und diskrete Merkmale
» Häufigkeitstabelle ohne Klasseneinteilung
» Säulendiagramm
» Kreisdiagramm
Partei (Merkmal) (↓Merkmalsausprägung)
Anzahl der Stimmen (absolute Häufigkeit, hi)
Stimmenanteil in % (relative Häufigkeit, fi) CDU ( = a1) 1.009.749 ( = h1) 36,8 ( = f1) SPD ( = a2) 1.006.154 ( = h2) 36,7 ( = f2) FDP ( = a3) 258.554 ( = h3) 9,4 ( = f3) Grüne ( = a4) 206.606 ( = h4) 7,5 ( = f4) Linke ( = a5) 140.488 ( = h5) 5,1 ( = f5) Sonstige ( = a6) 121.158 ( = h6) 4,5 ( = f6) Summe 2.742.709 ( = n) 100
3.2 Tabellarische und graphische Darstellung (III)
3.2.1 Qualitative und diskrete Merkmale
» Häufigkeitstabelle ohne Klasseneinteilung
» Säulendiagramm
» Kreisdiagramm
Stimmverteilung 1.200.000
Statistik, Prof. Dr. K. Melzer 17
Hochschule Esslingen
1.009.749 1.006.154
258.554
206.606
140.488 121.158
0 200.000 400.000 600.000 800.000 1.000.000 1.200.000
CDU SPD FDP Grüne Linke Sonstige
3.2 Tabellarische und graphische Darstellung (IV)
3.2.1 Qualitative und diskrete Merkmale
» Häufigkeitstabelle ohne Klasseneinteilung
» Säulendiagramm
» Kreisdiagramm (für prozentuale Aufteilung)
3.2 Tabellarische und graphische Darstellung (V)
3.2.2 Stetige Merkmale oder diskrete Merkmale mit vielen Ausprägungen
» Häufigkeitstabelle mit Klasseneinteilung
» gegeben: n Messwerte
» Einteilung des Messbereichs in Klassen
» Zählen: Häufigkeit in jeder Klasse (Strichliste)
» Beispiel:
Statistik, Prof. Dr. K. Melzer 19
Hochschule Esslingen
» Beispiel:
Einkommens- verteilung
»
n= 100
~ 10 Klassen
Einkommen Anzahl Einkommen Anzahl
0-750 2 3750-4500 12
750-1500 9 4500-5250 3
1500-2250 18 5250-6000 2
2250-3000 43 6000-6750 0
3000-3750 10 6750-7500 1
Summe 100
3.2 Tabellarische und graphische Darstellung (VI)
» Stetige Merkmale oder diskrete Merkmale mit vielen Ausprägungen
» Regeln zur Erstellung einer Häufigkeitstabelle mit Klasseneinteilung:
» Bestimme Spannweite: xmax – xmin
» Bestimme Anzahl der Klassen (Faustregel):
k ≈ , wenn n ≤ 400 (max. 20 Klassen auch für n > 400).n k ≈ , wenn n ≤ 400 (max. 20 Klassen auch für n > 400).
» Spannweite/Klassenzahl ≈ Klassenbreite
» Klassenbreite: aufrunden
(als Klassenbreite wähle „glatte“ Zahl 0,6 statt 0,5284)
» Einteilung der Klassen bei „glattem“ Wert unterhalb von xmin beginnen; Klassen müssen alle Werte beinhalten
» Alle Klassen werden (i. d. R.) gleich breit gewählt
» Messwerte auf den Klassengrenzen müssen eindeutig einer Klasse zugeordnet werden.
n
3.2 Tabellarische und graphische Darstellung (VII)
» Stetige Merkmale oder diskrete Merkmale mit vielen Ausprägungen
» Histogramm = Säulendiagramm, bei dem die Säulen über den entsprechenden Intervallen der Klassen gezeichnet werden, und die daher an den Klassengrenzen aneinander stoßen.
» Aus der Häufigkeitstabelle mit Klasseneinteilung erstellt
Statistik, Prof. Dr. K. Melzer 21
Hochschule Esslingen
» Aus der Häufigkeitstabelle mit Klasseneinteilung erstellt man ein Histogramm.
» Beispiel:
Einkommens- verteilung
0 5 10 15 20 25 30 35 40 45 50
0-750 750- 1500
1500- 2250
2250- 3000
3000- 3750
3750- 4500
4500- 5250
5250- 6000
6000- 6750
6750- 7500 Einkomme n (EUR)
3.2 Tabellarische und graphische Darstellung (VIII)
» Stetige Merkmale oder diskrete Merkmale mit vielen Ausprägungen
» Histogramm (Forts.)
» Gibt ersten visuellen Eindruck von der Verteilung eines Merkmals
Informationen:
Informationen:
» In welchem Bereich (z. B. relativ zu den Toleranzgrenzen) liegen die „meisten Messungen“?
» Wie weit streuen die Daten?
» Ist die Verteilung symmetrisch oder schief?
» Gibt es außergewöhnliche „Spitzen“ oder „Ausreißer“?
3.3 Statistische Kennzahlen für quantitative Merkmale (Übersicht)
» Eine wesentliche Technik zur Charakterisierung von Datensätzen ist die Reduktion auf wenige Kenngrößen.
» Kennzahlen sollen die Eigenart der Daten widerspiegeln.
» Dazu dienen Maßzahlen
» der Lage (Wo?) Lagemaße
» der Streuung (Wie breit?) Streumaße
» Lagemaße:
» Geben an, wo die Messwerte im Mittel liegen,
» z. B. arithmetischer Mittelwert oder empirischer Median
Statistik, Prof. Dr. K. Melzer 23
Hochschule Esslingen
» z. B. arithmetischer Mittelwert oder empirischer Median
» Streumaße:
» Geben an, wie breit die Messwerte um den Mittelwert herum streuen,
» z. B. empirische Varianz, empirische Standardabweichung, Spannweite
» Ist die empirische Standardabweichung (bzw. empirische Varianz) klein, liegen also viele Messwerte in der Nähe des Mittelwertes. Ist sie groß, sind die Messwerte weiter vom Mittelwert entfernt.
3.3 Statistische Kennzahlen für ein quantitatives Merkmal
» Im Folgenden werden wir drei Typen von vorliegenden Daten unterscheiden:
» Messreihe (Rohdaten): x1 ;,x2 ; x3 .;…; xn (n
= Anzahl der Messwerte)
Beobachtete Werte in der Reihenfolge ihrer Ermittlung Beispiel: Größe der Studenten eines Semesters in cm
x1= 172; x2= 153; x3 = 177; x4 = 156;
x5= 171; x6 = 183; x7= 164; x8= 158;
x9= 163; x10 = 172
diskrete oder stetige Merkmale
Note Anzahl
1,0 1,3 1,7
…
1 3 8
…
9 10
diskrete oder stetige Merkmale
» Häufigkeitstabelle ohneKlasseneinteilung d. h. zu jedem Messwert wird angegeben, wie oft er beobachtet wird (Häufigkeiten) Beispiel: Notenspiegel
diskrete Merkmale
» Häufigkeitstabelle mitKlasseneinteilung (Merkmalsausprägungen werden in Klassen zusammengefasst)
Beispiel: Körpergrößen in 10er-Schritten stetige Merkmale oder diskrete mit
Größe (Klassen) Anzahl
[150;160) [160;170) [170;180) [180;190)
3 2 4 1
3.3.1 Kennzahlen bei vorliegen einer Messreihe
» Messreihe x
1, x2, x3, … ,xnmit n = Anzahl der Messwerte
» Arithmetisches Mittel
» Empirischer Median
∑
=
+ = +
= +
ni i
n
x
n n
x x
x x
1 2
1
... 1
x ~
Statistik, Prof. Dr. K. Melzer 25
Hochschule Esslingen
» Empirischer Median
Messwert, der bei Sortierung der Messreihe nach der Größe in der Mitte steht (bei gerader Anzahl von
Messwerten: arithmetisches Mittel der beiden Messwerte in der Mitte).
x
3.3.1 Kennzahlen bei vorliegen einer Messreihe
Einschub: Vergleich Arithmetisches Mittel/Median:
» Arithmetisches Mittel:
» kann nur für quantitative Merkmale berechnet werden,
» beeinflusst von Ausreißern: wird von extremen Daten (sehr großen oder sehr kleinen) stark beeinflusst.
» Median:
» kann für quantitative oder auch qualitativ-ordinale Merkmale
» kann für quantitative oder auch qualitativ-ordinale Merkmale verwendet werden (wichtig: es muss eine Reihenfolge geben)
» unempfindlich gegenüber Ausreißern/extremen Daten.
» Beispiel: zwei Ranglisten (geordnete Messreihen)
1,2,5,6,
91,2,5,6,
60Median 5 5
arithm. Mittel 4,6 14,8
3.3.1 Kennzahlen bei vorliegen einer Messreihe
Motivation: Warum braucht man Streuparameter?
» Mittelwerte geben an, um welchen „mittleren“ Wert sich die
Stichprobenwerte gruppieren, geben aber keine Auskunft über die Schwankung um den Mittelwert
» Beispiel: Gegeben 2 Stichproben
a) 1 2 4 5 b) 2,7 3,0 3,1 3,2
Mittelwert xa =3 xb = 3
Statistik, Prof. Dr. K. Melzer 27
Hochschule Esslingen
» Aber: Die Werte von b) liegen dichter beim Mittelwert als die Werte von a)
» Maßzahlen für die Schwankung:
„Streuungsparameter“ oder „Streumaße“
3.3.1 Kennzahlen bei vorliegen einer Messreihe
» Spannweite R (range)
» Einfachstes Streumaß:
größter Messwert – kleinster Messwert
»
R = xmax – xmin, wobeixmax = größter Stichprobenwert/Messwert xmin = kleinster Stichprobenwert/Messwert
» Spielt in der Praxis kaum eine Rolle, höchstens für die
» Spielt in der Praxis kaum eine Rolle, höchstens für die Bestimmung des Maßstabs und der Bereichsauswahl für graphische Darstellungen.
3.3.1 Kennzahlen bei vorliegen einer Messreihe
» Empirische Varianz
» Die zweite Formel ist einfacher anzuwenden; hier muss man aber mit großer Genauigkeit berechnen!
x
( )
− ⋅
= −
−
= −
∑
∑
=
=
2 1
2 2
1 2 2
1 1
1 1
x n n x
s
x n x
s
n
i i n
i
i
oder
Statistik, Prof. Dr. K. Melzer 29
Hochschule Esslingen
aber mit großer Genauigkeit berechnen!
» Die empirische Varianz gibt also die mittlere quadratische Abweichung von an.
» empirische Standardabweichung
x
( )
∑
=
− −
=
=
ni
i
x
n x s
s
1 2 2
1 1
x
3.3.1 Kennzahlen bei vorliegen einer Messreihe
Bemerkungen zu empirischer Varianz und Standardabweichung
» Ist die empirische Standardabweichung (bzw. empirische Varianz) klein, so liegen viele Messwerte in der Nähe des Mittelwertes. Ist sie groß, sind die Messwerte weiter vom Mittelwert entfernt.
» Standardabweichung hat dieselbe Einheit, wie die einzelne Stichprobenwerte (z. B. Gramm anstatt Gramm2).
» Durch die Division mit dem Faktor (n - 1) (anstatt n !) wird erreicht, dass die empirische Standardabweichung bessere
dass die empirische Standardabweichung bessere
Schätzeigenschaften (siehe Kapitel 5 „Schließende Statistik“) hat.
3.3.1 Kennzahlen bei vorliegen einer Messreihe
Bemerkungen zur Berechnung von , s2, s
» Nur in Ausnahmefällen wird man die Berechnung dieser Werte tatsächlich mit den oben genannten Formeln durchführen.
» Viel kürzer ist es, die Datenreihe nur ein einziges Mal in den
Taschenrechner (TR) einzugeben und anschließend die Werte über die eingebauten TR-Funktionen abzurufen.
» Dabei ist die empirische Standardabweichung s auf dem TR oft mit dem Symbol σ oder gelegentlich mit σ o. ä. bezeichnet.
x
Statistik, Prof. Dr. K. Melzer 31
Hochschule Esslingen
dem Symbol σn-1 oder gelegentlich mit σx,n-1 o. ä. bezeichnet.
» Die empirische Varianz erhält man dann, indem man diesen Wert quadriert.
» Beachten Sie hierzu ggf. auch die von Prof. Plappert gesammelten Taschenrechner-Bedienungsanleitungen (s. Link auf meiner
Internetseite)
» Anleitungen sind ohne Gewähr bitte anhand von Beispielen überprüfen.
3.3.2 Kennzahlen bei Vorliegen einer Häufigkeitstabelle (ohne Klassen)
Ausprägung absolute Häufigkeit
x1 h1
x2 h2
… …
xk hk
Σ = n
» In den Formeln für bzw. s2 müssen hier alle Summanden mit der jeweiligen Häufigkeit higewichtet (= multipliziert) werden.
» Arithmetisches Mittel (n = Anzahl der Messwerte)
x
( ) ∑
=
= +
+ +
=
kj
j j k
k
x h
h n x h
x h n x x
1 2
2 1 1
... 1 1
Σ = n
3.3.2 Kennzahlen bei Vorliegen einer Häufigkeitstabelle (ohne Klassen)
» Empirische Varianz s2 aus einer Häufigkeitstabelle ohne Klasseneinteilung
( )
− ⋅
= −
−
= −
∑
∑
=
=
2 1
2 2
1 2 2
1 1
1 1
x n x n h
s
x x n h
s
k
i i i k
i
i
i
oder
Statistik, Prof. Dr. K. Melzer 33
Hochschule Esslingen
Zweite Formel ist einfacher, aber muss mit größerer Genauigkeit berechnet werden.
» Empirische Standardabweichung
− ∑
1
=1n
is
2s =
x
3.3.3 Kennzahlen bei Vorliegen einer Häufigkeitstabelle mit Klasseneinteilung
Klassen Klassenmittelpunkt Häufigkeit
(u1;o1] (u2;o2] (u3;o3]
…
m1= ½ (u1+o1) m2= ½ (u2+o2) m2= ½ (u2+o2)
…
h1 h2 h3
… Σ = n
» Hier rechnet man so, als ob alle Messwerte in der Mitte der jeweiligen Klasse liegen, und verwendet dann die 3.3.2 entsprechenden
Formeln, wobei nur „xi“ durch „mi“ ersetzt werden muss.
» Arithmetisches Mittel (n = Anzahl der Messwerte)
( ) ∑
=
= +
+ +
≈
kj
j j k
k
m h
h n m h
m h n m x
1 2
2 1 1
... 1
1
3.3.3 Kennzahlen bei Vorliegen einer Häufigkeitstabelle mit Klasseneinteilung
» Empirische Varianz s2 aus einer Häufigkeitstabelle mit Klasseneinteilung
( )
− ⋅
≈ −
−
≈ −
∑
∑
=
=
2 1
2 2
1 2 2
1 1
1 1
x n m
n h s
x m n h
s
k
i
i i k
i
i
i
oder
Statistik, Prof. Dr. K. Melzer 35
Hochschule Esslingen
Zweite Formel ist einfacher, aber muss mit größerer Genauigkeit berechnet werden.
» Empirische Standardabweichung
s
2s =
x
3.4 zweidimensionale Stichproben
» Jetzt werden zwei Merkmale einer Stichprobe betrachtet
3.4.1 Graphische Darstellung: Streudiagramm (Punktewolke)
» jedes Paar von Ausprägungen (xi, yi) wird als Punkt im
x-y-Koordinatensystem repräsentiert.
» Daten:
Auto
Nr. PS
Verbrauch (l/100 km)
1 130 7,2
2 85 13,5
3 120 10
… … …
3.4 zweidimensionale Stichproben
3.4.2 Empirischer Korrelationskoeffizient r
» Gegeben: Wertepaare (x
1,y1), (x2,y2), …, (xn,yn)mit den arithmetischen Mittelwerten und
» empirischer Korrelationskoeffizient
x y
( )( )
( ) ( )
1
y y x x
r n n
n
i
i i
xy
−
−
=
∑
∑
∑
= oder
Statistik, Prof. Dr. K. Melzer 37
Hochschule Esslingen
Zum Berechnen ist zweite Formel einfacher
( ) ( )
2 1
2 2 1
2 1
1
2 1
2
y n y x
n x
y x n y x r
y y x
x
n
i i n
i i
n
i i i
n
i i n
i i xy
⋅
−
⋅
⋅
−
⋅
⋅
−
=
−
−
∑
∑
∑
∑
∑
=
=
=
=
=
3.4 zweidimensionale Stichproben
Bemerkungen zum Korrelationskoeffizienten r:
» Werte von r: −1 ≤rxy≤1
» r beschreibt die Stärke und Richtung des linearen Zusammenhangs (vgl. nachfolgende Graphiken).
» Linearer Zusammenhang spiegelt sich in der Aussage
„Je größer x, desto [größer/kleiner] ist tendenziell y“.
» Falls |r| ≈ 1 , gibt es einen starken linearen Zusammenhang. (Aber nicht unbedingt einen ursächlichen Zusammenhang zwischen den x- und y-Werten!)
und y-Werten!)
» Falls r≈ 0, gibt es keinen linearen Zusammenhang. (Aber in manchen Fällen einen Zusammenhang anderer Art, z. B. quadratisch!)
» Falls r > 0, steigt die „beste Gerade“, falls r < 0 fällt sie.
» rxy= 1: alle Punkte (xi, yi) liegen auf einer Geraden mit positiver Steigung)
» rxy= −1: alle Punkte (xi, yi) liegen auf einer Geraden mit negativer Steigung)
3.4 zweidimensionale Stichproben
0 1 2 3 4 5 6 7 8
0 1 2 3 4 5 6
0 1 2 3 4 5 6
0 1 2 3 4 5 6
rxy= -0,7 rxy=0,9
Statistik, Prof. Dr. K. Melzer 39
Hochschule Esslingen
0 1 2 3 4 5 6 7
0 1 2 3 4 5 6
0 1 2 3 4 5 6 7 8
0 1 2 3 4 5 6
rxy=0,1 rxy= -0,1
3.4 zweidimensionale Stichproben
3.4.3 Lineare Regression und Prognose
» Typische Fragestellung: Beispiel
» Wie hoch wird der Umsatz erwartet, wenn die
Werbeausgaben auf 350 € festgelegt werden?
Modell gesucht
» Oft: zeitliche Daten (Zeitreihe) mit der Frage, was zum
0 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6
Werbeausgaben (X)
Erlös (Y)
?
mit der Frage, was zum nächsten Mess-/Zeitpunkt geschieht.
Werbeausgaben (X)
Werbe- ausgaben, x
Verkaufs- erlös, y (in 100 €) (in 1.000 €)
3 4
3 2
4 6
5 8
3.4 zweidimensionale Stichproben
3.4.3 Lineare Regression und Prognose
» (Empirische) Regression bedeutet: eine Gerade oder eine Kurve
„möglichst gut“ durch eine gegebene „Punktewolke“ legen.
» Im Falle einer Geraden spricht man von „linearer Regression“, sonst von „nichtlinearer Regression“
(z. B. von „quadratischer Regression“, wenn die Regressionskurve eine quadratische Funktion (Parabel) ist).
» Diese Gerade/Kurve kann für 9
Statistik, Prof. Dr. K. Melzer 41
Hochschule Esslingen
» Diese Gerade/Kurve kann für die Prognose von Werten verwendet werden.
0 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6 7
Werbeausgaben (X)
Erlös (Y)
3.4 zweidimensionale Stichproben
3.4.3 Lineare Regression und Prognose
» Gegeben: n Wertepaare (x1,y1), (x2,y2), …, (xn,yn). Dabei wird angenommen, dass nur die y-Werte größeren (z. B.
zufälligen) Schwankungen unterliegen können und die x-Werte fest (oder sehr genau bestimmbar) sind.
» Methode der kleinsten Quadrate (MKQ):
∑
εi2y
yi mx+b εi
yˆi
soll minimal werden. Dabei ist
der Abstand in y-Richtung zwischen dem y-Wert des i-ten Datenpunktes und dem zu xi gehörenden y-Wert auf der
Regressionsgeraden. [Das Dach-Symbol bei steht für „geschätzer Wert“. heißt
„Residuum“.]
x xi
i i
i
= y − y ˆ
ε
3.4 zweidimensionale Stichproben
3.4.3 Lineare Regression und Prognose
» MKQ führt zu folgender Gleichung der empirischen Regressionsgeraden:
( )
( ) und
mit
x m y b x
n x
y x n y m x
b mx y
n i n
i i i
−
− =
= −
+
=
∑
∑
=2 2
1
Statistik, Prof. Dr. K. Melzer 43
Hochschule Esslingen
» Diese Regressionsgerade mit den Koeffizienten wie oben hat eine kleinere Summe der Fehlerquadrate als jede andere Gerade.
( ∑i=1x
i ) − n x
( ) min .
1
2 1
2
= ∑ + − →
∑
=
=
n
i
i i
n
i
i
mx b y
ε
3.4 zweidimensionale Stichproben
3.4.3 Lineare Regression und Prognose
0 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6
Werbeausgaben (X)
Erlös (Y)
Werbe- ausgaben, x
Verkaufs- erlös, y (in 100 €) (in 1.000 €)
3 4
3 2
4 6
5 8
Werbeausgaben (X) 5 8
1 3
Beispiel (Forts.)
» Berechnen Sie die Koeffizienten der Regressionsgeraden und
geben Sie die Regressionsgerade an.
3.4 zweidimensionale Stichproben
3.4.3 Lineare Regression und Prognose
Beispiel (Forts.)
x y x2 y2 xy
3 4 9 16 12
3 2 9 4 6
4 6 16 36 24
5 8 25 64 40 1
2 3 4 5 6 7 8 9
Erlös (Y)
Statistik, Prof. Dr. K. Melzer 45
Hochschule Esslingen
5 8 25 64 40
1 3 1 9 3
Σ 16 23 60 129 85
5
6 , 4
; 2 , 3
=
=
= n
y x
4545 , 0 2955 , 1
4545 , 0 2 , 3 2955 , 1 6 , 4
2955 , 8 1 , 8
4 , 11 2
, 3 5 60
6 , 4 2 , 3 5 85
2
+
= +
=
=
⋅
−
=
−
=
=
⋅ =
−
⋅
⋅
= −
x b
mx y
x m y b m
: Also
0 1
0 1 2 3 4 5 6 7
Werbeausgaben (X)
3.4 zweidimensionale Stichproben
3.4.3 Lineare Regression und Prognose
Beispiel (Forts.)
» Vorhersage des Verkaufserlöses für gegebene
Werbeausgaben:
Werbeausgaben: 350 €
⇒ x = 3,5 4
5 6 7 8 9
Erlös (Y)
⇒ x = 3,5
y = 1,2955 · 3,5 + 0,4545 = 4,9886
Erwarteter Umsatz: 4.989 €
0 1 2 3 4
0 1 2 3 4 5 6 7
Werbeausgaben (X)
Erlös (Y)
3.4 zweidimensionale Stichproben 3.4.4 Bestimmtheitsmaß R
2» Für alle Regressionstypen (auch quadratische usw.) wird als Gütemaß das Bestimmtheitsmaß R2 verwendet, d.h. wie gut die Gerade/Kurve die Punktwolke beschreibt (nicht verwechseln mit Spannweite R!!)
» Für das Bestimmtheitsmaß R2 gilt a) 0 ≤R2≤1
b) Falls R2 ≈ 1 verläuft die Regressionsgerade (oder -kurve) gut durch die
„Punktewolke“.
Falls R2 ≈ 0 gibt die Regressionsgerade (oder -kurve) die „Punktewolke“
Statistik, Prof. Dr. K. Melzer 47
Hochschule Esslingen
Falls R ≈ 0 gibt die Regressionsgerade (oder -kurve) die „Punktewolke“
nicht gut wieder.
c) R2 beschreibt den Anteil an der Varianz der y-Werte, der durch die Regression erklärt werden kann.
» Während a), b), c) auch für nichtlineare Regressionen gelten, ist die Gleichung R2 = r2 nur im Falle der linearen Regression richtig. (Der empirische Korrelationskoeffizient r bezieht sich nämlich
ausschließlich auf die lineare Regression.)
» Im Beispiel: rxy= 0,7978 ⇒R2= (rxy)2= 0,64
3.4 zweidimensionale Stichproben
Bemerkung
zur Berechnung von m und b bei linearer Regression
» Viele TR haben eine eingebaute Berechnungsmöglichkeit für die Parameter m und k der empirischen Regressionsgeraden und für den empirischen Korrelationskoeffizienten r nach Eingabe aller x- und y-Werte. Wer einen Taschenrechner besitzt, bei dem das so nicht möglich ist, benutzt am besten das gezeigte Berechnungsschema.
» Die angegebenen Formeln sind für die Berechnung „von Hand“
» Die angegebenen Formeln sind für die Berechnung „von Hand“
– also wenn im TR Regression und Korrelation nicht
implementiert sind – am einfachsten anzuwenden. Bei der
Berechnung von m und r müssen x und y aber mit großer
Genauigkeit bestimmt werden!
3.4 zweidimensionale Stichproben
Bemerkung
zur Berechnung von m und b bei linearer Regression
» (Leichter zu merkende) alternative Formeln für m und r verwenden folgende Größen:
» Empirische Varianz der x-Werte
» Empirische Varianz der y-Werte
− ⋅
= −
∑
=
2 1
2 2
1
1 x n x
s n
n
i i x
− ⋅
= −
∑
=
2 1
2 2
1
1 y n y
s n
n
i i y
Statistik, Prof. Dr. K. Melzer 49
Hochschule Esslingen
» Empirische Kovarianz
» Empirische Standardabweichung
» Damit ist
−
= − ∑
=
y x n y n x
s
n
i i i xy
1
11
2
2, y y
x
x s s s
s = =
y x
xy x
xy