Eine Definition von „Statistik“:Die Statistik befasst sich mit Gewinnung und Auswertung von Daten. Ziel ist die

(1)

Statistik Statistik

» Kapitel 1: Einführung und Übersicht

» Kapitel 2: Datengewinnung

» Kapitel 3: Beschreibende Statistik

1 Einführung und Übersicht

Eine Definition von „Statistik“:

Die Statistik befasst sich mit Gewinnung und Auswertung von Daten. Ziel ist die und Auswertung von Daten. Ziel ist die

Vorbereitung von Entscheidungen.

(2)

1 Einführung und Übersicht

Phasen einer statistischen Untersuchung und Kapitel der Vorlesung Planung

Erhebung Datengewinnung

(Kurzer Überblick in Kap. 2) Bereinigung

Darstellung

Statistik, Prof. Dr. K. Melzer 3

Hochschule Esslingen

Darstellung

(Kap. 3: Beschreibende Statistik)

Auswertung Analyse, Interpretation

(Kap. 5: Schließende Statistik)

Entscheidung

Hilfsmittel für Kapitel 5: Kapitel 4: Wahrscheinlichkeitsrechnung

Spezialfall von Kap. 5: Kapitel 6: Statistische Methoden in der Qualitätssicherung

2 Datengewinnung

2.1 Planungsphase einer statistischen Untersuchung

a) Festlegung des Untersuchungsziels

b) Festlegung der Grundgesamtheit und der statistischen Einheiten

c) Festlegung der zu erhebenden Merkmale c) Festlegung der zu erhebenden Merkmale

d) Festlegung von Art und Methode der Erhebung

zu a) Untersuchungsziel: Fragestellung formulieren!

(3)

2.1 Planungsphase einer statistischen Untersuchung

zu b) Grundgesamtheit und statistische Einheiten Die zu untersuchende Grundgesamtheit muss präzise abgegrenzt werden in

» räumlicher

» zeitlicher

» sachlicher

Hinsicht, d. h. es muss definiert werden,

welche statistischen Einheiten (man sagt auch:

„Merkmalsträger“ oder „Objekte“) dazugehören und welche nicht.

2.1 Planungsphase einer statistischen Untersuchung

zu c) zu erhebende Merkmale festlegen

Arten von Merkmalen und ihre möglichen Ausprägungen:

Merkmal

quantitativ qualitativ

ordinal nominal stetig diskret

(4)

2.1 Planungsphase einer statistischen Untersuchung: Merkmale

zu c) Merkmale

» Quantitative Merkmale (metrische Merkmale, kardinale Merkmale)

» Die Merkmalsausprägungen sind Zahlen aus Messungen oder Zählungen

» Differenz zwischen zwei Ausprägungen hat einen Sinn, z. B. eine Schraube ist um 2 mm länger als eine andere

» Quantitativ-stetige Merkmale

» z.B.: Gewicht, Länge, Temperatur, Preis in EUR (!)

» können jeden Wert in einem vorgegebenen Intervall annehmen

» kommen meist durch Messung zustande

» Quantitativ-diskrete Merkmale

» Anzahl der Ausschussstücke einer Lieferung/Stichprobe, Tore pro Spiel

» Werte sind einzelne Punkte auf dem Zahlenstrahl z. B. 1,2,3,…

» treten vorzugsweise bei Zählungen auf

2.1 Planungsphase einer statistischen Untersuchung: Merkmale

zu c) Merkmale

» Qualitative Merkmale

» Beschreibende Eigenschaften, die sich nicht durch Messen oder Zählen ermitteln lassen

» Werte können auch durch Zahlen codiert werden, z. B. 3 = „gelb“, 6

= „grün“ (mit diesen Zahlen kann man aber nicht rechnen).

» Qualitativ-ordinale Merkmale (Rangmerkmale)

» z. B.: Besoldungsgruppen bei Beamten, Interesse an einer

» z. B.: Besoldungsgruppen bei Beamten, Interesse an einer Veranstaltung mit Ausprägung „sehr groß“, „groß“, „mittel“,

„gering“,…

» Merkmalsausprägung lässt sich in eine (natürliche) Rangfolge bringen

» Qualitativ-nominale Merkmale (beschreibende Merkmale)

» z. B.: Religionszugehörigkeit, Farbe, gewählte Partei,…

» Merkmalsausprägung lässt sich nicht in eine Rangfolge bringen

(5)

2.1 Planungsphase einer statistischen Untersuchung: Merkmale

zu d) Arten der Erhebung

» Vollerhebung (oder Totalerhebung) ⇒ Untersuchung der Grundgesamtheit

» Teilerhebung ⇒ Untersuchung einer Stichprobe Einige Methoden zur Durchführung von Stichprobenuntersuchungen

» (reine) Zufallsstichprobe

» Systematische Auswahl: objektives Kriterium, z. B. jeder 100. Artikel

» Schichtenstichprobe: Die Grundgesamtheit wird auf Basis eines oder mehrerer Merkmale in Schichten eingeteilt. Die Schichten sollen bezüglich

mehrerer Merkmale in Schichten eingeteilt. Die Schichten sollen bezüglich des Untersuchungsmerkmals möglichst homogen sein. Anschließend: ziehe aus jeder Schicht eine bestimmte Anzahl von Stichprobenstücken. Der Anteil der in die Stichprobe aufgenommenen Objekte kann von Schicht zu Schicht unterschiedlich sein.

» Klumpenstichprobe: Aus der Grundgesamtheit werden Gruppen (Klumpen) von statistischen Einheiten (oft geographisch definiert) zufällig ausgewählt.

Innerhalb dieser Klumpen wird dann eine Vollerhebung durchgeführt.

» Quotenverfahren: Die Stichprobe soll die Werte gewisser Merkmale mit den gleichen Quoten/Anteilen, wie in der Grundgesamtheit enthalten.

Repräsentative Stichprobe

2.2 Durchführung der Erhebung

» Eine Erhebung wird technisch durchgeführt z. B. durch Befragung (Fragebogen, Internet...), Beobachtung oder Experiment.

» Die Nutzung von bereits vorhandenem (evtl. früher für

andere Zwecke erhobenem) Datenmaterial bezeichnet

man als „Sekundärerhebung“

(6)

2.3 Datenbereinigung

» Behandlung von Datenausreißern

» Ein „Ausreißer“ ist ein Extremwert innerhalb einer Stichprobe, der so extrem ist, dass die Person, die die Stichprobe prüft, glaubt, dass er nicht stimmen kann.

» = Daten, die offenbar viel zu groß oder viel zu klein sind.

» Vorgehen:

1. Ausreißer identifizieren;

2. überprüfen, ggf. berichtigen;

3. wenn die Ausreißer nicht berichtigt werden können, a) Datensatz streichen oder

b) fehlerhafte Daten abändern (z. B. Ersetzen durch den Mittelwert der nicht fraglichen Daten) oder

c) Datensatz unverändert beibehalten.

Die Möglichkeiten 3b) und 3c) sollten nur mit größter Zurückhaltung angewendet werden. Im Zweifelsfall 3a)!

» Genauso behandelt man andere unmögliche oder unplausible Werte.

» Behandlung von Fehlern: wie Ausreißer aber ohne 3c)

2.4 Grundbegriffe der Statistik (I)

» Grundgesamtheit: Objekte, an denen die interessierende

Größe beobachtet und erfasst wird, über die man eine Aussage gewinnen will

» alle Mietwohnungen von Stuttgart,

» alle Wahlberechtigten,

» alle Würfe eines Würfels,

» alle Teile, die eine Maschine produziert

» Eine Grundgesamtheit kann aus endlich vielen oder unendlich vielen Elementen bestehen.

vielen Elementen bestehen.

» Eine Grundgesamtheit kann real oder hypothetisch sein.

» Stichprobe: Tatsächlich untersuchte Teilmenge der Grundgesamtheit.

» verschiedene Arten der Stichprobengewinnung Kapitel 2.1

» Umfang der Stichprobe n: Anzahl der Elemente in der

Stichprobe (immer endlich).

(7)

2.4 Grundbegriffe der Statistik (II)

» Merkmal:

Interessierend Größe, die an den Elementen in der Stichprobe beobachtet (gemessen, erhoben) wird.

» z.B. Grundgesamtheit sind alle Mietwohnungen von Stuttgart

» Merkmal 1: Nettomiete,

» Merkmal 2: Baualter,

» Merkmal 3: Größe in qm

» Es können ein oder mehrere Merkmale an einem Element der Grundgesamtheit erhoben werden.

» Merkmalsausprägung:

Werte, die jedes Merkmal annehmen kann.

3 Beschreibende Statistik

3.1 Ziel der beschreibenden Statistik

» Sachverhalte aufzeigen, die sonst nicht oder nicht so leicht ersichtlich wären.

3.2 Tabellarische und graphische Darstellung eines Merkmals

» „Ein Bild sagt mehr als tausend Worte“

» Wir betrachten folgende Darstellungsmöglichkeiten Merkmal

qualitativ oder

diskret stetig*

Häufigkeits- tabelle (ohne Klassen-

einteilung)

Häufigkeits- tabelle (mit Klassen-

einteilung) Säulen-

diagramm (Stabdiagramm)

Kreis- diagramm (Tortendiagramm)

Histogramm

* oder diskrete Merkmale mit vielen Ausprägungen

(8)

3.2 Tabellarische und graphische Darstellung eines Merkmals (I)

Vorbemerkung zur Objektivität bei Grafiken:

» Die darzustellenden Größen müssen objektiv wiedergeben werden.

Hierzu gehören u. a. auch folgende Regeln, die hier aufgeführt werden, weil gegen sie besonders oft verstoßen wird:

» Proportionalität von Fläche und darzustellendem Wert.

» Flächenim Diagramm müssen proportional zu den darzustellenden Werten sein.

» Falsch: zwei Werte – zweiter Wert doppelt so groß ist wie der erste – grafisch durch zwei Quadrate wiederzugeben, von denen das zweite eine doppelt so große Seitenlänge wie das erste hat (denn die Fläche wäre dann viermal so groß wie die erste statt richtig doppelt so groß).

dann viermal so groß wie die erste statt richtig doppelt so groß).

» Skalierung der Achsen.

» Bei Säulendiagrammen wird auf der y-Achse ein quantitatives Merkmal aufgetragen. Nach der Regel 1) oben müssen (bei konstanter

Säulenbreite) die Höhen der Säulen proportional zu den darzustellenden Werten sein. Insbesondere darf daher die y-Achse nicht verzerrt sein und muss bei 0 beginnen.

» Sollte es ausnahmsweise erforderlich sein, die Achse nicht bei 0 beginnen zu lassen, muss dies deutlich kenntlich gemacht werden.

» Sinngemäß das gleiche gilt natürlich auch für die x-Achse (sofern hier ein quantitatives Merkmal aufgetragen wird) und für andere

Diagrammtypen.

3.2 Tabellarische und

graphische Darstellung (II)

3.2.1 Qualitative und diskrete Merkmale

» Häufigkeitstabelle ohne Klasseneinteilung

» Säulendiagramm

» Kreisdiagramm

Partei (Merkmal) (↓Merkmalsausprägung)

Anzahl der Stimmen (absolute Häufigkeit, h_i)

Stimmenanteil in % (relative Häufigkeit, f_i) CDU ( = a₁) 1.009.749 ( = h₁) 36,8 ( = f₁) SPD ( = a₂) 1.006.154 ( = h₂) 36,7 ( = f₂) FDP ( = a₃) 258.554 ( = h₃) 9,4 ( = f₃) Grüne ( = a₄) 206.606 ( = h₄) 7,5 ( = f₄) Linke ( = a₅) 140.488 ( = h₅) 5,1 ( = f₅) Sonstige ( = a₆) 121.158 ( = h₆) 4,5 ( = f₆) Summe 2.742.709 ( = n) 100

(9)

3.2 Tabellarische und graphische Darstellung (III)

3.2.1 Qualitative und diskrete Merkmale

» Säulendiagramm

» Kreisdiagramm

Stimmverteilung 1.200.000

1.009.749 1.006.154

258.554

206.606

140.488 121.158

0 200.000 400.000 600.000 800.000 1.000.000 1.200.000

CDU SPD FDP Grüne Linke Sonstige

3.2 Tabellarische und graphische Darstellung (IV)

3.2.1 Qualitative und diskrete Merkmale

» Säulendiagramm

» Kreisdiagramm (für prozentuale Aufteilung)

(10)

3.2 Tabellarische und graphische Darstellung (V)

3.2.2 Stetige Merkmale oder diskrete Merkmale mit vielen Ausprägungen

» Häufigkeitstabelle mit Klasseneinteilung

» gegeben: n Messwerte

» Einteilung des Messbereichs in Klassen

» Zählen: Häufigkeit in jeder Klasse (Strichliste)

» Beispiel:

Einkommens- verteilung

»

n

= 100

~ 10 Klassen

Einkommen Anzahl Einkommen Anzahl

0-750 2 3750-4500 12

750-1500 9 4500-5250 3

1500-2250 18 5250-6000 2

2250-3000 43 6000-6750 0

3000-3750 10 6750-7500 1

Summe 100

3.2 Tabellarische und graphische Darstellung (VI)

» Stetige Merkmale oder diskrete Merkmale mit vielen Ausprägungen

» Regeln zur Erstellung einer Häufigkeitstabelle mit Klasseneinteilung:

» Bestimme Spannweite: x_max – x_min

» Bestimme Anzahl der Klassen (Faustregel):

k ≈ , wenn n ≤ 400 (max. 20 Klassen auch für n > 400).n k ≈ , wenn n ≤ 400 (max. 20 Klassen auch für n > 400).

» Spannweite/Klassenzahl ≈ Klassenbreite

» Klassenbreite: aufrunden

(als Klassenbreite wähle „glatte“ Zahl 0,6 statt 0,5284)

» Einteilung der Klassen bei „glattem“ Wert unterhalb von x_min beginnen; Klassen müssen alle Werte beinhalten

» Alle Klassen werden (i. d. R.) gleich breit gewählt

» Messwerte auf den Klassengrenzen müssen eindeutig einer Klasse zugeordnet werden.

n

(11)

3.2 Tabellarische und graphische Darstellung (VII)

» Stetige Merkmale oder diskrete Merkmale mit vielen Ausprägungen

» Histogramm = Säulendiagramm, bei dem die Säulen über den entsprechenden Intervallen der Klassen gezeichnet werden, und die daher an den Klassengrenzen aneinander stoßen.

» Aus der Häufigkeitstabelle mit Klasseneinteilung erstellt

» Aus der Häufigkeitstabelle mit Klasseneinteilung erstellt man ein Histogramm.

» Beispiel:

Einkommens- verteilung

0 5 10 15 20 25 30 35 40 45 50

0-750 750- 1500

1500- 2250

2250- 3000

3000- 3750

3750- 4500

4500- 5250

5250- 6000

6000- 6750

6750- 7500 Einkomme n (EUR)

3.2 Tabellarische und graphische Darstellung (VIII)

» Stetige Merkmale oder diskrete Merkmale mit vielen Ausprägungen

» Histogramm (Forts.)

» Gibt ersten visuellen Eindruck von der Verteilung eines Merkmals

Informationen:

» In welchem Bereich (z. B. relativ zu den Toleranzgrenzen) liegen die „meisten Messungen“?

» Wie weit streuen die Daten?

» Ist die Verteilung symmetrisch oder schief?

» Gibt es außergewöhnliche „Spitzen“ oder „Ausreißer“?

(12)

3.3 Statistische Kennzahlen für quantitative Merkmale (Übersicht)

» Eine wesentliche Technik zur Charakterisierung von Datensätzen ist die Reduktion auf wenige Kenngrößen.

» Kennzahlen sollen die Eigenart der Daten widerspiegeln.

» Dazu dienen Maßzahlen

» der Lage (Wo?) Lagemaße

» der Streuung (Wie breit?) Streumaße

» Lagemaße:

» Geben an, wo die Messwerte im Mittel liegen,

» z. B. arithmetischer Mittelwert oder empirischer Median

» Streumaße:

» Geben an, wie breit die Messwerte um den Mittelwert herum streuen,

» z. B. empirische Varianz, empirische Standardabweichung, Spannweite

» Ist die empirische Standardabweichung (bzw. empirische Varianz) klein, liegen also viele Messwerte in der Nähe des Mittelwertes. Ist sie groß, sind die Messwerte weiter vom Mittelwert entfernt.

3.3 Statistische Kennzahlen für ein quantitatives Merkmal

» Im Folgenden werden wir drei Typen von vorliegenden Daten unterscheiden:

» Messreihe (Rohdaten): x₁;_,x₂; x_{3 .};…; x_n (n

= Anzahl der Messwerte)

Beobachtete Werte in der Reihenfolge ihrer Ermittlung Beispiel: Größe der Studenten eines Semesters in cm

x₁= 172; x₂= 153; x₃ = 177; x₄ = 156;

x₅= 171; _x6 = 183; x₇= 164; x₈= 158;

x₉= 163; x₁₀ = 172

diskrete oder stetige Merkmale

Note Anzahl

1,0 1,3 1,7

…

1 3 8

…

9 10

diskrete oder stetige Merkmale

» Häufigkeitstabelle ohneKlasseneinteilung d. h. zu jedem Messwert wird angegeben, wie oft er beobachtet wird (Häufigkeiten) Beispiel: Notenspiegel

diskrete Merkmale

» Häufigkeitstabelle mitKlasseneinteilung (Merkmalsausprägungen werden in Klassen zusammengefasst)

Beispiel: Körpergrößen in 10er-Schritten stetige Merkmale oder diskrete mit

Größe (Klassen) Anzahl

[150;160) [160;170) [170;180) [180;190)

3 2 4 1

(13)

3.3.1 Kennzahlen bei vorliegen einer Messreihe

» Messreihe x

₁, x₂, x₃, … ,x_n

mit n = Anzahl der Messwerte

» Arithmetisches Mittel

» Empirischer Median

∑

=

+ = +

= +

ⁿ

i i

n

x

n n

x x

1 2

1

... 1

x ~

» Empirischer Median

Messwert, der bei Sortierung der Messreihe nach der Größe in der Mitte steht (bei gerader Anzahl von

Messwerten: arithmetisches Mittel der beiden Messwerte in der Mitte).

x

3.3.1 Kennzahlen bei vorliegen einer Messreihe

Einschub: Vergleich Arithmetisches Mittel/Median:

» Arithmetisches Mittel:

» kann nur für quantitative Merkmale berechnet werden,

» beeinflusst von Ausreißern: wird von extremen Daten (sehr großen oder sehr kleinen) stark beeinflusst.

» Median:

» kann für quantitative oder auch qualitativ-ordinale Merkmale

» kann für quantitative oder auch qualitativ-ordinale Merkmale verwendet werden (wichtig: es muss eine Reihenfolge geben)

» unempfindlich gegenüber Ausreißern/extremen Daten.

» Beispiel: zwei Ranglisten (geordnete Messreihen)

1,2,5,6,

9

1,2,5,6,

60

Median 5 5

arithm. Mittel 4,6 14,8

(14)

3.3.1 Kennzahlen bei vorliegen einer Messreihe

Motivation: Warum braucht man Streuparameter?

» Mittelwerte geben an, um welchen „mittleren“ Wert sich die

Stichprobenwerte gruppieren, geben aber keine Auskunft über die Schwankung um den Mittelwert

» Beispiel: Gegeben 2 Stichproben

a) 1 2 4 5 b) 2,7 3,0 3,1 3,2

Mittelwert x_a =3 xb = 3

» Aber: Die Werte von b) liegen dichter beim Mittelwert als die Werte von a)

» Maßzahlen für die Schwankung:

„Streuungsparameter“ oder „Streumaße“

3.3.1 Kennzahlen bei vorliegen einer Messreihe

» Spannweite R (range)

» Einfachstes Streumaß:

größter Messwert – kleinster Messwert

»

R = x_max – x_min, wobei

x_max = größter Stichprobenwert/Messwert x_min = kleinster Stichprobenwert/Messwert

» Spielt in der Praxis kaum eine Rolle, höchstens für die

» Spielt in der Praxis kaum eine Rolle, höchstens für die Bestimmung des Maßstabs und der Bereichsauswahl für graphische Darstellungen.

(15)

3.3.1 Kennzahlen bei vorliegen einer Messreihe

» Empirische Varianz

» Die zweite Formel ist einfacher anzuwenden; hier muss man aber mit großer Genauigkeit berechnen!

x

( )

 



 

  − ⋅



 





= −

 

 



 −

= −

∑

=

2 1

2 2

1 2 2

1 1

x n n x

s

x n x

s

n

i i n

i

oder

aber mit großer Genauigkeit berechnen!

» Die empirische Varianz gibt also die mittlere quadratische Abweichung von an.

» empirische Standardabweichung

x

( )

∑

=

− −

=

ⁿ

i

x

n x s

s

1 2 2

1 1

x

3.3.1 Kennzahlen bei vorliegen einer Messreihe

Bemerkungen zu empirischer Varianz und Standardabweichung

» Ist die empirische Standardabweichung (bzw. empirische Varianz) klein, so liegen viele Messwerte in der Nähe des Mittelwertes. Ist sie groß, sind die Messwerte weiter vom Mittelwert entfernt.

» Standardabweichung hat dieselbe Einheit, wie die einzelne Stichprobenwerte (z. B. Gramm anstatt Gramm²).

» Durch die Division mit dem Faktor (n - 1) (anstatt n !) wird erreicht, dass die empirische Standardabweichung bessere

dass die empirische Standardabweichung bessere

Schätzeigenschaften (siehe Kapitel 5 „Schließende Statistik“) hat.

(16)

3.3.1 Kennzahlen bei vorliegen einer Messreihe

Bemerkungen zur Berechnung von , s², s

» Nur in Ausnahmefällen wird man die Berechnung dieser Werte tatsächlich mit den oben genannten Formeln durchführen.

» Viel kürzer ist es, die Datenreihe nur ein einziges Mal in den

Taschenrechner (TR) einzugeben und anschließend die Werte über die eingebauten TR-Funktionen abzurufen.

» Dabei ist die empirische Standardabweichung s auf dem TR oft mit dem Symbol σ oder gelegentlich mit σ o. ä. bezeichnet.

x

dem Symbol σn-1 oder gelegentlich mit σx,n-1 o. ä. bezeichnet.

» Die empirische Varianz erhält man dann, indem man diesen Wert quadriert.

» Beachten Sie hierzu ggf. auch die von Prof. Plappert gesammelten Taschenrechner-Bedienungsanleitungen (s. Link auf meiner

Internetseite)

» Anleitungen sind ohne Gewähr bitte anhand von Beispielen überprüfen.

3.3.2 Kennzahlen bei Vorliegen einer Häufigkeitstabelle (ohne Klassen)

Ausprägung absolute Häufigkeit

x₁ h₁

x₂ h₂

… …

x_k h_k

Σ = n

» In den Formeln für bzw. s² müssen hier alle Summanden mit der jeweiligen Häufigkeit h_igewichtet (= multipliziert) werden.

» Arithmetisches Mittel (n = Anzahl der Messwerte)

x

( ) ∑

=

= +

+ +

=

^k

j

j j k

k

x h

h n x h

x h n x x

1 2

2 1 1

... 1 1

Σ = n

(17)

3.3.2 Kennzahlen bei Vorliegen einer Häufigkeitstabelle (ohne Klassen)

» Empirische Varianz s² aus einer Häufigkeitstabelle ohne Klasseneinteilung

( )

 



 

  − ⋅



 





= −

 

 



 −

= −

∑

=

2 1

2 2

1 2 2

1 1

x n x n h

s

x x n h

s

k

i i i k

i

oder

Zweite Formel ist einfacher, aber muss mit größerer Genauigkeit berechnet werden.

» Empirische Standardabweichung

 

   

− ∑

1

=1

n

_i

s

2

s =

x

3.3.3 Kennzahlen bei Vorliegen einer Häufigkeitstabelle mit Klasseneinteilung

Klassen Klassenmittelpunkt Häufigkeit

(u₁;o₁] (u₂;o₂] (u₃;o₃]

…

m₁= ½ (u₁+o₁) m₂= ½ (u₂+o₂) m₂= ½ (u₂+o₂)

…

h₁ h₂ h₃

… Σ = n

» Hier rechnet man so, als ob alle Messwerte in der Mitte der jeweiligen Klasse liegen, und verwendet dann die 3.3.2 entsprechenden

Formeln, wobei nur „x_i“ durch „m_i“ ersetzt werden muss.

» Arithmetisches Mittel (n = Anzahl der Messwerte)

( ) ∑

=

= +

+ +

≈

^k

j

j j k

k

m h

h n m h

m h n m x

1 2

2 1 1

... 1

1

(18)

3.3.3 Kennzahlen bei Vorliegen einer Häufigkeitstabelle mit Klasseneinteilung

» Empirische Varianz s² aus einer Häufigkeitstabelle mit Klasseneinteilung

( )

 



 

  − ⋅



 





≈ −

 

 



 −

≈ −

∑

=

2 1

2 2

1 2 2

1 1

x n m

n h s

x m n h

s

k

i

i i k

i

oder

Zweite Formel ist einfacher, aber muss mit größerer Genauigkeit berechnet werden.

» Empirische Standardabweichung

s

2

s =

x

3.4 zweidimensionale Stichproben

» Jetzt werden zwei Merkmale einer Stichprobe betrachtet

3.4.1 Graphische Darstellung: Streudiagramm (Punktewolke)

» jedes Paar von Ausprägungen (x_i, y_i) wird als Punkt im

x-y-Koordinatensystem repräsentiert.

» Daten:

Auto

Nr. PS

Verbrauch (l/100 km)

1 130 7,2

2 85 13,5

3 120 10

… … …

(19)

3.4 zweidimensionale Stichproben

3.4.2 Empirischer Korrelationskoeffizient r

» Gegeben: Wertepaare (x

₁,y₁), (x₂,y₂), …, (x_n,y_n)

mit den arithmetischen Mittelwerten und

» empirischer Korrelationskoeffizient

x y

( )( )

( ) ( )

1

y y x x

r n n

n

i

i i

xy

−

=

∑

= oder

Zum Berechnen ist zweite Formel einfacher

( ) ( )

2 1

2 2 1

2 1

1

2 1

2

y n y x

n x

y x n y x r

y y x

x

n

i i n

i i

n

i i i

n

i i n

i i xy

⋅

−



 



⋅ 

⋅

−



 





⋅

−



 





=

−

∑

=

3.4 zweidimensionale Stichproben

Bemerkungen zum Korrelationskoeffizienten r:

» Werte von r: −1 ≤r_xy≤1

» r beschreibt die Stärke und Richtung des linearen Zusammenhangs (vgl. nachfolgende Graphiken).

» Linearer Zusammenhang spiegelt sich in der Aussage

„Je größer x, desto [größer/kleiner] ist tendenziell y“.

» Falls |r| ≈ 1 , gibt es einen starken linearen Zusammenhang. (Aber nicht unbedingt einen ursächlichen Zusammenhang zwischen den x- und y-Werten!)

und y-Werten!)

» Falls r≈ 0, gibt es keinen linearen Zusammenhang. (Aber in manchen Fällen einen Zusammenhang anderer Art, z. B. quadratisch!)

» Falls r > 0, steigt die „beste Gerade“, falls r < 0 fällt sie.

» r_xy= 1: alle Punkte (x_i, y_i) liegen auf einer Geraden mit positiver Steigung)

» r_xy= −1: alle Punkte (x_i, y_i) liegen auf einer Geraden mit negativer Steigung)

(20)

3.4 zweidimensionale Stichproben

0 1 2 3 4 5 6 7 8

0 1 2 3 4 5 6

r_xy= -0,7 r_xy=0,9

0 1 2 3 4 5 6 7

0 1 2 3 4 5 6

0 1 2 3 4 5 6 7 8

0 1 2 3 4 5 6

r_xy=0,1 r_xy= -0,1

3.4 zweidimensionale Stichproben

3.4.3 Lineare Regression und Prognose

» Typische Fragestellung: Beispiel

» Wie hoch wird der Umsatz erwartet, wenn die

Werbeausgaben auf 350 € festgelegt werden?

Modell gesucht

» Oft: zeitliche Daten (Zeitreihe) mit der Frage, was zum

0 1 2 3 4 5 6 7 8 9

0 1 2 3 4 5 6

Werbeausgaben (X)

Erlös (Y)

?

mit der Frage, was zum nächsten Mess-/Zeitpunkt geschieht.

Werbe- ausgaben, x

Verkaufs- erlös, y (in 100 €) (in 1.000 €)

3 4

3 2

4 6

5 8

(21)

3.4 zweidimensionale Stichproben

3.4.3 Lineare Regression und Prognose

» (Empirische) Regression bedeutet: eine Gerade oder eine Kurve

„möglichst gut“ durch eine gegebene „Punktewolke“ legen.

» Im Falle einer Geraden spricht man von „linearer Regression“, sonst von „nichtlinearer Regression“

(z. B. von „quadratischer Regression“, wenn die Regressionskurve eine quadratische Funktion (Parabel) ist).

» Diese Gerade/Kurve kann für ⁹

» Diese Gerade/Kurve kann für die Prognose von Werten verwendet werden.

0 1 2 3 4 5 6 7 8 9

0 1 2 3 4 5 6 7

Erlös (Y)

3.4 zweidimensionale Stichproben

3.4.3 Lineare Regression und Prognose

» Gegeben: n Wertepaare (x₁,y₁), (x₂,y₂), …, (x_n,y_n). Dabei wird angenommen, dass nur die y-Werte größeren (z. B.

zufälligen) Schwankungen unterliegen können und die x-Werte fest (oder sehr genau bestimmbar) sind.

» Methode der kleinsten Quadrate (MKQ):

∑

εi²

y

y_i mx+b εi

yˆi

soll minimal werden. Dabei ist

der Abstand in y-Richtung zwischen dem y-Wert des i-ten Datenpunktes und dem zu x_i gehörenden y-Wert auf der

Regressionsgeraden. [Das Dach-Symbol bei steht für „geschätzer Wert“. heißt

„Residuum“.]

x x_i

i i

i

= y − y ˆ

ε

(22)

3.4 zweidimensionale Stichproben

3.4.3 Lineare Regression und Prognose

» MKQ führt zu folgender Gleichung der empirischen Regressionsgeraden:

( )

( ) ^und

mit

x m y b x

n x

y x n y m x

b mx y

n i n

i i i

−

− =

= −

+

=

∑

₌

2 2

1

» Diese Regressionsgerade mit den Koeffizienten wie oben hat eine kleinere Summe der Fehlerquadrate als jede andere Gerade.

( ∑

i₌₁

^x

i

) − ⁿ ^x

( ) ^min ^.

1

2 1

2

= ∑ + − →

∑

=

n

i

i i

n

i

mx b y

ε

3.4 zweidimensionale Stichproben

3.4.3 Lineare Regression und Prognose

0 1 2 3 4 5 6 7 8 9

0 1 2 3 4 5 6

Erlös (Y)

Werbe- ausgaben, x

Verkaufs- erlös, y (in 100 €) (in 1.000 €)

3 4

3 2

4 6

5 8

Werbeausgaben (X) 5 8

1 3

Beispiel (Forts.)

» Berechnen Sie die Koeffizienten der Regressionsgeraden und

geben Sie die Regressionsgerade an.

(23)

3.4 zweidimensionale Stichproben

3.4.3 Lineare Regression und Prognose

Beispiel (Forts.)

x y x² y² xy

3 4 9 16 12

3 2 9 4 6

4 6 16 36 24

5 8 25 64 40 ¹

2 3 4 5 6 7 8 9

Erlös (Y)

5 8 25 64 40

1 3 1 9 3

Σ 16 23 60 129 85

5 6 , 4

; 2 , 3

=

= n

y x

4545 , 0 2955 , 1

4545 , 0 2 , 3 2955 , 1 6 , 4

2955 , 8 1 , 8

4 , 11 2

, 3 5 60

6 , 4 2 , 3 5 85

2

+

= +

=

⋅

−

=

−

=

⋅ =

−

⋅

= −

x b

mx y

x m y b m

: Also

0 1

0 1 2 3 4 5 6 7

3.4 zweidimensionale Stichproben

3.4.3 Lineare Regression und Prognose

Beispiel (Forts.)

» Vorhersage des Verkaufserlöses für gegebene

Werbeausgaben:

Werbeausgaben: 350 €

⇒ x = 3,5 ⁴

5 6 7 8 9

Erlös (Y)

⇒ x = 3,5

y = 1,2955 · 3,5 + 0,4545 = 4,9886

Erwarteter Umsatz: 4.989 €

0 1 2 3 4

0 1 2 3 4 5 6 7

Erlös (Y)

(24)

3.4 zweidimensionale Stichproben 3.4.4 Bestimmtheitsmaß R

²

» Für alle Regressionstypen (auch quadratische usw.) wird als Gütemaß das Bestimmtheitsmaß R² verwendet, d.h. wie gut die Gerade/Kurve die Punktwolke beschreibt (nicht verwechseln mit Spannweite R!!)

» Für das Bestimmtheitsmaß R² gilt a) 0 ≤R²≤1

b) Falls R² ≈ 1 verläuft die Regressionsgerade (oder -kurve) gut durch die

„Punktewolke“.

Falls R² ≈ 0 gibt die Regressionsgerade (oder -kurve) die „Punktewolke“

Falls R ≈ 0 gibt die Regressionsgerade (oder -kurve) die „Punktewolke“

nicht gut wieder.

c) R² beschreibt den Anteil an der Varianz der y-Werte, der durch die Regression erklärt werden kann.

» Während a), b), c) auch für nichtlineare Regressionen gelten, ist die Gleichung R²= r² nur im Falle der linearen Regression richtig. (Der empirische Korrelationskoeffizient r bezieht sich nämlich

ausschließlich auf die lineare Regression.)

» Im Beispiel: r_xy= 0,7978 ⇒R²= (r_xy)²= 0,64

3.4 zweidimensionale Stichproben

Bemerkung

zur Berechnung von m und b bei linearer Regression

» Viele TR haben eine eingebaute Berechnungsmöglichkeit für die Parameter m und k der empirischen Regressionsgeraden und für den empirischen Korrelationskoeffizienten r nach Eingabe aller x- und y-Werte. Wer einen Taschenrechner besitzt, bei dem das so nicht möglich ist, benutzt am besten das gezeigte Berechnungsschema.

» Die angegebenen Formeln sind für die Berechnung „von Hand“

– also wenn im TR Regression und Korrelation nicht

implementiert sind – am einfachsten anzuwenden. Bei der

Berechnung von m und r müssen x und y aber mit großer

Genauigkeit bestimmt werden!

(25)

3.4 zweidimensionale Stichproben

Bemerkung

zur Berechnung von m und b bei linearer Regression

» (Leichter zu merkende) alternative Formeln für m und r verwenden folgende Größen:

» Empirische Varianz der x-Werte

» Empirische Varianz der y-Werte







 − ⋅



 





= −

∑

=

2 1

2 2

1

1 x n x

s n

n

i i x







 − ⋅



 





= −

∑

=

2 1

2 2

1

1 y n y

s n

n

i i y



  

» Empirische Kovarianz

» Empirische Standardabweichung

» Damit ist



 

 



 

  −



 





= − ∑

=

y x n y n x

s

n

i i i xy

1

2

2, _y _y

x

x s s s

s = =

y x

xy x

xy

s s r s s

m s

= ⋅

=

₂

und