• Keine Ergebnisse gefunden

6 Beschreibende Statistik

N/A
N/A
Protected

Academic year: 2022

Aktie "6 Beschreibende Statistik"

Copied!
24
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Wenn es um das Thema Statistik geht, so kommt viel Misstrauen auf. Wir kennen Grafiken, die bewusst einen falschen Eindruck vermitteln, Prognosen, die weit daneben liegen, und Sprüche wie

„Trau’ keiner Statistik, die du nicht selbst gefälscht hast!“

Dieses Misstrauen ist darauf zurückzuführen, dass statistische Methoden sehr oft nicht korrekt angewendet bzw. aus Zahlenwerten falsche Schlüsse gezogen werden.

Der Begriff Statistik (latein: „status“ = Stand, Umstand) umfasst alle Methoden der Erfassung und Auswertung von Daten.

Ziel der beschreibenden Statistik ist neben dem Erfassen und Veranschaulichen von Daten deren Auswertung mithilfe von Kennzahlen, die möglichst viel Information über die Originaldaten in einigen wenigen Zahlen zum Ausdruck bringen.

Als „Vater der Statistik“ gilt Gottfried Achenwall (1719 – 1772) aus Göttingen, der die Statistik zur Wissenschaft erhob.

Viele große Mathematiker lieferten Beiträge zur Statistik:

Thomas Bayes (1702 – 1761), Pierre-Simon de Laplace (1749 – 1827), Carl Friedrich Gauß (1777 – 1855), Charles Pearson (1857 – 1836), Andrei Nikolajewitsch Kolmogorow (1903 – 1986) ua.

6.1 Auswertung von Daten einer statistischen Erhebung

6.1.1 Grundlegende Begriffe

Wie in vielen Fachgebieten wurde auch in der Statistik eine Fachsprache entwickelt. Sie soll sicherstellen, dass mit bestimmten Begriffen auch exakt die gleichen Bedeutungen verbunden sind bzw. Verwechslungen mit Begriffen der Alltagssprache vermieden werden.

6.1 Ein Klassenraum einer Schule soll neu ausgemalt werden. Jede Schülerin bzw. jeder Schüler kann sich für eine der Farben gelb, hellgrün, hellblau oder weiß entscheiden. Jener Vorschlag, der die meisten Stimmen erhält, gilt als angenommen.

Beschreibe, welche Art von Daten hier vorliegt und wie man sie erheben kann.

In der Klasse wird untersucht, wie viele Personen für je eine Farbe stimmen.

Die Objekte der Untersuchung – also die Personen – nennt man Erhebungseinheiten.

Die Gesamtheit aller Erhebungseinheiten bildet die Grundgesamtheit.

Aus praktischen Gründen, wenn die Grundgesamtheit zu groß wäre, kann man nur auf eine repräsentative Auswahl, die Stichprobe, zurückgreifen.

Die Eigenschaft, die man untersucht, also die Farben, nennt man Merkmal, deren möglichen Werte (gelb, hellgrün, hellblau oder weiß) die Merkmalsausprägungen.

Die Möglichkeiten, Daten auszuwerten, hängen von deren Art ab. Man kann zum Beispiel die durchschnittliche Anzahl der in einem österreichischen Haushalt lebenden Personen errechnen, diesen Vorgang aber nicht sinnvoll auf die Merkmalsausprägungen wie Benzinmotor bzw.

Dieselmotor der PKWs übertragen.

C

Beschreibende Statistik

6

Laplace

(2)

Beschreibende Statistik

Man unterscheidet daher verschiedene Typen von Merkmalen.

Metrische oder quantitative Merkmale sind zähl- oder messbar. Das Bilden von Differenzen ist sinnvoll.

Zum Beispiel ist die Differenz zwischen einem 4-Personen-Haushalt und einem 5-Personen-Haushalt ebenso groß wie die Differenz zwischen einem 3-Personen-Haushalt und einem 4-Personen-Haushalt.

Ordinale Merkmale oder Rangmerkmale sind Merkmale, deren Merkmalsausprägungen eine natürliche Reihenfolge haben.

Am Beispiel von Schulnoten erkennt man, dass das Bilden von Differenzen hier nicht sinnvoll ist. Die Rangordnung (besser – schlechter) ist vorgegeben, der Unterschied zwischen den Noten 1 und 2 ist aber nicht unmittelbar mit dem zwischen den Noten 4 und 5 vergleichbar.

Nominale oder qualitative Merkmale sind Merkmale, deren Merkmalsausprägungen keinerlei Vergleichbarkeit oder Reihenfolge zulassen, die also nur Namen (latein: „nomen“ = Name) sind.

ZB: Antriebsart, Energieträger, Augenfarbe, Geschlecht, Religionszugehörigkeit ...

Eine weitere für die Verarbeitung der Daten relevante Überlegung ist die Unterscheidung zwischen diskreten und stetigen Merkmalen. Können die Merkmalsausprägungen nur bestimmte Werte annehmen, zum Beispiel ganze Zahlen, so spricht man von diskreten Merkmalen. Als stetig werden Merkmale bezeichnet, die in einem gewissen Bereich jeden beliebigen Wert annehmen können, zum Beispiel die Körpergröße von Schülerinnen und Schülern.

In unserem Eingangsbeispiel handelt es sich um nominale (qualitative) und diskrete Daten. Die Erhebung könnte man durch Befragung und Sammeln in einer Liste durchführen.

6.2 Beurteile, ob es sich um ein metrisches, ordinales oder nominales Merkmal handelt.

a) Güteklassen von Äpfeln b) Inflationsraten verschiedener Länder c) Religionszugehörigkeiten von Personen d) Erzielte Weiten beim Kugelstoßen 6.3 Beurteile, ob das Merkmal diskret oder stetig ist. Begründe deine Entscheidung.

a) Klassenschülerzahl b) Verspätungen im Zugverkehr c) Masse von Hühnereiern d) Anzahl der PKWs pro Haushalt 6.4 Vervollständige die Tabelle mit eigenen Beispielen. Wenn es sich um ein metrisches

Merkmal handelt, unterscheide zusätzlich zwischen stetig und diskret.

D

D

CD

Grundgesamtheit Merkmal Merkmalsart stetig/diskret

Arbeitnehmer/innen

Farbe

ordinal

stetig

(3)

Beschreibende Statistik

6.1.2 Häufigkeitsverteilung: Tabellarische und grafische Darstellung

In der folgenden Tabelle ist ein mögliches Ergebnis der Befragung über die Farbwahl für die Wände in deiner Klasse mit 25 Personen angegeben. Jede Person hat ihre Wahl mit einem Strich auf einer Liste markiert hat. Dies nennt man die Urliste. Die Häufigkeit des Auftretens der einzelnen Merkmalsausprägungen kann daraus abgelesen werden. Man unterscheidet:

die absolute Häufigkeit hi, die angibt, wie oft eine bestimmte Merkmalsausprägung vorkommt.

die relative Häufigkeit ri, die den Anteil einer bestimmten Merkmalsausprägung angibt.

Gibt man die relative Häufigkeit in Prozent an, nennt man sie prozentuelle Häufigkeit pi. Umfang der Stichprobe: n ... Anzahl der Erhebungsobjekte

absolute Häufigkeit hi mit i = 1

Σ

n hi = n ... Anzahl bestimmter Merkmalsausprägungen

relative Häufigkeit ri = h__ n i mit i = 1

Σ

n ri = 1 ... Anteil bestimmter Merkmalsausprägungen an der Gesamtheit

Damit erhalten wir die folgende Auswertung der Urliste, die wir in einer Tabelle und auch grafisch zB als Säulendiagramm darstellen können:

Merkmals-

ausprägung Strichliste absolute

Häufigkeit hi relative

Häufigkeit ri prozentuelle Häufigkeit pi

weiß |||| ||| 8 0,32 32 %

gelb |||| |||| || 12 0,48 48 %

blau ||| 3 0,12 12 %

grün || 2 0,08 8 %

Summe 25 1 100 %

6.5 In einer Textilfabrik werden Stoffballen auf die Anzahl von Webfehlern hin untersucht.

Die Anzahl der Fehler wird in einer Häufigkeitstabelle erfasst, die um eine Spalte mit den aufsummierten Häufigkeiten (= kumulierten Häufigkeiten) ergänzt wird.

Lies ab, wie viel Prozent der Ballen fehlerlos sind, wie viele höchstens 1 Fehler und wie viele höchstens 2 Fehler haben.

Fehler-

anzahl hi ri pi Häufigkeits summe (in Prozent)

0 16 0,08 8 % 8 %

1 22 0,11 11 % 19 %

2 32 0,16 16 % 35 %

3 52 0,26 26 % 61 %

4 44 0,22 22 % 83 %

5 34 0,17 17 % 100 %

Summe 200 1 100 %

Bei quantitativen Merkmalen (Zahlen) aber auch Rangmerk-

malen (zB sehr gut, gut, mittelmäßig, schlecht) sind die Häufigkeitssummen aussagekräftig.

Dabei werden jeweils die prozentuellen Häufigkeiten bis zu einer bestimmten Merkmals- ausprägung aufsummiert. Die grafische Darstellung zeigt einen treppenförmigen Verlauf.

C

absolute Häufigkeit

4 6 8 10 12 14

2

0 weiß gelb blau grün

Häufigkeitssumme in Prozent

Fehleranzahl

40 60 80 100

20

0 0 1 2 3 4 5

(4)

Beschreibende Statistik

Aus der letzten Spalte kann man nun ablesen:

8 % der Stoffballen sind fehlerlos.

19 % der Stoffballen haben 0 oder 1 Fehler, also höchstens 1 Fehler.

35 % der Stoffballen haben 0, 1 oder 2 Fehler, also höchstens 2 Fehler, usw.

Technologieeinsatz mit Tabellen und Graphen

6.6 Die Verkaufsabschlüsse eines Versicherungsunternehmens in den vergangenen 15 Tagen wurden in folgender Urliste erhoben.

8 9 8 6 5 9 9 8 7 8 5 6 7 9 6 Zeichne ein Säulendiagramm mit den absoluten Häufigkeiten.

Berechne die relativen, die prozentuellen und die kumulativen Häufigkeiten.

Lösung am Beispiel TI-Nspire:

MENU/4: List & spreadsheets: In der 1. Spalte die Listenbezeichnung l1 eingeben, die Daten einfügen.

Für den Graphen gibt es mehrere Möglichkeiten:

1. Kontextmenu/C: Schnellgraph/Menu/ 1: Plot-Typ/3: Histogramm/

2. Menu/ 3: Daten/ 5: Ergebnisdiagramm/l1/Neue Seite/

3. CTRL DOC: /MENU 5:Data & Statistics/Unter dem Bild klicken, l1 wählen/Menu/

1: Plot-Typ/3: Histogramm/

Bearbeiten für alle Varianten: einen Balken anklicken /Doc 2: Bearbeiten/7: Farbe /2: Füllfarbe

Menu/2: Ploteigenschaften/2: Histogramm-Eigenschaften/2: Säuleneinstellungen/

Breite wählen Häufigkeitstabelle:

Auf Liste l1 klicken, Menu 1: Aktionen /6:

Sortiere ... sortiert die Liste.

In Liste 2 (l2) werden die Merkmalsausprägungen 1-mal angegeben.

In Liste 3 (l3) gibt man in die Formelzelle (=Zelle direkt unter dem Namen l3) =frequency(l1,l2) ein. Beide Listen mit Variablenverweis versehen ... liefert die absoluten Häufigkeiten.

In Liste 4 (l4) in der Formelzelle =l2/dim(l1) und Variablenverweis eingeben ... liefert die relativen Häufigkeiten.

In Liste 5 (l5) in der Formelzelle =cumulativeSum(l4) mit Variablenverweis eingeben ... liefert die kumulierten Häufigkeiten (=Häufigkeitssummen).

Technologieeinsatz zu diesem Thema für TI 82-84, EXCEL und Geogebra siehe www.hpt.at (Schulbuch Plus für Schüler/innen)

AB

(5)

Beschreibende Statistik

6.7 Anlässlich einer Erhebung der Verkehrsbetriebe wurden 1 500 Personen befragt, an wie vielen Tagen der

vergangenen Woche sie ein öffentliches Verkehrsmittel benutzt hatten.

a) Ermittle, wie viele Personen nie, wie viele an 2 Tagen und wie viele an mindestens 6 Tagen öffentliche Verkehrsmittel benutzt haben.

Tage 0 1 2 3 4 5 6 7

Personen 220 185 96 124 178 412 208 77

b) Berechne die relativen Häufigkeiten und die Häufigkeitssummen.

c) Erstelle je ein Diagramm mit den absoluten Häufigkeiten und den Häufigkeitssummen.

d) Lies aus dem Diagramm der Häufigkeitssummen ab, wie viel Prozent der befragten Personen an höchstens 5 Tagen mit den „Öffis“ gefahren sind.

6.8 Die erste Nationalratswahl der 2. Republik in Österreich fand am 25. November 1945 statt und ergab mit dem Sieg der ÖVP unter Leopold Figl folgende Stimmenverteilung:

ÖVP SPÖ KPÖ Sonstige

1 602 227 1 434 898 174 257 5 972

Ermittle die relativen Häufigkeiten in Prozent.

Skizziere ein Säulendiagramm.

6.9 Die Häufigkeiten der Blutgruppen sind in Österreich in den verschiedenen Regionen unterschiedlich verteilt.

a) Im Diagramm ist die Verteilung der Blutgruppen inklusive Rhesusfaktor abgebildet.

Interpretiere das Diagramm, welche Blutgruppe in Österreich am häufigsten und welche besonders selten vorkommt.

b) Frage mindestens 30 Personen nach ihrer Blutgruppe.

Ermittle aus den Daten die absoluten und die relativen Häufigkeiten.

Erstelle ein Säulendiagramm mit den prozentuellen Häufigkeiten.

Präsentiere dein Ergebnis und vergleiche es mit dem angegebenen Diagramm.

ABC

AB

ABCD

(6)

Beschreibende Statistik

6.1.3 Klassenbildung

Bisher haben wir uns mit der Verteilung der Häufigkeiten jeder in einer Erhebung auftretenden Merkmalsausprägung befasst. Dies ist jedoch nicht immer sinnvoll, zum Beispiel, wenn die Anzahl der Merkmalsausprägungen sehr groß ist, bzw. nicht möglich, wenn es sich um ein stetiges Merkmal handelt. In diesem Fall bilden wir Intervalle, so genannte Klassen.

Man spricht dann von klassifizierten Daten.

Die Klasseneinteilung wird im Allgemeinen nach folgenden Richtlinien getroffen:

Als Richtwert für die Anzahl der Klassen geht man oft von √

∙∙

n (n ... Anzahl der Daten) aus, mehr als 20 Klassen sind jedoch unüblich.

Die Klassen sollten nach Möglichkeit gleich breit sein. In diesem Buch beschränken wir uns auf gleich breite Klassen.

Jeder Wert muss genau einer Klasse zugeordnet werden können. Daher verwendet man im Allgemeinen halboffene Intervalle. Hier ist darauf zu achten, dass unterschiedliche technische Geräte die Intervallgrenzen unterschiedlich festlegen!

Zur grafischen Darstellung verwendet man häufig ein Säulendiagramm. Dabei werden Rechtecke verwendet, deren Höhen jeweils der Klassenhäufigkeit entsprechen, falls alle Klassen gleich breit sind. Auch Histogramme können verwendet werden. Bei diesen Diagrammen stellt die Fläche der Rechtecke die Häufigkeit dar. Nur bei Histogrammen mit der Klassenbreite von einer Einheit entspricht die Höhe der Klassenhäufigkeit!

6.10 In einer Schule wurden 30 Schülerinnen und Schüler gewogen (Werte in kg):

47,6 52,4 52,9 57,3 58,9 59,6 59,7 60,5 60,9 62,8 63,2 63,5 65,4 65,9 66,7 67,3 67,4 69,8 69,8 72,3 74,1 76,1 78,5 79,6 79,7 80,1 82,9 87,1 100,8 101,2 a) Bilde eine Klasseneinteilung.

b) Erstelle eine Häufigkeitstabelle mit absoluten, relativen, prozentuellen Häufigkeiten und mit Häufigkeitssummen.

c) Veranschauliche die Werte in einem Diagramm.

Lösung:

a) 30 Werte

∙∙

n ≈ 6 Klassen, Klassenbreite: 10 ist günstig

Max.: 101,2 kg; Min.: 47,6 kg ⇒ 45 bis 105 lässt sich gut zeichnen und ablesen.

Klassengrenzen:

Wir beginnen mit der Klassengrenze 45 und verwenden links offene Intervalle.

1. Intervall geschlossen: [45; 55], ]55; 65], ]65; 75] ...

b) und c) Tabelle und Diagramm

AB

Daten unten oben abs.H Klassen abs.H. rel.H proz.H kum.H

47,6Max  -­‐  Min  =   45 55 3 [45;  55] 3 0,100 10,3 0,100

52,4 60 55 65 9 ]55;  65] 9 0,300 34,5 0,400

52,9Abstand  10 65 75 9 ]65;  75] 9 0,300 24,1 0,700

57,3 75 85 6 ]75;  85] 6 0,200 20,7 0,900

58,9 85 95 1 ]85;  95] 1 0,033 3,4 0,933

59,6 95 105 2 ]95;105] 2 0,067 6,9 1,000

59,7 30

60,5 60,9 62,8 63,2 63,5 65,4 65,9 66,7 67,3 67,4 69,8 69,8 72,3 74,1 76,1 78,5 79,6 79,7 80,1 82,9 87,1 100,8 101,2 30

0   1   2   3   4   5   6   7   8   9   10  

[45;  55]   ]55;  65]   ]65;  75]   ]75;  85]   ]85;  95]   ]95;105]  

Massenverteilung  in  absoluter  Häufigkeit  

Kilogramm   Klassen abs.  H. rel.  H. proz.  H. kum.  H.

[45;  55] 3 0,100 10,00% 0,100

]55;  65] 9 0,300 30,00% 0,400

]65;  75] 9 0,300 30,00% 0,700

]75;  85] 6 0,200 20,00% 0,900

]85;  95] 1 0,033 3,33% 0,930

]95;  105] 2 0,067 6,67% 1,000

(7)

Beschreibende Statistik

Die Klasseneinteilung mit Technologieeinsatz

Für die Statistik ist ein gutes Tabellenkalkulationsprogramm den Taschenrechnern überlegen.

Aber auch TI-Nspire bietet gute Lösungen mit den Daten des vorherigen Beispiels.

Technologieeinsatz zu diesem Thema für TI 82-84, EXCEL und Geogebra siehe www.hpt.at (Schulbuch Plus für Schüler/innen)

47,6 52,4 52,9 57,3 58,9 59,6 59,7 60,5 60,9 62,8 63,2 63,5 65,4 65,9 66,7 67,3 67,4 69,8 69,8 72,3 74,1 76,1 78,5 79,6 79,7 80,1 82,9 87,1 100,8 101,2 1. Schritt: Menu: 4: Lists & spreadheet

Daten in l1 eingeben und am besten auch sortieren:

Auf I1 klicken / 1: Aktionen/ 6: Sortiere 2. Schritt: Minimum und Maximum der Daten Calculator/min (l1) dann max (l1),

3. Schritt: Klassenbreite bestimmen

∙∙∙

30 ... 5 bis 6 Klassen, wähle 6 ⇒ Breite 10 4. Schritt: Merkmalliste l2 und l3, Beginn und Ende der Klassen

Die Werte für den Klassenbeginn erhalten wir durch Eingabe l2 mit

l2 = seq(x,x,55, 105,10) / Variablenverweis, die Klassenenden in l3 mit

l3 = seq(x,x, 45,100,10)/ Variablenverweis.

5. Schritt: Häufigkeit in l4 bestimmen

Die dazu passende Klassenhäufigkeit kann man mit frequency(l1,l3) (jeweils Variablenverweise) auf l4 speichern.

Interpretation: Das 1. Intervall ist geschlossen, alle anderen sind links offen.

Tipp: Werte ohne die letzte 0 kopieren in l4k Die restlichen Schritte siehe Aufgabe 6.6 6. Schritt: Relative Häufigkeit in l5 bestimmen.

7. Schritt: Prozentuelle Häufigkeit in sh=I5*100 bestimmen.

8. Schritt: Häufigkeitssummen in kh bestimmen.

6.11 Für die Statistik einer Tageszeitung wurde eine Erhebung zum Alter der Kundinnen und Kunden unter 60 Jahren gemacht:

Argumentiere, welches Problem sich bei dieser Angabe der Klasseneinteilung ergibt.

Stelle die Verteilung mithilfe eines Säulen- diagramms dar.

B

AB Alter Anzahl

15 – 25 907

25 – 35 1 940

35 – 45 2 000

45 – 55 975

55 – 60 520

(8)

Beschreibende Statistik

6.12 Bei einer bekannten Getreidesorte trägt eine Ähre im Durchschnitt 24 Körner.

Paul hat eine neue Sorte ausgesät. Knapp vor der Ernte entnimmt er aus Interesse eine kleine Stichprobe von 20 Ähren und zählt die Körner aus.

Er erhielt das folgende Ergebnis:

a) Erstelle eine passende Klasseneinteilung.

Erkläre, wie du die Klasseneinteilung vorgenommen hast.

b) Stelle die prozentuelle Klassenhäufigkeit in einem Kreisdiagramm dar.

Interpretiere die Aussage des Diagramms.

6.13 Ein Lebensmittelhändler überprüft den Inhalt von 40 Paketen mit Mehl.

Er erhält das folgende Ergebnis in Gramm (g):

a) Bestimme die Klassenmitten und verbinde sie mit einem Polygonzug.

b) Zeichne ein Säulendiagramm.

c) Zeichne ein Kreisdiagramm mit den prozentuellen Häufigkeiten.

d) Zeichne ein Liniendiagramm mit den kumulierten Häufigkeiten.

6.14 In einer Stadt wurde erhoben, wie alt die Mütter waren, die im vorangegangenen Jahr ein Baby geboren haben.

a) Erstelle die Tabelle mit den kumulierten Häufigkeiten.

Stelle die kumulierten Häufigkeiten grafisch dar.

Interpretiere die Grafik hinsichtlich folgender Fragen:

– Bei wie vielen Geburten waren die Mütter jünger als höchstens 30 Jahre alt.

– Bei wie vielen Geburten waren die Mütter älter als 25 Jahre.

b) Zeichne ein Kreisdiagramm mit den prozentuellen Häufigkeiten.

ABC

AB

ABC

Inhalt in g Anzahl

[990; 995[ 12

[995; 1 000[ 3

[1 000; 1 005[ 17

[1 005; 1 010[ 8

Alter der Mutter Anzahl ab 15 bis inkl. 20 51 ab 20 bis inkl. 25 255 ab 25 bis inkl. 30 401 ab 30 bis inkl. 35 112 ab 35 bis inkl. 40 65

ab 40 bis inkl. 45 2

34 40 31 34 40 29 34 29 28 41

28 40 34 27 35 29 30 32 33 36

27 38 32 29 33 27 28 30 31 34

(9)

Beschreibende Statistik

6.2 Kennzahlen statistischer Verteilungen

6.2.1 Lagemaße

Um die wesentliche Information von Häufigkeits- verteilungen gebündelt zu erfassen, verwendet man Kennzahlen.

Lagemaße ermöglichen es, die Lage des „Zentrums“

einer Verteilung mit einer Zahl möglichst gut zu erfassen.

Dabei ist zu beachten, dass nicht alle Kennzahlen für alle Arten von Daten bzw. Merkmalen geeignet sind. Bei einigen Kennzahlen ist zu unterscheiden,

ob mit einer Grundgesamtheit oder einer Stichprobe gearbeitet wird. Um die Unterscheidung in den Formeln zu erleichtern, werden meist folgende Unterschiede in der Schreibweise

gemacht:

Die Anzahl der Daten aus einer Grundgesamtheit wird mit N bezeichnet, die einer Stichprobe mit n.

Gelten Kennzahlen für eine Grundgesamtheit, so werden sie zur leichteren Unterscheidbar- keit mit griechischen Buchstaben abgekürzt.

6.15 Die Anzahl der Geschwister, die

25 Schülerinnen und Schüler einer Schul- klasse haben, ist in der nebenstehenden Häufigkeitstabelle erfasst:

Berechne die durchschnittliche Geschwisteranzahl pro Schüler/in.

Im Alltag empfinden wir oft jenen Wert als „Durchschnitt“, der in der Mathematik als arithmetisches Mittel folgendermaßen definiert ist:

arithmetisches Mittel = ______________ Anzahl der EinzelwerteSume der Einzelwerte

Das Berechnen der Summe der Einzelwerte und damit des arithmetischen Mittels ist nur für metrische (quantitative) Merkmale sinnvoll und zulässig. Die in der Praxis oft durchgeführte Berechnung eines (Schul-)Notendurchschnitts ist statistisch nicht korrekt, da es sich dabei um ein Rangmerkmal handelt. Es ist zum Beispiel die Differenz zwischen den Noten 1 und 2 nicht die gleiche wie zwischen den Noten 4 und 5, die Berechnung des arithmetischen Mittels ist daher streng genommen nicht sinnvoll.

Schreibweise für das arithmetische Mittel:

Grundgesamtheit vom Umfang N: Stichprobe vom Umfang n:

μ = x__________ 1 + x2 + ... + xN N __x = x__________ 1 + x2 + ... + xn n Im Allgemeinen ist das arithmetische Mittel kein Teil der Urliste.

Wurden die Häufigkeiten bereits ermittelt, so kann die Summe der Einzelwerte mit deren Hilfe rascher ermittelt werden. Anstelle der Addition aller Einzelwerte werden die Merkmalsausprägungen mit den jeweiligen Häufigkeiten multipliziert.

Bei Verwendung der relativen Häufigkeiten entfällt die Division durch die Anzahl der Werte.

AB Merkmals-

ausprägung absolute

Häufigkeit hi relative Häufigkeit ri

0 8 0,32

1 12 0,48

2 3 0,12

3 2 0,08

Summe 25 1

(10)

Beschreibende Statistik

Das arithmetische Mittel (μ bzw. __x ) ist das am häufigsten verwendete Lagemaß für metrische Merkmale.

Grundgesamtheit (Umfang N) Stichprobe (Umfang n)

μ = x__________ 1 + x2 + ... + xN N = __ N1 ·

Σ

i = 1N xi __x = x__________ 1 + x2 + ... + xn n = _ n1 · i = 1

Σ

n xi

Das gewogene (gewichtete) arithmetische Mittel wird mithilfe der absoluten Häufigkeiten hi bzw. der relativen Häufigkeiten ri berechnet.

(k ... Anzahl der verschiedenen Merkmalsausprägungen)

μ = __ N1 ·

Σ

i = 1k xi · hi =

Σ

i = 1k xi · ri __x = _ n1 ·

Σ

i = 1k xi · hi =

Σ

i = 1k xi · ri

In unserem Eingangsbeispiel kann nun das arithmetische Mittel berechnet werden:

__x = 0 · 8 + 1 · 12 + 2 · 3 + 3 · 2_______________ 25 = 0,96 bzw.

__x = 0 · 0,32 + 1 · 0,48 + 2 · 0,12 + 3 · 0,08 = 0,96

Interpretation: Im Mittel hat eine Gruppe von 100 Schülerinnen und Schüler in Summe 96 Geschwister.

6.16 Ein Dorf besteht aus 10 Häusern, wobei 5 Häuser eine Wohnfläche von 100 m2, 3 Häuser eine Wohnfläche von 130 m2 und 2 Häuser eine Wohnfläche von 200 m2 haben. In der Nähe steht ein Schloss mit einer Wohnfläche von 7 650 m2.

Ermittle das arithmetische Mittel der Wohnflächen des Dorfs ohne Schloss.

Ermittle das arithmetische Mittel der Wohnflächen des Dorfs inklusive Schloss.

Interpretiere die Ergebnisse.

Das arithmetische Mittel der Wohnflächen des Dorfes ohne Schloss: 129 m2 Das arithmetische Mittel der Wohnflächen des Dorfes mit Schloss: 812,73 m2

Im ersten Fall bedeutet dies, dass im Mittel jedes Haus im Dorf 129 m2 Wohnfläche bietet.

Im 2. Fall würde es heißen, dass im Mittel jedes Haus im Dorf eine Wohnfläche von über 800 m2 bietet. Das ist natürlich vollkommen unrealistisch. Man spricht in diesem Fall bei der Wohnfläche des Schlosses von einem Ausreißer, einem stark vom Rest der Daten

abweichenden Wert. Die Berechnung des Mittelwerts ist zwar für metrische Merkmale immer zulässig, jedoch nicht immer sinnvoll. Da ein Wert oder manchmal auch mehrere sehr hohe Werte das arithmetische Mittel stark beeinflussen, wird üblicherweise eine andere Kennzahl angegeben, nämlich der Wert in der Mitte der nach der Größe geordneten Liste.

Dieser Wert heißt Median oder Zentralwert ˜x.

Der Median „teilt“ die geordnete Liste in zwei gleich große Teile. Mindestens 50 % aller Werte sind kleiner oder gleich dem Median, mindestens 50 % aller Werte sind größer oder gleich dem Median.

Ist die Anzahl der Werte ungerade, so gibt es einen eindeutigen Wert in der Mitte der Liste.

Ist die Anzahl der Werte gerade, so ist der Median das arithmetische Mittel der beiden mittleren Werte.

Da die Liste der Urwerte nur zu ordnen ist, kann der Median auch für Rangmerkmale angegeben werde. Einzelne, weit von den anderen Werten entfernt liegende Merkmals ausprägungen beeinflussen den Median im Gegensatz zum arithmetischen Mittel nicht.

ABC

(11)

Beschreibende Statistik

Der Median oder Zentralwert teilt eine der Größe nach aufsteigend geordnete Auflistung von Zahlenwerten in zwei Hälften. Die erste Hälfte des Datensatzes enthält Zahlenwerte, die nicht größer als der Median sind, die andere Hälfte solche, die nicht kleiner sind. Wenn die Anzahl der Werte ungerade ist, ist die mittlere Zahl der Median. Wenn die Anzahl der Werte gerade ist, wird der Median als arithmetisches Mittel der beiden mittleren Zahlen berechnet.

6.17 Ermittle den Median der angegebenen Daten.

a) 8 4 7 6 4 9 11 7 5 b) 78 45 32 66 81 55 90 60 62 71 49 84 Lösung:

a) Geordnete Liste:

4 4 5 6 7 7 8 9 11

Die Liste enthält neun Elemente, der Wert in Median: ˜x = 7 der Mitte ist daher das 5. Listenelement.

b) Geordnete Liste:

32 45 49 55 60 62 66 71 78 81 84 90 Median: ˜x = 62 + 66 _____ 2 = 64

6.18 Bei einer Telefonumfrage werden 15 Personen befragt, wie oft sie im vergangenen Jahr ein Theater besucht haben. Ermittle aus der Urliste das arithmetische Mittel und den

Median. Welcher Wert beschreibt die Verteilung besser? Begründe deine Antwort.

Urliste: 0 1 1 5 3 2 0 27 3 0 8 7 6 0 2 Lösung:

Arithmetisches Mittel: __x = 0 · 4 + 1 · 2 + 2 · 2 + 3 · 2 + 5 · 1 + 6 · 1 + 7 · 1 + 8 · 1 + 27 · 1__________________________________ 15 = 4,33... ≈ 4,3 Median:

Geordnete Liste: 0 0 0 0 1 1 2 2 3 3 5 6 7 8 27 ˜x = 2

Der Median beschreibt die Verteilung besser, weil das arithmetische Mittel durch den Ausreißer 27 stark beeinflusst wird.

Detailliertere Informationen als der Median liefern die Quartile. Die Quartile teilen den der Größe nach aufsteigend geordneten Datensatz in 4 Teile. Das 2. Quartil Q2 entspricht dem Median. Im vor dem Median liegenden Teil der geordneten Liste wird analog zum Median der „mittlere“ Wert bestimmt. Dieser wird als erstes Quartil Q1 bezeichnet. Ein Viertel der Zahlenwerte ist daher nicht größer als Q1. Ebenso kann in der Hälfte über dem Median der „mittlere“ Wert – das 3. Quartil Q3 – bestimmt werden. Ein Viertel der Zahlenwerte ist demnach nicht kleiner als Q3.

6.19 In einem Kindergarten wurden die Größen von 15 Dreijährigen erhoben.

Die geordnete Liste der Werte (in cm):

88,3 91,6 92,4 93,5 94,9 96,4 97,0 97,6 98,1 98,7 99,3 99,8 100,3 103,8 105,1

Veranschauliche die Werte in einem Kastenschaubild (Boxplot) mit Angabe der Quartile.

Interpretiere das Ergebnis.

B

BCD

ABC

Die Liste enthält zwölf Elemente.

Der Median ist das arithmetische Mittel der beiden „mittleren“ Werte.

(12)

Beschreibende Statistik

Wir ermitteln zunächst die Quartile.

88,3 91,6 92,4 93,5 94,9 96,4 97,0 97,6 98,1 98,7 99,3 99,8 100,3 103,8 105,1 Q1 x = Q˜ 2 Q3

Zur grafischen Veranschaulichung verwendet man einen Boxplot (Kastenschaubild).

Die 4 Teile sind:

Intervall vom Minimum (= Q0) zum 1. Quartil Q1 ... der linke Whisker (Fühler)

Intervall vom 1. Quartil bis zum 2. Quartil ... 1. Teil der Box

Intervall vom 2. Quartil bis zum 3. Quartil ... 2. Teil der Box

Intervall vom 3. Quartil bis zum Maximum (= Q4) ... der rechte Whisker (Fühler) Die Quartile Q1 und Q3 werden leider unterschiedlich festgelegt. Üblicherweise listen

Taschenrechner den Median Q2 bei der Bestimmung von Q1 bzw. Q3 nicht mit auf (Quartile, EXKL). Aber es gibt auch die Variante, dass man den Median mit auflistet (Quartile.INKL). Diese beiden Varianten liefern leider unterschiedliche Werte für die Quartile.

Die Länge der Box von Q1 bis Q3 ist der Interquartilsabstand (IQR) mit den mittleren 50 % aller Daten. Die Box wird durch den Median in 2 gleiche Teile geteilt. Jeder Teil enthält je 25 % der Daten. Der Abstand zwischen Minimum und Maximum heißt Spannweite.

Modalwert (Modus)

In einer bekannten Fernsehquiz-Show, bei der Kandidatinnen bzw. Kandidaten aus vier möglichen Antworten A, B, C und D die richtige auswählen müssen, kann man die Hilfe der Zuschauer/innen in Form eines „Publikumsjokers“ in Anspruch nehmen. Oft entscheiden sich die Kandidatinnen bzw. Kandidaten dann für jene Antwort, die die meisten Zuschauer/innen gewählt haben. Dieser am häufigsten vorkommende Wert heißt Modalwert oder Modus der

Verteilung. Treten mehrere Werte gleich häufig auf, so gibt es mehrere Modalwerte. Dieses Lagemaß ist das einzige, das auch für nominale (qualitative) Merkmale ermittelt werden kann.

Der häufigste Wert einer Liste heißt Modalwert oder Modus, bei gleicher Häufigkeit gibt es mehrere Modalwerte.

Technologieeinsatz zur Bestimmung der Lagemaße

6.20 Die Monatsverdienste von 15 Angestellten eines Kleinbetriebs lauten der Höhe nach geordnet: 1.350 €, 1.520 €, 1.600 €, 1.600 €, 1.680 €, 1.700 €, 1.700 €, 1.750 €, 1.800 €, 1.850 €, 1.870 €, 2.000 €, 2.170 €, 2.200 €, 2.500 €

Berechne die Lagemaße mithilfe von Technologieeinsatz.

BC Mindestens 25 % aller

Kinder sind 93,5 cm groß oder kleiner.

Mindestens 50 % aller Kinder sind höchstens 97,6 cm groß.

Mindestens 75 % aller Kinder sind höchstens 99,8 cm groß.

Q1 x = Q~ 2 Q3 xmax

xmin

88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105

%

A B C D

Publikumswertung

10%

65%

22%

3%

(13)

Beschreibende Statistik

Mit TI-Nspire:

Menu/ 4: Lists & Spreadsheet. Die angegebenen Zahlen werden in eine Liste (l1) eingetragen.

Auf l1 klicken

Menu/ 4: Statistik/1: Statistische Berechnung/ …mit einer Variablen …

6.21 Die Durchmesser von Schrauben in einem Behälter wurden gemessen.

Setze für die folgenden Aufgaben Technologie ein:

Bestimme arithmetisches Mittel, Median und Modus für diese Messung.

Stelle die Verteilung in einem Boxplotdiagramm dar.

Zeichne ein Kreisdiagramm.

Für diese Aufgabe wird der gewichtete arithmetische Mittelwert benötigt, denn die Größen sind in einer Häufigkeitstabelle gegeben und nicht mehr wie in 6.20 in Einzelwerten in einer Liste.

Es gelten daher die auf Seite 125 angeführten Formeln für das gewichtete arithmetische Mittel.

Mit TI-Nspire:

1. Vorbereitung:

MENU /4: „Listen und Spreadsheets“: Spalte mit l1 bzw. l2 benennen und die Zahlen eingeben.

In l3: Formel eingeben:

=l2/sum(l2) *1. /Variablenverweis, Listen sind Variable!

Der Punkt nach der Zahl 1 ist wichtig, so erhält man die relativen Häufigkeiten in Dezimalzahlen.

2. Einzelne Kenngrößen aus Häufigkeitstabellen mit l1 und l2 berechnen:

MENU/1: Calculator /6: Statistik /1: Statistische Berechnungen/3: ListenMath mean (l1,l2) bzw. median (l1; l2) evtl max (l2).

Für den Modus existiert kein eigener Befehl. Mithilfe des Maximums in der Häufigkeitsliste kann man den Wert aus der Tabelle Spalte l1 ablesen. Modus: 3

BC Länge in mm absolute Häufigkeit

2 17

2,5 24

3 26

3,5 15

4 22

4,5 9

5 2

(14)

Beschreibende Statistik

3. Darstellung des Boxplots

neue Seite: Menu /4: Lists & Spreadsheet/

3: Daten/5: Ergebnisdiagramm/X=l1, Ergebnis =l2/neue Seite/Boxplot

Beim Drüberfahren mit dem Zeiger werden die Werte Min, Q1, Median; Q3 und Max angezeigt.

4. Kreisdiagramm: Die Zahlen der Liste 1 mit Anführungsstrichen zB “2 mm“ als Kategorie eingeben. (Das Tortendiagramm ist nicht für Zahlen zuständig, sondern für Kategorien!) Menu /4: Lists & Spreadsheet/3: Daten/5: Ergebnisdiagramm/X=l4, Ergebnis =l3/neue Seite /Tortendiagramm/Untermenu: alle Beschriftungen anzeigen

Technologieeinsatz zu diesem Thema für TI 82-84, EXCEL und Geogebra siehe www.hpt.at (Schulbuch Plus für Schüler/innen)

6.22 An einer Schule wurde in den Klassen 2A und 2B der gleiche Test abgehalten. Die 27 Schülerinnen und Schüler der 2A erreichten im Mittel 34 Punkte. In der 2B mit 23 Schülerinnen und Schülern betrug das arithmetische Mittel 38 Punkte.

Berechne das arithmetische Mittel der Punktezahlen aller 50 Teilnehmenden.

Argumentiere, welche der beiden Klassen das arithmetische Mittel mehr beeinflusst.

6.23 Die Profiltiefen von 1 000 Reifen wurden gemessen.

Ermittle die Lagemaße der Daten aus der gegebenen Häufigkeitsverteilung.

Zeichne ein Kreisdiagramm.

Zeichne einen Boxplot.

Interpretiere die Aussage des Boxplots.

ABD

ABC

Profiltiefe in mm prozentuelle Häufigkeit

3,6 2,4 %

3,7 7,3 %

3,8 10,8 %

3,9 8,2 %

4 9,5 %

4,1 15,6 %

4,2 22,4 %

4,3 15,3 %

4,4 5,1 %

4,5 3,4 %

(15)

Beschreibende Statistik

6.2.2 Streuungsmaße

Lagemaße informieren über die Größe der Werte eines Datensatzes, aber sie sagen nichts darüber aus, wie weit die Werte voneinander oder von einem gewählten Lagemaß entfernt liegen. Erst die so genannten Streuungsmaße beschreiben diese Abweichung voneinander. Die Berechnung dieser Maßzahlen ist im Allgemeinen nur für metrische Merkmale möglich.

6.24 Die Temperatur T wird im Spätherbst zehn Tage lang jeweils um 12:00 Uhr in Grad Celsius aufgezeichnet:

Berechne das arithmetische Mittel.

Veranschauliche mithilfe eines Diagramms die jeweiligen Abweichungen vom Mittelwert.

Bestimme die Standardabweichung vom Mittelwert.

Es gibt mehrere Möglichkeiten, die Streuung eines Datensatzes zu erfassen:

Spannweite

Die Differenz zwischen dem größten und dem kleinsten Wert von Daten wird als Spannweite R = xmax − xmin bezeichnet. Die Spannweite ist leicht zu ermitteln und von Lagemaßen unabhängig, hat aber den Nachteil, durch einzelne Ausreißer stark beeinflusst zu werden.

Interquartilsabstand (IQR)

Weniger anfällig für Ausreißer ist die Differenz zwischen den Quartilsgrenzen Q1 und Q3. Der Interquartilsabstand IQR = Q3 – Q1. Er gibt an, in welchem Bereich die mittleren 50 % aller gemessenen Werte liegen.

Varianz und Standardabweichung

Für die Bestimmung einer Maßzahl zur Beurteilung der Streuung von Daten erweist sich die Summe aller Differenzen vom Mittelwert als ungeeignet, da sie infolge der wechselnden Vorzeichen immer null ist. Um vom Vorzeichen unabhängig zu sein, quadrieren wir die jeweiligen Differenzen aller N Merkmalsausprägungen xi einer Grundgesamtheit vom arithmetischen Mittel μ und bilden das arithmetische Mittel aus diesem Wert. Das Ergebnis nennt man die Varianz σ2.

Zieht man die Wurzel aus der Varianz, so erhält man die Standardabweichung σ. Sie ist die wichtigste Kennzahl zur Beschreibung der Streuung von metrischen Merkmalen.

In Formelschreibweise lautet die Rechenvorschrift für die Varianz: σ2 = __ N1 ·

Σ

i = 1N (xi – μ)2

Arbeitet man nicht mit der Grundgesamtheit, sondern mit einer Stichprobe aus der Grundgesamtheit, wie in unserem Eingangsbeispiel mit n = 10 Merkmalsausprägungen, so ändert sich die Rechenvorschrift und auch die Schreibweise ein wenig.

Der Mittelwert entspricht dem arithmetischem Mittel __x der Stichprobe, die Varianz wird nicht durch n dividiert, sondern durch (n – 1). Durch diese Änderung ergeben sich bessere Möglichkeiten, um von der Stichprobe auf die Grundgesamtheit zu schließen. Die mathe- matische Begründung erfordert allerdings Kenntnisse, die für uns noch zu schwierig sind.

Die Bezeichnung ändern wir zur Unterscheidung von σ2 auf s2. Daher gilt für die Varianz einer Stichprobe: s2 = ____ n – 11 · i = 1

Σ

n (xi__x )2

Für große Stichproben mit n > 30 kann man auf die Unterscheidung der Formeln verzichten.

AB

2 2 4 4 2 1 2 5 6 2

(16)

Beschreibende Statistik

In unserem Eingangsbeispiel sieht diese Berechnung folgendermaßen aus:

Arithmetisches Mittel aller Werte: __x =3

s2 = (2 – 3)_________________________________________________________ 2 + (2 – 3)2 + (4 – 3)2 + (4 – 3)2 + (2 – 3)2 + (1 – 3)9 2 + (2 – 3)2 + (5 – 3)2 + (6 – 3)2 + (2 – 3)2 = 2,67 s = 1,63

Das bedeutet, dass die Temperaturen dieses Tages im Mittel um ± 1,63 °C von 2,67 °C abweichen.

Das wichtigste Streuungsmaß in der Statistik ist die Varianz.

Man unterscheidet bei der Berechnung zwischen Grundgesamtheiten und Stichproben.

Varianz einer Grundgesamtheit mit N Werten: Varianz einer Stichprobe mit n Werten:

σ2 = __ N1 ·

Σ

i = 1N (xi – μ)2 s2 = ____ n – 11 ·

Σ

i = 1n (xi__x )2

Varianz von klassifizierten Daten:

Es wird mit den Klassenmitten xi und deren Klassenhäufigkeiten hi gearbeitet.

s2 = ____ n – 11 ·

(

i = 1

Σ

k

hi · xi2 – n · __x 2

)

mit __x = 1 _ n · i = 1

Σ

k hi · xi k ... Anzahl der Klassen Die Quadratwurzel aus der Varianz wird als Standardabweichung 𝛔 bzw. s bezeichnet. Sie gibt an, wie stark die Werte in Bezug auf den Mittelwert streuen.

6.25 In einer KFZ-Werkstätte wurde eine Stichprobe über die Arbeitsstunden beim Reparieren eines bestimmten Schadens erhoben:

2,2 3,5 4,1 2,3 1,8 0,9 2,2 3,1 1,9 2,7 4,0 2,7 2,4 3,9 3,5 2,3 3,0 3,1 2,0 1,7 0,5 3,9 3,1 a) Ermittle den Median, die Quartile Q1 und Q3,

den Interquartilsabstand und die Spannweite.

Zeichne einen Boxplot.

b) Ermittle das arithmetische Mittel und die Standardabweichung.

Lösung mit Technologieeinsatz:

a) 4: Lists und Spreadsheets, Werte eingeben/ neu: 1: Calculator/ 6: Statistik/ 1: stat.

Berechnungen/1 ..1 Variablen... liefert alle wichtigen Kenndaten:

Median: 2,7; Q1: 2; Q3: 3,5; IQR: 1,5;

Min: 0,5; max: 4,1; R = 3,6.

Für den Boxplot bei mehreren gleichen Wer- ten über 5: Data & Statistics, unten l1 ein- geben/Menu/1: Plottyp/2: Boxplot wählen

b) __x = 2,64; s = 0,96

Technologieeinsatz zu diesem Thema für TI 82-84, EXCEL und Geogebra siehe www.hpt.at (Schulbuch Plus für Schüler/innen)

AB

(17)

Beschreibende Statistik

6.26 Berechne die Standardabweichung s der Daten:

23,6; 22,8; 21,9; 24,8; 23,9; 23,5; 23,3; 22,8; 23,8; 21,9

Begründe, warum der Wert für σ kleiner als jener von s sein muss.

6.27 Bei einer Telefonumfrage wurde die Anzahl der Mobiltelefone pro Haushalt erfragt:

Anzahl 0 1 2 3 4

Häufigkeit 18 156 243 161 87

a) Erstelle ein Säulendiagramm.

b) Berechne das arithmetische Mittel.

c) Ermittle die Varianz und die Standardabweichung.

6.28 Bei einer Abfüllanlage wurden folgende Messungen vorgenommen (Werte in Milliliter):

434 423 501 509 423 499 500 422 471 456 461 456 499 485 452 437 457 464 475 480 425 425 491 471 483 491 422 502 422 465 480 449 479 450 480 425 499 475 433 461

a) Klassifiziere die Daten und erstelle ein Säulendiagramm.

b) Berechne aus den klassifizierten Daten den Mittelwert und die Standardabweichung.

6.29 Der Durchmesser von Werkstücken wurde gemessen (Werte in Millimeter):

73 70 68 73 63 67 71 67 69 73 64 65 75 69 74 65 68 69 64 72 66 78 69 75 68 77 69 74 68 65 67 71 68 64 75 67 63 70 69 71

Erstelle eine Tabelle mit der Häufigkeitsverteilung, ermittle auch die Häufigkeitssummen.

Zeichne ein Säulendiagramm und stelle die Häufigkeitssummen grafisch dar.

Berechne folgende Lagemaße: Mittelwert, Median, Quartile Q1 und Q3. Erstelle einen Boxplot und gib die Spannweite und den Interquartilsabstand an.

Berechne die Varianz und die Standardabweichung.

6.30 100 Personen wurden während einer Diät medizinisch betreut und ihre Abnehmerfolge aufgezeichnet (Werte in kg).

4,3 2,1 2,0 3,5 3,0 3,1 2,9 1,0 1,4 1,8 1,5 1,3 5,0 4,1 4,0 3,4 3,3 2,7 2,2 3,5 1,1 4,5 1,1 3,3 3,4 1,1 1,2 4,1 4,2 4,3 1,2 1,7 2,0 3,0 3,1 3,1 2,1 2,1 2,4 2,5 2,6 2,8 2,8 2,9 1,9 2,4 3,9 1,3 2,6 1,3 1,4 1,6 3,0 1,7 3,0 3,8 3,2 4,2 2,9 3,7 3,3 4,4 3,5 1,6 3,7 4,0 4,4 2,5 5,2 2,6 1,5 2,9 1,0 1,4 4,0 3,4 3,3 2,7 1,9 2,6 4,3 2,1 1,8 2,9 1,0 1,4 3,1 3,1 2,1 1,8 2,0 3,9 1,3 3,3 2,7 2,2 2,6 1,3 4,2 3,5 Nimm eine Klasseneinteilung vor.

Erstelle ein Säulendiagramm.

Ermittle aus den klassifizierten Daten das arithmetische Mittel und die Varianz.

BD

AB

AB

AB

AB

(18)

Beschreibende Statistik

Zusammenfassung

Die Statistik befasst sich mit der Erhebung, Auswertung und Darstellung von Daten.

Man unterscheidet metrische (quantitative) Merkmale, ordinale Merkmale (Rangmerk- male) und nominale (qualitative) Merkmale.

Aus praktischen Gründen wird oft statt der Grundgesamtheit mit dem Umfang N nur eine Auswahl, eine Stichprobe mit dem Umfang n, verwendet.

Auswertung von Daten:

Häufigkeitsverteilung

Die absoluten, relativen oder prozentuellen Häufigkeiten von Datenmengen werden meist in Tabellenform angegeben.

Umfang der Stichprobe: n ... Anzahl der Erhebungsobjekte

absolute Häufigkeit hi mit

Σ

i = 1n hi = n ... Anzahl bestimmter Merkmalsausprägungen

relative Häufigkeit ri = h__ n i mit i = 1

Σ

n ri = 1 ... Anteil bestimmter Merkmalsausprägungen an der Gesamtheit.

Klassenbildung

Große Datenmengen werden der besseren Übersichtlichkeit wegen klassifiziert und dabei in ca. √

∙∙

n maximal aber in 20 gleich breite Klassen zusammengefasst.

Lagemaße

Arithmetisches Mittel: Summe aller Werte, dividiert durch deren Anzahl

Das arithmetische Mittel (μ bzw. __x ) ist das am häufigsten verwendete Lagemaß für metrische Merkmale.

Grundgesamtheit (Umfang N) Stichprobe (Umfang n)

μ = x__________ 1 + x2 + ... + xN N = __ N1 ·

Σ

i = 1N xi __x = x__________ 1 + x2 + ... + xn n = _ n1 · i = 1

Σ

n xi

Das gewogene (gewichtete) arithmetische Mittel wird mithilfe der absoluten Häufigkeiten hi bzw. der relativen Häufigkeiten ri berechnet.

(k ... Anzahl der verschiedenen Merkmalsausprägungen)

μ = __ N1 ·

Σ

i = 1k xi · hi =

Σ

i = 1k xi · ri __x = _ n1 ·

Σ

i = 1k xi · hi =

Σ

i = 1k xi · ri

Median (Zentralwert): mittlerer Wert der geordneten Liste Quartile: Sie teilen die Liste in vier Bereiche zu ca. 25 %.

Modalwert (Modus): häufigster Wert einer Liste Streuungsmaße

Spannweite: Differenz zwischen Maximum und Minimum

Interquartilsabstand IQR: Differenz zwischen den Quartilen Q3 und Q1 Varianz 𝛔2 bzw. s2: Mittlere quadratische Abweichung vom Mittelwert

σ2 = __ N1 ·

Σ

i = 1N (xi – μ)2 bei Grundgesamtheiten bzw. s2 = ____ n – 11 ·

Σ

i = 1n (xi__x )2 bei Stichproben Standardabweichung = √

∙∙∙∙∙∙∙

Varianz

Grafische Darstellung: zB Säulendiagramm, Kreisdiagramm, Boxplot

(19)

Beschreibende Statistik

Weitere Aufgaben zur Vertiefung

6.31 Beurteile, welche der genannten Merkmale metrische Merkmale, Rangmerkmale bzw.

nominale Merkmale sind:

Größenklassen von Hühnereiern

Geburtsgewicht von Säuglingen

Staatsangehörigkeit

Sterne von Hotels

Inflationsraten von Staaten

Religionszugehörigkeit

6.32 Kreuze an, welches Merkmal stetig ist (Mehrfachlösungen). Begründe.

6.33 Ordne den unten angegebenen Aussagen 1 bis 7 die passenden Boxplots aus A bis F zu.

Schreibe die passenden Buchstaben in die letzte Spalte der Tabelle.

Mehrfachnennungen sind möglich.

A) B) C)

D) E) F)

6.34 Die Körpergröße von Kindern gleichen Alters wurde in Zentimeter gemessen:

102,6; 101,5; 101,0; 102,1; 80,0; 102,2; 101,9; 102,4; 102,7; 102,8; 102,1; 101,9.

Berechne den Interquartilsabstand IQR und die Spannweite R.

Argumentiere, welchen Vorteil der IQR gegenüber R hat.

6.35 Ermittle für 10 Autos das arithmetische Mittel und den Median des Benzinverbrauchs (Werte in Liter pro 100 km) anhand folgender Werte:

6,6; 3,9; 8,7; 3,8; 24,1; 7,5; 8,4; 7,3; 9,4; 21,5

Argumentiere, welches Lagemaß die Verteilung gut beschreibt.

CD

CD

CD

ABD

ABD

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

A Anzahl der Handys pro Haushalt B Fußgrößen

C Temperaturwerte D Schuhgrößen

E Wohnflächen in einer Stadt

1 Der Interquartilsabstand beträgt 3.

2 Die Verteilung ist symmetrisch.

3 Ungefähr 1 Viertel der Stichprobenwerte ist größer als 7.

4 Die Spannweite beträgt 7.

5 Ungefähr die Hälfte der Stichprobenwerte liegt im Bereich [2; 7].

6 Ungefähr 1 Viertel der Stichprobenwerte ist kleiner als 5.

7 Ungefähr die Hälfte der Stichprobenwerte ist größer als 5.

(20)

Beschreibende Statistik

6.36 Eine Befragung über das Vorhandensein von Mobiltelefonen, Computer und Internetzugang in einer Großstadt mit 9 Stadtteilen ergab das folgende Ergebnis:

Werte das Ergebnis für das Mobiltelefon, Computer und Internetzugang aus:

a) Berechne das arithmetische Mittel und die Standardabweichung.

b) Bestimme die Spannweite, den Median und die Quartile.

c) Zeichne passende Säulendiagramme zur Ausstattung in den einzelnen Stadtteilen.

Beschreibe die Aussage des Diagramms.

6.37 Die Tabelle gibt den prozentuellen Anteil der Gesamtausgaben für Forschung und Entwicklung in Europa am Bruttoinlandsprodukt für ein bestimmtes Jahr an.

a) Berechne das arithmetische Mittel.

b) Berechne die Standardabweichung.

c) Bestimme den Median und die Quartile.

d) Stelle die Daten in einem Boxplot dar.

Interpretiere die grafische Darstellung.

6.38 Die Tabelle gibt den prozentuellen Anteil erneuerbarer Energieträger an der Stromversorgung in einem bestimmten Jahr in Europa an.

a) Berechne das arithmetische Mittel.

b) Berechne die Standardabweichung.

c) Bestimme den Median.

d) Bestimme die Spannweite und die Quartile.

e) Stelle die Daten in einem Boxplotdiagramm dar.

Interpretiere die Aussage des Diagramms.

ABC

ABC

ABC

Stadtteil Prozentueller Anteil der Haushalte mit

Mobiltelefon Computer Internetzugang

I 90,1 71,7 67,2

II 92,2 72,1 62,4

III 91,5 72,9 66,0

IV 91,7 77,8 69,4

V 91,8 75,6 68,6

VI 92,6 74,4 65,9

VII 92,5 74,8 69,3

VIII 92,3 74,6 68,0

IX 94,3 80,3 74,7

BE 1,89 DE 2,51 ES 1,25 LV 0,57 MT 0,63 PT 0,81 FI 3,48

BG 0,50 EE 0,94 FR 2,13 LT 0,76 NL 1,78 RO 0,39 SE 3,86

CZ 1,42 IE 1,25 IT 1,10 LU 1,56 AT 2,43 SI 1,45 UK 1,77

DK 2,44 EL 0,63 CY 0,40 HU 0,94 PL 0,57 SK 0,51

BE 2,8 DE 10,5 ES 15,0 LV 48,4 MT 0,0 PT 16,0 FI 26,9

BG 11,8 EE 1,1 FR 11,3 LT 3,9 NL 7,5 RO 35,8 SE 54,3

CZ 4,5 IE 6,8 IT 14,1 LU 3,2 AT 57,9 SI 24,2 UK 4,3

(21)

Beschreibende Statistik

Wissens-Check

Bearbeite die Aufgaben. Begründe jeweils deine Auswahl.

gelöst

1

Für 1 000 Personen liegen Daten zu den in der Tabelle angeführten Merkmalen vor.

Kreuze an, welches der Merkmale nominal skaliert ist.

2

Bei einer Radarmessung werden in einer Stunde 184 PKW gemessen, 25 % davon wurden wegen einer Geschwindigkeitsübertretung verwarnt.

Kreuze an, wie hoch die absolute Häufigkeit der nicht verwarnten Verkehrsteilnehmer ist.

3

Eine Verkehrszählung an einem Tag ergab 23 % Lastkraftwagen, 28 % Motorräder, 18 % Wohnwägen und der Rest fiel auf Personenkraftfahrzeuge.

Ordne den Verkehrsmittel 1 und 2 jeweils den richtigen Innenwinkel aus A bis D eines Kreisdiagramms zu.

4

Bei einer Schularbeit ergab sich folgendes Notenergebnis:

Ordne den Begriffen 1 und 2 das jeweils richtige Ergebnis aus A bis D zu.

A Akademischer Beruf D Monatseinkommen

B Anzahl der Freunde E Noten einer Schularbeit C Reaktionszeit

A 25 D 138

B 46 E 159

C 75

1 Motorräder

2 Personenkraftfahrzeuge

1 Prozentuelle Häufigkeit für Befriedigend

2 Anzahl der vorliegenden Schularbeiten

A 24 B 25 C 28 D 36

A 64,8°

B 100,8°

C 111,6°

D 277,2°

0   1   2   3   4   5   6   7   8   9   10  

Sehr  gut   Gut   Befriedigend   Genügend   Nicht  Genügend  

Absolute  Häufigkeit  

(22)

Beschreibende Statistik

Lös ung: 1) A 2) D 3) 1 → B; 2 → C 4) 1

→ D; 2 → B 5) 1: (3

|4|

9|11

|14) un d 2: (3|6

|8|

11|14); 1

B; 2 → D

6) C

gelöst

5

Lies die Werte der 5 wichtigsten Kenngrößen ab:

1: 2:

Ordne den beiden Boxplots 1 und 2 jeweils die passende Rohliste aus A bis D zu.

Schreibe den passenden Buchstaben in das leere Feld neben den Boxplots.

6

Eine Erhebung unter 200 Studenten hat das folgende Säulendiagramm zu den von ihnen am meisten benützten Transportmitteln zur Uni ergeben.

Ergänze die fehlende Beschriftung der vertikalen Achse.

Kreuze die richtige Aussage zum Diagramm an.

A 3 | 4 | 4 | 6 | 8,5 | 8,5 | 9 | 10 | 11 | 12 | 14 B 3 | 4 | 4 | 6 | 8,5 | 9 | 9 | 10 | 11 | 12 | 14 C 3 | 5 | 6 | 7 | 8 | 8,5 | 8,5 | 9,5 | 11 | 12 | 14 D 3 | 5 | 6 | 7 | 8 | 8 | 8,5 | 9,5 | 11 | 12 | 14

A 15 % der Studenten fahren mit dem Auto.

B 32,5 % der Studenten fahren mit dem Motorrad.

C 45 Studenten fahren mit dem Fahrrad.

D 13 der Studenten fahren mit dem E-Bike.

E 33 Studenten fahren mit dem Moped.

1 2

0   0,05   0,1   0,15   0,2   0,25   0,3   0,35  

Auto   Motorrad   Moped   E-­‐Bike   Fahrrad  

2 4 6 8 10 12 14

2 4 6 8 10 12 14

2 4 6 8 10 12 14

Referenzen

ÄHNLICHE DOKUMENTE

In vielen Ländern, insbesondere der EU, wird zur Beurteilung der Rohmilchqualität der Gleitende Geometrische Mittelwert über mehrere Monate und für mehrere Proben pro Monat

Im Unterschied zu einer geordneten Stichprobe geht man bei einer ungeordneten Stich- probe davon aus, dass man alle Stichproben gleichzeitig entnimmt und nicht der Reihe nach, wie

Wie lange dauert es, wenn 2, 4 oder 8 Bagger eingesetzt werden?. Auch der Innenausbau zieht sich zu

Bei einer geraden Zahl an Werten kann ich als Zentralwert einen der beiden Werte in der Mitte der Rangliste bestimmen.... BESCHREIBENDE STATISTIK – NEUE

Dinges: Beschreibende Statistik: Diagramme 1.. © Persen Verlag

Quantitative Merkmale (diskret und stetig) kategorial, artmäßig metrisch, zahlenmäßig.. Stichprobe und

In den ersten beiden Stunden planen die Schüler mithilfe der Methode Think-Pair-Share eigene Versuche, mit denen sie überprüfen, ob sich eine Säure tatsächlich mit einer

„durchschnittlich“ daher zu vermeiden. Eine weitere für die Verarbeitung der Daten relevante Überlegung ist die Unterscheidung zwischen diskreten und stetigen Merkmalen. Können