• Keine Ergebnisse gefunden

Nachtrag zu Mittelwerten und Maßen der Dispersion Darstellungsmethode Boxplot

N/A
N/A
Protected

Academic year: 2022

Aktie "Nachtrag zu Mittelwerten und Maßen der Dispersion Darstellungsmethode Boxplot"

Copied!
10
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Nachtrag zu Mittelwerten und Maßen der Dispersion

Darstellungsmethode Boxplot

 Strich innerhalb der Boxen: Median

 Boxen: Interquartilsabstand

Whiskers: 1.5 * Interquartilsabstand an den äußeren Rändern der Box

 Bedeutung: innerhalb der „whiskers“

liegen 95% der Daten (entspricht 1.96*

sx)

 Ausreißer bzw. outlier: Werte außerhalb der whiskers

Zur Erinnerung:

Der Median ist derjenige Wert, der die geordnete Reihe der Messwerte in die oberen und unteren 50 Prozent aufteilt. Somit ist die Anzahl der Messwerte über und unter dem Median gleich.

Als Quartile werden jene Punkte Q1, Q2 und Q3 bezeichnet, welche eine Verteilung in vier gleich große Abschnitte aufteilen. Das mittlere Quartil Q2

entspricht dem Median, das untere Quartil Q1 einem Prozentrang von 25 und das obere Quartil Q3 von 75. Die Differenz von Q3 und Q1 wird als Interquartilabstand (IQA) bezeichnet.

sx ist die Standardabweichung einer Stichprobe

Normalverteilung

(Auch Gauß’sche Normalverteilung oder „Glockenverteilung“, normal distribution)

Bei der Normalverteilung handelt es sich um eine unimodale, symmetrische Verteilung, die sich asymptotisch der Abszisse annähert.

Die Gauß´sche Normalverteilung wird bei vielen natur- und sozialwissenschaftlichen Variablen vorausgesetzt. Der Ausgangspunkt ist, dass Messungen in Experimenten meist zufälligen Variationen unterliegen (Reaktion der Versuchsperson, Messmethode etc.). Ist diese Annahme korrekt, so ergibt eine genügend große Anzahl an Messungen eine symmetrische Verteilung um einen zentralen Wert, der am häufigsten auftritt und durch den Mittelwert widergegeben werden kann.

L N S

406080100120140160

Consonant duration

dur [ms]

(2)

Johnson (2004, p.14) beschreibt diese mittlere Tendenz als das zugrundeliegende Merkmal, das wir bei Experimenten herausfinden wollen, das aber durch zufällige Fehler „verfälscht“

wird. Für die zufälligen Fehler gilt, dass die größeren Abweichungen seltener auftreten, weshalb sich die Verteilung zu den Rändern hin an null annähert.

Die besondere Bedeutung der Normalverteilung beruht unter anderem auf dem zentralen Grenzwertsatz, der besagt, dass eine Summe von n unabhängigen, identisch verteilten Zufallsvariablen im Grenzwert normalverteilt ist. Das bedeutet, dass man Zufallsvariablen dann als normalverteilt ansehen kann, wenn sie durch Überlagerung einer großen Zahl von Einflüssen entstehen, wobei jede einzelne Einflussgröße einen im Verhältnis zur Gesamtsumme unbedeutenden Beitrag liefert.

Beispiel:

Auf einer Hühnerfarm mit sehr vielen Hühnern werden eine Woche lang die einzelnen Eier gewogen. Definieren wir die Zufallsvariable X: Gewicht eines Eis in Gramm. Es stellt sich heraus, dass ein Ei im Durchschnitt 50 g wiegt. Der Erwartungswert EX (oder auch µ) ist daher 50. Außerdem sei bekannt, dass die Varianz s2(x) = 25 g2 beträgt. Man kann die Verteilung des Gewichts annähernd wie in der Grafik darstellen. Man sieht, dass sich die meisten Eier in der Nähe des Erwartungswerts 50 befinden und dass die Wahrscheinlichkeit, sehr kleine oder sehr große Eier zu erhalten, sehr klein wird. Wir haben hier eine Normalverteilung vor uns. Sie ist typisch für Zufallsvariablen, die sich aus sehr vielen verschiedenen Einflüssen zusammensetzen, die man nicht mehr trennen kann, z.B. Gewicht des Huhns, Alter, Gesundheit, Standort, Vererbung usw.

Die Normalverteilung ist symmetrisch bezüglich μ. Die Verteilung P(X ≤ a) von X ist die Fläche unter dem Graph der Dichtefunktion. Sie wird bezeichnet als

Beispielsweise beträgt die Wahrscheinlichkeit, dass ein Ei höchstens 55 g wiegt, 0,8413. Das entspricht der roten Fläche in der Abbildung.

(3)

Mit Standardabweichung = 𝜎 und Erwartungswert = µ

Der Erwartungswert (selten und doppeldeutig Mittelwert) ist ein Begriff der Stochastik. Der Erwartungswert μ einer Zufallsvariablen (X) ist jener Wert, der sich (in der Regel) bei oftmaligem Wiederholen des zugrunde liegenden Experiments als Mittelwert der Ergebnisse ergibt. Er bestimmt die Lokalisation (Lage) einer Verteilung und ist vergleichbar mit dem empirischen arithmetischen Mittel einer Häufigkeitsverteilung in der deskriptiven Statistik.

Das Gesetz der großen Zahlen sichert in vielen Fällen zu, dass der Stichprobenmittelwert bei wachsender Stichprobengröße gegen den Erwartungswert konvergiert.

Eigenschaften:

 Datenreduktion: Mit den beiden Kenngrößen μ und σ kann die Wahrscheinlichkeit für das Auftreten einzelner Messwerte vorhergesagt werden.

 Die Fläche unterhalb der Kurve ist immer 1, d.h. Normalverteilungen mit einem Mittelwert, der eine geringe Häufigkeit aufweist, haben eine große Standardabweichung („flach und breit“) und umgekehrt („spitz und schmal“)

Dichte (density): gibt die Wahrscheinlichkeit an, dass ein Maß sehr nah an einem Messwert liegt. Wahrscheinlichkeiten liegen zwischen 0 und 1 mit steigender Wahrscheinlichkeit. Durch die Definition der Funktionsgleichung ist es möglich, das Integral, die Fläche, unter der Kurve, zu berechnen. Mit dieser Fläche kann man die Intervalle bestimmen, in denen gewisse Prozentanteile der Stichprobe mit hoher Wahrscheinlichkeit enthalten sind. Eine Dichtefunktion, Wahrscheinlichkeitsdichte oder Wahrscheinlichkeitsdichtefunktion (WDF oder pdf von engl. probability density function) dient in der Mathematik der Beschreibung von Wahrscheinlichkeitsverteilungen

 Bei normalverteilten Daten liegen 68,28% der Daten innerhalb eines Bereiches von ± 1Standardabweichung und 95,44 % im Bereich von ± 2 SD

 Im statistischen Sinne normale Daten liegen zwischen -1,96 * SD und +1,96*SD. Alle außerhalb dieser 95% Marke liegenden Daten sind Ausreißer.

(4)

Die Wahrscheinlichkeiten der einzelnen Ausprägungen einer stetigen Zufallsvariablen können (im Gegensatz zum diskreten Fall der Wahrscheinlichkeitsfunktion) nicht angegeben werden, denn die Wahrscheinlichkeiten für jede einzelne Ausprägung müssen streng genommen 0 gesetzt werden. Es lassen sich nur Wahrscheinlichkeiten f(x)dx dafür angeben, dass die Werte innerhalb eines Intervalls dx um x liegen. Die Funktion f(x) heißt dann Dichtefunktion. Die Wahrscheinlichkeit, dass die Zufallsvariable Werte zwischen a und b annimmt, wird dann allgemein definiert als das Integral über diese Funktion mit den Integrationsgrenzen a und b.

Beispielsweise fragt man nicht, wie viele Personen exakt 1,75 Meter groß sind, sondern z. B., wie viele Personen zwischen 1,75 und 1,76 m groß sind. Denn die Wahrscheinlichkeit, dass eine Person auf beliebig viele Nachkommastellen genau 1,75 Meter groß ist, ist theoretisch und praktisch gleich Null (daraus folgt: Nullmenge).

Beispiel:

Der HAWIE (Hamburg-Wechsler-Intelligenztest für Erwachsene) besitzt einen Mittelwert von 𝒙 = 100 IQ-Punkte und eine Standardabweichung von sx=15 Punkten. Dies bedeutet, dass 4,56% der Bevölkerung einen IQ von unter 70 oder über 130 Punkten haben.

Abweichungen von der Normalverteilung

1. Mehrere Gipfel (bimodal bis multimodal)

bedeutet meist, dass die Quelle der Variation nicht zufällig ist, z.B. Vokaldauern, wenn Kurz- und Langvokale in einem Datensatz analysiert werden.

60 80 100 120 140 160 180

0.0020.0040.0060.0080.0100.012

Vokaldauer [ms]

Density

(5)

2. Asymmetrie (skewness)

Achtung: linkssteil = rechtsschief, rechtsteil = linksschief

Die Schiefe wird mit dem zentralen Moment dritter Ordnung berechnet. Als zentrales Moment wird die Differenz eines individuellen Werts vom Mittelwert bezeichnet:

(x

i

- 𝑥 )

a

Der Exponent a bestimmt die Ordnung des zentralen Moments.

a3=0: Symmetrie a3<0: rechtssteil a3>0: linkssteil

(6)

3. „Gipfeligkeit“, Exzess, Breite

a4=3: normal

a4<3: platykurtisch (breit) a4>3: leptokurtisch (spitz)

(7)

Rechenbeispiel zur Schiefe und Gipfeligkeit einer Verteilung

(8)

Normierung

Wichtig ist, dass die gesamte Fläche unter der Kurve gleich 1 ist, also der Wahrscheinlichkeit eines fast sicheren Ereignisses entspricht. Somit folgt, dass, wenn zwei gaußsche Glockenkurven dasselbe μ, aber unterschiedliche σ-Werte haben, jene Kurve mit dem größeren σ breiter und niedriger ist (da ja beide zugehörigen Flächen jeweils den Wert von 1 haben und nur die Standardabweichung (oder „Streuung“) höher ist). Zwei Glockenkurven mit dem gleichen σ, aber unterschiedlichen μ haben gleich aussehende Graphen, die jedoch auf der x-Achse um die Differenz der μ-Werte zueinander verschoben sind.

Standardnormalverteilung und die z-Transformation

Die Standardnormalverteilung hat einen Mittelwert von 0 und eine Standardabweichung von 1.

(9)

Dichtefunktion der Standardnormalverteilung

Eigenschaften der z-Verteilung: Die Fläche ist wiederum 1 bzw. 100%.

Transformation zur Standardnormalverteilung (z-Transformation)

Ist eine Normalverteilung mit beliebigen μ und σ gegeben, so kann diese durch eine Transformation auf eine -Normalverteilung zurückgeführt werden.

Die Überführung geschieht durch die z-Transformation in die sogenannten z scores.

zi=(xi-𝑥 )/sx

Geometrisch betrachtet entspricht die durchgeführte Substition einer flächentreuen Transformation der Glockenkurve von zur Glockenkurve von . Durch die z-Transformation können sämtliche Normalverteilungen standardisiert werden, d.h. auf einen Standard gebracht werden. Wir bezeichnen deshalb die Normalverteilung mit μ= 0 und σ=1 als Standardnormalverteilung.

(10)

(vgl. Bortz, 5. Auflage, S. 75, vgl. Übungsaufgabe zur z-Transformation) Wichtige Anwendung in der Phonetik: Sprechernormalisierung

Problem: Formanten sind nicht nur von der Vokalqualität sondern auch von sprecher- spezifischen Merkmalen des Ansatzrohres abhängig.

Lösung:

1. z-Transformation mit sprecherspezifischen Mittelwerten und Standardabweichungen = Lobanov-Transformation

F

n.norm

=(F

n

-F

n.mean

)/F

n.sd

Fn.norm wird für jeden einzelnen Sprecher berechnet.

n entspricht jeweils dem n-ten Formanten (F1, F2 etc.)

2. Daten werden auf den maximalen Range der einzelnen Sprecher normalisiert = Gerstman-Transformation

F

n.norm

=(F

n

-F

n.min

)/(F

n.max

-F

n.min

)

(vgl. Harrington & Cassidy (1999) S. 76-78)

Referenzen

ÄHNLICHE DOKUMENTE

Man bestimme die Lage der momentanen Rotationsachse und die Winkelgeschwindigkeit des Rades sowie die Geschwindigkeit seines

wickeln begann, hat sie nur noch geringe Bedeutung; inzwi schen ist sie fast ganzlich eingestellt. 2) ?Eingrabungshafen&#34; liegen an von Natur aus extrem hafen

I Konvergenzarten von ZVen: in Verteilung, in Wahrscheinlichkeit, fast sicher. Zusammenhang zwischen diesen Konvergenzarten.. I Erzeugende, momenterzeugende und

Descriptive statistics: The specification of statistical measures and their presentation in tables and graphs—Part 7 of a series on eva- luation of scientific publications

Jofef Mößmer (1780—1845) nebit dem Kammerfupferftecher Jofef Fischer (1796— 1822), einem Schüler des fehr be- deutenden Hupferftechers Johann Shmußer (1735—1811), der fih bei

nis gehen nicht nur zugrunde, sondern sie gehen in das einfache Wesen als ihren Grund zurück. In diesem Wesen haben sie dann Bestand, ­ freilich ohne ihre

Die Arbeit ist äußerst vielfältig, werden doch sowohl Feinwaagen geprüft, die noch Bruchteile eines millionstel Gramms messen können (wenn die Prüfung sich auch nur bis hinunter

• Damit eine Funktion mit einer Variablen ein Maximum in einem Punkt erreicht, muss die Ableitung in diesem Punkt Null