Skript zur Vorlesung
Nichtparametrische Regressionssch¨ atzung
von Prof. Dr. Michael Kohler
Sommersemester 2011
Inhaltsverzeichnis
1 Einf¨ uhrung 3
1.1 Historische Vorbemerkungen . . . . 3
1.2 Regressionsanalyse . . . . 4
1.3 Regressionssch¨ atzung . . . . 6
1.4 Anwendung in der Mustererkennung . . . . 7
1.5 Inhalt dieser Vorlesung . . . . 10
2 Ein Slow-Rate-Resultat 11 3 Konvergenzgeschwindigkeit des Kernsch¨ atzers 17 4 Minimax-Konvergenzraten 24 4.1 Motivation . . . . 24
4.2 Eine untere Minimax-Konvergenzrate . . . . 25
5 Datenabh¨ angige Wahl von Parametern 35 5.1 Motivation . . . . 35
5.2 Unterteilung der Stichprobe . . . . 35
5.3 Kreuzvalidierung . . . . 40
1
INHALTSVERZEICHNIS 2
6 Hilfsmittel aus der Theorie empirischer Prozesse 42
6.1 Motivation . . . . 42
6.2 Uniforme Exponentialungleichungen . . . . 43
6.3 Absch¨ atzung von ¨ Uberdeckungszahlen . . . . 46
7 Analyse von Kleinste-Quadrate-Sch¨ atzer 57
Kapitel 1 Einf¨ uhrung
1.1 Historische Vorbemerkungen
Einige Daten zur Regressionssch¨ atzung:
1632 Galileo Galileo bearbeitet ein Problem der linearen Regression (ihm liegen Messwerte vor, die nach Theorie auf einer Geraden liegen m¨ ussen, aufgrund von Messfehlern aber nicht auf einer Geraden liegen).
1805 A. M. Legendre und C. F. Gauß schlagen unabh¨ angig voneinander die Me- thode der Kleinsten-Quadrate vor.
ca. 1900 Sir F. Galton und sein Sch¨ uler K. Pearson f¨ uhren den Begriff der Regression ein (im Rahmen von Untersuchungen zum Zusammenhang der Korpergr¨ oße von V¨ atern und S¨ ohnen. Dabei haben sehr große (bzw. sehr kleine) V¨ ater etwas kleinere (bzw. etwas gr¨ oßere) S¨ ohne, d.h. die K¨ orpergr¨ oße “schreitet zur¨ uck” in Richtung des durchschnittlichen Wertes).
Lange Zeit wurden ausschließlich parametrische Verfahren verwendet (bei denen die Bauart der zur sch¨ atzenden Regressionsfunktion als bekannt voraus gesetzt wird und nur von endlich vielen unbekannten Parametern abh¨ angt).
1964 E. A. Nadaraya und G. S. Watson schlagen den Kernsch¨ atzer vor (ein nicht- parametrisches Verfahren).
3
KAPITEL 1. EINF ¨ UHRUNG 4
1.2 Regressionsanalyse
(X, Y ) sei eine R
d× R -wertige Zufallsvariable mit E|Y | < ∞.
Analysiert werden soll die Abh¨ angigkeit des Wertes von Y vom Wert von X.
Beispiele:
a) Y = Wert einer Immobilie,
X = Beschreibung der Immobilie.
Ziel ist hier prim¨ ar die Interpretation des Zusammenhangs zwischen X und Y .
b) Y = prozentualer Anteil an K¨ orperfett (exakte Messung ben¨ otigt Volumen einer Person)
X = Vektor einfach messbarer Gr¨ oßen wie z.B. elektrischer Widerstand der Haut, Gr¨ oße, Gewicht und Alter.
Ziel ist hier prim¨ ar die Vorhersage von Werten (d.h. ausgehend vom Wert von X soll der Wert von Y vorhergesagt werden).
Betrtachtet wird dazu die sogenannte Regressionsfunktion m : R
d→ R definiert durch
m(x) = E{Y |X = x} (x ∈ R
d).
Anschaulich:
m(x) ist der durchschnittliche Wert von Y unter der Bedingung X = x.
Formal:
m ist diejenige Borel-messbare Funktion m : R
d→ R mit
∀B ∈ B
d: Z
B
m(x) P
X(dx) = Z
X−1(B)
Y dP.
Diese ist P
X-f.¨ u. eindeutig (vgl. Vorlesung Wahrscheinlichkeitstheorie).
Die Regressionsfunktion hat die folgende Optimalit¨ atseigenschaft:
KAPITEL 1. EINF ¨ UHRUNG 5 Lemma 1.1 Ist (X, Y ) eine R
d× R -wertige Zufallsvariable mit EY
2< ∞, so gilt f¨ ur m : R
d→ R , m(x) = E{Y |X = x} die Beziehung
E
|m(X) − Y |
2= min
f:Rd→Rmessbar
E
|f (X) − Y |
2.
Beweis. Wir zeigen, dass f¨ ur beliebiges (messbares) f : R
d→ R gilt:
E
|f (X) − Y |
2= E
|m(X) − Y |
2+ Z
Rd
|f(x) − m(x)|
2P
X(dx). (1.1) Wegen
Z
Rd
|f (x) − m(x)|
2P
X(dx) ≥ 0 folgt daraus die Behauptung.
Zum Nachweis von (1.1) beachten wir, dass wegen EY
2< ∞ nach der Jensenschen Ungleichung gilt:
E{|m(X)|
2} = E{|E{Y |X}|
2} ≤ E{E{|Y |
2|X}} = EY
2< ∞.
Ist nun E{|f (X)|
2} = ∞, so folgt E
|f(X) − Y |
2= ∞ = Z
Rd
|f (x) − m(x)|
2P
X(dx) (da z.B. E{|f(X)|
2} ≤ 2 · E
|f(X) − m(X)|
2+ 2 · E
|m(X)|
2gilt), was (1.1) impliziert.
Ist dagegen E{|f(X)|
2} < ∞, so gilt E
|f (X) − Y |
2= E
|(f (X) − m(X)) + (m(X) − Y )|
2= E
|f (X) − m(X)|
2+ E
|m(X) − Y |
2, (1.2) da
E {(f (X) − m(X)) · (m(X) − Y )}
= E E
(f (X) − m(X)) · (m(X) − Y ) X
= E
(f (X) − m(X)) · E
m(X) − Y X
= E
(f (X) − m(X)) · (m(X) − E Y
X )
= E
(f (X) − m(X)) · (E Y
X − E Y
X )
= 0.
KAPITEL 1. EINF ¨ UHRUNG 6 Hierbei wurde beim zweiten Gleichheitszeichen benutzt, dass nach Cauchy-Schwarz gilt
E {|(f(X) − m(X)) · (m(X) − Y )|}
≤ p
E{|f(X) − m(X)|
2} · p
E{|m(X) − Y |
2} < ∞ und damit (f (X) − m(X)) · (m(X) − Y ) integrierbar ist.
Aus (1.2) folgt nun die Behauptung. 2
Bemerkung. Gem¨ aß dem obigen Beweis (siehe (1.1)) gilt f¨ ur das sogenannte L
2-Risiko einer beliebigen (messbaren) Funktion:
E
|f(X) − Y |
2= E
|m(X) − Y |
2+ Z
Rd
|f(x) − m(x)|
2P
X(dx).
Damit ist der mittlere quadratische Vorhersagefehler einer Funktion darstellbar als Summe des L
2-Risikos der Regressionsfunktion (unvermeidbarer Fehler) und des sogenannten L
2-Fehlers
Z
|f (x) − m(x)|
2P
X(dx),
der entsteht aufgrund der Verwendung von f anstelle von m bei der Vorhersage bzw. Approximation des Wertes von Y .
1.3 Regressionssch¨ atzung
In Anwendungen ist ¨ ublicherweise die Verteilung von (X, Y ) unbekannt, daher kann m(x) = E{Y |X = x} nicht berechnet werden. Oft ist es aber m¨ oglich, Werte von (X, Y ) zu beobachten. Ziel ist dann, daraus die Regressionsfunktion zu sch¨ atzen. Im Hinblick auf die Minimierung des L
2-Risikos sollte dabei der L
2-Fehler der Sch¨ atzfunktion m¨ oglichst klein sein.
Formal f¨ uhrt das auf folgende Problemstellung:
(X, Y ), (X
1, Y
1), (X
1, Y
2), . . . seien unabh¨ angige identisch verteilte R
d× R -wertige Zufallsvariablen mit EY
2< ∞. m : R
d→ R definiert durch m(x) = E{Y |X = x}
sei die zugeh¨ orige Regressionsfunktion.
Gegeben ist die Datenmenge
D
n= {(X
1, Y
1), . . . , (X
n, Y
n)} .
KAPITEL 1. EINF ¨ UHRUNG 7 Gesucht ist eine Sch¨ atzung
m
n(·) = m
n(·, D
n) : R
d→ R von m, f¨ ur die
Z
|m
n(x) − m(x)|
2P
X(dx) m¨ oglichst klein ist.
1.4 Anwendung in der Mustererkennung
(X, Y ) sei R
d× {0, 1}-wertige Zufallsvariable.
In der Mustererkennung besch¨ aftigt man sich mit dem folgenden Vorhersagepro- blem:
Zu beobachtetem Wert von X m¨ ochte man den zugeh¨ origen Wert von Y vorher- sagen.
Bsp.: Erkennung von Werbeemails:
X = Text der Email bzw. Charakteristika des Textes
Y =
1, falls es sich um eine Werbeemail handelt, 0, sonst.
Gesucht ist eine Funktion g
∗: R
d→ {0, 1}, f¨ ur die die Wahrscheinlichkeit einer falschen Vorhersage m¨ oglichst klein ist, d.h. f¨ ur die gilt:
P {g
∗(X) 6= Y } = min
g:Rd→{0,1}
P {g(X) 6= Y } . (1.3) Es gilt:
Lemma 1.2 F¨ ur g
∗: R
d→ {0, 1} definiert durch g
∗(x) =
1, P{Y = 1|X = x} > P{Y = 0|X = x}, 0, sonst.
gilt (1.3).
KAPITEL 1. EINF ¨ UHRUNG 8 Beweis. Sei g : R
d→ {0, 1} beliebig. Dann gilt f¨ ur jedes x ∈ R
dP{g(X) 6= Y |X = x} = 1 − P{g(X) = Y |X = x} = 1 − P{g(x) = Y |X = x}, und mit der Definition von g
∗folgt daraus
P{g(X) 6= Y |X = x} − P{g
∗(X) 6= Y |X = x}
= P{g
∗(x) = Y |X = x} − P{g(x) = Y |X = x}
≥ 0.
Somit:
P{g
∗(X) 6= Y } = Z
Rd
P{g
∗(X) 6= Y |X = x}P
X(dx)
≤ Z
Rd
P{g(X) 6= Y |X = x}P
X(dx)
= P{g(X) 6= Y }.
2 Wegen
P{Y = 1|X = x} + P{Y = 0|X = x} = 1 P
X-f.¨ u. k¨ onnen wir g
∗auch durch
g
∗(x) =
1, P{Y = 1|X = x} >
12, 0, sonst
definieren.
Die sogenannte aposteriori Wahrscheinlichkeit P{Y = 1|X = x} = E
I
{Y=1}X = x =: m(x)
l¨ asst sich als Regressionsfunktion zum Zufallsvektor (X, I
{Y=1}) auffassen. Ap- proximiert man diese (z.B. mittels Regressionssch¨ atzung) durch eine Funktion
¯
m : R
d→ R
und definiert man dann die sogenannte Plug-In-Sch¨ atzfunktion g ¯ durch
¯ g(x) =
1, m(x) ¯ >
12,
0, sonst =
1, m(x) ¯ > 1 − m(x), ¯ 0, sonst,
so gilt:
KAPITEL 1. EINF ¨ UHRUNG 9 Satz 1.1 Mit den obigen Bezeichnungen gilt:
0 ≤ P{¯ g (X) 6= Y } − P{g
∗(X) 6= Y } ≤ 2 · Z
| m(x) ¯ − m(x)|P
X(dx)
≤ 2 · s
Z
| m(x) ¯ − m(x)|
2P
X(dx).
Damit f¨ uhrt ein “gutes” Regressionssch¨ atzverfahren automatisch zu einem “gu- ten” Mustererkennungsverfahren.
Beweis von Satz 1.1.
Gem¨ aß Beweis von Lemma 1.2 gilt:
P{¯ g(X) 6= Y |X = x} − P{g
∗(X) 6= Y |X = x}
= P{g
∗(x) = Y |X = x} − P{¯ g(x) = Y |X = x}
= m(x) · I
{g∗(x)=1}+ (1 − m(x)) · I
{g∗(x)=0}− m(x) · I
{¯g(x)=1}+ (1 − m(x)) · I
{¯g(x)=0}= m(x) · I
{g∗(x)=1}+ (1 − m(x)) · I
{g∗(x)=0}− m(x) ¯ · I
{g∗(x)=1}+ (1 − m(x)) ¯ · I
{g∗(x)=0}+
n
¯
m(x) · I
{g∗(x)=1}+ (1 − m(x)) ¯ · I
{g∗(x)=0}− m(x) ¯ · I
{¯g(x)=1}+ (1 − m(x)) ¯ · I
{¯g(x)=0}o + ¯ m(x) · I
{¯g(x)=1}+ (1 − m(x)) ¯ · I
{¯g(x)=0}− m(x) · I
{¯g(x)=1}+ (1 − m(x)) · I
{¯g(x)=0}≤ 2 · | m(x) ¯ − m(x)|, da die Definition von ¯ g impliziert, dass gilt:
n . . . o
≤ 0.
Mit Lemma 1.2 folgt daraus
0 ≤ P{¯ g(X) 6= Y } − P{g
∗(X) 6= Y }
= Z
(P{¯ g(X) 6= Y |X = x} − P{g
∗(X) 6= Y |X = x}) P
X(dx)
≤ 2 · Z
| m(x) ¯ − m(x)| P
X(dx).
Mit der Ungleichung von Cauchy-Schwarz folgt daraus die Behauptung. 2
KAPITEL 1. EINF ¨ UHRUNG 10
1.5 Inhalt dieser Vorlesung
Ziel dieser Vorlesung ist die Herleitung mathematischer Aussagen zur Regres- sionssch¨ atzung, die m¨ oglichst allgemein (und damit in m¨ oglichst vielen Anwen- dungen) gelten. Dabei werden nichtparametrische Verfahren untersucht, die keine Annahmen an die Bauart der zu sch¨ atzenden Regressionsfunktion machen.
In der Vorlesung “Mathematische Statistik”, WS 10/11, wurde bereits gezeigt:
Es existieren Sch¨ atzverfahren m
nmit E
Z
|m
n(x) − m(x)|
2P
X(dx) → 0 (n → ∞) (1.4) f¨ ur alle Verteilungen von (X, Y ) mit EY
2< ∞.
Z.B. gilt diese Aussage f¨ ur den sogenannten Kernsch¨ atzer
m
n(x) = P
ni=1
Y
i· K
x−Xi hn
P
nj=1
K
x−Xj
hn
mit naivem Kern K = 1
S1(0)(wobei S
1(0) die Kugel um 0 mit Radius 1 ist) und Bandbreite h
n> 0, die so gew¨ ahlt ist, dass gilt:
h
n→ 0 (n → ∞) und n · h
dn→ ∞ (n → ∞).
In dieser Vorlesung untersuchen wir prim¨ ar Fragen zur Geschwindigkeit, mit der
in (1.4) die Konvergenz gegen Null erfolgt.
Kapitel 2
Ein Slow-Rate-Resultat
In diesem Kapitel zeigen wir, dass ohne Regularit¨ atsvoraussetzungen an die zu- grunde liegende Verteilung in der nichtparametrischen Regression eine nichttri- viale Aussage zur Konvergenzgeschwindigkeit nicht herleitbar ist.
Die folgt aus:
Satz 2.1 Sei (m
n)
n∈Neine beliebige Folge von Sch¨ atzfunktionen. Dann existiert zu jeder monoton gegen Null fallenden Folge (a
n)
n∈Nnichtnegativ reeller Zahlen eine Verteilung von (X, Y ) mit den Eigenschaften
1. X ∼ U [0, 1], 2. Y = m(X),
3. m ist {0, 1}-wertig f¨ ur die dar¨ uberhinaus gilt:
lim sup
n→∞
E R
|m
n(x) − m(x)|
2P
X(dx)
a
n≥ 1.
D.h., selbst wenn (X, Y ) fehlerfrei und X auf [0, 1] gleichverteilt ist, so existiert dennoch f¨ ur jeden Regressionssch¨ atzer eine Verteilung von (X, Y ), f¨ ur die der erwartete L
2-Fehler des Sch¨ atzers beliebig langsam gegen Null konvergiert.
Im Beweis von Satz 2.1 ben¨ otigen wir das folgende deterministische Lemma.
11
KAPITEL 2. EIN SLOW-RATE-RESULTAT 12 Lemma 2.1 Zu jeder Folge (a
n)
n∈Nmit
1
4 ≥ a
1≥ a
2≥ · · · ≥ a
n→ 0 (n → ∞)
existiert eine Z¨ ahldichte (p
j)
j∈Nso, dass f¨ ur alle gen¨ ugend großen n gilt:
∞
X
j=1
(1 − p
j)
n· p
j≥ a
n.
Beweis. Setze
p
1= 1 − 2a
1≥ 0 und k
1= 1
und w¨ ahle dann p
2, p
3, . . . und 1 = k
1< k
2< k
3< . . . so, dass f¨ ur alle n ∈ N gilt:
kn+1
X
i=kn+1
p
i= 2 · (a
n− a
n+1) (≥ 0) und
0 ≤ p
i≤ 1
2n f¨ ur i > k
n. Dann folgt
p
j≥ 0 und
∞
X
j=1
p
j= p
1+
∞
X
n=1
2 · (a
n− a
n+1) = p
1+ 2 · a
1= 1,
wobei die vorletzte Gleichheit wegen a
n→ 0 (n → ∞) und der daraus folgenden Beziehung
N
X
n=1
(a
n− a
n+1) = a
1− a
N+1→ a
1(N → ∞) gilt.
Weiterhin erhalten wir
∞
X
j=1
(1 − p
j)
n· p
j≥ X
j∈N:pj≤1/(2n)
(1 − p
j)
n· p
j≥
1 − 1 2n
n· X
j∈N:pj≤1/(2n)
p
j≥
1 − 1 2n
n·
∞
X
j=kn+1
p
jKAPITEL 2. EIN SLOW-RATE-RESULTAT 13
=
1 − 1 2n
n·
∞
X
i=n
2 · (a
i− a
i+1)
=
1 − 1 2n
n· 2 · a
n≥ a
nf¨ ur n gen¨ ugend groß, da
1 − 1
2n
n· 2 = s
1 − 1
2n
2n· 2 → r 1
e · 2 ≥ 1 (n → ∞).
2 Beweis von Satz 2.1:
1. Schritt: Wir definieren uns in Abh¨ angigkeit von einer Z¨ ahldichte (p
j)
j∈Nund eines Parameters c = (c
j)
j∈N∈ {−1, 1}
Neine Verteilung von (X, Y ).
Dazu gehen wir folgendermaßen vor: Wir w¨ ahlen
X ∼ U [0, 1] und Y = m
(c)(X),
wobei wir zur Definition von m
(c)zun¨ achst in Abh¨ angigkeit der Z¨ ahldichte (p
j)
j∈Ndas Intervall [0, 1] in Intervalle A
jder L¨ ange p
jpartitionieren und dann setzen:
m
(c)(x) =
1, falls x ∈ A
j, c
j= 1,
−1, falls x ∈ A
j, c
j= −1 (j ∈ N ).
2. Schritt: Wir sch¨ atzen E
Z
|m
n(x) − m(x)|
2P
X(dx) f¨ ur die Verteilung aus dem 1. Schritt nach unten ab.
Setze dazu
˜
m
n(x) = 1 p
jZ
Aj
m
n(z) P
X(dz) f¨ ur x ∈ A
j,
d.h. ˜ m
nist die L
2-Projektion von m
nauf die Menge aller bzgl. (A
j)
j∈Nst¨ uckweise konstanten Funktionen.
Dann gilt Z
Aj
|m
n(x) − m
(c)(x)|
2P
X(dx)
KAPITEL 2. EIN SLOW-RATE-RESULTAT 14
= Z
Aj
|m
n(x) − m ˜
n(x)|
2P
X(dx) + Z
Aj
| m ˜
n(x) − m
(c)(x)|
2P
X(dx), da wegen ˜ m
n− m
(c)konstant auf A
jf¨ ur x
j∈ A
jbeliebig gilt
Z
Aj
(m
n(x) − m ˜
n(x)) · ( ˜ m
n(x) − m
(c)(x)) P
X(dx)
= ( ˜ m
n(x
j) − m
(c)(x
j)) · Z
Aj
(m
n(x) − m ˜
n(x)) P
X(dx)
= ( ˜ m
n(x
j) − m
(c)(x
j)) · Z
Aj
m
n(x) P
X(dx) − Z
Aj
m
n(x) P
X(dx)
!
= ( ˜ m
n(x
j) − m
(c)(x
j)) · 0
= 0.
Damit folgt Z
Aj
|m
n(x) − m
(c)(x)|
2P
X(dx) ≥ Z
Aj
| m ˜
n(x) − m
(c)(x)|
2P
X(dx),
= | m ˜
n(x
j) − c
j|
2· p
jf¨ ur x
j∈ A
jbeliebig aber fest.
Wir verwenden nun ˜ m
n, um c
jvorherzusagen, und setzen dazu ˆ
c
n,j=
1, falls ˜ m
n(x
j) =
p1j
· R
Aj
m
n(z) P
X(dz) ≥ 0,
−1, sonst.
Im Falle c
j= 1 und ˆ c
n,j= −1 (was ˜ m
n(x
j) < 0 impliziert) gilt dann
| m ˜
n(x
j) − c
j| = c
j− m ˜
n(x
j) ≥ c
j− 0 = 1, und im Falle c
j= −1 und ˆ c
n,j= 1 (was ˜ m
n(x
j) ≥ 0 impliziert) gilt
| m ˜
n(x
j) − c
j| = ˜ m
n(x
j) − c
j≥ 0 − c
j= 1.
Daraus folgt
| m ˜
n(x
j) − c
j|
2≥ I
{ˆcn,j6=cj}und insgesamt
Z
Aj
|m
n(x) − m
(c)(x)|
2P
X(dx) ≥ p
j· I
{ˆcn,j6=cj}.
KAPITEL 2. EIN SLOW-RATE-RESULTAT 15 Damit ergibt sich nun
E Z
|m
n(x) − m
(c)(x)|
2P
X(dx)
=
∞
X
j=1
E Z
Aj
|m
n(x) − m
(c)(x)|
2P
X(dx)
≥
∞
X
j=1
p
j· P {ˆ c
n,j6= c
j}
≥
∞
X
j=1
P {ˆ c
n,j6= c
j, µ
n(A
j) = 0} · p
j=: R
n(c), wobei
µ
n(A
j) = |{1 ≤ i ≤ n : X
i∈ A
j}|
n die empirische Verteilung zu X
1, . . . , X
nist.
Hier wurde also der Fehler des Regressionssch¨ atzers nach unten abgesch¨ atzt durch den “Fehler” einer Vorhersagefunktion f¨ ur c
j.
3. Schritt: Als n¨ achstes sch¨ atzen wir E
Z
|m
n(x) − m(x)|
2P
X(dx) bzw. R
n(c)
nach unten ab, indem wir c zuf¨ allig aus {−1, 1}
Nw¨ ahlen und ¨ uber das Resultat mitteln.
Dazu seien C
1, C
2, . . . unabh¨ angig identisch verteilte Zufallsvariablen mit P{C
1= 1} = 1
2 = P{C
1= −1},
die unabh¨ angig von X
1, . . . , X
nsind. Dann gilt f¨ ur C = (C
1, C
2, . . . ):
E {R
n(C)} =
∞
X
j=1
P {ˆ c
n,j6= C
j, µ
n(A
j) = 0} · p
j=
∞
X
j=1
E P
ˆ
c
n,j6= C
j, µ
n(A
j) = 0
X
1, . . . , X
n· p
j=
∞
X
j=1
E
I
{µn(Aj)=0}· P ˆ
c
n,j6= C
jX
1, . . . , X
n· p
j.
KAPITEL 2. EIN SLOW-RATE-RESULTAT 16 Im Falle µ
n(A
j) = 0 gilt X
1∈ / A
j, . . . , X
n∈ / A
j, was impliziert, dass (X
1, Y
1), . . . , (X
n, Y
n) (und damit auch ˆ c
n,j) unabh¨ angig von C
jist. In diesem Fall gilt aber
P ˆ
c
n,j6= C
jX
1, . . . , X
n= E P
ˆ
c
n,j6= C
j(X
1, Y
1), . . . , (X
n, Y
n)
X
1, . . . , X
n= E 1
2
X
1, . . . , X
n= 1 2 , und wir erhalten
E {R
n(C)} =
∞
X
j=1
1
2 · P {µ
n(A
j) = 0} · p
j=
∞
X
j=1
1
2 · P {X
1∈ / A
j, . . . , X
n∈ / A
j} · p
j= 1
2 ·
∞
X
j=1
(1 − p
j)
n· p
j. Wegen
R
n(C) ≤
∞
X
j=1
P {µ
n(A
j) = 0} · p
j=
∞
X
j=1
(1 − p
j)
n· p
jgilt dar¨ uberhinaus
R
n(C) E{R
n(C)} ≤
P
∞j=1
(1 − p
j)
n· p
j1 2
· P
∞j=1
(1 − p
j)
n· p
j≤ 2.
Damit ist das Lemma von Fatou anwendbar, und wir erhalten E
lim sup
n→∞
R
n(C) E{R
n(C)}
≥ lim sup
n→∞
E
R
n(C) E{R
n(C)}
= 1.
Da nun der Wert im Mittel gr¨ oßer oder gleich Eins ist, muss insbesondere irgend- einer der (zuf¨ alligen) Werte ebenfalls gr¨ oßer oder gleich Eins sein. Also existiert ein c ∈ {−1, 1}
Nmit
lim sup
n→∞
R
n(c)
1 2
· P
∞j=1
(1 − p
j)
n· p
j= lim sup
n→∞
R
n(c)
E{R
n(C)} ≥ 1.
Mit Lemma 2.1 angewandt auf a
n/2, wobei wir den Anfang der Folge ab¨ andern so dass die Werte alle kleiner oder gleich 1/4 sind, folgt daraus die Behauptung.
2
Kapitel 3
Konvergenzgeschwindigkeit des Kernsch¨ atzers
Ziel im Folgenden ist die Absch¨ atzung des erwarteten L
2-Fehlers E
Z
|m
n(x) − m(x)|
2P
X(dx) im Falle des sogenannten Kernsch¨ atzers
m
n(x) = P
ni=1
Y
i· K
x−Xi
hn
P
nj=1
K
x−Xj
hn
mit naivem Kern K = 1
S1(0)und Bandbreite h
n> 0.
Dabei machen wir die folgenden Regularit¨ atsannahmen an die zugrundeliegende Verteilung:
1. Beschr¨ anktheitsannahme an X.
2. Beschr¨ anktheitsannahme an Var{Y |X = x} = E
(Y − E{Y |X = x})
2X = x
= E Y
2X = x − E Y
X = x
2. 3. Glattheitsannahme an die Regressionsfunktion.
17
KAPITEL 3. KONVERGENZGESCHWINDIGKEIT DES KERNSCH ¨ ATZERS18
Zur Formalisierung der ersten Bedingungen fordern wir, dass der sogenannte Sup- port von X bzw. P
Xdefinert durch
supp(P
X) =
x ∈ R
d∀ > 0 : P
X(S
(x)) > 0 beschr¨ ankt ist. Dieser hat die folgenden beiden Eigenschaften:
Lemma 3.1 Ist supp(P
X) der Support der R
d-wertigen Zufallsvariablen X, so gilt:
a) P{X ∈ supp(P
X)} = 1.
b) supp(P
X) ist abgeschlossen.
Beweis. a) Wegen
S
/2(z) ⊆ S
(x) f¨ ur jedes z ∈ S
/2(x)
folgt f¨ ur z ∈ S
/2(x) aus P(S
(x)) = 0 immer P(S
/2(z)) = 0. Unter Verwendung dieser Beziehung sehen wir
supp(P
X)
c=
x ∈ R
d∃ > 0 : P
X(S
(x)) = 0
⊆ [
x∈supp(PX)c∩Qd,∈Q+\{0},PX(S(x))=0
S
(x).
Die rechte Seite ist eine abz¨ ahlbare Vereinigung von P
X-Nullmengen, und damit ist auch supp(P
X)
ceine P
X-Nullmenge.
b) Ist x / ∈ supp(P
X), so gilt
P
X(S
(x)) = 0
f¨ ur ein > 0. Nach dem Beweis von a) impliziert dies aber S
/2(x) ⊆ supp(P
X)
c,
also ist supp(P
X)
coffen. 2
Nun gilt:
Satz 3.1 Sei
m
n(x) = P
ni=1
Y
i· K
x−Xi hn
P
nj=1
K
x−Xj
hn
der Kernsch¨ atzer mit naivem Kern K = 1
S1(0)und Bandbreite h
n> 0.
Seien C > 0, p ∈ (0, 1] und σ > 0. Dann gilt f¨ ur jede Verteilung von (X, Y ) mit
S := supp(P
X) ist beschr¨ ankt, (3.1)
KAPITEL 3. KONVERGENZGESCHWINDIGKEIT DES KERNSCH ¨ ATZERS19
Var{Y |X = x} ≤ σ
2f¨ ur alle x ∈ S (3.2) und
|m(x) − m(z| ≤ C · kx − zk
pf¨ ur alle x, z ∈ S (3.3) die folgende Absch¨ atzung f¨ ur den erwarteten L
2-Fehler des Kernsch¨ atzers:
E Z
|m
n(x) − m(x)|
2P
X(dx) ≤ c
1· σ
2+ sup
z∈S|m(z)|
2n · h
dn+ C
2· h
2pn. Hierbei ist c
1eine nur von d und dem Durchmesser von S = supp(P
X) abh¨ angen- de Konstante.
Im Beweis ben¨ otigen wir:
Lemma 3.2 Ist S = supp(P
X) beschr¨ ankt, so gilt f¨ ur eine nur von d und dem Durchmesser von S abh¨ angende Konstante ˆ c:
Z
S
1
n · P
X(S
hn(x)) P
X(dx) ≤ ˆ c n · h
dn.
Beweis. W¨ ahle l
n≤ ˆ c/h
dnKugeln S
hn/2(z
1), . . . , S
hn/2(z
ln) mit Radius h
n/2 so, dass gilt
S ⊆ ∪
ll=1nS
hn/2(z
l). (3.4) Wegen
S
hn/2(z
l) ⊆ S
hn(x) (3.5) f¨ ur x ∈ S
hn/2(z
l) gilt dann
Z
S
1
n · P
X(S
hn(x)) P
X(dx)
(3.4)
≤
ln
X
l=1
Z
Shn/2(zl)
1
n · P
X(S
hn(x)) P
X(dx)
(3.5)
≤
ln
X
l=1
Z
Shn/2(zl)
1
n · P
X(S
hn/2(z
l)) P
X(dx)
=
ln
X
l=1
1
n · P
X(S
hn/2(z
l)) · P
X(S
hn/2(z
l))
≤ l
nn ≤ ˆ c n · h
dn.
2 Beweis von Satz 3.1: Setze
ˆ
m
n(x) = E
m
n(x)
X
1, . . . , X
n= P
ni=1
K
x−Xi
hn
· m(X
i) P
nj=1
K
x−Xj
hn
.
KAPITEL 3. KONVERGENZGESCHWINDIGKEIT DES KERNSCH ¨ ATZERS20
Wegen
E
|m
n(x) − m(x)|
2X
1, . . . , X
n= E
|m
n(x) − E
m
n(x)
X
1, . . . , X
n|
2X
1, . . . , X
n+
E
m
n(x)
X
1, . . . , X
n− m(x)
2
erhalten wir unter Verwendung des Satzes von Fubini und der Definition der bedingten Erwartung analog zur Bias-Varianz-Zerlegung aus der Statistik die folgende Darstellung unseres Fehlers:
E Z
|m
n(x) − m(x)|
2P
X(dx)
= E Z
E
|m
n(x) − m(x)|
2X
1, . . . , X
nP
X(dx)
= E Z
|m
n(x) − m ˆ
n(x)|
2P
X(dx)
+ E Z
| m ˆ
n(x) − m(x)|
2P
X(dx)
. Hierbei ist der erste bzw. zweite Term auf der rechten Seite oben die erwartete integrierte Varianz bzw. der erwartete integrierte Bias des Sch¨ atzers.
Als erstes sch¨ atzen wir den erwarteten integrierten Bias des Sch¨ atzers ab. Dazu setzen wir
µ
n(A) = |{1 ≤ i ≤ n : X
i∈ A}|
n und
B
n(x) = {n · µ
n(S
hn(x)) > 0} .
Beachtet man, dass K((x − X
i)/h
n) > 0 nur gelten kann, sofern kx − X
ik ≤ h
nist, so erh¨ alt man unter Verwendung der Ungleichung von Jensen
| m ˆ
n(x) − m(x)|
2=
P
n i=1K
x−Xi hn
· (m(X
i) − m(x)) P
nj=1
K
x−Xj
hn
2
· I
Bn(x)+ |m(x)|
2· I
Bn(x)c≤ P
ni=1
K
x−Xi
hn
· |m(X
i) − m(x)|
2P
nj=1
K
x−Xj
hn
· I
Bn(x)+ |m(x)|
2· I
Bn(x)c(3.3)
≤ P
ni=1
K
x−Xi hn
· C
2· kX
i− xk
2pP
nj=1
K
x−Xj
hn
· I
Bn(x)+ |m(x)|
2· I
Bn(x)c≤ C
2· h
2pn+ |m(x)|
2· I
Bn(x)c,
KAPITEL 3. KONVERGENZGESCHWINDIGKEIT DES KERNSCH ¨ ATZERS21
bzw.
E Z
| m ˆ
n(x) − m(x)|
2P
X(dx)
≤ C
2p· h
2pn+ sup
z∈S
|m(z)|
2· Z
P{n · µ
n(S
hn(x)) = 0}P
X(dx).
Mit
P{n · µ
n(S
hn(x)) = 0}
= P {X
1∈ / S
hn(x), . . . , X
n∈ / S
hn(x)}
= P {X
1∈ / S
hn(x)} · · · P {X
n∈ / S
hn(x)}
= (1 − P
X1(S
hn(x)))
n1+x≤ex
≤ e
−n·PX1(Shn(x))= n · P
X1(S
hn(x)) · e
−n·PX1(Shn(x))· 1
n · P
X1(S
hn(x))
≤ max
z≥0
z · e
−z· 1
n · P
X1(S
hn(x))
≤ 1
e · 1
n · P
X1(S
hn(x)) und Lemma 3.2 folgt daraus
E Z
| m ˆ
n(x) − m(x)|
2P
X(dx)
≤ C
2· h
2pn+ sup
z∈S
|m(z)|
2· Z 1
e · 1
n · P
X1(S
hn(x)) P
X(dx)
≤ C
2· h
2pn+ sup
z∈S
|m(z)|
2· 1 e · ˆ c
n · h
dn. (3.6)
Im Folgenden wird nun die integrierte Varianz abgesch¨ atzt. Hierzu gilt unter Beachtung der Unabh¨ angigkeit der Daten
E
|m
n(x) − m ˆ
n(x)|
2X
1, . . . , X
n≤ E
P
n i=1K
x−Xi hn
· (Y
i− m(X
i)) P
nj=1
K
x−Xj
hn
2
X
1, . . . , X
n
=
P
n i=1K
x−Xi
hn
2· E
|Y
i− m(X
i)|
2X
1, . . . , X
nP
nj=1
K
x−Xj
hn
2KAPITEL 3. KONVERGENZGESCHWINDIGKEIT DES KERNSCH ¨ ATZERS22
K(z)∈{0,1}
=
P
n i=1K
x−Xi hn
· E
|Y
i− m(X
i)|
2X
iP
nj=1
K
x−Xj
hn
2≤ sup
z∈S
Var{Y |X = z} · 1 P
nj=1
K
x−Xj
hn
· I
{n·µn(Shn(x))>0}.
P
nj=1
K
x−Xj
hn
ist b(n, P
X(S
hn(x)))-verteilt. Nach Lemma 4.4 aus der Vorlesung Mathematische Statistik im WS 10/11 gilt daher
E
1 P
nj=1
K
x−Xj
hn
· I
{n·µn(Shn(x))>0}
≤ 2
(n + 1) · P
X(S
hn(x)) . Damit erhalten wir unter Beachtung von Lemma 3.2
E Z
|m
n(x) − m ˆ
n(x)|
2P
X(dx)
= Z
E E
|m
n(x) − m ˆ
n(x)|
2X
1, . . . , X
nP
X(dx)
≤ σ
2· Z
E
1 P
nj=1
K
x−Xj
hn
· I
{n·µn(Shn(x))>0}
P
X(dx)
≤ σ
2·
Z 2
(n + 1) · P
X(S
hn(x)) P
X(dx)
≤ σ
2· 2 · ˆ c
n · h
dn. (3.7)
Aus (3.6) und (3.7) folgt nun die Behauptung. 2
Um unter den Voraussetzungen in Satz 3.1 einen m¨ oglichst kleinen Fehler zu erhalten, muss man h
nso w¨ ahlen, dass
c
1· σ
2+ sup
z∈S|m(z)|
2n · h
dn+ C
2· h
2pnm¨ oglichst klein wird. Dabei darf h
nnicht zu klein sein, damit der Varianz-Term 1
n · h
dnm¨ oglichts klein wird, andererseits darf h
naber auch nicht zu groß sein, damit der Bias-Term
C
2· h
2pnKAPITEL 3. KONVERGENZGESCHWINDIGKEIT DES KERNSCH ¨ ATZERS23
nicht zu groß wird.
Zur Bestimmung des im Hinblick auf die Minimierung der Fehlerabsch¨ atzung in Satz 3.1 optimalen h
nbetrachten wird die Minimierung von
f (u) = A
n · u
d+ C
2u
2p. Nullsetzen der Ableitung f¨ uhrt auf
0 = f
0(u) = −d · A
n · u
−(d+1)+ C
2· 2p · u
2p−1bzw.
u
d+2p= d · A 2p · C
2· n bzw.
u =
d · A 2p · C
2· n
1/(2p+d)sowie
u∈
min
R+f (u) = f
d · A 2p · C
2· n
1/(2p+d)!
= A
n ·
2p · C
2· n d · A
d/(2p+d)+ C
2·
d · A 2p · C
2· n
2p/(2p+d)= A
n
2p/(2p+d)· C
2d/(2p+d)· 2p
d
d/(2p+d)+C
2d/(2p+d)· A
n
2p/(2p+d)· d
2p
2p/(2p+d).
Damit folgt:
Korollar 3.1 Unter den Voraussetzung von Satz 3.1 wird die dort angegebene Schranke f¨ ur den Fehler minimal f¨ ur
h
n=
d · c
1· (σ
2+ sup
z∈S|m(z)|
2) 2p · C
2· n
1/(2p+d),
und mit dieser Bandbreite erh¨ alt man E
Z
|m
n(x) − m(x)|
2P
X(dx) ≤ c ¯ ·
σ
2+ sup
z∈S|m(z)|
2n
2p/(2p+d)· C
2d/(2p+d).
Bemerkung: Die obere rechte Seite ist monoton wachsend in σ und C und
monoton fallend in n.
Kapitel 4
Minimax-Konvergenzraten
4.1 Motivation
Gem¨ aß dem letzten Kapitel gilt f¨ ur den Kernsch¨ atzer m
nim Falle einer Lipschitz- stetigen Regressionsfunktion und beschr¨ ankten Daten
E Z
|m
n(x) − m(x)|
2P
X(dx) = O
n
−2+d2.
Es stellt sich die Frage, ob man diese Rate durch Wahl eines anderen Sch¨ atzver- fahrens verbessern kann bzw. was unter den obigen Voraussetzungen die optimale Konvergenzrate ist.
Um dies genauer zu formulieren, betrachten wir f¨ ur eine feste Klasse D von Ver- teilungen von (X, Y ) den maximal erwarteten L
2-Fehler
sup
(X,Y)∈D
E Z
|m
n(x) − m(x)|
2P
X(dx) (4.1) innerhalb dieser Klasse, wobei der Regressionssch¨ atzer eine Stichprobe (X
1, Y
1), . . . , (X
n, Y
n) der Verteilung von (X, Y ) bekommt. Ziel im Folgenden ist es, m
nso zu w¨ ahlen, dass (4.1) minimal wird, d.h. genauer, dass (4.1) asymptotisch wie
inf
m˜nsup
(X,Y)∈D
E Z
| m ˜
n(x) − m(x)|
2P
X(dx) (4.2) gegen Null konvergiert, wobei obiges Infimum ¨ uber alle Regressionssch¨ atzer ˜ m
ngebildet wird.
24
KAPITEL 4. MINIMAX-KONVERGENZRATEN 25 Dies l¨ asst sich als Zwei-Parteien-Spiel deuten: Wir spielen gegen die Natur. Im 1.
Schritt w¨ ahlt die Natur eine Verteilung aus D und gibt uns eine Stichprobe dieser Verteilung. Anschließend w¨ ahlen wir einen Sch¨ atzer um die zugeh¨ orige Regressi- onsfunktion zu sch¨ atzen. Dabei verfolgt die Natur das Ziel, dass die Sch¨ atzung m¨ oglichst schlecht wird, und wir verfolgen das Ziel, dass diese m¨ oglichst gut wird.
Spielen nun beide Spieler optimal, so ist gerade (4.2) der zu erwartende L
2-Fehler.
Die obigen ¨ Uberlegungen formalisieren wir in
Definition 4.1 Sei D eine Klasse von Verteilungen von (X, Y ) und (a
n)
n∈Neine Folge positiver reeller Zahlen.
a) (a
n)
n∈Nheißt untere Minimax-Konvergenzrate f¨ ur D, falls gilt lim inf
n→∞
inf
mn
sup
(X,Y)∈D
E R
|m
n(x) − m(x)|
2P
X(dx)
a
n= C
1> 0.
b) (a
n)
n∈Nheißt obere Minimax-Konvergenzrate f¨ ur D, falls f¨ ur ein Sch¨ atz- verfahren m
ngilt
lim sup
n→∞
sup
(X,Y)∈D
E R
|m
n(x) − m(x)|
2P
X(dx)
a
n= C
2< ∞.
c) (a
n)
n∈Nheißt optimale Minimax-Konvergenzrate f¨ ur D, falls (a
n)
n∈Nsowohl untere als auch obere Minimax-Konvergenzrate f¨ ur D ist.
Aus Kapitel 3 wissen wir: Ist p ∈ (0, 1], C
1, C
2> 0 und ist D die Klasse aller Verteilungen von (X, Y ) mit X ∈ [0, 1]
df.s., sup
x∈[0,1]dVar{Y |X = x} ≤ c
1, sup
x∈[0,1]d|m(x)| ≤ c
2und |m(x) − m(z)| ≤ c
3· kx − zk
pf¨ ur alle x, z ∈ [0, 1]
d, so
ist
n
−2p+d2pn∈N
obere Minimax-Konvergenzrate f¨ ur D.
Im Folgenden zeigen wir, dass dies sogar die optimale Minimax-Konvergenzrate f¨ ur D ist, so dass der Kernsch¨ atzer in diesem Sinne sogar ein “optimales” Sch¨ atz- verfahren ist.
4.2 Eine untere Minimax-Konvergenzrate
Um nachzuweisen, dass
n
−2p+d2pn∈N
optimale Minimax-Konvergenzrate f¨ ur D ist, gen¨ ugt es aufgrund von Korollar 3.1 f¨ ur ˜ D ⊆ D geeignet zu zeigen, dass
n
−2p+d2pn∈N
eine untere Minimax-Konvergenzrate f¨ ur ˜ D ist.
KAPITEL 4. MINIMAX-KONVERGENZRATEN 26 Zur Definition von ˜ D verwenden wir:
Definition 4.2 Sei p = k + β f¨ ur ein k ∈ N
0und 0 < β ≤ 1. Sei C > 0. Eine Funktion f : R
d→ R heißt (p, C)-glatt, falls f¨ ur jedes α = (α
1, . . . , α
d) ∈ N
d0mit P
dj=1
α
j= k die partielle Ableitung
∂
kf
∂x
α11. . . ∂x
αddexistiert und f¨ ur diese gilt:
∂
kf
∂x
α11. . . ∂x
αdd(x) − ∂
kf
∂x
α11. . . ∂x
αdd(z)
≤ C · kx − zk
βf¨ ur alle x, z ∈ R
d. Bem. F¨ ur p ≤ 1 gilt:
m (p, C)-glatt ⇔ ∀x, z ∈ R
d: |m(x) − m(z)| ≤ C · kx − zk
p. Im Fall p ≤ 1 betrachten wir als Unterklasse von D:
Definition 4.3 F¨ ur p, C > 0 sei D
(p,C)die Klasse aller Verteilungen von (X, Y ) mit:
1. X ∼ U ([0, 1]
d)
2. Y = m(X) + N wobei N ∼ N (0, 1) und X, N unabh¨ angig 3. m (p, C)-glatt.
4. |m(x)| ≤ 1 f¨ ur x ∈ [0, 1]
d. Das Hauptresultat von Kapitel 4 ist
Satz 4.1 Seien p, C > 0 und D
(p,C)definiert wie oben. Dann ist
n
−2p+d2pn∈N
(4.3) eine untere Minimax-Konvergenzrate f¨ ur D
(p,C).
Im Falle p ≤ 1 ist damit (4.3) die optimale Minimax-Konvergenzrate f¨ ur die Klasse D aus Abschnitt 4.1.
Im Beweis von Satz 4.1 ben¨ otigen wir:
KAPITEL 4. MINIMAX-KONVERGENZRATEN 27 Lemma 4.1 Sei u ∈ R
lund sei C eine {−1, 1}-wertige Zufallsvariable mit
P{C = 1} = 1
2 = P{C = −1}.
Sei N eine R
l-wertige standardnormalverteilte Zufallsvariable unabh¨ angig von C, d.h. es gilt N = (N
(1), . . . , N
(l)) wobei N
(1), . . . , N
(l)reellwertige unabh¨ angig standardnormalverteilte Zufallsvariablen sind, die unabh¨ angig von C sind. Setze
Z = C · u + N
und betrachte das Problem, ausgehend von Z den Wert von C vorherzusagen.
Dann gilt
L
∗:= min
g:Rl→{−1,1}
P{g(Z) 6= C} = Φ(−kuk), wobei Φ die Verteilungsfunktion von N (0, 1) ist.
Beweis. F¨ ur g : R
l→ {−1, 1} beliebig gilt wegen N , C unabh¨ angig P {g (Z ) 6= C}
= P {g(C · u + N ) 6= C}
= P {g(C · u + N ) 6= C, C = 1} + P {g(C · u + N ) 6= C, C = −1}
= P {g(−u + N) = −1, C = 1} + P {g(u + N ) = 1, C = −1}
= P {g(−u + N) = −1} · P {C = 1} + P {g(u + N ) = 1} · P {C = −1}
= 1
2 · P {g(−u + N ) = −1} + 1
2 · P {g(u + N ) = 1} . Sei ϕ die Dichte von N , d.h. f¨ ur v = (v
(1), . . . , v
(l)) gilt
ϕ(v) =
l
Y
i=1
√ 1
2 · π · e
−|v(i)|2
2
= (2 · π)
−l/2· e
−kvk2/2.
Dann hat u + N die Dichte ϕ(v − u), und −u + N hat die Dichte ϕ(v + u) (wie man z.B. durch Ableiten der jeweiligen Verteilungsfunktion sieht).
Damit folgt
P {g(Z) 6= C}
= 1 2 ·
Z
I
{g(z)=−1}· ϕ(z − u) dz + 1 2 ·
Z
I
{g(z)=1}· ϕ(z + u) dz
= 1 2 ·
Z
I
{g(z)=−1}· ϕ(z − u) + I
{g(z)=1}· ϕ(z + u)
dz.
KAPITEL 4. MINIMAX-KONVERGENZRATEN 28
Der obige Ausdruck wird minimal f¨ ur g
∗(z) =
1, falls ϕ(z − u) > ϕ(z + u),
−1, sonst.
Wegen
ϕ(z − u) > ϕ(z + u) ⇔ (2 · π)
−l/2· e
−kz−uk2/2> (2 · π)
−l/2· e
−kz+uk2/2⇔ kz + uk
2> kz − uk
2⇔ < z, u > > 0 gilt
g
∗(z) =
1, falls < z, u > > 0,
−1, sonst und wir erhalten analog zu oben
L
∗= P {g
∗(Z ) 6= C}
= P {g
∗(Cu + N ) 6= C, C = 1} + P {g
∗(Cu + N ) 6= C, C = −1}
= 1
2 · P {g
∗(u + N ) = −1} + 1
2 · P {g
∗(−u + N ) = 1}
= 1
2 · P {< u + N, u > ≤ 0} + 1
2 · P {< −u + N, u > > 0}
= 1
2 · P
kuk
2+ < u, N > ≤ 0 + 1 2 · P
−kuk
2+ < u, N > > 0
= 1
2 · P
< u, N > ≤ −kuk
2+ 1 2 · P
< u, N > > kuk
2.
Ist nun u = 0, so folgt
L
∗= 1
2 · 1 + 1
2 · 0 = 1
2 = Φ(−kuk).
Ist kuk 6= 0, so ist
< u
kuk , N >
als Konvexkombination von unabh¨ angigen standardnormalverteilten Zufallsvaria- blen selbst standardnormalverteilt, und es folgt
L
∗= 1 2 · P
< u
kuk , N > ≤ −kuk
+ 1 2 · P
< u
kuk , N > > kuk
= 1
2 · Φ(−kuk) + 1
2 · (1 − Φ(kuk))
= Φ(−kuk).
KAPITEL 4. MINIMAX-KONVERGENZRATEN 29 2 Beweis von Satz 4.1: Wir beweisen Satz 4.1 nur f¨ ur d = 1, der allgemeine Fall wird in den ¨ Ubungen behandelt.
1. Schritt: In Abh¨ angigkeit von n definieren wir Unterklassen von D
(p,C). Dazu setzen wir
M
n= d(C
2· n)
2p+11e
(mit dxe = inf{z ∈ Z : z ≥ x}) und partitionieren [0, 1] in M
n¨ aquidistante Intervalle A
n,jder L¨ ange 1/M
n. a
n,jsei der Mittelpunkt von A
n,j.
Sodann w¨ ahlen wir ein beschr¨ anktes ¯ g : R → R mit supp(¯ g) ⊆ (−1/2, 1/2),
Z
¯
g
2(x) dx > 0 und g ¯ (p, 2
β−1)-glatt
(wobei wir die letzte Bedingung durch Reskalierung einer gen¨ ugend oft differen- zierbaren Funktion erf¨ ullen k¨ onnen), und setzen dann
g(x) = C · g(x) ¯ (x ∈ R ).
Dann gilt
supp(g) ⊆ (−1/2, 1/2), Z
g
2(x) dx = C
2· Z
¯
g
2(x) dx > 0 und
g (p, C · 2
β−1)-glatt.
F¨ ur c
n= (c
n,1, . . . , c
n,Mn) ∈ {−1, 1}
Mn=: C
nsetzen wir m
(cn)(x) =
Mn
X
j=1
c
n,j· g
n,j(x) wobei
g
n,j(x) = M
n−p· g(M
n(x − a
n,j)).
Dann ist m
(cn)(p, C )-glatt, wie wir wie folgt sehen:
(i) F¨ ur x, z ∈ A
n,igilt
d dx
km
(cn)(x) − d
dx
km
(cn)(z)
KAPITEL 4. MINIMAX-KONVERGENZRATEN 30
= |c
n,i| ·
d dx
kg
n,i(x) − d
dx
kg
n,i(z)
= 1 · M
n−p· M
nk· C · 2
β−1|M
n(x − a
n,i) − M
n(z − a
n,i)|
β≤ C · 2
β−1· |x − z|
β≤ C · |x − z|
β.
(ii) F¨ ur x ∈ A
n,iund z ∈ A
n,jmit i 6= j seien ˜ x bzw. ˜ z die Punkte am Rand von A
n,ibzw. A
n,jin Richtung von z bzw. x. Da g
n,iund g
n,j(p, C)-glatt sind (s.o.) und am Rand verschwinden gilt dann
d dx
kg
n,i(˜ x) = 0 = d
dx
kg
n,j(˜ z).
Unter Verwendung des Resultates aus Schritt (i) folgt dann
d dx
km
(cn)(x) − d
dx
km
(cn)(z)
=
c
n,i· d
dx
kg
n,i(x) − c
n,j· d
dx
kg
n,j(z)
≤ |c
n,i| ·
d dx
kg
n,i(x)
+ |c
n,j| ·
d dx
kg
n,j(z)
=
d dx
kg
n,i(x) − d
dx
kg
n,i(˜ x)
+
d dx
kg
n,j(z) − d
dx
kg
n,j(˜ z)
≤ C · 2
β−1· |x − x| ˜
β+ C · 2
β−1· |z − z| ˜
β= C · 2
β· 1
2 · |x − x| ˜
β+ 1
2 · |z − z| ˜
β≤ C · 2
β·
|x − x| ˜
2 + |z − z| ˜ 2
β≤ C · (|x − x| ˜ + |z − z|) ˜
β≤ C · |x − z|
β,
wobei die vorletzte Ungleichung mit Hilfe der Ungleichung von Jensen aus der Konkavit¨ at von u 7→ u
βauf R
+\ {0} folgt.
Damit ist die Klasse ¯ D
n(p,C)aller Verteilungen von (X, Y ) mit
1. X ∼ U [0, 1],
KAPITEL 4. MINIMAX-KONVERGENZRATEN 31 2. Y = m
(cn)(X) + N f¨ ur ein c
n∈ C
nund ein N ∼ N (0, 1), wobei X und N
unabh¨ angig sind
f¨ ur gen¨ ugend großes n eine Unterklasse von D
(p,C), und es gen¨ ugt zu zeigen:
lim inf
n→∞
inf
mn
sup
(X,Y)∈D¯n(p,C)
M
n2pC
2· E
Z
|m
n(x) − m
(cn(x)|
2dx > 0. (4.4)
2. Schritt: Wir verwenden Regressionssch¨ atzer, um den Parameter c
n∈ C
neiner Verteilung (X, Y ) ∈ D ¯
(p,C)nzu sch¨ atzen.
Dazu sei m
nein beliebiger Regressionssch¨ atzer. Nach Konstruktion sind die Sup- ports der g
n,jdisjunkt, also sind die {g
n,j: j ∈ N } in L
2orthogonal. Daher ist die orthogonale Projektion von m
nauf {m
(cn): c
n∈ C
n} gegeben durch
ˆ
m
n(x) =
Mn
X
j=1
ˆ
c
n,j· g
n,j(x) wobei
ˆ c
n,j=
R
An,j
m
n(x) · g
n,j(x) dx R
An,j
g
n,j2(x) dx . F¨ ur c
n∈ C
nbeliebig gilt nun
Z
|m
n(x) − m
(cn)(x)|
2dx
≥ Z
| m ˆ
n(x) − m
(cn)(x)|
2dx
=
Mn
X
j=1
Z
An,j
|ˆ c
n,j· g
n,j(x) − c
n,j· g
n,j(x)|
2dx
=
Mn
X
j=1
|ˆ c
n,j− c
n,j|
2· Z
An,j
g
2n,j(x) dx
= Z
g
2(x) dx · 1 M
n2p+1·
Mn
X
j=1