Skript zur Vorlesung Nichtparametrische Regressionssch¨atzung von Prof. Dr. Michael Kohler Sommersemester 2011

(1)

Skript zur Vorlesung

Nichtparametrische Regressionssch¨ atzung

von Prof. Dr. Michael Kohler

Sommersemester 2011

(2)

Inhaltsverzeichnis

1 Einf¨ uhrung 3

1.1 Historische Vorbemerkungen . . . . 3

1.2 Regressionsanalyse . . . . 4

1.3 Regressionssch¨ atzung . . . . 6

1.4 Anwendung in der Mustererkennung . . . . 7

1.5 Inhalt dieser Vorlesung . . . . 10

2 Ein Slow-Rate-Resultat 11 3 Konvergenzgeschwindigkeit des Kernsch¨ atzers 17 4 Minimax-Konvergenzraten 24 4.1 Motivation . . . . 24

4.2 Eine untere Minimax-Konvergenzrate . . . . 25

5 Datenabh¨ angige Wahl von Parametern 35 5.1 Motivation . . . . 35

5.2 Unterteilung der Stichprobe . . . . 35

5.3 Kreuzvalidierung . . . . 40

1

(3)

INHALTSVERZEICHNIS 2

6 Hilfsmittel aus der Theorie empirischer Prozesse 42

6.1 Motivation . . . . 42

6.2 Uniforme Exponentialungleichungen . . . . 43

6.3 Absch¨ atzung von ¨ Uberdeckungszahlen . . . . 46

7 Analyse von Kleinste-Quadrate-Sch¨ atzer 57

(4)

Kapitel 1 Einf¨ uhrung

1.1 Historische Vorbemerkungen

Einige Daten zur Regressionssch¨ atzung:

1632 Galileo Galileo bearbeitet ein Problem der linearen Regression (ihm liegen Messwerte vor, die nach Theorie auf einer Geraden liegen m¨ ussen, aufgrund von Messfehlern aber nicht auf einer Geraden liegen).

1805 A. M. Legendre und C. F. Gauß schlagen unabh¨ angig voneinander die Me- thode der Kleinsten-Quadrate vor.

ca. 1900 Sir F. Galton und sein Sch¨ uler K. Pearson f¨ uhren den Begriff der Regression ein (im Rahmen von Untersuchungen zum Zusammenhang der Korpergr¨ oße von V¨ atern und S¨ ohnen. Dabei haben sehr große (bzw. sehr kleine) V¨ ater etwas kleinere (bzw. etwas gr¨ oßere) S¨ ohne, d.h. die K¨ orpergr¨ oße “schreitet zur¨ uck” in Richtung des durchschnittlichen Wertes).

Lange Zeit wurden ausschließlich parametrische Verfahren verwendet (bei denen die Bauart der zur sch¨ atzenden Regressionsfunktion als bekannt voraus gesetzt wird und nur von endlich vielen unbekannten Parametern abh¨ angt).

1964 E. A. Nadaraya und G. S. Watson schlagen den Kernsch¨ atzer vor (ein nicht- parametrisches Verfahren).

3

(5)

KAPITEL 1. EINF ¨ UHRUNG 4

1.2 Regressionsanalyse

(X, Y ) sei eine R

^d

× R -wertige Zufallsvariable mit E|Y | < ∞.

Analysiert werden soll die Abh¨ angigkeit des Wertes von Y vom Wert von X.

Beispiele:

a) Y = Wert einer Immobilie,

X = Beschreibung der Immobilie.

Ziel ist hier prim¨ ar die Interpretation des Zusammenhangs zwischen X und Y .

b) Y = prozentualer Anteil an K¨ orperfett (exakte Messung ben¨ otigt Volumen einer Person)

X = Vektor einfach messbarer Gr¨ oßen wie z.B. elektrischer Widerstand der Haut, Gr¨ oße, Gewicht und Alter.

Ziel ist hier prim¨ ar die Vorhersage von Werten (d.h. ausgehend vom Wert von X soll der Wert von Y vorhergesagt werden).

Betrtachtet wird dazu die sogenannte Regressionsfunktion m : R

^d

→ R definiert durch

m(x) = E{Y |X = x} (x ∈ R

^d

).

Anschaulich:

m(x) ist der durchschnittliche Wert von Y unter der Bedingung X = x.

Formal:

m ist diejenige Borel-messbare Funktion m : R

^d

→ R mit

∀B ∈ B

_d

: Z

B

m(x) P

_X

(dx) = Z

X⁻¹(B)

Y dP.

Diese ist P

_X

-f.¨ u. eindeutig (vgl. Vorlesung Wahrscheinlichkeitstheorie).

Die Regressionsfunktion hat die folgende Optimalit¨ atseigenschaft:

(6)

KAPITEL 1. EINF ¨ UHRUNG 5 Lemma 1.1 Ist (X, Y ) eine R

^d

× R -wertige Zufallsvariable mit EY

²

< ∞, so gilt f¨ ur m : R

^d

→ R , m(x) = E{Y |X = x} die Beziehung

E

|m(X) − Y |

²

= min

f:R^d→Rmessbar

E

|f (X) − Y |

²

.

Beweis. Wir zeigen, dass f¨ ur beliebiges (messbares) f : R

^d

→ R gilt:

E

|f (X) − Y |

²

= E

|m(X) − Y |

²

+ Z

R^d

|f(x) − m(x)|

²

P

_X

(dx). (1.1) Wegen

Z

R^d

|f (x) − m(x)|

²

P

_X

(dx) ≥ 0 folgt daraus die Behauptung.

Zum Nachweis von (1.1) beachten wir, dass wegen EY

²

< ∞ nach der Jensenschen Ungleichung gilt:

E{|m(X)|

²

} = E{|E{Y |X}|

²

} ≤ E{E{|Y |

²

|X}} = EY

²

< ∞.

Ist nun E{|f (X)|

²

} = ∞, so folgt E

|f(X) − Y |

²

= ∞ = Z

R^d

|f (x) − m(x)|

²

P

_X

(dx) (da z.B. E{|f(X)|

²

} ≤ 2 · E

|f(X) − m(X)|

²

+ 2 · E

|m(X)|

²

gilt), was (1.1) impliziert.

Ist dagegen E{|f(X)|

²

} < ∞, so gilt E

|f (X) − Y |

²

= E

|(f (X) − m(X)) + (m(X) − Y )|

²

= E

|f (X) − m(X)|

²

+ E

|m(X) − Y |

²

, (1.2) da

E {(f (X) − m(X)) · (m(X) − Y )}

= E E

(f (X) − m(X)) · (m(X) − Y ) X

= E

(f (X) − m(X)) · E

m(X) − Y X

= E

(f (X) − m(X)) · (m(X) − E Y

X )

= E

(f (X) − m(X)) · (E Y

X − E Y

X )

= 0.

(7)

KAPITEL 1. EINF ¨ UHRUNG 6 Hierbei wurde beim zweiten Gleichheitszeichen benutzt, dass nach Cauchy-Schwarz gilt

E {|(f(X) − m(X)) · (m(X) − Y )|}

≤ p

E{|f(X) − m(X)|

²

} · p

E{|m(X) − Y |

²

} < ∞ und damit (f (X) − m(X)) · (m(X) − Y ) integrierbar ist.

Aus (1.2) folgt nun die Behauptung. 2

Bemerkung. Gem¨ aß dem obigen Beweis (siehe (1.1)) gilt f¨ ur das sogenannte L

₂

-Risiko einer beliebigen (messbaren) Funktion:

E

|f(X) − Y |

²

= E

|m(X) − Y |

²

+ Z

R^d

|f(x) − m(x)|

²

P

_X

(dx).

Damit ist der mittlere quadratische Vorhersagefehler einer Funktion darstellbar als Summe des L

2

-Risikos der Regressionsfunktion (unvermeidbarer Fehler) und des sogenannten L

₂

-Fehlers

Z

|f (x) − m(x)|

²

P

_X

(dx),

der entsteht aufgrund der Verwendung von f anstelle von m bei der Vorhersage bzw. Approximation des Wertes von Y .

1.3 Regressionssch¨ atzung

In Anwendungen ist ¨ ublicherweise die Verteilung von (X, Y ) unbekannt, daher kann m(x) = E{Y |X = x} nicht berechnet werden. Oft ist es aber m¨ oglich, Werte von (X, Y ) zu beobachten. Ziel ist dann, daraus die Regressionsfunktion zu sch¨ atzen. Im Hinblick auf die Minimierung des L

₂

-Risikos sollte dabei der L

₂

-Fehler der Sch¨ atzfunktion m¨ oglichst klein sein.

Formal f¨ uhrt das auf folgende Problemstellung:

(X, Y ), (X

₁

, Y

₁

), (X

₁

, Y

₂

), . . . seien unabh¨ angige identisch verteilte R

^d

× R -wertige Zufallsvariablen mit EY

²

< ∞. m : R

^d

→ R definiert durch m(x) = E{Y |X = x}

sei die zugeh¨ orige Regressionsfunktion.

Gegeben ist die Datenmenge

D

_n

= {(X

₁

, Y

₁

), . . . , (X

_n

, Y

_n

)} .

(8)

KAPITEL 1. EINF ¨ UHRUNG 7 Gesucht ist eine Sch¨ atzung

m

_n

(·) = m

_n

(·, D

_n

) : R

^d

→ R von m, f¨ ur die

Z

|m

_n

(x) − m(x)|

²

P

_X

(dx) m¨ oglichst klein ist.

1.4 Anwendung in der Mustererkennung

(X, Y ) sei R

^d

× {0, 1}-wertige Zufallsvariable.

In der Mustererkennung besch¨ aftigt man sich mit dem folgenden Vorhersagepro- blem:

Zu beobachtetem Wert von X m¨ ochte man den zugeh¨ origen Wert von Y vorher- sagen.

Bsp.: Erkennung von Werbeemails:

X = Text der Email bzw. Charakteristika des Textes

Y =

1, falls es sich um eine Werbeemail handelt, 0, sonst.

Gesucht ist eine Funktion g

^∗

: R

^d

→ {0, 1}, f¨ ur die die Wahrscheinlichkeit einer falschen Vorhersage m¨ oglichst klein ist, d.h. f¨ ur die gilt:

P {g

^∗

(X) 6= Y } = min

g:R^d→{0,1}

P {g(X) 6= Y } . (1.3) Es gilt:

Lemma 1.2 F¨ ur g

^∗

: R

^d

→ {0, 1} definiert durch g

^∗

(x) =

1, P{Y = 1|X = x} > P{Y = 0|X = x}, 0, sonst.

gilt (1.3).

(9)

KAPITEL 1. EINF ¨ UHRUNG 8 Beweis. Sei g : R

^d

→ {0, 1} beliebig. Dann gilt f¨ ur jedes x ∈ R

^d

P{g(X) 6= Y |X = x} = 1 − P{g(X) = Y |X = x} = 1 − P{g(x) = Y |X = x}, und mit der Definition von g

^∗

folgt daraus

P{g(X) 6= Y |X = x} − P{g

^∗

(X) 6= Y |X = x}

= P{g

^∗

(x) = Y |X = x} − P{g(x) = Y |X = x}

≥ 0.

Somit:

P{g

^∗

(X) 6= Y } = Z

R^d

P{g

^∗

(X) 6= Y |X = x}P

_X

(dx)

≤ Z

R^d

P{g(X) 6= Y |X = x}P

X

(dx)

= P{g(X) 6= Y }.

2 Wegen

P{Y = 1|X = x} + P{Y = 0|X = x} = 1 P

_X

-f.¨ u. k¨ onnen wir g

^∗

auch durch

g

^∗

(x) =

1, P{Y = 1|X = x} >

¹₂

, 0, sonst

definieren.

Die sogenannte aposteriori Wahrscheinlichkeit P{Y = 1|X = x} = E

I

{Y=1}

X = x =: m(x)

l¨ asst sich als Regressionsfunktion zum Zufallsvektor (X, I

{Y=1}

) auffassen. Ap- proximiert man diese (z.B. mittels Regressionssch¨ atzung) durch eine Funktion

¯

m : R

^d

→ R

und definiert man dann die sogenannte Plug-In-Sch¨ atzfunktion g ¯ durch

¯ g(x) =

1, m(x) ¯ >

¹₂

,

0, sonst =

1, m(x) ¯ > 1 − m(x), ¯ 0, sonst,

so gilt:

(10)

KAPITEL 1. EINF ¨ UHRUNG 9 Satz 1.1 Mit den obigen Bezeichnungen gilt:

0 ≤ P{¯ g (X) 6= Y } − P{g

^∗

(X) 6= Y } ≤ 2 · Z

| m(x) ¯ − m(x)|P

_X

(dx)

≤ 2 · s

Z

| m(x) ¯ − m(x)|

²

P

_X

(dx).

Damit f¨ uhrt ein “gutes” Regressionssch¨ atzverfahren automatisch zu einem “gu- ten” Mustererkennungsverfahren.

Beweis von Satz 1.1.

Gem¨ aß Beweis von Lemma 1.2 gilt:

P{¯ g(X) 6= Y |X = x} − P{g

^∗

(X) 6= Y |X = x}

= P{g

^∗

(x) = Y |X = x} − P{¯ g(x) = Y |X = x}

= m(x) · I

{g^∗(x)=1}

+ (1 − m(x)) · I

{g^∗(x)=0}

− m(x) · I

{¯g(x)=1}

+ (1 − m(x)) · I

{¯g(x)=0}

= m(x) · I

{g^∗(x)=1}

+ (1 − m(x)) · I

{g^∗(x)=0}

− m(x) ¯ · I

{g^∗(x)=1}

+ (1 − m(x)) ¯ · I

{g^∗(x)=0}

+

n

¯

m(x) · I

{g^∗(x)=1}

+ (1 − m(x)) ¯ · I

{g^∗(x)=0}

− m(x) ¯ · I

{¯g(x)=1}

+ (1 − m(x)) ¯ · I

{¯g(x)=0}

o + ¯ m(x) · I

{¯g(x)=1}

+ (1 − m(x)) ¯ · I

{¯g(x)=0}

− m(x) · I

{¯g(x)=1}

+ (1 − m(x)) · I

{¯g(x)=0}

≤ 2 · | m(x) ¯ − m(x)|, da die Definition von ¯ g impliziert, dass gilt:

n . . . o

≤ 0.

Mit Lemma 1.2 folgt daraus

0 ≤ P{¯ g(X) 6= Y } − P{g

^∗

(X) 6= Y }

= Z

(P{¯ g(X) 6= Y |X = x} − P{g

^∗

(X) 6= Y |X = x}) P

_X

(dx)

≤ 2 · Z

| m(x) ¯ − m(x)| P

_X

(dx).

Mit der Ungleichung von Cauchy-Schwarz folgt daraus die Behauptung. 2

(11)

KAPITEL 1. EINF ¨ UHRUNG 10

1.5 Inhalt dieser Vorlesung

Ziel dieser Vorlesung ist die Herleitung mathematischer Aussagen zur Regres- sionssch¨ atzung, die m¨ oglichst allgemein (und damit in m¨ oglichst vielen Anwen- dungen) gelten. Dabei werden nichtparametrische Verfahren untersucht, die keine Annahmen an die Bauart der zu sch¨ atzenden Regressionsfunktion machen.

In der Vorlesung “Mathematische Statistik”, WS 10/11, wurde bereits gezeigt:

Es existieren Sch¨ atzverfahren m

_n

mit E

Z

|m

_n

(x) − m(x)|

²

P

_X

(dx) → 0 (n → ∞) (1.4) f¨ ur alle Verteilungen von (X, Y ) mit EY

²

< ∞.

Z.B. gilt diese Aussage f¨ ur den sogenannten Kernsch¨ atzer

m

_n

(x) = P

n

i=1

Y

_i

· K

x−X_i hn

P

n

j=1

K

_x−X

j

hn

mit naivem Kern K = 1

_S₁₍₀₎

(wobei S

₁

(0) die Kugel um 0 mit Radius 1 ist) und Bandbreite h

n

> 0, die so gew¨ ahlt ist, dass gilt:

h

_n

→ 0 (n → ∞) und n · h

^d_n

→ ∞ (n → ∞).

In dieser Vorlesung untersuchen wir prim¨ ar Fragen zur Geschwindigkeit, mit der

in (1.4) die Konvergenz gegen Null erfolgt.

(12)

Kapitel 2

Ein Slow-Rate-Resultat

In diesem Kapitel zeigen wir, dass ohne Regularit¨ atsvoraussetzungen an die zu- grunde liegende Verteilung in der nichtparametrischen Regression eine nichttri- viale Aussage zur Konvergenzgeschwindigkeit nicht herleitbar ist.

Die folgt aus:

Satz 2.1 Sei (m

_n

)

n∈N

eine beliebige Folge von Sch¨ atzfunktionen. Dann existiert zu jeder monoton gegen Null fallenden Folge (a

_n

)

n∈N

nichtnegativ reeller Zahlen eine Verteilung von (X, Y ) mit den Eigenschaften

1. X ∼ U [0, 1], 2. Y = m(X),

3. m ist {0, 1}-wertig f¨ ur die dar¨ uberhinaus gilt:

lim sup

n→∞

E R

|m

_n

(x) − m(x)|

²

P

_X

(dx)

a

_n

≥ 1.

D.h., selbst wenn (X, Y ) fehlerfrei und X auf [0, 1] gleichverteilt ist, so existiert dennoch f¨ ur jeden Regressionssch¨ atzer eine Verteilung von (X, Y ), f¨ ur die der erwartete L

2

-Fehler des Sch¨ atzers beliebig langsam gegen Null konvergiert.

Im Beweis von Satz 2.1 ben¨ otigen wir das folgende deterministische Lemma.

11

(13)

KAPITEL 2. EIN SLOW-RATE-RESULTAT 12 Lemma 2.1 Zu jeder Folge (a

_n

)

n∈N

mit

1 4 ≥ a

₁

≥ a

₂

≥ · · · ≥ a

_n

→ 0 (n → ∞)

existiert eine Z¨ ahldichte (p

_j

)

j∈N

so, dass f¨ ur alle gen¨ ugend großen n gilt:

∞

X

j=1

(1 − p

_j

)

ⁿ

· p

_j

≥ a

_n

.

Beweis. Setze

p

₁

= 1 − 2a

₁

≥ 0 und k

₁

= 1

und w¨ ahle dann p

₂

, p

₃

, . . . und 1 = k

₁

< k

₂

< k

₃

< . . . so, dass f¨ ur alle n ∈ N gilt:

kn+1

X

i=kn+1

p

_i

= 2 · (a

_n

− a

_n+1

) (≥ 0) und

0 ≤ p

i

≤ 1

2n f¨ ur i > k

n

. Dann folgt

p

_j

≥ 0 und

∞

X

j=1

p

_j

= p

₁

+

∞

X

n=1

2 · (a

_n

− a

_n+1

) = p

₁

+ 2 · a

₁

= 1,

wobei die vorletzte Gleichheit wegen a

_n

→ 0 (n → ∞) und der daraus folgenden Beziehung

N

X

n=1

(a

_n

− a

_n+1

) = a

₁

− a

_N+1

→ a

₁

(N → ∞) gilt.

Weiterhin erhalten wir

∞

X

j=1

(1 − p

_j

)

ⁿ

· p

_j

≥ X

j∈N:pj≤1/(2n)

(1 − p

_j

)

ⁿ

· p

_j

≥

1 − 1 2n

n

· X

j∈N:pj≤1/(2n)

p

j

≥

1 − 1 2n

n

·

∞

X

j=kn+1

p

_j

(14)

KAPITEL 2. EIN SLOW-RATE-RESULTAT 13

=

1 − 1 2n

n

·

∞

X

i=n

2 · (a

_i

− a

_i+1

)

=

1 − 1 2n

n

· 2 · a

_n

≥ a

_n

f¨ ur n gen¨ ugend groß, da

1 − 1

2n

n

· 2 = s

1 − 1

2n

· 2 → r 1

e · 2 ≥ 1 (n → ∞).

2 Beweis von Satz 2.1:

1. Schritt: Wir definieren uns in Abh¨ angigkeit von einer Z¨ ahldichte (p

j

)

j∈N

und eines Parameters c = (c

_j

)

j∈N

∈ {−1, 1}

^N

eine Verteilung von (X, Y ).

Dazu gehen wir folgendermaßen vor: Wir w¨ ahlen

X ∼ U [0, 1] und Y = m

^(c)

(X),

wobei wir zur Definition von m

^(c)

zun¨ achst in Abh¨ angigkeit der Z¨ ahldichte (p

_j

)

j∈N

das Intervall [0, 1] in Intervalle A

_j

der L¨ ange p

_j

partitionieren und dann setzen:

m

^(c)

(x) =

1, falls x ∈ A

_j

, c

_j

= 1,

−1, falls x ∈ A

j

, c

j

= −1 (j ∈ N ).

2. Schritt: Wir sch¨ atzen E

Z

|m

n

(x) − m(x)|

²

P

X

(dx) f¨ ur die Verteilung aus dem 1. Schritt nach unten ab.

Setze dazu

˜

m

n

(x) = 1 p

_j

Z

Aj

m

n

(z) P

X

(dz) f¨ ur x ∈ A

j

,

d.h. ˜ m

_n

ist die L

₂

-Projektion von m

_n

auf die Menge aller bzgl. (A

_j

)

j∈N

st¨ uckweise konstanten Funktionen.

Dann gilt Z

Aj

|m

n

(x) − m

^(c)

(x)|

²

P

X

(dx)

(15)

KAPITEL 2. EIN SLOW-RATE-RESULTAT 14

= Z

Aj

|m

_n

(x) − m ˜

_n

(x)|

²

P

_X

(dx) + Z

Aj

| m ˜

_n

(x) − m

^(c)

(x)|

²

P

_X

(dx), da wegen ˜ m

_n

− m

^(c)

konstant auf A

_j

f¨ ur x

_j

∈ A

_j

beliebig gilt

Z

Aj

(m

n

(x) − m ˜

n

(x)) · ( ˜ m

n

(x) − m

^(c)

(x)) P

X

(dx)

= ( ˜ m

_n

(x

_j

) − m

^(c)

(x

_j

)) · Z

Aj

(m

_n

(x) − m ˜

_n

(x)) P

_X

(dx)

= ( ˜ m

_n

(x

_j

) − m

^(c)

(x

_j

)) · Z

Aj

m

_n

(x) P

_X

(dx) − Z

Aj

m

_n

(x) P

_X

(dx)

!

= ( ˜ m

_n

(x

_j

) − m

^(c)

(x

_j

)) · 0

= 0.

Damit folgt Z

Aj

|m

_n

(x) − m

^(c)

(x)|

²

P

_X

(dx) ≥ Z

Aj

| m ˜

_n

(x) − m

^(c)

(x)|

²

P

_X

(dx),

= | m ˜

n

(x

j

) − c

j

|

²

· p

j

f¨ ur x

_j

∈ A

_j

beliebig aber fest.

Wir verwenden nun ˜ m

_n

, um c

_j

vorherzusagen, und setzen dazu ˆ

c

n,j

=

1, falls ˜ m

_n

(x

_j

) =

_p¹

j

· R

Aj

m

_n

(z) P

_X

(dz) ≥ 0,

−1, sonst.

Im Falle c

_j

= 1 und ˆ c

_n,j

= −1 (was ˜ m

_n

(x

_j

) < 0 impliziert) gilt dann

| m ˜

_n

(x

_j

) − c

_j

| = c

_j

− m ˜

_n

(x

_j

) ≥ c

_j

− 0 = 1, und im Falle c

_j

= −1 und ˆ c

_n,j

= 1 (was ˜ m

_n

(x

_j

) ≥ 0 impliziert) gilt

| m ˜

_n

(x

_j

) − c

_j

| = ˜ m

_n

(x

_j

) − c

_j

≥ 0 − c

_j

= 1.

Daraus folgt

| m ˜

_n

(x

_j

) − c

_j

|

²

≥ I

_{ˆ_c_n,j_6=c_j_}

und insgesamt

Z

Aj

|m

_n

(x) − m

^(c)

(x)|

²

P

_X

(dx) ≥ p

_j

· I

{ˆcn,j6=c_j}

.

(16)

KAPITEL 2. EIN SLOW-RATE-RESULTAT 15 Damit ergibt sich nun

E Z

|m

_n

(x) − m

^(c)

(x)|

²

P

_X

(dx)

=

∞

X

j=1

E Z

Aj

|m

_n

(x) − m

^(c)

(x)|

²

P

_X

(dx)

≥

∞

X

j=1

p

_j

· P {ˆ c

_n,j

6= c

_j

}

≥

∞

X

j=1

P {ˆ c

_n,j

6= c

_j

, µ

_n

(A

_j

) = 0} · p

_j

=: R

_n

(c), wobei

µ

_n

(A

_j

) = |{1 ≤ i ≤ n : X

_i

∈ A

_j

}|

n die empirische Verteilung zu X

₁

, . . . , X

_n

ist.

Hier wurde also der Fehler des Regressionssch¨ atzers nach unten abgesch¨ atzt durch den “Fehler” einer Vorhersagefunktion f¨ ur c

_j

.

3. Schritt: Als n¨ achstes sch¨ atzen wir E

Z

|m

_n

(x) − m(x)|

²

P

_X

(dx) bzw. R

_n

(c)

nach unten ab, indem wir c zuf¨ allig aus {−1, 1}

^N

w¨ ahlen und ¨ uber das Resultat mitteln.

Dazu seien C

₁

, C

₂

, . . . unabh¨ angig identisch verteilte Zufallsvariablen mit P{C

₁

= 1} = 1

2 = P{C

₁

= −1},

die unabh¨ angig von X

₁

, . . . , X

_n

sind. Dann gilt f¨ ur C = (C

₁

, C

₂

, . . . ):

E {R

_n

(C)} =

∞

X

j=1

P {ˆ c

_n,j

6= C

_j

, µ

_n

(A

_j

) = 0} · p

_j

=

∞

X

j=1

E P

ˆ

c

_n,j

6= C

_j

, µ

_n

(A

_j

) = 0

X

₁

, . . . , X

_n

· p

_j

=

∞

X

j=1

E

I

{µn(Aj)=0}

· P ˆ

c

n,j

6= C

j

X

1

, . . . , X

n

· p

j

.

(17)

KAPITEL 2. EIN SLOW-RATE-RESULTAT 16 Im Falle µ

_n

(A

_j

) = 0 gilt X

₁

∈ / A

_j

, . . . , X

_n

∈ / A

_j

, was impliziert, dass (X

₁

, Y

₁

), . . . , (X

_n

, Y

_n

) (und damit auch ˆ c

_n,j

) unabh¨ angig von C

_j

ist. In diesem Fall gilt aber

P ˆ

c

_n,j

6= C

_j

X

₁

, . . . , X

_n

= E P

ˆ

c

_n,j

6= C

_j

(X

₁

, Y

₁

), . . . , (X

_n

, Y

_n

)

X

₁

, . . . , X

_n

= E 1

2 X

₁

, . . . , X

_n

= 1 2 , und wir erhalten

E {R

_n

(C)} =

∞

X

j=1

1 2 · P {µ

_n

(A

_j

) = 0} · p

_j

=

∞

X

j=1

1 2 · P {X

1

∈ / A

j

, . . . , X

n

∈ / A

j

} · p

j

= 1

2 ·

∞

X

j=1

(1 − p

_j

)

ⁿ

· p

_j

. Wegen

R

_n

(C) ≤

∞

X

j=1

P {µ

_n

(A

_j

) = 0} · p

_j

=

∞

X

j=1

(1 − p

_j

)

ⁿ

· p

_j

gilt dar¨ uberhinaus

R

_n

(C) E{R

_n

(C)} ≤

P

∞

j=1

(1 − p

_j

)

ⁿ

· p

_j

1 2

· P

∞

j=1

(1 − p

j

)

ⁿ

· p

j

≤ 2.

Damit ist das Lemma von Fatou anwendbar, und wir erhalten E

lim sup

n→∞

R

_n

(C) E{R

_n

(C)}

≥ lim sup

n→∞

E

R

_n

(C) E{R

_n

(C)}

= 1.

Da nun der Wert im Mittel gr¨ oßer oder gleich Eins ist, muss insbesondere irgend- einer der (zuf¨ alligen) Werte ebenfalls gr¨ oßer oder gleich Eins sein. Also existiert ein c ∈ {−1, 1}

^N

mit

lim sup

n→∞

R

_n

(c)

1 2

· P

∞

j=1

(1 − p

_j

)

ⁿ

· p

_j

= lim sup

n→∞

R

_n

(c)

E{R

_n

(C)} ≥ 1.

Mit Lemma 2.1 angewandt auf a

_n

/2, wobei wir den Anfang der Folge ab¨ andern so dass die Werte alle kleiner oder gleich 1/4 sind, folgt daraus die Behauptung.

2

(18)

Kapitel 3

Konvergenzgeschwindigkeit des Kernsch¨ atzers

Ziel im Folgenden ist die Absch¨ atzung des erwarteten L

2

-Fehlers E

Z

|m

_n

(x) − m(x)|

²

P

_X

(dx) im Falle des sogenannten Kernsch¨ atzers

m

_n

(x) = P

n

i=1

Y

_i

· K

x−Xi

hn

P

n

j=1

K

_x−X

j

hn

mit naivem Kern K = 1

_S₁₍₀₎

und Bandbreite h

n

> 0.

Dabei machen wir die folgenden Regularit¨ atsannahmen an die zugrundeliegende Verteilung:

1. Beschr¨ anktheitsannahme an X.

2. Beschr¨ anktheitsannahme an Var{Y |X = x} = E

(Y − E{Y |X = x})

²

X = x

= E Y

²

X = x − E Y

X = x

²

. 3. Glattheitsannahme an die Regressionsfunktion.

17

(19)

KAPITEL 3. KONVERGENZGESCHWINDIGKEIT DES KERNSCH ¨ ATZERS18

Zur Formalisierung der ersten Bedingungen fordern wir, dass der sogenannte Sup- port von X bzw. P

_X

definert durch

supp(P

_X

) =

x ∈ R

^d

∀ > 0 : P

_X

(S

(x)) > 0 beschr¨ ankt ist. Dieser hat die folgenden beiden Eigenschaften:

Lemma 3.1 Ist supp(P

X

) der Support der R

^d

-wertigen Zufallsvariablen X, so gilt:

a) P{X ∈ supp(P

_X

)} = 1.

b) supp(P

X

) ist abgeschlossen.

Beweis. a) Wegen

S

_/2

(z) ⊆ S

(x) f¨ ur jedes z ∈ S

_/2

(x)

folgt f¨ ur z ∈ S

_/2

(x) aus P(S

(x)) = 0 immer P(S

_/2

(z)) = 0. Unter Verwendung dieser Beziehung sehen wir

supp(P

_X

)

^c

=

x ∈ R

^d

∃ > 0 : P

_X

(S

(x)) = 0

⊆ [

x∈supp(P_X)^c∩Q^d,∈Q+\{0},P_X(S(x))=0

S

(x).

Die rechte Seite ist eine abz¨ ahlbare Vereinigung von P

_X

-Nullmengen, und damit ist auch supp(P

_X

)

^c

eine P

_X

-Nullmenge.

b) Ist x / ∈ supp(P

_X

), so gilt

P

_X

(S

(x)) = 0

f¨ ur ein > 0. Nach dem Beweis von a) impliziert dies aber S

_/2

(x) ⊆ supp(P

_X

)

^c

,

also ist supp(P

_X

)

^c

offen. 2

Nun gilt:

Satz 3.1 Sei

m

_n

(x) = P

n

i=1

Y

_i

· K

x−X_i hn

P

n

j=1

K

_x−X

j

hn

der Kernsch¨ atzer mit naivem Kern K = 1

_S₁₍₀₎

und Bandbreite h

_n

> 0.

Seien C > 0, p ∈ (0, 1] und σ > 0. Dann gilt f¨ ur jede Verteilung von (X, Y ) mit

S := supp(P

X

) ist beschr¨ ankt, (3.1)

(20)

KAPITEL 3. KONVERGENZGESCHWINDIGKEIT DES KERNSCH ¨ ATZERS19

Var{Y |X = x} ≤ σ

²

f¨ ur alle x ∈ S (3.2) und

|m(x) − m(z| ≤ C · kx − zk

^p

f¨ ur alle x, z ∈ S (3.3) die folgende Absch¨ atzung f¨ ur den erwarteten L

₂

-Fehler des Kernsch¨ atzers:

E Z

|m

_n

(x) − m(x)|

²

P

_X

(dx) ≤ c

₁

· σ

²

+ sup

_z∈S

|m(z)|

²

n · h

^d_n

+ C

²

· h

^2p_n

. Hierbei ist c

1

eine nur von d und dem Durchmesser von S = supp(P

X

) abh¨ angende Konstante.

Im Beweis ben¨ otigen wir:

Lemma 3.2 Ist S = supp(P

_X

) beschr¨ ankt, so gilt f¨ ur eine nur von d und dem Durchmesser von S abh¨ angende Konstante ˆ c:

Z

S

1 n · P

_X

(S

_h_n

(x)) P

_X

(dx) ≤ ˆ c n · h

^d_n

.

Beweis. W¨ ahle l

n

≤ ˆ c/h

^d_n

Kugeln S

hn/2

(z

1

), . . . , S

hn/2

(z

ln

) mit Radius h

n

/2 so, dass gilt

S ⊆ ∪

^l_l=1ⁿ

S

_h_n_/2

(z

_l

). (3.4) Wegen

S

_h_n_/2

(z

_l

) ⊆ S

_h_n

(x) (3.5) f¨ ur x ∈ S

_h_n_/2

(z

_l

) gilt dann

Z

S

1 n · P

X

(S

hn

(x)) P

_X

(dx)

(3.4)

≤

ln

X

l=1

Z

S_hn/2(zl)

1 n · P

X

(S

hn

(x)) P

_X

(dx)

(3.5)

≤

ln

X

l=1

Z

S_hn/2(zl)

1 n · P

_X

(S

_h_n_/2

(z

_l

)) P

_X

(dx)

=

ln

X

l=1

1 n · P

X

(S

hn/2

(z

l

)) · P

_X

(S

_h_n_/2

(z

_l

))

≤ l

n

n ≤ ˆ c n · h

^d_n

.

2 Beweis von Satz 3.1: Setze

ˆ

m

_n

(x) = E

m

_n

(x)

X

₁

, . . . , X

_n

= P

n

i=1

K

x−Xi

hn

· m(X

_i

) P

n

j=1

K

_x−X

j

hn

.

(21)

KAPITEL 3. KONVERGENZGESCHWINDIGKEIT DES KERNSCH ¨ ATZERS20

Wegen

E

|m

n

(x) − m(x)|

²

X

1

, . . . , X

n

= E

|m

_n

(x) − E

m

_n

(x)

X

₁

, . . . , X

_n

|

²

X

₁

, . . . , X

_n

+

E

m

_n

(x)

X

₁

, . . . , X

_n

− m(x)

2

erhalten wir unter Verwendung des Satzes von Fubini und der Definition der bedingten Erwartung analog zur Bias-Varianz-Zerlegung aus der Statistik die folgende Darstellung unseres Fehlers:

E Z

|m

_n

(x) − m(x)|

²

P

_X

(dx)

= E Z

E

|m

n

(x) − m(x)|

²

X

1

, . . . , X

n

P

X

(dx)

= E Z

|m

n

(x) − m ˆ

n

(x)|

²

P

X

(dx)

+ E Z

| m ˆ

n

(x) − m(x)|

²

P

X

(dx)

. Hierbei ist der erste bzw. zweite Term auf der rechten Seite oben die erwartete integrierte Varianz bzw. der erwartete integrierte Bias des Sch¨ atzers.

Als erstes sch¨ atzen wir den erwarteten integrierten Bias des Sch¨ atzers ab. Dazu setzen wir

µ

_n

(A) = |{1 ≤ i ≤ n : X

_i

∈ A}|

n und

B

_n

(x) = {n · µ

_n

(S

_h_n

(x)) > 0} .

Beachtet man, dass K((x − X

i

)/h

n

) > 0 nur gelten kann, sofern kx − X

i

k ≤ h

n

ist, so erh¨ alt man unter Verwendung der Ungleichung von Jensen

| m ˆ

_n

(x) − m(x)|

²

=

P

n i=1

K

x−X_i hn

· (m(X

_i

) − m(x)) P

n

j=1

K

_x−X

j

hn

2

· I

_B_n_(x)

+ |m(x)|

²

· I

_B_n_(x)^c

≤ P

n

i=1

K

x−Xi

hn

· |m(X

_i

) − m(x)|

²

P

n

j=1

K

_x−X

j

hn

· I

_B_n_(x)

+ |m(x)|

²

· I

_B_n_(x)^c

(3.3)

≤ P

n

i=1

K

x−X_i hn

· C

²

· kX

_i

− xk

^2p

P

n

j=1

K

_x−X

j

hn

· I

_B_n_(x)

+ |m(x)|

²

· I

_B_n_(x)^c

≤ C

²

· h

^2p_n

+ |m(x)|

²

· I

_B_n_(x)^c

,

(22)

KAPITEL 3. KONVERGENZGESCHWINDIGKEIT DES KERNSCH ¨ ATZERS21

bzw.

E Z

| m ˆ

_n

(x) − m(x)|

²

P

_X

(dx)

≤ C

^2p

· h

^2p_n

+ sup

z∈S

|m(z)|

²

· Z

P{n · µ

_n

(S

_h_n

(x)) = 0}P

_X

(dx).

Mit

P{n · µ

n

(S

hn

(x)) = 0}

= P {X

₁

∈ / S

_h_n

(x), . . . , X

_n

∈ / S

_h_n

(x)}

= P {X

₁

∈ / S

_h_n

(x)} · · · P {X

_n

∈ / S

_h_n

(x)}

= (1 − P

_X₁

(S

_h_n

(x)))

ⁿ

1+x≤e^x

≤ e

^−n·P^X¹^(S^hn^(x))

= n · P

_X₁

(S

_h_n

(x)) · e

^−n·P^X¹^(S^hn^(x))

· 1

n · P

_X₁

(S

_h_n

(x))

≤ max

z≥0

z · e

^−z

· 1

n · P

_X₁

(S

_h_n

(x))

≤ 1

e · 1

n · P

_X₁

(S

_h_n

(x)) und Lemma 3.2 folgt daraus

E Z

| m ˆ

_n

(x) − m(x)|

²

P

_X

(dx)

≤ C

²

· h

^2p_n

+ sup

z∈S

|m(z)|

²

· Z 1

e · 1

n · P

_X₁

(S

_h_n

(x)) P

_X

(dx)

≤ C

²

· h

^2p_n

+ sup

z∈S

|m(z)|

²

· 1 e · ˆ c

n · h

^d_n

. (3.6)

Im Folgenden wird nun die integrierte Varianz abgesch¨ atzt. Hierzu gilt unter Beachtung der Unabh¨ angigkeit der Daten

E

|m

_n

(x) − m ˆ

_n

(x)|

²

X

₁

, . . . , X

_n

≤ E



 

 

P

n i=1

K

x−X_i hn

· (Y

_i

− m(X

_i

)) P

n

j=1

K

_x−X

j

hn

2

X

₁

, . . . , X

_n



 

 

=

P

n i=1

K

x−Xi

hn

2

· E

|Y

_i

− m(X

_i

)|

²

X

₁

, . . . , X

_n

P

n

j=1

K

_x−X

j

hn

2

(23)

KAPITEL 3. KONVERGENZGESCHWINDIGKEIT DES KERNSCH ¨ ATZERS22

K(z)∈{0,1}

=

P

n i=1

K

x−X_i hn

· E

|Y

_i

− m(X

_i

)|

²

X

_i

P

n

j=1

K

_x−X

j

hn

2

≤ sup

z∈S

Var{Y |X = z} · 1 P

n

j=1

K

_x−X

j

hn

· I

{n·µn(S_hn(x))>0}

.

P

n

j=1

K

_x−X

j

hn

ist b(n, P

_X

(S

_h_n

(x)))-verteilt. Nach Lemma 4.4 aus der Vorlesung Mathematische Statistik im WS 10/11 gilt daher

E







1 P

n

j=1

K

_x−X

j

hn

· I

{n·µ_n(S_hn(x))>0}







≤ 2

(n + 1) · P

_X

(S

_h_n

(x)) . Damit erhalten wir unter Beachtung von Lemma 3.2

E Z

|m

_n

(x) − m ˆ

_n

(x)|

²

P

_X

(dx)

= Z

E E

|m

_n

(x) − m ˆ

_n

(x)|

²

X

₁

, . . . , X

_n

P

_X

(dx)

≤ σ

²

· Z

E







1 P

n

j=1

K

_x−X

j

hn

· I

{n·µn(S_hn(x))>0}







P

_X

(dx)

≤ σ

²

· Z 2

(n + 1) · P

_X

(S

_h_n

(x)) P

_X

(dx)

≤ σ

²

· 2 · ˆ c

n · h

^d_n

. (3.7)

Aus (3.6) und (3.7) folgt nun die Behauptung. 2

Um unter den Voraussetzungen in Satz 3.1 einen m¨ oglichst kleinen Fehler zu erhalten, muss man h

_n

so w¨ ahlen, dass

c

₁

· σ

²

+ sup

_z∈S

|m(z)|

²

n · h

^d_n

+ C

²

· h

^2p_n

m¨ oglichst klein wird. Dabei darf h

_n

nicht zu klein sein, damit der Varianz-Term 1

n · h

^d_n

m¨ oglichts klein wird, andererseits darf h

_n

aber auch nicht zu groß sein, damit der Bias-Term

C

²

· h

^2p_n

(24)

KAPITEL 3. KONVERGENZGESCHWINDIGKEIT DES KERNSCH ¨ ATZERS23

nicht zu groß wird.

Zur Bestimmung des im Hinblick auf die Minimierung der Fehlerabsch¨ atzung in Satz 3.1 optimalen h

_n

betrachten wird die Minimierung von

f (u) = A

n · u

^d

+ C

²

u

^2p

. Nullsetzen der Ableitung f¨ uhrt auf

0 = f

⁰

(u) = −d · A

n · u

^−(d+1)

+ C

²

· 2p · u

^2p−1

bzw.

u

^d+2p

= d · A 2p · C

²

· n bzw.

u =

d · A 2p · C

²

· n

1/(2p+d)

sowie

u∈

min

R+

f (u) = f

d · A 2p · C

²

· n

1/(2p+d)

!

= A

n ·

2p · C

²

· n d · A

d/(2p+d)

+ C

²

· d · A 2p · C

²

· n

2p/(2p+d)

= A

n

2p/(2p+d)

· C

^2d/(2p+d)

· 2p

d

d/(2p+d)

+C

^2d/(2p+d)

· A

n

2p/(2p+d)

· d

2p

2p/(2p+d)

.

Damit folgt:

Korollar 3.1 Unter den Voraussetzung von Satz 3.1 wird die dort angegebene Schranke f¨ ur den Fehler minimal f¨ ur

h

_n

=

d · c

₁

· (σ

²

+ sup

_z∈S

|m(z)|

²

) 2p · C

²

· n

1/(2p+d)

,

und mit dieser Bandbreite erh¨ alt man E

Z

|m

n

(x) − m(x)|

²

P

X

(dx) ≤ c ¯ ·

σ

²

+ sup

_z∈S

|m(z)|

²

n

2p/(2p+d)

· C

^2d/(2p+d)

.

Bemerkung: Die obere rechte Seite ist monoton wachsend in σ und C und

monoton fallend in n.

(25)

Kapitel 4

Minimax-Konvergenzraten

4.1 Motivation

Gem¨ aß dem letzten Kapitel gilt f¨ ur den Kernsch¨ atzer m

_n

im Falle einer Lipschitz- stetigen Regressionsfunktion und beschr¨ ankten Daten

E Z

|m

_n

(x) − m(x)|

²

P

_X

(dx) = O

n

⁻^2+d²

.

Es stellt sich die Frage, ob man diese Rate durch Wahl eines anderen Sch¨ atzver- fahrens verbessern kann bzw. was unter den obigen Voraussetzungen die optimale Konvergenzrate ist.

Um dies genauer zu formulieren, betrachten wir f¨ ur eine feste Klasse D von Ver- teilungen von (X, Y ) den maximal erwarteten L

₂

-Fehler

sup

(X,Y)∈D

E Z

|m

n

(x) − m(x)|

²

P

X

(dx) (4.1) innerhalb dieser Klasse, wobei der Regressionssch¨ atzer eine Stichprobe (X

₁

, Y

₁

), . . . , (X

_n

, Y

_n

) der Verteilung von (X, Y ) bekommt. Ziel im Folgenden ist es, m

_n

so zu w¨ ahlen, dass (4.1) minimal wird, d.h. genauer, dass (4.1) asymptotisch wie

inf

m˜n

sup

(X,Y)∈D

E Z

| m ˜

_n

(x) − m(x)|

²

P

_X

(dx) (4.2) gegen Null konvergiert, wobei obiges Infimum ¨ uber alle Regressionssch¨ atzer ˜ m

_n

gebildet wird.

24

(26)

KAPITEL 4. MINIMAX-KONVERGENZRATEN 25 Dies l¨ asst sich als Zwei-Parteien-Spiel deuten: Wir spielen gegen die Natur. Im 1.

Schritt w¨ ahlt die Natur eine Verteilung aus D und gibt uns eine Stichprobe dieser Verteilung. Anschließend w¨ ahlen wir einen Sch¨ atzer um die zugeh¨ orige Regressi- onsfunktion zu sch¨ atzen. Dabei verfolgt die Natur das Ziel, dass die Sch¨ atzung m¨ oglichst schlecht wird, und wir verfolgen das Ziel, dass diese m¨ oglichst gut wird.

Spielen nun beide Spieler optimal, so ist gerade (4.2) der zu erwartende L

₂

-Fehler.

Die obigen ¨ Uberlegungen formalisieren wir in

Definition 4.1 Sei D eine Klasse von Verteilungen von (X, Y ) und (a

_n

)

n∈N

eine Folge positiver reeller Zahlen.

a) (a

_n

)

n∈N

heißt untere Minimax-Konvergenzrate f¨ ur D, falls gilt lim inf

n→∞

inf

mn

sup

(X,Y)∈D

E R

|m

_n

(x) − m(x)|

²

P

_X

(dx)

a

_n

= C

₁

> 0.

b) (a

_n

)

n∈N

heißt obere Minimax-Konvergenzrate f¨ ur D, falls f¨ ur ein Sch¨ atzverfahren m

_n

gilt

lim sup

n→∞

sup

(X,Y)∈D

E R

|m

_n

(x) − m(x)|

²

P

_X

(dx)

a

_n

= C

2

< ∞.

c) (a

n

)

n∈N

heißt optimale Minimax-Konvergenzrate f¨ ur D, falls (a

n

)

n∈N

sowohl untere als auch obere Minimax-Konvergenzrate f¨ ur D ist.

Aus Kapitel 3 wissen wir: Ist p ∈ (0, 1], C

₁

, C

₂

> 0 und ist D die Klasse aller Verteilungen von (X, Y ) mit X ∈ [0, 1]

^d

f.s., sup

_x∈[0,1]d

Var{Y |X = x} ≤ c

₁

, sup

_x∈[0,1]d

|m(x)| ≤ c

₂

und |m(x) − m(z)| ≤ c

₃

· kx − zk

^p

f¨ ur alle x, z ∈ [0, 1]

^d

, so

ist

n

⁻^2p+d^2p

n∈N

obere Minimax-Konvergenzrate f¨ ur D.

Im Folgenden zeigen wir, dass dies sogar die optimale Minimax-Konvergenzrate f¨ ur D ist, so dass der Kernsch¨ atzer in diesem Sinne sogar ein “optimales” Sch¨ atzverfahren ist.

4.2 Eine untere Minimax-Konvergenzrate

Um nachzuweisen, dass

n

⁻^2p+d^2p

n∈N

optimale Minimax-Konvergenzrate f¨ ur D ist, gen¨ ugt es aufgrund von Korollar 3.1 f¨ ur ˜ D ⊆ D geeignet zu zeigen, dass

n

⁻^2p+d^2p

n∈N

eine untere Minimax-Konvergenzrate f¨ ur ˜ D ist.

(27)

KAPITEL 4. MINIMAX-KONVERGENZRATEN 26 Zur Definition von ˜ D verwenden wir:

Definition 4.2 Sei p = k + β f¨ ur ein k ∈ N

⁰

und 0 < β ≤ 1. Sei C > 0. Eine Funktion f : R

^d

→ R heißt (p, C)-glatt, falls f¨ ur jedes α = (α

₁

, . . . , α

_d

) ∈ N

^d0

mit P

d

j=1

α

_j

= k die partielle Ableitung

∂

^k

f

∂x

^α₁¹

. . . ∂x

^α_d^d

existiert und f¨ ur diese gilt:

∂

^k

f

∂x

^α₁¹

. . . ∂x

^α_d^d

(x) − ∂

^k

f

∂x

^α₁¹

. . . ∂x

^α_d^d

(z)

≤ C · kx − zk

^β

f¨ ur alle x, z ∈ R

^d

. Bem. F¨ ur p ≤ 1 gilt:

m (p, C)-glatt ⇔ ∀x, z ∈ R

^d

: |m(x) − m(z)| ≤ C · kx − zk

^p

. Im Fall p ≤ 1 betrachten wir als Unterklasse von D:

Definition 4.3 F¨ ur p, C > 0 sei D

^(p,C)

die Klasse aller Verteilungen von (X, Y ) mit:

1. X ∼ U ([0, 1]

^d

)

2. Y = m(X) + N wobei N ∼ N (0, 1) und X, N unabh¨ angig 3. m (p, C)-glatt.

4. |m(x)| ≤ 1 f¨ ur x ∈ [0, 1]

^d

. Das Hauptresultat von Kapitel 4 ist

Satz 4.1 Seien p, C > 0 und D

^(p,C)

definiert wie oben. Dann ist

n

⁻^2p+d^2p

n∈N

(4.3) eine untere Minimax-Konvergenzrate f¨ ur D

^(p,C)

.

Im Falle p ≤ 1 ist damit (4.3) die optimale Minimax-Konvergenzrate f¨ ur die Klasse D aus Abschnitt 4.1.

Im Beweis von Satz 4.1 ben¨ otigen wir:

(28)

KAPITEL 4. MINIMAX-KONVERGENZRATEN 27 Lemma 4.1 Sei u ∈ R

^l

und sei C eine {−1, 1}-wertige Zufallsvariable mit

P{C = 1} = 1

2 = P{C = −1}.

Sei N eine R

^l

-wertige standardnormalverteilte Zufallsvariable unabh¨ angig von C, d.h. es gilt N = (N

⁽¹⁾

, . . . , N

^(l)

) wobei N

⁽¹⁾

, . . . , N

^(l)

reellwertige unabh¨ angig standardnormalverteilte Zufallsvariablen sind, die unabh¨ angig von C sind. Setze

Z = C · u + N

und betrachte das Problem, ausgehend von Z den Wert von C vorherzusagen.

Dann gilt

L

^∗

:= min

g:R^l→{−1,1}

P{g(Z) 6= C} = Φ(−kuk), wobei Φ die Verteilungsfunktion von N (0, 1) ist.

Beweis. F¨ ur g : R

^l

→ {−1, 1} beliebig gilt wegen N , C unabh¨ angig P {g (Z ) 6= C}

= P {g(C · u + N ) 6= C}

= P {g(C · u + N ) 6= C, C = 1} + P {g(C · u + N ) 6= C, C = −1}

= P {g(−u + N) = −1, C = 1} + P {g(u + N ) = 1, C = −1}

= P {g(−u + N) = −1} · P {C = 1} + P {g(u + N ) = 1} · P {C = −1}

= 1

2 · P {g(−u + N ) = −1} + 1

2 · P {g(u + N ) = 1} . Sei ϕ die Dichte von N , d.h. f¨ ur v = (v

⁽¹⁾

, . . . , v

^(l)

) gilt

ϕ(v) =

l

Y

i=1

√ 1

2 · π · e

⁻^|v

(i)|2

2

= (2 · π)

^−l/2

· e

^−kvk²^/2

.

Dann hat u + N die Dichte ϕ(v − u), und −u + N hat die Dichte ϕ(v + u) (wie man z.B. durch Ableiten der jeweiligen Verteilungsfunktion sieht).

Damit folgt

P {g(Z) 6= C}

= 1 2 ·

Z

I

{g(z)=−1}

· ϕ(z − u) dz + 1 2 ·

Z

I

{g(z)=1}

· ϕ(z + u) dz

= 1 2 ·

Z

I

_{g(z)=−1}

· ϕ(z − u) + I

_{g(z)=1}

· ϕ(z + u)

dz.

(29)

KAPITEL 4. MINIMAX-KONVERGENZRATEN 28

Der obige Ausdruck wird minimal f¨ ur g

^∗

(z) =

1, falls ϕ(z − u) > ϕ(z + u),

−1, sonst.

Wegen

ϕ(z − u) > ϕ(z + u) ⇔ (2 · π)

^−l/2

· e

^−kz−uk²^/2

> (2 · π)

^−l/2

· e

^−kz+uk²^/2

⇔ kz + uk

²

> kz − uk

²

⇔ < z, u > > 0 gilt

g

^∗

(z) =

1, falls < z, u > > 0,

−1, sonst und wir erhalten analog zu oben

L

^∗

= P {g

^∗

(Z ) 6= C}

= P {g

^∗

(Cu + N ) 6= C, C = 1} + P {g

^∗

(Cu + N ) 6= C, C = −1}

= 1

2 · P {g

^∗

(u + N ) = −1} + 1

2 · P {g

^∗

(−u + N ) = 1}

= 1

2 · P {< u + N, u > ≤ 0} + 1

2 · P {< −u + N, u > > 0}

= 1

2 · P

kuk

²

+ < u, N > ≤ 0 + 1 2 · P

−kuk

²

+ < u, N > > 0

= 1

2 · P

< u, N > ≤ −kuk

²

+ 1 2 · P

< u, N > > kuk

²

.

Ist nun u = 0, so folgt

L

^∗

= 1

2 · 1 + 1

2 · 0 = 1

2 = Φ(−kuk).

Ist kuk 6= 0, so ist

< u

kuk , N >

als Konvexkombination von unabh¨ angigen standardnormalverteilten Zufallsvaria- blen selbst standardnormalverteilt, und es folgt

L

^∗

= 1 2 · P

< u

kuk , N > ≤ −kuk

+ 1 2 · P

< u

kuk , N > > kuk

= 1

2 · Φ(−kuk) + 1

2 · (1 − Φ(kuk))

= Φ(−kuk).

(30)

KAPITEL 4. MINIMAX-KONVERGENZRATEN 29 2 Beweis von Satz 4.1: Wir beweisen Satz 4.1 nur f¨ ur d = 1, der allgemeine Fall wird in den ¨ Ubungen behandelt.

1. Schritt: In Abh¨ angigkeit von n definieren wir Unterklassen von D

^(p,C)

. Dazu setzen wir

M

_n

= d(C

²

· n)

^2p+1¹

e

(mit dxe = inf{z ∈ Z : z ≥ x}) und partitionieren [0, 1] in M

_n

¨ aquidistante Intervalle A

_n,j

der L¨ ange 1/M

_n

. a

_n,j

sei der Mittelpunkt von A

_n,j

.

Sodann w¨ ahlen wir ein beschr¨ anktes ¯ g : R → R mit supp(¯ g) ⊆ (−1/2, 1/2),

Z

¯

g

²

(x) dx > 0 und g ¯ (p, 2

^β−1

)-glatt

(wobei wir die letzte Bedingung durch Reskalierung einer gen¨ ugend oft differen- zierbaren Funktion erf¨ ullen k¨ onnen), und setzen dann

g(x) = C · g(x) ¯ (x ∈ R ).

Dann gilt

supp(g) ⊆ (−1/2, 1/2), Z

g

²

(x) dx = C

²

· Z

¯

g

²

(x) dx > 0 und

g (p, C · 2

^β−1

)-glatt.

F¨ ur c

n

= (c

n,1

, . . . , c

n,Mn

) ∈ {−1, 1}

^Mⁿ

=: C

n

setzen wir m

^(cⁿ⁾

(x) =

Mn

X

j=1

c

_n,j

· g

_n,j

(x) wobei

g

_n,j

(x) = M

_n^−p

· g(M

_n

(x − a

_n,j

)).

Dann ist m

^(cⁿ⁾

(p, C )-glatt, wie wir wie folgt sehen:

(i) F¨ ur x, z ∈ A

_n,i

gilt

d dx

k

m

^(cⁿ⁾

(x) − d

dx

k

m

^(cⁿ⁾

(z)

(31)

KAPITEL 4. MINIMAX-KONVERGENZRATEN 30

= |c

_n,i

| ·

d dx

k

g

_n,i

(x) − d

dx

k

g

_n,i

(z)

= 1 · M

_n^−p

· M

_n^k

· C · 2

^β−1

|M

n

(x − a

n,i

) − M

n

(z − a

n,i

)|

^β

≤ C · 2

^β−1

· |x − z|

^β

≤ C · |x − z|

^β

.

(ii) F¨ ur x ∈ A

_n,i

und z ∈ A

_n,j

mit i 6= j seien ˜ x bzw. ˜ z die Punkte am Rand von A

_n,i

bzw. A

_n,j

in Richtung von z bzw. x. Da g

_n,i

und g

_n,j

(p, C)-glatt sind (s.o.) und am Rand verschwinden gilt dann

d dx

k

g

n,i

(˜ x) = 0 = d

dx

k

g

n,j

(˜ z).

Unter Verwendung des Resultates aus Schritt (i) folgt dann

d dx

k

m

^(cⁿ⁾

(x) − d

dx

k

m

^(cⁿ⁾

(z)

=

c

n,i

· d

dx

k

g

n,i

(x) − c

n,j

· d

dx

k

g

n,j

(z)

≤ |c

_n,i

| ·

d dx

k

g

_n,i

(x)

+ |c

_n,j

| ·

d dx

k

g

_n,j

(z)

=

d dx

k

g

_n,i

(x) − d

dx

k

g

_n,i

(˜ x)

+

d dx

k

g

_n,j

(z) − d

dx

k

g

_n,j

(˜ z)

≤ C · 2

^β−1

· |x − x| ˜

^β

+ C · 2

^β−1

· |z − z| ˜

^β

= C · 2

^β

· 1

2 · |x − x| ˜

^β

+ 1

2 · |z − z| ˜

^β

≤ C · 2

^β

· |x − x| ˜

2 + |z − z| ˜ 2

β

≤ C · (|x − x| ˜ + |z − z|) ˜

^β

≤ C · |x − z|

^β

,

wobei die vorletzte Ungleichung mit Hilfe der Ungleichung von Jensen aus der Konkavit¨ at von u 7→ u

^β

auf R

⁺

\ {0} folgt.

Damit ist die Klasse ¯ D

n^(p,C)

aller Verteilungen von (X, Y ) mit

1. X ∼ U [0, 1],

(32)

KAPITEL 4. MINIMAX-KONVERGENZRATEN 31 2. Y = m

^(cⁿ⁾

(X) + N f¨ ur ein c

_n

∈ C

_n

und ein N ∼ N (0, 1), wobei X und N

unabh¨ angig sind

f¨ ur gen¨ ugend großes n eine Unterklasse von D

^(p,C)

, und es gen¨ ugt zu zeigen:

lim inf

n→∞

inf

mn

sup

(X,Y)∈D¯n^(p,C)

M

_n^2p

C

²

· E

Z

|m

n

(x) − m

^(cⁿ

(x)|

²

dx > 0. (4.4)

2. Schritt: Wir verwenden Regressionssch¨ atzer, um den Parameter c

_n

∈ C

_n

einer Verteilung (X, Y ) ∈ D ¯

^(p,C)n

zu sch¨ atzen.

Dazu sei m

_n

ein beliebiger Regressionssch¨ atzer. Nach Konstruktion sind die Sup- ports der g

_n,j

disjunkt, also sind die {g

_n,j

: j ∈ N } in L

₂

orthogonal. Daher ist die orthogonale Projektion von m

_n

auf {m

^(cⁿ⁾

: c

_n

∈ C

_n

} gegeben durch

ˆ

m

_n

(x) =

Mn

X

j=1

ˆ

c

_n,j

· g

_n,j

(x) wobei

ˆ c

_n,j

=

R

An,j

m

_n

(x) · g

_n,j

(x) dx R

An,j

g

_n,j²

(x) dx . F¨ ur c

_n

∈ C

_n

beliebig gilt nun

Z

|m

_n

(x) − m

^(cⁿ⁾

(x)|

²

dx

≥ Z

| m ˆ

_n

(x) − m

^(cⁿ⁾

(x)|

²

dx

=

Mn

X

j=1

Z

An,j

|ˆ c

_n,j

· g

_n,j

(x) − c

_n,j

· g

_n,j

(x)|

²

dx

=

Mn

X

j=1

|ˆ c

_n,j

− c

_n,j

|

²

· Z

An,j

g

²_n,j

(x) dx

= Z

g

²

(x) dx · 1 M

n^2p+1

·

Mn

X

j=1

|ˆ c

n,j

− c

n,j

|

²

.

Setze

˜ c

_n,j

=

1, falls ˆ c

_n,j

≥ 0,

−1, sonst.