• Keine Ergebnisse gefunden

Skript zur Vorlesung Nichtparametrische Regressionssch¨atzung von Prof. Dr. Michael Kohler Sommersemester 2011

N/A
N/A
Protected

Academic year: 2021

Aktie "Skript zur Vorlesung Nichtparametrische Regressionssch¨atzung von Prof. Dr. Michael Kohler Sommersemester 2011"

Copied!
62
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Skript zur Vorlesung

Nichtparametrische Regressionssch¨ atzung

von Prof. Dr. Michael Kohler

Sommersemester 2011

(2)

Inhaltsverzeichnis

1 Einf¨ uhrung 3

1.1 Historische Vorbemerkungen . . . . 3

1.2 Regressionsanalyse . . . . 4

1.3 Regressionssch¨ atzung . . . . 6

1.4 Anwendung in der Mustererkennung . . . . 7

1.5 Inhalt dieser Vorlesung . . . . 10

2 Ein Slow-Rate-Resultat 11 3 Konvergenzgeschwindigkeit des Kernsch¨ atzers 17 4 Minimax-Konvergenzraten 24 4.1 Motivation . . . . 24

4.2 Eine untere Minimax-Konvergenzrate . . . . 25

5 Datenabh¨ angige Wahl von Parametern 35 5.1 Motivation . . . . 35

5.2 Unterteilung der Stichprobe . . . . 35

5.3 Kreuzvalidierung . . . . 40

1

(3)

INHALTSVERZEICHNIS 2

6 Hilfsmittel aus der Theorie empirischer Prozesse 42

6.1 Motivation . . . . 42

6.2 Uniforme Exponentialungleichungen . . . . 43

6.3 Absch¨ atzung von ¨ Uberdeckungszahlen . . . . 46

7 Analyse von Kleinste-Quadrate-Sch¨ atzer 57

(4)

Kapitel 1 Einf¨ uhrung

1.1 Historische Vorbemerkungen

Einige Daten zur Regressionssch¨ atzung:

1632 Galileo Galileo bearbeitet ein Problem der linearen Regression (ihm liegen Messwerte vor, die nach Theorie auf einer Geraden liegen m¨ ussen, aufgrund von Messfehlern aber nicht auf einer Geraden liegen).

1805 A. M. Legendre und C. F. Gauß schlagen unabh¨ angig voneinander die Me- thode der Kleinsten-Quadrate vor.

ca. 1900 Sir F. Galton und sein Sch¨ uler K. Pearson f¨ uhren den Begriff der Regression ein (im Rahmen von Untersuchungen zum Zusammenhang der Korpergr¨ oße von V¨ atern und S¨ ohnen. Dabei haben sehr große (bzw. sehr kleine) V¨ ater etwas kleinere (bzw. etwas gr¨ oßere) S¨ ohne, d.h. die K¨ orpergr¨ oße “schreitet zur¨ uck” in Richtung des durchschnittlichen Wertes).

Lange Zeit wurden ausschließlich parametrische Verfahren verwendet (bei denen die Bauart der zur sch¨ atzenden Regressionsfunktion als bekannt voraus gesetzt wird und nur von endlich vielen unbekannten Parametern abh¨ angt).

1964 E. A. Nadaraya und G. S. Watson schlagen den Kernsch¨ atzer vor (ein nicht- parametrisches Verfahren).

3

(5)

KAPITEL 1. EINF ¨ UHRUNG 4

1.2 Regressionsanalyse

(X, Y ) sei eine R

d

× R -wertige Zufallsvariable mit E|Y | < ∞.

Analysiert werden soll die Abh¨ angigkeit des Wertes von Y vom Wert von X.

Beispiele:

a) Y = Wert einer Immobilie,

X = Beschreibung der Immobilie.

Ziel ist hier prim¨ ar die Interpretation des Zusammenhangs zwischen X und Y .

b) Y = prozentualer Anteil an K¨ orperfett (exakte Messung ben¨ otigt Volumen einer Person)

X = Vektor einfach messbarer Gr¨ oßen wie z.B. elektrischer Widerstand der Haut, Gr¨ oße, Gewicht und Alter.

Ziel ist hier prim¨ ar die Vorhersage von Werten (d.h. ausgehend vom Wert von X soll der Wert von Y vorhergesagt werden).

Betrtachtet wird dazu die sogenannte Regressionsfunktion m : R

d

→ R definiert durch

m(x) = E{Y |X = x} (x ∈ R

d

).

Anschaulich:

m(x) ist der durchschnittliche Wert von Y unter der Bedingung X = x.

Formal:

m ist diejenige Borel-messbare Funktion m : R

d

→ R mit

∀B ∈ B

d

: Z

B

m(x) P

X

(dx) = Z

X−1(B)

Y dP.

Diese ist P

X

-f.¨ u. eindeutig (vgl. Vorlesung Wahrscheinlichkeitstheorie).

Die Regressionsfunktion hat die folgende Optimalit¨ atseigenschaft:

(6)

KAPITEL 1. EINF ¨ UHRUNG 5 Lemma 1.1 Ist (X, Y ) eine R

d

× R -wertige Zufallsvariable mit EY

2

< ∞, so gilt f¨ ur m : R

d

→ R , m(x) = E{Y |X = x} die Beziehung

E

|m(X) − Y |

2

= min

f:Rd→Rmessbar

E

|f (X) − Y |

2

.

Beweis. Wir zeigen, dass f¨ ur beliebiges (messbares) f : R

d

→ R gilt:

E

|f (X) − Y |

2

= E

|m(X) − Y |

2

+ Z

Rd

|f(x) − m(x)|

2

P

X

(dx). (1.1) Wegen

Z

Rd

|f (x) − m(x)|

2

P

X

(dx) ≥ 0 folgt daraus die Behauptung.

Zum Nachweis von (1.1) beachten wir, dass wegen EY

2

< ∞ nach der Jensenschen Ungleichung gilt:

E{|m(X)|

2

} = E{|E{Y |X}|

2

} ≤ E{E{|Y |

2

|X}} = EY

2

< ∞.

Ist nun E{|f (X)|

2

} = ∞, so folgt E

|f(X) − Y |

2

= ∞ = Z

Rd

|f (x) − m(x)|

2

P

X

(dx) (da z.B. E{|f(X)|

2

} ≤ 2 · E

|f(X) − m(X)|

2

+ 2 · E

|m(X)|

2

gilt), was (1.1) impliziert.

Ist dagegen E{|f(X)|

2

} < ∞, so gilt E

|f (X) − Y |

2

= E

|(f (X) − m(X)) + (m(X) − Y )|

2

= E

|f (X) − m(X)|

2

+ E

|m(X) − Y |

2

, (1.2) da

E {(f (X) − m(X)) · (m(X) − Y )}

= E E

(f (X) − m(X)) · (m(X) − Y ) X

= E

(f (X) − m(X)) · E

m(X) − Y X

= E

(f (X) − m(X)) · (m(X) − E Y

X )

= E

(f (X) − m(X)) · (E Y

X − E Y

X )

= 0.

(7)

KAPITEL 1. EINF ¨ UHRUNG 6 Hierbei wurde beim zweiten Gleichheitszeichen benutzt, dass nach Cauchy-Schwarz gilt

E {|(f(X) − m(X)) · (m(X) − Y )|}

≤ p

E{|f(X) − m(X)|

2

} · p

E{|m(X) − Y |

2

} < ∞ und damit (f (X) − m(X)) · (m(X) − Y ) integrierbar ist.

Aus (1.2) folgt nun die Behauptung. 2

Bemerkung. Gem¨ aß dem obigen Beweis (siehe (1.1)) gilt f¨ ur das sogenannte L

2

-Risiko einer beliebigen (messbaren) Funktion:

E

|f(X) − Y |

2

= E

|m(X) − Y |

2

+ Z

Rd

|f(x) − m(x)|

2

P

X

(dx).

Damit ist der mittlere quadratische Vorhersagefehler einer Funktion darstellbar als Summe des L

2

-Risikos der Regressionsfunktion (unvermeidbarer Fehler) und des sogenannten L

2

-Fehlers

Z

|f (x) − m(x)|

2

P

X

(dx),

der entsteht aufgrund der Verwendung von f anstelle von m bei der Vorhersage bzw. Approximation des Wertes von Y .

1.3 Regressionssch¨ atzung

In Anwendungen ist ¨ ublicherweise die Verteilung von (X, Y ) unbekannt, daher kann m(x) = E{Y |X = x} nicht berechnet werden. Oft ist es aber m¨ oglich, Werte von (X, Y ) zu beobachten. Ziel ist dann, daraus die Regressionsfunktion zu sch¨ atzen. Im Hinblick auf die Minimierung des L

2

-Risikos sollte dabei der L

2

-Fehler der Sch¨ atzfunktion m¨ oglichst klein sein.

Formal f¨ uhrt das auf folgende Problemstellung:

(X, Y ), (X

1

, Y

1

), (X

1

, Y

2

), . . . seien unabh¨ angige identisch verteilte R

d

× R -wertige Zufallsvariablen mit EY

2

< ∞. m : R

d

→ R definiert durch m(x) = E{Y |X = x}

sei die zugeh¨ orige Regressionsfunktion.

Gegeben ist die Datenmenge

D

n

= {(X

1

, Y

1

), . . . , (X

n

, Y

n

)} .

(8)

KAPITEL 1. EINF ¨ UHRUNG 7 Gesucht ist eine Sch¨ atzung

m

n

(·) = m

n

(·, D

n

) : R

d

→ R von m, f¨ ur die

Z

|m

n

(x) − m(x)|

2

P

X

(dx) m¨ oglichst klein ist.

1.4 Anwendung in der Mustererkennung

(X, Y ) sei R

d

× {0, 1}-wertige Zufallsvariable.

In der Mustererkennung besch¨ aftigt man sich mit dem folgenden Vorhersagepro- blem:

Zu beobachtetem Wert von X m¨ ochte man den zugeh¨ origen Wert von Y vorher- sagen.

Bsp.: Erkennung von Werbeemails:

X = Text der Email bzw. Charakteristika des Textes

Y =

1, falls es sich um eine Werbeemail handelt, 0, sonst.

Gesucht ist eine Funktion g

: R

d

→ {0, 1}, f¨ ur die die Wahrscheinlichkeit einer falschen Vorhersage m¨ oglichst klein ist, d.h. f¨ ur die gilt:

P {g

(X) 6= Y } = min

g:Rd→{0,1}

P {g(X) 6= Y } . (1.3) Es gilt:

Lemma 1.2 F¨ ur g

: R

d

→ {0, 1} definiert durch g

(x) =

1, P{Y = 1|X = x} > P{Y = 0|X = x}, 0, sonst.

gilt (1.3).

(9)

KAPITEL 1. EINF ¨ UHRUNG 8 Beweis. Sei g : R

d

→ {0, 1} beliebig. Dann gilt f¨ ur jedes x ∈ R

d

P{g(X) 6= Y |X = x} = 1 − P{g(X) = Y |X = x} = 1 − P{g(x) = Y |X = x}, und mit der Definition von g

folgt daraus

P{g(X) 6= Y |X = x} − P{g

(X) 6= Y |X = x}

= P{g

(x) = Y |X = x} − P{g(x) = Y |X = x}

≥ 0.

Somit:

P{g

(X) 6= Y } = Z

Rd

P{g

(X) 6= Y |X = x}P

X

(dx)

≤ Z

Rd

P{g(X) 6= Y |X = x}P

X

(dx)

= P{g(X) 6= Y }.

2 Wegen

P{Y = 1|X = x} + P{Y = 0|X = x} = 1 P

X

-f.¨ u. k¨ onnen wir g

auch durch

g

(x) =

1, P{Y = 1|X = x} >

12

, 0, sonst

definieren.

Die sogenannte aposteriori Wahrscheinlichkeit P{Y = 1|X = x} = E

I

{Y=1}

X = x =: m(x)

l¨ asst sich als Regressionsfunktion zum Zufallsvektor (X, I

{Y=1}

) auffassen. Ap- proximiert man diese (z.B. mittels Regressionssch¨ atzung) durch eine Funktion

¯

m : R

d

→ R

und definiert man dann die sogenannte Plug-In-Sch¨ atzfunktion g ¯ durch

¯ g(x) =

1, m(x) ¯ >

12

,

0, sonst =

1, m(x) ¯ > 1 − m(x), ¯ 0, sonst,

so gilt:

(10)

KAPITEL 1. EINF ¨ UHRUNG 9 Satz 1.1 Mit den obigen Bezeichnungen gilt:

0 ≤ P{¯ g (X) 6= Y } − P{g

(X) 6= Y } ≤ 2 · Z

| m(x) ¯ − m(x)|P

X

(dx)

≤ 2 · s

Z

| m(x) ¯ − m(x)|

2

P

X

(dx).

Damit f¨ uhrt ein “gutes” Regressionssch¨ atzverfahren automatisch zu einem “gu- ten” Mustererkennungsverfahren.

Beweis von Satz 1.1.

Gem¨ aß Beweis von Lemma 1.2 gilt:

P{¯ g(X) 6= Y |X = x} − P{g

(X) 6= Y |X = x}

= P{g

(x) = Y |X = x} − P{¯ g(x) = Y |X = x}

= m(x) · I

{g(x)=1}

+ (1 − m(x)) · I

{g(x)=0}

− m(x) · I

{¯g(x)=1}

+ (1 − m(x)) · I

{¯g(x)=0}

= m(x) · I

{g(x)=1}

+ (1 − m(x)) · I

{g(x)=0}

− m(x) ¯ · I

{g(x)=1}

+ (1 − m(x)) ¯ · I

{g(x)=0}

+

n

¯

m(x) · I

{g(x)=1}

+ (1 − m(x)) ¯ · I

{g(x)=0}

− m(x) ¯ · I

{¯g(x)=1}

+ (1 − m(x)) ¯ · I

{¯g(x)=0}

o + ¯ m(x) · I

{¯g(x)=1}

+ (1 − m(x)) ¯ · I

{¯g(x)=0}

− m(x) · I

{¯g(x)=1}

+ (1 − m(x)) · I

{¯g(x)=0}

≤ 2 · | m(x) ¯ − m(x)|, da die Definition von ¯ g impliziert, dass gilt:

n . . . o

≤ 0.

Mit Lemma 1.2 folgt daraus

0 ≤ P{¯ g(X) 6= Y } − P{g

(X) 6= Y }

= Z

(P{¯ g(X) 6= Y |X = x} − P{g

(X) 6= Y |X = x}) P

X

(dx)

≤ 2 · Z

| m(x) ¯ − m(x)| P

X

(dx).

Mit der Ungleichung von Cauchy-Schwarz folgt daraus die Behauptung. 2

(11)

KAPITEL 1. EINF ¨ UHRUNG 10

1.5 Inhalt dieser Vorlesung

Ziel dieser Vorlesung ist die Herleitung mathematischer Aussagen zur Regres- sionssch¨ atzung, die m¨ oglichst allgemein (und damit in m¨ oglichst vielen Anwen- dungen) gelten. Dabei werden nichtparametrische Verfahren untersucht, die keine Annahmen an die Bauart der zu sch¨ atzenden Regressionsfunktion machen.

In der Vorlesung “Mathematische Statistik”, WS 10/11, wurde bereits gezeigt:

Es existieren Sch¨ atzverfahren m

n

mit E

Z

|m

n

(x) − m(x)|

2

P

X

(dx) → 0 (n → ∞) (1.4) f¨ ur alle Verteilungen von (X, Y ) mit EY

2

< ∞.

Z.B. gilt diese Aussage f¨ ur den sogenannten Kernsch¨ atzer

m

n

(x) = P

n

i=1

Y

i

· K

x−Xi hn

P

n

j=1

K

x−X

j

hn

mit naivem Kern K = 1

S1(0)

(wobei S

1

(0) die Kugel um 0 mit Radius 1 ist) und Bandbreite h

n

> 0, die so gew¨ ahlt ist, dass gilt:

h

n

→ 0 (n → ∞) und n · h

dn

→ ∞ (n → ∞).

In dieser Vorlesung untersuchen wir prim¨ ar Fragen zur Geschwindigkeit, mit der

in (1.4) die Konvergenz gegen Null erfolgt.

(12)

Kapitel 2

Ein Slow-Rate-Resultat

In diesem Kapitel zeigen wir, dass ohne Regularit¨ atsvoraussetzungen an die zu- grunde liegende Verteilung in der nichtparametrischen Regression eine nichttri- viale Aussage zur Konvergenzgeschwindigkeit nicht herleitbar ist.

Die folgt aus:

Satz 2.1 Sei (m

n

)

n∈N

eine beliebige Folge von Sch¨ atzfunktionen. Dann existiert zu jeder monoton gegen Null fallenden Folge (a

n

)

n∈N

nichtnegativ reeller Zahlen eine Verteilung von (X, Y ) mit den Eigenschaften

1. X ∼ U [0, 1], 2. Y = m(X),

3. m ist {0, 1}-wertig f¨ ur die dar¨ uberhinaus gilt:

lim sup

n→∞

E R

|m

n

(x) − m(x)|

2

P

X

(dx)

a

n

≥ 1.

D.h., selbst wenn (X, Y ) fehlerfrei und X auf [0, 1] gleichverteilt ist, so existiert dennoch f¨ ur jeden Regressionssch¨ atzer eine Verteilung von (X, Y ), f¨ ur die der erwartete L

2

-Fehler des Sch¨ atzers beliebig langsam gegen Null konvergiert.

Im Beweis von Satz 2.1 ben¨ otigen wir das folgende deterministische Lemma.

11

(13)

KAPITEL 2. EIN SLOW-RATE-RESULTAT 12 Lemma 2.1 Zu jeder Folge (a

n

)

n∈N

mit

1

4 ≥ a

1

≥ a

2

≥ · · · ≥ a

n

→ 0 (n → ∞)

existiert eine Z¨ ahldichte (p

j

)

j∈N

so, dass f¨ ur alle gen¨ ugend großen n gilt:

X

j=1

(1 − p

j

)

n

· p

j

≥ a

n

.

Beweis. Setze

p

1

= 1 − 2a

1

≥ 0 und k

1

= 1

und w¨ ahle dann p

2

, p

3

, . . . und 1 = k

1

< k

2

< k

3

< . . . so, dass f¨ ur alle n ∈ N gilt:

kn+1

X

i=kn+1

p

i

= 2 · (a

n

− a

n+1

) (≥ 0) und

0 ≤ p

i

≤ 1

2n f¨ ur i > k

n

. Dann folgt

p

j

≥ 0 und

X

j=1

p

j

= p

1

+

X

n=1

2 · (a

n

− a

n+1

) = p

1

+ 2 · a

1

= 1,

wobei die vorletzte Gleichheit wegen a

n

→ 0 (n → ∞) und der daraus folgenden Beziehung

N

X

n=1

(a

n

− a

n+1

) = a

1

− a

N+1

→ a

1

(N → ∞) gilt.

Weiterhin erhalten wir

X

j=1

(1 − p

j

)

n

· p

j

≥ X

j∈N:pj≤1/(2n)

(1 − p

j

)

n

· p

j

1 − 1 2n

n

· X

j∈N:pj≤1/(2n)

p

j

1 − 1 2n

n

·

X

j=kn+1

p

j

(14)

KAPITEL 2. EIN SLOW-RATE-RESULTAT 13

=

1 − 1 2n

n

·

X

i=n

2 · (a

i

− a

i+1

)

=

1 − 1 2n

n

· 2 · a

n

≥ a

n

f¨ ur n gen¨ ugend groß, da

1 − 1

2n

n

· 2 = s

1 − 1

2n

2n

· 2 → r 1

e · 2 ≥ 1 (n → ∞).

2 Beweis von Satz 2.1:

1. Schritt: Wir definieren uns in Abh¨ angigkeit von einer Z¨ ahldichte (p

j

)

j∈N

und eines Parameters c = (c

j

)

j∈N

∈ {−1, 1}

N

eine Verteilung von (X, Y ).

Dazu gehen wir folgendermaßen vor: Wir w¨ ahlen

X ∼ U [0, 1] und Y = m

(c)

(X),

wobei wir zur Definition von m

(c)

zun¨ achst in Abh¨ angigkeit der Z¨ ahldichte (p

j

)

j∈N

das Intervall [0, 1] in Intervalle A

j

der L¨ ange p

j

partitionieren und dann setzen:

m

(c)

(x) =

1, falls x ∈ A

j

, c

j

= 1,

−1, falls x ∈ A

j

, c

j

= −1 (j ∈ N ).

2. Schritt: Wir sch¨ atzen E

Z

|m

n

(x) − m(x)|

2

P

X

(dx) f¨ ur die Verteilung aus dem 1. Schritt nach unten ab.

Setze dazu

˜

m

n

(x) = 1 p

j

Z

Aj

m

n

(z) P

X

(dz) f¨ ur x ∈ A

j

,

d.h. ˜ m

n

ist die L

2

-Projektion von m

n

auf die Menge aller bzgl. (A

j

)

j∈N

st¨ uckweise konstanten Funktionen.

Dann gilt Z

Aj

|m

n

(x) − m

(c)

(x)|

2

P

X

(dx)

(15)

KAPITEL 2. EIN SLOW-RATE-RESULTAT 14

= Z

Aj

|m

n

(x) − m ˜

n

(x)|

2

P

X

(dx) + Z

Aj

| m ˜

n

(x) − m

(c)

(x)|

2

P

X

(dx), da wegen ˜ m

n

− m

(c)

konstant auf A

j

f¨ ur x

j

∈ A

j

beliebig gilt

Z

Aj

(m

n

(x) − m ˜

n

(x)) · ( ˜ m

n

(x) − m

(c)

(x)) P

X

(dx)

= ( ˜ m

n

(x

j

) − m

(c)

(x

j

)) · Z

Aj

(m

n

(x) − m ˜

n

(x)) P

X

(dx)

= ( ˜ m

n

(x

j

) − m

(c)

(x

j

)) · Z

Aj

m

n

(x) P

X

(dx) − Z

Aj

m

n

(x) P

X

(dx)

!

= ( ˜ m

n

(x

j

) − m

(c)

(x

j

)) · 0

= 0.

Damit folgt Z

Aj

|m

n

(x) − m

(c)

(x)|

2

P

X

(dx) ≥ Z

Aj

| m ˜

n

(x) − m

(c)

(x)|

2

P

X

(dx),

= | m ˜

n

(x

j

) − c

j

|

2

· p

j

f¨ ur x

j

∈ A

j

beliebig aber fest.

Wir verwenden nun ˜ m

n

, um c

j

vorherzusagen, und setzen dazu ˆ

c

n,j

=

1, falls ˜ m

n

(x

j

) =

p1

j

· R

Aj

m

n

(z) P

X

(dz) ≥ 0,

−1, sonst.

Im Falle c

j

= 1 und ˆ c

n,j

= −1 (was ˜ m

n

(x

j

) < 0 impliziert) gilt dann

| m ˜

n

(x

j

) − c

j

| = c

j

− m ˜

n

(x

j

) ≥ c

j

− 0 = 1, und im Falle c

j

= −1 und ˆ c

n,j

= 1 (was ˜ m

n

(x

j

) ≥ 0 impliziert) gilt

| m ˜

n

(x

j

) − c

j

| = ˜ m

n

(x

j

) − c

j

≥ 0 − c

j

= 1.

Daraus folgt

| m ˜

n

(x

j

) − c

j

|

2

≥ I

cn,j6=cj}

und insgesamt

Z

Aj

|m

n

(x) − m

(c)

(x)|

2

P

X

(dx) ≥ p

j

· I

{ˆcn,j6=cj}

.

(16)

KAPITEL 2. EIN SLOW-RATE-RESULTAT 15 Damit ergibt sich nun

E Z

|m

n

(x) − m

(c)

(x)|

2

P

X

(dx)

=

X

j=1

E Z

Aj

|m

n

(x) − m

(c)

(x)|

2

P

X

(dx)

X

j=1

p

j

· P {ˆ c

n,j

6= c

j

}

X

j=1

P {ˆ c

n,j

6= c

j

, µ

n

(A

j

) = 0} · p

j

=: R

n

(c), wobei

µ

n

(A

j

) = |{1 ≤ i ≤ n : X

i

∈ A

j

}|

n die empirische Verteilung zu X

1

, . . . , X

n

ist.

Hier wurde also der Fehler des Regressionssch¨ atzers nach unten abgesch¨ atzt durch den “Fehler” einer Vorhersagefunktion f¨ ur c

j

.

3. Schritt: Als n¨ achstes sch¨ atzen wir E

Z

|m

n

(x) − m(x)|

2

P

X

(dx) bzw. R

n

(c)

nach unten ab, indem wir c zuf¨ allig aus {−1, 1}

N

w¨ ahlen und ¨ uber das Resultat mitteln.

Dazu seien C

1

, C

2

, . . . unabh¨ angig identisch verteilte Zufallsvariablen mit P{C

1

= 1} = 1

2 = P{C

1

= −1},

die unabh¨ angig von X

1

, . . . , X

n

sind. Dann gilt f¨ ur C = (C

1

, C

2

, . . . ):

E {R

n

(C)} =

X

j=1

P {ˆ c

n,j

6= C

j

, µ

n

(A

j

) = 0} · p

j

=

X

j=1

E P

ˆ

c

n,j

6= C

j

, µ

n

(A

j

) = 0

X

1

, . . . , X

n

· p

j

=

X

j=1

E

I

n(Aj)=0}

· P ˆ

c

n,j

6= C

j

X

1

, . . . , X

n

· p

j

.

(17)

KAPITEL 2. EIN SLOW-RATE-RESULTAT 16 Im Falle µ

n

(A

j

) = 0 gilt X

1

∈ / A

j

, . . . , X

n

∈ / A

j

, was impliziert, dass (X

1

, Y

1

), . . . , (X

n

, Y

n

) (und damit auch ˆ c

n,j

) unabh¨ angig von C

j

ist. In diesem Fall gilt aber

P ˆ

c

n,j

6= C

j

X

1

, . . . , X

n

= E P

ˆ

c

n,j

6= C

j

(X

1

, Y

1

), . . . , (X

n

, Y

n

)

X

1

, . . . , X

n

= E 1

2

X

1

, . . . , X

n

= 1 2 , und wir erhalten

E {R

n

(C)} =

X

j=1

1

2 · P {µ

n

(A

j

) = 0} · p

j

=

X

j=1

1

2 · P {X

1

∈ / A

j

, . . . , X

n

∈ / A

j

} · p

j

= 1

2 ·

X

j=1

(1 − p

j

)

n

· p

j

. Wegen

R

n

(C) ≤

X

j=1

P {µ

n

(A

j

) = 0} · p

j

=

X

j=1

(1 − p

j

)

n

· p

j

gilt dar¨ uberhinaus

R

n

(C) E{R

n

(C)} ≤

P

j=1

(1 − p

j

)

n

· p

j

1 2

· P

j=1

(1 − p

j

)

n

· p

j

≤ 2.

Damit ist das Lemma von Fatou anwendbar, und wir erhalten E

lim sup

n→∞

R

n

(C) E{R

n

(C)}

≥ lim sup

n→∞

E

R

n

(C) E{R

n

(C)}

= 1.

Da nun der Wert im Mittel gr¨ oßer oder gleich Eins ist, muss insbesondere irgend- einer der (zuf¨ alligen) Werte ebenfalls gr¨ oßer oder gleich Eins sein. Also existiert ein c ∈ {−1, 1}

N

mit

lim sup

n→∞

R

n

(c)

1 2

· P

j=1

(1 − p

j

)

n

· p

j

= lim sup

n→∞

R

n

(c)

E{R

n

(C)} ≥ 1.

Mit Lemma 2.1 angewandt auf a

n

/2, wobei wir den Anfang der Folge ab¨ andern so dass die Werte alle kleiner oder gleich 1/4 sind, folgt daraus die Behauptung.

2

(18)

Kapitel 3

Konvergenzgeschwindigkeit des Kernsch¨ atzers

Ziel im Folgenden ist die Absch¨ atzung des erwarteten L

2

-Fehlers E

Z

|m

n

(x) − m(x)|

2

P

X

(dx) im Falle des sogenannten Kernsch¨ atzers

m

n

(x) = P

n

i=1

Y

i

· K

x−Xi

hn

P

n

j=1

K

x−X

j

hn

mit naivem Kern K = 1

S1(0)

und Bandbreite h

n

> 0.

Dabei machen wir die folgenden Regularit¨ atsannahmen an die zugrundeliegende Verteilung:

1. Beschr¨ anktheitsannahme an X.

2. Beschr¨ anktheitsannahme an Var{Y |X = x} = E

(Y − E{Y |X = x})

2

X = x

= E Y

2

X = x − E Y

X = x

2

. 3. Glattheitsannahme an die Regressionsfunktion.

17

(19)

KAPITEL 3. KONVERGENZGESCHWINDIGKEIT DES KERNSCH ¨ ATZERS18

Zur Formalisierung der ersten Bedingungen fordern wir, dass der sogenannte Sup- port von X bzw. P

X

definert durch

supp(P

X

) =

x ∈ R

d

∀ > 0 : P

X

(S

(x)) > 0 beschr¨ ankt ist. Dieser hat die folgenden beiden Eigenschaften:

Lemma 3.1 Ist supp(P

X

) der Support der R

d

-wertigen Zufallsvariablen X, so gilt:

a) P{X ∈ supp(P

X

)} = 1.

b) supp(P

X

) ist abgeschlossen.

Beweis. a) Wegen

S

/2

(z) ⊆ S

(x) f¨ ur jedes z ∈ S

/2

(x)

folgt f¨ ur z ∈ S

/2

(x) aus P(S

(x)) = 0 immer P(S

/2

(z)) = 0. Unter Verwendung dieser Beziehung sehen wir

supp(P

X

)

c

=

x ∈ R

d

∃ > 0 : P

X

(S

(x)) = 0

⊆ [

x∈supp(PX)c∩Qd,∈Q+\{0},PX(S(x))=0

S

(x).

Die rechte Seite ist eine abz¨ ahlbare Vereinigung von P

X

-Nullmengen, und damit ist auch supp(P

X

)

c

eine P

X

-Nullmenge.

b) Ist x / ∈ supp(P

X

), so gilt

P

X

(S

(x)) = 0

f¨ ur ein > 0. Nach dem Beweis von a) impliziert dies aber S

/2

(x) ⊆ supp(P

X

)

c

,

also ist supp(P

X

)

c

offen. 2

Nun gilt:

Satz 3.1 Sei

m

n

(x) = P

n

i=1

Y

i

· K

x−Xi hn

P

n

j=1

K

x−X

j

hn

der Kernsch¨ atzer mit naivem Kern K = 1

S1(0)

und Bandbreite h

n

> 0.

Seien C > 0, p ∈ (0, 1] und σ > 0. Dann gilt f¨ ur jede Verteilung von (X, Y ) mit

S := supp(P

X

) ist beschr¨ ankt, (3.1)

(20)

KAPITEL 3. KONVERGENZGESCHWINDIGKEIT DES KERNSCH ¨ ATZERS19

Var{Y |X = x} ≤ σ

2

f¨ ur alle x ∈ S (3.2) und

|m(x) − m(z| ≤ C · kx − zk

p

f¨ ur alle x, z ∈ S (3.3) die folgende Absch¨ atzung f¨ ur den erwarteten L

2

-Fehler des Kernsch¨ atzers:

E Z

|m

n

(x) − m(x)|

2

P

X

(dx) ≤ c

1

· σ

2

+ sup

z∈S

|m(z)|

2

n · h

dn

+ C

2

· h

2pn

. Hierbei ist c

1

eine nur von d und dem Durchmesser von S = supp(P

X

) abh¨ angen- de Konstante.

Im Beweis ben¨ otigen wir:

Lemma 3.2 Ist S = supp(P

X

) beschr¨ ankt, so gilt f¨ ur eine nur von d und dem Durchmesser von S abh¨ angende Konstante ˆ c:

Z

S

1

n · P

X

(S

hn

(x)) P

X

(dx) ≤ ˆ c n · h

dn

.

Beweis. W¨ ahle l

n

≤ ˆ c/h

dn

Kugeln S

hn/2

(z

1

), . . . , S

hn/2

(z

ln

) mit Radius h

n

/2 so, dass gilt

S ⊆ ∪

ll=1n

S

hn/2

(z

l

). (3.4) Wegen

S

hn/2

(z

l

) ⊆ S

hn

(x) (3.5) f¨ ur x ∈ S

hn/2

(z

l

) gilt dann

Z

S

1

n · P

X

(S

hn

(x)) P

X

(dx)

(3.4)

ln

X

l=1

Z

Shn/2(zl)

1

n · P

X

(S

hn

(x)) P

X

(dx)

(3.5)

ln

X

l=1

Z

Shn/2(zl)

1

n · P

X

(S

hn/2

(z

l

)) P

X

(dx)

=

ln

X

l=1

1

n · P

X

(S

hn/2

(z

l

)) · P

X

(S

hn/2

(z

l

))

≤ l

n

n ≤ ˆ c n · h

dn

.

2 Beweis von Satz 3.1: Setze

ˆ

m

n

(x) = E

m

n

(x)

X

1

, . . . , X

n

= P

n

i=1

K

x−Xi

hn

· m(X

i

) P

n

j=1

K

x−X

j

hn

.

(21)

KAPITEL 3. KONVERGENZGESCHWINDIGKEIT DES KERNSCH ¨ ATZERS20

Wegen

E

|m

n

(x) − m(x)|

2

X

1

, . . . , X

n

= E

|m

n

(x) − E

m

n

(x)

X

1

, . . . , X

n

|

2

X

1

, . . . , X

n

+

E

m

n

(x)

X

1

, . . . , X

n

− m(x)

2

erhalten wir unter Verwendung des Satzes von Fubini und der Definition der bedingten Erwartung analog zur Bias-Varianz-Zerlegung aus der Statistik die folgende Darstellung unseres Fehlers:

E Z

|m

n

(x) − m(x)|

2

P

X

(dx)

= E Z

E

|m

n

(x) − m(x)|

2

X

1

, . . . , X

n

P

X

(dx)

= E Z

|m

n

(x) − m ˆ

n

(x)|

2

P

X

(dx)

+ E Z

| m ˆ

n

(x) − m(x)|

2

P

X

(dx)

. Hierbei ist der erste bzw. zweite Term auf der rechten Seite oben die erwartete integrierte Varianz bzw. der erwartete integrierte Bias des Sch¨ atzers.

Als erstes sch¨ atzen wir den erwarteten integrierten Bias des Sch¨ atzers ab. Dazu setzen wir

µ

n

(A) = |{1 ≤ i ≤ n : X

i

∈ A}|

n und

B

n

(x) = {n · µ

n

(S

hn

(x)) > 0} .

Beachtet man, dass K((x − X

i

)/h

n

) > 0 nur gelten kann, sofern kx − X

i

k ≤ h

n

ist, so erh¨ alt man unter Verwendung der Ungleichung von Jensen

| m ˆ

n

(x) − m(x)|

2

=

P

n i=1

K

x−Xi hn

· (m(X

i

) − m(x)) P

n

j=1

K

x−X

j

hn

2

· I

Bn(x)

+ |m(x)|

2

· I

Bn(x)c

≤ P

n

i=1

K

x−Xi

hn

· |m(X

i

) − m(x)|

2

P

n

j=1

K

x−X

j

hn

· I

Bn(x)

+ |m(x)|

2

· I

Bn(x)c

(3.3)

≤ P

n

i=1

K

x−Xi hn

· C

2

· kX

i

− xk

2p

P

n

j=1

K

x−X

j

hn

· I

Bn(x)

+ |m(x)|

2

· I

Bn(x)c

≤ C

2

· h

2pn

+ |m(x)|

2

· I

Bn(x)c

,

(22)

KAPITEL 3. KONVERGENZGESCHWINDIGKEIT DES KERNSCH ¨ ATZERS21

bzw.

E Z

| m ˆ

n

(x) − m(x)|

2

P

X

(dx)

≤ C

2p

· h

2pn

+ sup

z∈S

|m(z)|

2

· Z

P{n · µ

n

(S

hn

(x)) = 0}P

X

(dx).

Mit

P{n · µ

n

(S

hn

(x)) = 0}

= P {X

1

∈ / S

hn

(x), . . . , X

n

∈ / S

hn

(x)}

= P {X

1

∈ / S

hn

(x)} · · · P {X

n

∈ / S

hn

(x)}

= (1 − P

X1

(S

hn

(x)))

n

1+x≤ex

≤ e

−n·PX1(Shn(x))

= n · P

X1

(S

hn

(x)) · e

−n·PX1(Shn(x))

· 1

n · P

X1

(S

hn

(x))

≤ max

z≥0

z · e

−z

· 1

n · P

X1

(S

hn

(x))

≤ 1

e · 1

n · P

X1

(S

hn

(x)) und Lemma 3.2 folgt daraus

E Z

| m ˆ

n

(x) − m(x)|

2

P

X

(dx)

≤ C

2

· h

2pn

+ sup

z∈S

|m(z)|

2

· Z 1

e · 1

n · P

X1

(S

hn

(x)) P

X

(dx)

≤ C

2

· h

2pn

+ sup

z∈S

|m(z)|

2

· 1 e · ˆ c

n · h

dn

. (3.6)

Im Folgenden wird nun die integrierte Varianz abgesch¨ atzt. Hierzu gilt unter Beachtung der Unabh¨ angigkeit der Daten

E

|m

n

(x) − m ˆ

n

(x)|

2

X

1

, . . . , X

n

≤ E

 

 

P

n i=1

K

x−Xi hn

· (Y

i

− m(X

i

)) P

n

j=1

K

x−X

j

hn

2

X

1

, . . . , X

n

 

 

=

P

n i=1

K

x−Xi

hn

2

· E

|Y

i

− m(X

i

)|

2

X

1

, . . . , X

n

P

n

j=1

K

x−X

j

hn

2

(23)

KAPITEL 3. KONVERGENZGESCHWINDIGKEIT DES KERNSCH ¨ ATZERS22

K(z)∈{0,1}

=

P

n i=1

K

x−Xi hn

· E

|Y

i

− m(X

i

)|

2

X

i

P

n

j=1

K

x−X

j

hn

2

≤ sup

z∈S

Var{Y |X = z} · 1 P

n

j=1

K

x−X

j

hn

· I

{n·µn(Shn(x))>0}

.

P

n

j=1

K

x−X

j

hn

ist b(n, P

X

(S

hn

(x)))-verteilt. Nach Lemma 4.4 aus der Vorlesung Mathematische Statistik im WS 10/11 gilt daher

E

1 P

n

j=1

K

x−X

j

hn

· I

{n·µn(Shn(x))>0}

≤ 2

(n + 1) · P

X

(S

hn

(x)) . Damit erhalten wir unter Beachtung von Lemma 3.2

E Z

|m

n

(x) − m ˆ

n

(x)|

2

P

X

(dx)

= Z

E E

|m

n

(x) − m ˆ

n

(x)|

2

X

1

, . . . , X

n

P

X

(dx)

≤ σ

2

· Z

E

1 P

n

j=1

K

x−X

j

hn

· I

{n·µn(Shn(x))>0}

P

X

(dx)

≤ σ

2

·

Z 2

(n + 1) · P

X

(S

hn

(x)) P

X

(dx)

≤ σ

2

· 2 · ˆ c

n · h

dn

. (3.7)

Aus (3.6) und (3.7) folgt nun die Behauptung. 2

Um unter den Voraussetzungen in Satz 3.1 einen m¨ oglichst kleinen Fehler zu erhalten, muss man h

n

so w¨ ahlen, dass

c

1

· σ

2

+ sup

z∈S

|m(z)|

2

n · h

dn

+ C

2

· h

2pn

m¨ oglichst klein wird. Dabei darf h

n

nicht zu klein sein, damit der Varianz-Term 1

n · h

dn

m¨ oglichts klein wird, andererseits darf h

n

aber auch nicht zu groß sein, damit der Bias-Term

C

2

· h

2pn

(24)

KAPITEL 3. KONVERGENZGESCHWINDIGKEIT DES KERNSCH ¨ ATZERS23

nicht zu groß wird.

Zur Bestimmung des im Hinblick auf die Minimierung der Fehlerabsch¨ atzung in Satz 3.1 optimalen h

n

betrachten wird die Minimierung von

f (u) = A

n · u

d

+ C

2

u

2p

. Nullsetzen der Ableitung f¨ uhrt auf

0 = f

0

(u) = −d · A

n · u

−(d+1)

+ C

2

· 2p · u

2p−1

bzw.

u

d+2p

= d · A 2p · C

2

· n bzw.

u =

d · A 2p · C

2

· n

1/(2p+d)

sowie

u∈

min

R+

f (u) = f

d · A 2p · C

2

· n

1/(2p+d)

!

= A

n ·

2p · C

2

· n d · A

d/(2p+d)

+ C

2

·

d · A 2p · C

2

· n

2p/(2p+d)

= A

n

2p/(2p+d)

· C

2d/(2p+d)

· 2p

d

d/(2p+d)

+C

2d/(2p+d)

· A

n

2p/(2p+d)

· d

2p

2p/(2p+d)

.

Damit folgt:

Korollar 3.1 Unter den Voraussetzung von Satz 3.1 wird die dort angegebene Schranke f¨ ur den Fehler minimal f¨ ur

h

n

=

d · c

1

· (σ

2

+ sup

z∈S

|m(z)|

2

) 2p · C

2

· n

1/(2p+d)

,

und mit dieser Bandbreite erh¨ alt man E

Z

|m

n

(x) − m(x)|

2

P

X

(dx) ≤ c ¯ ·

σ

2

+ sup

z∈S

|m(z)|

2

n

2p/(2p+d)

· C

2d/(2p+d)

.

Bemerkung: Die obere rechte Seite ist monoton wachsend in σ und C und

monoton fallend in n.

(25)

Kapitel 4

Minimax-Konvergenzraten

4.1 Motivation

Gem¨ aß dem letzten Kapitel gilt f¨ ur den Kernsch¨ atzer m

n

im Falle einer Lipschitz- stetigen Regressionsfunktion und beschr¨ ankten Daten

E Z

|m

n

(x) − m(x)|

2

P

X

(dx) = O

n

2+d2

.

Es stellt sich die Frage, ob man diese Rate durch Wahl eines anderen Sch¨ atzver- fahrens verbessern kann bzw. was unter den obigen Voraussetzungen die optimale Konvergenzrate ist.

Um dies genauer zu formulieren, betrachten wir f¨ ur eine feste Klasse D von Ver- teilungen von (X, Y ) den maximal erwarteten L

2

-Fehler

sup

(X,Y)∈D

E Z

|m

n

(x) − m(x)|

2

P

X

(dx) (4.1) innerhalb dieser Klasse, wobei der Regressionssch¨ atzer eine Stichprobe (X

1

, Y

1

), . . . , (X

n

, Y

n

) der Verteilung von (X, Y ) bekommt. Ziel im Folgenden ist es, m

n

so zu w¨ ahlen, dass (4.1) minimal wird, d.h. genauer, dass (4.1) asymptotisch wie

inf

n

sup

(X,Y)∈D

E Z

| m ˜

n

(x) − m(x)|

2

P

X

(dx) (4.2) gegen Null konvergiert, wobei obiges Infimum ¨ uber alle Regressionssch¨ atzer ˜ m

n

gebildet wird.

24

(26)

KAPITEL 4. MINIMAX-KONVERGENZRATEN 25 Dies l¨ asst sich als Zwei-Parteien-Spiel deuten: Wir spielen gegen die Natur. Im 1.

Schritt w¨ ahlt die Natur eine Verteilung aus D und gibt uns eine Stichprobe dieser Verteilung. Anschließend w¨ ahlen wir einen Sch¨ atzer um die zugeh¨ orige Regressi- onsfunktion zu sch¨ atzen. Dabei verfolgt die Natur das Ziel, dass die Sch¨ atzung m¨ oglichst schlecht wird, und wir verfolgen das Ziel, dass diese m¨ oglichst gut wird.

Spielen nun beide Spieler optimal, so ist gerade (4.2) der zu erwartende L

2

-Fehler.

Die obigen ¨ Uberlegungen formalisieren wir in

Definition 4.1 Sei D eine Klasse von Verteilungen von (X, Y ) und (a

n

)

n∈N

eine Folge positiver reeller Zahlen.

a) (a

n

)

n∈N

heißt untere Minimax-Konvergenzrate f¨ ur D, falls gilt lim inf

n→∞

inf

mn

sup

(X,Y)∈D

E R

|m

n

(x) − m(x)|

2

P

X

(dx)

a

n

= C

1

> 0.

b) (a

n

)

n∈N

heißt obere Minimax-Konvergenzrate f¨ ur D, falls f¨ ur ein Sch¨ atz- verfahren m

n

gilt

lim sup

n→∞

sup

(X,Y)∈D

E R

|m

n

(x) − m(x)|

2

P

X

(dx)

a

n

= C

2

< ∞.

c) (a

n

)

n∈N

heißt optimale Minimax-Konvergenzrate f¨ ur D, falls (a

n

)

n∈N

sowohl untere als auch obere Minimax-Konvergenzrate f¨ ur D ist.

Aus Kapitel 3 wissen wir: Ist p ∈ (0, 1], C

1

, C

2

> 0 und ist D die Klasse aller Verteilungen von (X, Y ) mit X ∈ [0, 1]

d

f.s., sup

x∈[0,1]d

Var{Y |X = x} ≤ c

1

, sup

x∈[0,1]d

|m(x)| ≤ c

2

und |m(x) − m(z)| ≤ c

3

· kx − zk

p

f¨ ur alle x, z ∈ [0, 1]

d

, so

ist

n

2p+d2p

n∈N

obere Minimax-Konvergenzrate f¨ ur D.

Im Folgenden zeigen wir, dass dies sogar die optimale Minimax-Konvergenzrate f¨ ur D ist, so dass der Kernsch¨ atzer in diesem Sinne sogar ein “optimales” Sch¨ atz- verfahren ist.

4.2 Eine untere Minimax-Konvergenzrate

Um nachzuweisen, dass

n

2p+d2p

n∈N

optimale Minimax-Konvergenzrate f¨ ur D ist, gen¨ ugt es aufgrund von Korollar 3.1 f¨ ur ˜ D ⊆ D geeignet zu zeigen, dass

n

2p+d2p

n∈N

eine untere Minimax-Konvergenzrate f¨ ur ˜ D ist.

(27)

KAPITEL 4. MINIMAX-KONVERGENZRATEN 26 Zur Definition von ˜ D verwenden wir:

Definition 4.2 Sei p = k + β f¨ ur ein k ∈ N

0

und 0 < β ≤ 1. Sei C > 0. Eine Funktion f : R

d

→ R heißt (p, C)-glatt, falls f¨ ur jedes α = (α

1

, . . . , α

d

) ∈ N

d0

mit P

d

j=1

α

j

= k die partielle Ableitung

k

f

∂x

α11

. . . ∂x

αdd

existiert und f¨ ur diese gilt:

k

f

∂x

α11

. . . ∂x

αdd

(x) − ∂

k

f

∂x

α11

. . . ∂x

αdd

(z)

≤ C · kx − zk

β

f¨ ur alle x, z ∈ R

d

. Bem. F¨ ur p ≤ 1 gilt:

m (p, C)-glatt ⇔ ∀x, z ∈ R

d

: |m(x) − m(z)| ≤ C · kx − zk

p

. Im Fall p ≤ 1 betrachten wir als Unterklasse von D:

Definition 4.3 F¨ ur p, C > 0 sei D

(p,C)

die Klasse aller Verteilungen von (X, Y ) mit:

1. X ∼ U ([0, 1]

d

)

2. Y = m(X) + N wobei N ∼ N (0, 1) und X, N unabh¨ angig 3. m (p, C)-glatt.

4. |m(x)| ≤ 1 f¨ ur x ∈ [0, 1]

d

. Das Hauptresultat von Kapitel 4 ist

Satz 4.1 Seien p, C > 0 und D

(p,C)

definiert wie oben. Dann ist

n

2p+d2p

n∈N

(4.3) eine untere Minimax-Konvergenzrate f¨ ur D

(p,C)

.

Im Falle p ≤ 1 ist damit (4.3) die optimale Minimax-Konvergenzrate f¨ ur die Klasse D aus Abschnitt 4.1.

Im Beweis von Satz 4.1 ben¨ otigen wir:

(28)

KAPITEL 4. MINIMAX-KONVERGENZRATEN 27 Lemma 4.1 Sei u ∈ R

l

und sei C eine {−1, 1}-wertige Zufallsvariable mit

P{C = 1} = 1

2 = P{C = −1}.

Sei N eine R

l

-wertige standardnormalverteilte Zufallsvariable unabh¨ angig von C, d.h. es gilt N = (N

(1)

, . . . , N

(l)

) wobei N

(1)

, . . . , N

(l)

reellwertige unabh¨ angig standardnormalverteilte Zufallsvariablen sind, die unabh¨ angig von C sind. Setze

Z = C · u + N

und betrachte das Problem, ausgehend von Z den Wert von C vorherzusagen.

Dann gilt

L

:= min

g:Rl→{−1,1}

P{g(Z) 6= C} = Φ(−kuk), wobei Φ die Verteilungsfunktion von N (0, 1) ist.

Beweis. F¨ ur g : R

l

→ {−1, 1} beliebig gilt wegen N , C unabh¨ angig P {g (Z ) 6= C}

= P {g(C · u + N ) 6= C}

= P {g(C · u + N ) 6= C, C = 1} + P {g(C · u + N ) 6= C, C = −1}

= P {g(−u + N) = −1, C = 1} + P {g(u + N ) = 1, C = −1}

= P {g(−u + N) = −1} · P {C = 1} + P {g(u + N ) = 1} · P {C = −1}

= 1

2 · P {g(−u + N ) = −1} + 1

2 · P {g(u + N ) = 1} . Sei ϕ die Dichte von N , d.h. f¨ ur v = (v

(1)

, . . . , v

(l)

) gilt

ϕ(v) =

l

Y

i=1

√ 1

2 · π · e

|v

(i)|2

2

= (2 · π)

−l/2

· e

−kvk2/2

.

Dann hat u + N die Dichte ϕ(v − u), und −u + N hat die Dichte ϕ(v + u) (wie man z.B. durch Ableiten der jeweiligen Verteilungsfunktion sieht).

Damit folgt

P {g(Z) 6= C}

= 1 2 ·

Z

I

{g(z)=−1}

· ϕ(z − u) dz + 1 2 ·

Z

I

{g(z)=1}

· ϕ(z + u) dz

= 1 2 ·

Z

I

{g(z)=−1}

· ϕ(z − u) + I

{g(z)=1}

· ϕ(z + u)

dz.

(29)

KAPITEL 4. MINIMAX-KONVERGENZRATEN 28

Der obige Ausdruck wird minimal f¨ ur g

(z) =

1, falls ϕ(z − u) > ϕ(z + u),

−1, sonst.

Wegen

ϕ(z − u) > ϕ(z + u) ⇔ (2 · π)

−l/2

· e

−kz−uk2/2

> (2 · π)

−l/2

· e

−kz+uk2/2

⇔ kz + uk

2

> kz − uk

2

⇔ < z, u > > 0 gilt

g

(z) =

1, falls < z, u > > 0,

−1, sonst und wir erhalten analog zu oben

L

= P {g

(Z ) 6= C}

= P {g

(Cu + N ) 6= C, C = 1} + P {g

(Cu + N ) 6= C, C = −1}

= 1

2 · P {g

(u + N ) = −1} + 1

2 · P {g

(−u + N ) = 1}

= 1

2 · P {< u + N, u > ≤ 0} + 1

2 · P {< −u + N, u > > 0}

= 1

2 · P

kuk

2

+ < u, N > ≤ 0 + 1 2 · P

−kuk

2

+ < u, N > > 0

= 1

2 · P

< u, N > ≤ −kuk

2

+ 1 2 · P

< u, N > > kuk

2

.

Ist nun u = 0, so folgt

L

= 1

2 · 1 + 1

2 · 0 = 1

2 = Φ(−kuk).

Ist kuk 6= 0, so ist

< u

kuk , N >

als Konvexkombination von unabh¨ angigen standardnormalverteilten Zufallsvaria- blen selbst standardnormalverteilt, und es folgt

L

= 1 2 · P

< u

kuk , N > ≤ −kuk

+ 1 2 · P

< u

kuk , N > > kuk

= 1

2 · Φ(−kuk) + 1

2 · (1 − Φ(kuk))

= Φ(−kuk).

(30)

KAPITEL 4. MINIMAX-KONVERGENZRATEN 29 2 Beweis von Satz 4.1: Wir beweisen Satz 4.1 nur f¨ ur d = 1, der allgemeine Fall wird in den ¨ Ubungen behandelt.

1. Schritt: In Abh¨ angigkeit von n definieren wir Unterklassen von D

(p,C)

. Dazu setzen wir

M

n

= d(C

2

· n)

2p+11

e

(mit dxe = inf{z ∈ Z : z ≥ x}) und partitionieren [0, 1] in M

n

¨ aquidistante Intervalle A

n,j

der L¨ ange 1/M

n

. a

n,j

sei der Mittelpunkt von A

n,j

.

Sodann w¨ ahlen wir ein beschr¨ anktes ¯ g : R → R mit supp(¯ g) ⊆ (−1/2, 1/2),

Z

¯

g

2

(x) dx > 0 und g ¯ (p, 2

β−1

)-glatt

(wobei wir die letzte Bedingung durch Reskalierung einer gen¨ ugend oft differen- zierbaren Funktion erf¨ ullen k¨ onnen), und setzen dann

g(x) = C · g(x) ¯ (x ∈ R ).

Dann gilt

supp(g) ⊆ (−1/2, 1/2), Z

g

2

(x) dx = C

2

· Z

¯

g

2

(x) dx > 0 und

g (p, C · 2

β−1

)-glatt.

F¨ ur c

n

= (c

n,1

, . . . , c

n,Mn

) ∈ {−1, 1}

Mn

=: C

n

setzen wir m

(cn)

(x) =

Mn

X

j=1

c

n,j

· g

n,j

(x) wobei

g

n,j

(x) = M

n−p

· g(M

n

(x − a

n,j

)).

Dann ist m

(cn)

(p, C )-glatt, wie wir wie folgt sehen:

(i) F¨ ur x, z ∈ A

n,i

gilt

d dx

k

m

(cn)

(x) − d

dx

k

m

(cn)

(z)

(31)

KAPITEL 4. MINIMAX-KONVERGENZRATEN 30

= |c

n,i

| ·

d dx

k

g

n,i

(x) − d

dx

k

g

n,i

(z)

= 1 · M

n−p

· M

nk

· C · 2

β−1

|M

n

(x − a

n,i

) − M

n

(z − a

n,i

)|

β

≤ C · 2

β−1

· |x − z|

β

≤ C · |x − z|

β

.

(ii) F¨ ur x ∈ A

n,i

und z ∈ A

n,j

mit i 6= j seien ˜ x bzw. ˜ z die Punkte am Rand von A

n,i

bzw. A

n,j

in Richtung von z bzw. x. Da g

n,i

und g

n,j

(p, C)-glatt sind (s.o.) und am Rand verschwinden gilt dann

d dx

k

g

n,i

(˜ x) = 0 = d

dx

k

g

n,j

(˜ z).

Unter Verwendung des Resultates aus Schritt (i) folgt dann

d dx

k

m

(cn)

(x) − d

dx

k

m

(cn)

(z)

=

c

n,i

· d

dx

k

g

n,i

(x) − c

n,j

· d

dx

k

g

n,j

(z)

≤ |c

n,i

| ·

d dx

k

g

n,i

(x)

+ |c

n,j

| ·

d dx

k

g

n,j

(z)

=

d dx

k

g

n,i

(x) − d

dx

k

g

n,i

(˜ x)

+

d dx

k

g

n,j

(z) − d

dx

k

g

n,j

(˜ z)

≤ C · 2

β−1

· |x − x| ˜

β

+ C · 2

β−1

· |z − z| ˜

β

= C · 2

β

· 1

2 · |x − x| ˜

β

+ 1

2 · |z − z| ˜

β

≤ C · 2

β

·

|x − x| ˜

2 + |z − z| ˜ 2

β

≤ C · (|x − x| ˜ + |z − z|) ˜

β

≤ C · |x − z|

β

,

wobei die vorletzte Ungleichung mit Hilfe der Ungleichung von Jensen aus der Konkavit¨ at von u 7→ u

β

auf R

+

\ {0} folgt.

Damit ist die Klasse ¯ D

n(p,C)

aller Verteilungen von (X, Y ) mit

1. X ∼ U [0, 1],

(32)

KAPITEL 4. MINIMAX-KONVERGENZRATEN 31 2. Y = m

(cn)

(X) + N f¨ ur ein c

n

∈ C

n

und ein N ∼ N (0, 1), wobei X und N

unabh¨ angig sind

f¨ ur gen¨ ugend großes n eine Unterklasse von D

(p,C)

, und es gen¨ ugt zu zeigen:

lim inf

n→∞

inf

mn

sup

(X,Y)∈D¯n(p,C)

M

n2p

C

2

· E

Z

|m

n

(x) − m

(cn

(x)|

2

dx > 0. (4.4)

2. Schritt: Wir verwenden Regressionssch¨ atzer, um den Parameter c

n

∈ C

n

einer Verteilung (X, Y ) ∈ D ¯

(p,C)n

zu sch¨ atzen.

Dazu sei m

n

ein beliebiger Regressionssch¨ atzer. Nach Konstruktion sind die Sup- ports der g

n,j

disjunkt, also sind die {g

n,j

: j ∈ N } in L

2

orthogonal. Daher ist die orthogonale Projektion von m

n

auf {m

(cn)

: c

n

∈ C

n

} gegeben durch

ˆ

m

n

(x) =

Mn

X

j=1

ˆ

c

n,j

· g

n,j

(x) wobei

ˆ c

n,j

=

R

An,j

m

n

(x) · g

n,j

(x) dx R

An,j

g

n,j2

(x) dx . F¨ ur c

n

∈ C

n

beliebig gilt nun

Z

|m

n

(x) − m

(cn)

(x)|

2

dx

≥ Z

| m ˆ

n

(x) − m

(cn)

(x)|

2

dx

=

Mn

X

j=1

Z

An,j

|ˆ c

n,j

· g

n,j

(x) − c

n,j

· g

n,j

(x)|

2

dx

=

Mn

X

j=1

|ˆ c

n,j

− c

n,j

|

2

· Z

An,j

g

2n,j

(x) dx

= Z

g

2

(x) dx · 1 M

n2p+1

·

Mn

X

j=1

|ˆ c

n,j

− c

n,j

|

2

.

Setze

˜ c

n,j

=

1, falls ˆ c

n,j

≥ 0,

−1, sonst.

Referenzen

ÄHNLICHE DOKUMENTE

Es wird ein Beweis ohne Worte dazu gegeben. 2 Beweis

Die Spirale ist eine logarithmische Spirale mit folgender Drehstreck- symmetrie: Drehung um 45° mit gleichzeitiger Streckung mit 2 ist eine Deckabbil- dung

[r]

[r]

Die natürliche Zahl i , die darin vorkommt, ist eine lediglich eine Hilfszahl für die Denition und heiÿt Index.. Eine Summenfolge nennt man auch eine Reihe, und ihre

Dabei gilt das erste Gleichheitszeichen aufgrund der Definition von n+1, das zweite ist die Rekursionsformel in der Definition der Multiplikation, beim dritten wird

Geben Sie jeweils diejenige Partition von Ω an, die die gle- iche σ-Algebra erzeugt wie die

[r]