• Keine Ergebnisse gefunden

Seminarberichte Nr. 10

N/A
N/A
Protected

Academic year: 2022

Aktie "Seminarberichte Nr. 10"

Copied!
149
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Mathematik und

Informatik

Seminarberichte aus dem Fachbereich Mathematik der FernUniversität

10 – 1981

Seminarbericht Nr. 10

(2)

i i i

VOR'WORT

Das diesjährige Nordrhein - Westfälische KoUoquium über Mathematische Statistik hat am 28. und 29. Mai 1981 an der Fernuniversität in Hagen stattgefunden. Dabei handelt es sich - beginnend mit der ersten Tagung in Münster und später in Aachen, Düsseldorf und Dortmund um die fünfte Auflage des Nordrhein - Westfälischen

Kolloquiums über Mathematische Statistik.

Einern anläßlich der Tagung in Hagen gelegentlich geäußerten Wunsche nach einem raschen - wenn auch informellen Zugänglich- Machen der vorgetragenen Arbeiten - haben die Dozenten des

Fachbereiches Mathematik der Fernuniversität dadurch entsprochen, daß sie bereit waren, zu diesem Zweck ein Sonderheft der Seminar-

berichte aus dem Fachbereich Mathematik der Fernuniversität - die Preprint- Charakter haben - aufzulegen.

Der vorgelegte Band der "Seminarberichte" enthält aus verschiedenen Gründen nicht alle der gehaltenen Vorträge; einige der vorgetrage- nen Arbeiten sind mittlerweile in Journalen erschienen. An die Spitze der hier aufgenommenen Arbeiten haben wir den Ubersichts- vortrag von Herrn Kollege D. Landers gestellt, der uns zu diesem Zweck

in verdankenswerter Weise ein Manuskript angefertigt hat. Eine Arbeit, die zum vortrage vorgesehen war - allerdings aus Platzgründen nicht vorgetragen wurde - ist ebenfalls aufgenommen worden.

Schließlich nehmen wir noch einmal die Gelegenheit wahr, allen, die zum guten Gelingen der Veranstaltung beigetragen haben, unseren Dank auszusprechen. Dieser Dank gilt neben den vortragenden und Sitzungs- leitern insbesondere Herrn Rektor Prof.Dr.Dr.h.c. 0. Peters, der die Hagener Tagung eröffnet hat, sowie - last but not least - der Ver- waltung der Fernuniversität unter Herrn Kanzler R. Bartz, für deren

zuverlässige Hilfestellung.

Hagen, im November 1981 O.M. W.E.

(3)

Approximation in L~-Räumen D. Landers

Inhaltsverzeichnis

Clusteranalyse auf topologisch-maßtheoretischer Grundlage

P.O. Degens

Stochastic and deterministic representations of nondeterministic automata

E.-E. Doberkat

Stochastische Integration im Raum der quadrat- integrierbaren Zufallsvariablen

G. Erpenbeck

Versuchsplanung in linearen Modellen:

Am Testen linearer Hypothesen orientierte Optimalitätskriterien

N. Gaffke

Extreme dominated operators and applications H. Luschgy and W. Thomsen

Ausreisserresistenz und Ausreisseranfälligkeit diskreter Wahrscheinlichkeitsverteilungen

R. Mathar

Bereichsschätzfunktionen mit minimalen mittleren Längen

0. Moeschlin

Seite

1 -

21 -

35 -

55 -

63 -

75 -

99 -

- 109 -

(4)

- vi -

Limit laws for inter-record tirnes D. Pfeifer

Uber einen Zusammenhang zwischen Produktrness- barkeit (von Dichten), Monogenität (von Maßen) und Separabilität (von o-Algebren)

D. Plachky

- 135 -

- 141 -

(5)

APPROXIMATION IN L~ - RÄUMEN

Dieter Landers

Mathematisches Institut der Universität zu Köln Weyertal 86 - 90

0-5000 KöLN 41

(6)

1 Einleitung und Bezeichnungen

Die in diesem Übersichtsartikel zusammengestellten Ergebnisse bezie- hen sich sämtlich auf das folgende allgemeine Approximationsproblem:

Problem: Sei (St, A ,µ) ein Maßraum und <l>:Jl\- JR+ Borel-meßbar.

Sei C ein System A -meßbarer Funktionen von Q nach JR und f: Q - JR eine feste A -meßbare Funktion. Gesucht sind alle gEC mit

( *) J<l>(lf-gl)dlJ = inf J<l>Clf-hl)dµ hEC

2

Solche gEC heißen beste <l>-Approximanten von f in C. Es bezeichne µ<I>(flC) das System aller besten <I>-Approximanten von f in C. Für

<I>(x)=xP, p~1, ist(*) äquivalent zum analogen Minimierungsproblem in der Norm des Lp, d.h. zu

II f-gll = inf II f-hll .

p hEC p

Wir schreiben in diesem Falle µp(flC) anstelle von µ<l>(flC).

Das geschilderte Approximationsproblem spielt eine wichtige Rolle in vielen Anwendungsbereichen wie z.B. Bayesschätzung, Regression, iso- toner Regression oder nicht-linearer Prediction. Verschiedene Spezi- alfälle dieses Approximationsproblems sind in der Vergangenheit ge- trennt behandelt worden; sie werden vereinigt durch das hier präsen- tierte Konzept (siehe unten (A)-(F)).

- 2 -

(7)

Es sei M:=M(n, A ,µ) das System aller µ-Äquivalenzklassen A-meßbarer Funktionen f: n-IR und

L<I>=L<I>(n, A ,µ) = { fEM: ex. a>o mit f<I>(a I fl )dµ< 00 } .

Im weiteren wird nicht zwischen Funktionen und ihren zugehörigen Äquivalenzklassen unterschieden. Das Approximationsproblem (*) wird unter den folgenden beiden Voraussetzungen betrachtet.

<I> ist eine µ-Funktion; d.h. <I> ist unterhalb stetig, <I>(O)=O, lim <I>(t)=oo und es gilt

ttoo

(+) f, gEM , 1 f 1 :::: I g 1 ,

f

<I> ( 1 g 1 ) d µ < oo =>

f

<I> ( 1 f 1 ) d µ < oo

(V 2) Cc:L<I> ist ein (!)-abgeschlossener Verband; dabei heißt C ein Verband, falls f,gEC ==> fAg, fvgEC; C heißt <I>-abgeschlossen, falls fnEC,fntfEL<I>

oder fn+fEL<I> ==> fEC.

Eine Funktion <I>: IR+ - - IR+ ist in jedem der folgenden Fälle eine µ-Funktion für jedes Maß µ/ A .

a) <I> unterhalb stetig, nicht fallend, <I>(O)=O und lim <I>(t)=oo ttoo

ß) <I>

*

0 konvex und <I>(O) = 0.

Ist <I> eine µ-Funktion, so ist L<I> # 0 ein linearer Verband. Ohne die Bedingung (V1) (+) braucht L<I> weder ein Verband noch ein linearer Raum zu sein.

In der Literatur wurde häufig der Fall betrachtet, daß C das System der meßbaren Funktionen bezüglich einer Teil-er-Algebra von A ist;

(8)

4

solche Systeme sind natürlich ~-abgeschlossene Verbände. Mit Hilfe dieser Systeme lassen sich jedoch viele für die Anwendungen wichtige Probleme nicht beschreiben. So ist z.B. das System der monoton nicht fallenden oder der monoton nicht steigenden reellwertigen Funktionen nicht in dieser Form darstellbar,d.h. diese Systeme sind nicht das System der meßbaren Funktionen bzgl. einer geeigneten cr-Algebra. Gera- de diese Systeme monotoner Funktionen spielen für die Anwendungen ei- ne große Rolle (sehr viele konkrete praktische Beispiele hierfür ent- hält das Buch von Barlow-Bartholomew-Brernner-Brunk [4]), man will häufig .Monotonie-Informationen benutzen, d.h. man weiß, der Approxi- mant besitzt gewisse Monotonie-Eigenschaften. Die beschriebenen Syste- me monotoner Funktionen sind trivialerweise ~-abgeschlossene Verbän- de; das Konzept des ~-abgeschlossenen Verbandes ist somit recht fle- xibel, man kann sehr verschiedenartige Approximationsprobleme damit beschreiben. Z.B. ist es ebenfalls möglich, das Approximationspro- blem in der Klasse aller Funktionen zu beschreiben, die auf einem Intervall monoton steigen, auf einem anderen Intervall fallen, auf einem dritten Intervall das Maximum besitzen und auf einem vierten Intervall in einer festen abgeschlossenen Menge bleiben. Solche Systeme sind nicht einmal konvex, sie sind jedoch ~-abgeschlossene Verbände.

Um die beschriebenen Systeme der monotonen Funktionen als System meß- barer Funktionen einzuordnen, hat Brunk [5] das Konzept der Meßbar- keit bezüglich eines cr-Verbandes eingeführt.

Ein System S c A heißt cr-Verband, falls 0, nES und A ES , n

nEW ==>

U

A , { ) A E S ; g: n-JR heißt S-meßbar, falls nEW n nEW n

- 4 -

(9)

{ g>a}E S für alle aEJR. Ist Sc A eine Teil-cr-Algebra, so erhält man den klassischen Meßbarkeitsbegriff. Die monoton steigenden bzw. fal- lenden Funktionen über JR sind Systeme S -meßbarer Funktionen mit ge- eignetem cr-Verband S (siehe [4], p.310). Ist <I> eine µ-Funktion, so ist L<I>(S):= { fEL<I>:ex. g S-meßbar, g=f(µ)} ein <I>-abgeschlossener Ver- band. Ist C = L<I>( S), so schreiben wir µ<I>(fl S) anstelle von µ<I>(flC).

Das Konzept der besten <I>-Approximanten umfaßt eine Reihe wichtiger in der Literatur wohlbekannter Konzepte:

(A) A c A cr-Algebra, so ist

0

µ2(fl A

0 ) der klassische bedingte Erwartungswert von f, gegeben A •

0

(B) Ist <I>(x)=x 2 und C=L(f)( S) mit Sc A cr-Verband, so ist

µ 2 ( f I S ) der bedingte Erwartungswert von f, gegeben den cr-Verband S (siehe: Barlow-Bartholomew-Brernner-Brunk).

(C) Ist <I>(x)=x, C=Menge der konstanten Funktionen und µIA

ein Wahrscheinlichkeitsmaß, so ist µ

1 (flC) die Menge der Mediane von f.

(D) I s t <I> ( x )

=

x , C

=

L 1 ( A

O ) mi t A c A cr-Algebra und µ

1 A

0

W-Maß, so ist µ

1(fl A

0 ) die Menge der bedingten Mediane von f (siehe Shintani-Ando 1975).

(E) Ist <I>(x)=xP, p>1, C=L ( A ) mit A cA cr-Algebra, so ist

p O 0

µ (fl A ) der p-Predictor im Sinne von Ando-Amemiya (1965).

p 0

(F) Ist (f)(x)=xP, p>1, C=L (S) mit Sc A cr-Verband, so ist p

I

(10)

6

Die in diesem Übersichtsartikel referierten Ergebnisse werden i.a.

ohne Beweis gebracht. Lediglich der Beweis des absteigenden Martingal- satzes (Satz 4) wird im Detail durchgeführt, da dieser Beweis ein- facher und durchsichtiger ist als Beweise bekannter Spezialfälle und dieser Beweis hinzu die in der präsentierten Theorie benutzte Metho- dik besonders gut verdeutlicht.

2 Existenz und Eindeutigkeit bester <I>-Approximanten

Um die Existenz bester <I>-Approximanten von f in C sicherzustellen, spielt die Verbandsstruktur von C eine wesentliche Rolle. Selbst für

~(x)=x und abgeschlossene lineare Teilräume CcL<I>=L

1 ist es möglich, daß µ

1(flC)=0 für alle f(C (siehe [40], S.100). Shintani-Ando [39]

zeigten µ

1(flCH©, falls C=L 1( A

0 ) mit A

0cA cr-Algebra. Allgemeiner gilt:

1 Satz (Existenzs atz) Sei ~: JR + - JR + eine µ-Funktion, CcL~ ein

<I>-abgeschlossener Verband und fEL<I>. Dann existiert ein bester ~-Appro- ximant von f in C, d.h. µ~(flC) f ©.

Beweis siehe [20], Theorem 4.

Die Eindeutigkeit bester ~-Approximanten von f in C gilt nur unter starken Zusatzvoraussetzungen. Notwendig ist trivialerweise

fED~(C):= { gEL<I>: ex. hEC mit f<I>(lf-hl )dµ<co}

denn sonst µ<I>(flC)=C. Ferner sind selbst für <I>(x)=x und C=Menge der konstanten Funktionen beste ~-Approximanten nicht notwendig eindeu-

tig (beachte Fall (C) aus Teil 1).

- 6 -

(11)

(Eindeutigkeitssatz) Sei Q:JR - J R strikt konvex mit

+ +

2 Satz

0(0) = O, CcLQ ein konvexer 0-abgeschlossener Verband und fED

0 (C).

Dann existiert genau ein bester Q-Approximant von f in C.

Beweis siehe [20], Corollary 5.

Beste 0-Approximanten sind somit selten eindeutig bestimmt. Die Menge aller besten 0-Approximanten von f in C besitzt jedoch stets einige sehr nützliche Eigenschaften.

3 Satz (Eigenschaften der Menge 1-10(flC)). Sei Q:JR+--JR+ eine

µ-Funktion, CcLQ ein Q-abgeschlossener Verband und fED0 (C). Dann gilt (i)

(ii)

(iii)

Beweis

µQ(flC) ist ein cr-vollständiger Verband (d.h.

==> inf f , sup f E1-1

0(flC)).

nEJN n nEJN n Ist

µ!A

cr-endlich, so besitzt µ

0 (flC) ein kleinstes und ein größtes Element.

Ist Q eine konvexe Funktion und C ein konvexes System, so ist µ

0(flC) konvex.

Für (i) und (ii) siehe [20], Theorem 14; (iii) ist trivial.

3 Martingalsätze für beste 0-Approximanten

Seien C cL...,. Wir schreiben C +C ,falls C ::::>C

1 und C

= ()

C ; sind

n ._, n eo n n+ eo nElli n

alle Cn, nElli, 0-abgeschlossene Verbände, so ist auch Cco ein 0-abge- schlossener Verband.

(12)

8

4 Satz (Absteigender Martingalsatz)

Funktion und seien CncL(!><n,

A

,µ) (!>-abgeschlossene Verbände mit Cn+C

00=t=eL

Sei fED

0(C00) .

Dann gilt für alle fnEµ

0

(flCn)' nEJN:

( i )

(ii)

lim f Eµ~(f!C ), lim f Eµ~(flC ) nEJN n "'

00

nEJN n "'

00

sup

I

f

I

EL~

nEJN n "'

Beweis siehe [20], Theorem 21. Zur Illustration der Methodik wird der Beweis von f:=lim f Eµ~(flC) ausgeführt:

nE JN n "'

00

Setze m :=inf f<I>(lf-gl )dµ. Da fED~(C ), f Eµ~(flC) und

n

EC "'

00 n "'

n

g n

C

::tC

folgt

n 00

(1)

Jo( 1 f-f l)dµ=m <m <

00 n n- 00

Sei n>k. Dann gilt trivialerweise

Integration nachµ liefert

( 2)

Da fkEµ<I>(flCk) und fkA(fk+iv ... vfn)ECk folgt nach Definition der besten <I>-Approximanten

( 3)

Da mk=J<I>(lf-fkl)d-µ<

00

nach

(1),

folgt aus (2) und (3)

- 8 -

(13)

und damit gilt für alle n>k wegen (1)

(4) f <!)(lf-fkv ... vf l)dµ<f<!)(lf-f l)dµ<m <n - n - oo 00

Da~ unterhalb stetig ist, folgt aus (4) mit nt00 nach dem Satz von Fatou

( 5)

Für ktoo folgt aus (5) mit Hilfe des gleichen Argumentes

( V

f n

+

f), daß

n>k k-+co ( 6 )

Somit bleibt zu zeigen fEC

00, d.h. fECj für alle jEJN. Da f-fEL<!) nach (6), fEL<!), und L<!) linear ist, folgt

( 7)

Analog folgt ( 8 )

fEL~

aus ( 5)

V

f n E L~ , k E JN n>k

Da fkv ... V f E C.

n J , falls J0<k<n und C. <!)-abgeschlossener

- - J Verband ist,

erhält man wegen ( 8) , daß

V

f EC. , falls j <k.

n>k n J -

Da

V

f

+I

mit kt00 folgt hieraus nach ( 7) in analoger Weise fEC.,

n>k n J

jEJN. q.e.d.

Satz 4- liefert somit insbesondere: Ist der beste ,'1)-Approximant von f im Grenz-Verband C oo eindeutig bestimmt (z.B.<!) strikt konvex, C kon-

(X)

vex, siehe Satz 2), so konvergiert jede Auswahl f Eµ~(flC) mit n .,., n n-+co gegen diesen eindeutig bestimmten besten "Grenzapproximanten" (selbst wenn f nicht eindeutig bestimmt ist). Satz 4- enthält natürlich die

(14)

10

entsprechenden absteigenden Martingalsätze für alle in der Einleitung angegebenen Spezialfälle ((A)-(F)), d.h. für klassische bedingte Er- wartungswerte, für bedingte Erwartungswerte, gegeben cr-Verbänden

(siehe [41]), für p-Prediktoren im Sinne von Ando-Amemiya (siehe [2]) oder für bedingte Mediane im Sinne von Shintani-Ando (siehe [39]).

Ein aufsteigender Martingalsatz erweist sich als nicht mehr in der gleichen Allgemeinheit gültig wie der absteigende Martingalsatz (siehe Anmerkung nach Satz 5). Es werden noch zwei Bezeichnungen benötigt.

Wir schreiben C tC , falls C cC +

1

und C die kleinste

n 0 0 n n 00

<?>-abgeschlossene Menge in 1~ ist, die

U

nEJN

C enthält.

n

Es gilt: CntC00,Cn ~-abgeschlossener Verband, nElli ~ C00 ~-abgeschlos- sener Verband (siehe [20], S. 229).

Ist et> eine µ-Funktion, so sei

00 00

J

1~:=1ct>(n, A ,µ):= { fE1<l).: <l)(alfl)dµ < 0 0 für alle a>O}.

Es gilt 1<l)=1ct>' falls <l) eine 00 Ä

2

-Bedingung erfüllt, d.h.,falls ct>(2x)~c<l)(x), x>O, mit einer Konstanten c>O. Daher 1ct>=1ct>, falls 00

<I>(x)=xP, p>O. Für <l)(x)=ex-1 ist jedoch i.a. 1;+1~.

5 Satz (Aufsteigender Martingalsatz) Sei ~: JR+ - JR+ eine steti- ge µ-Funktion, so daß 1<l)=L; und seien Cnc1<I>(n, A ,µ) <l)-abgeschlossene Verbände mit CntC00 Ist fE1~, so gilt für alle fnEµ<l)(flCn), nEJN:

( i)

(ii)

lim f Eµ,,.(fl C ) , nElli n ...., 00 sup lf IE1..,..

nEJN n ....,

lim f Eµ..,.(flC) nEJN n ...., 00

- 10 -

(15)

Beweis siehe [20], Theorem 22.

Anmerkung: Ist µ 1 A cr-endlich oder <I>(x)>O für alle x>O, so ist die

00

Bedingung L<I> =L<I> auch "notwendig" für die Gültigkeit des aufsteigenden Martingalsatzes (siehe [20], Corollary 24). Ferner ist der aufsteigen- de Martingalsatz - wie einfache Beispiele zeigen - ohne die Stetig- keit von <I> nicht mehr richtig.

4 Eigenschaften+ Charakterisierung bester <I>-Approximanten

In diesem Kapitel werden <I> und C so gewählt, daß alle besten <I>- Approximanten von fEL<I> in

C

eindeutig bestimmt sind. Wir erhalten damit einen Operator über dem Raum L<I>. Zunächst werden Eigenschaften dieses Operators notiert.

6 Satz (Eigenschaften bester strikt konvex mit <I>(O)=O und es

<I>-Approximanten). Sei <I>: JR+ - JR+

gelte Lcl>(n, A ,µ)=L;(n, A ,µ). Sei CcLcl>

ein konvexer <I>-abgeschlossener Verband; für jedes fEL<I> sei Tf der eindeutig bestimmte beste <I>-Approximant von f in C (siehe Satz 2).

Dann gilt ( i )

(ii) (iii)

(iv)

T ist idempotent, d.h. TTf=Tf T ist monoton, d.h. fsg • Tf ~ Tg

T ist "stetig", d.h. f --.f µ-f.u.,·sup lfnlEL,.. •

n nEJN ..,

Tfn --+ Tf µ-f.ü.

T ist translationsinvariant (d.h. T(f+b)=Tf+b, bEJR), falls zusätzlich C+bcC, bEJR und µ I A endlich.

(16)

(v)

Beweis

12

T ( f+ aTf) = ( 1 +a) Tf für alle a>-1 [ aE JR] , falls zusätzlich aCcC für alle a>O [ aE JR ] •

(i) und (iv) sind trivial; (ii) folgt aus [20], Theorem 18;

(iii) folgt aus [24), Theorem 1; zu (v) siehe [ 23).

Selbst für den Fall, daß C=L~( A

0 ) mit A

0c A cr-Algebra, ist Tf=µ<I>(fl A

0 ) i.a. weder ein additiver noch ein homogener oder positiv homogener Operator (d.h. T(af)=a Tf für alle aEJR oder alle a~o).

Homogenität aller µ<I>(·

1 A

0 ) , A c A, ist i.w. "nur" für <I>(x)=xP mit

0

p>1 erfüllt (siehe Herrndorf (15]). Auch für «I>(x)=xP, pf2, liegt nur in ausgearteten Fällen Linearität vonµ (· 1 A) vor (siehe [18]).

p 0

Als nächstes soll ein Charakterisierungssatz für <I>-Approximations- operatoren angegeben werden. Hierbei werden möglichst einfache Bedin- gungen an einen Operator T:L<I>-L«I> gesucht, aus denen geschlossen werden kann, daß Tf=µ<I>(flC), fEL

0 , mit einem geeigneten CcL0 . Für den Fall <I>(x)=x 2 sind eine Reihe solcher Charakterisierungssätze bekannt.

May [27), Bahadur [3], Douglas [10] und Pfanzagl [28] haben z.B. den klassischen bedingten Erwartungswert charakterisiert (Spezialfall

(A) aus Teil 1), Dykstra (11) hat den bedingten Erwartungswert, gege- ben einen cr-Verband, charakterisiert (Spezialfall (B) aus Teil 1).

In all diesen Charakterisierungen wurde die Homogenität bzw. positive Homogenität des Operators vorausgesetzt. Diese Eigenschaft steht im allgemeinen Fall nicht mehr zur Verfügung und muß daher durch andere Eigenschaften ersetzt werden. In (23) wurde gezeigt:

7 Satz (Charakterisierungssatz) Sei µ

1 A

ein endliches Maß und sei II>: JR+--+ JR+ eine strikt konvexe differenzierbare Funktion mit

- 12 -

(17)

4>(0)=cI>' (0)=0 und 14>=14>. 00 Sei T:14> -14> ein Operator mit folgenden Eigenschaften

( i) T ist idempotent (ii) T ist monoton

(iii) T ist translationsinvariant (i v) T(f!.!Tf)

2 =

( 1±1)

Tf 2

(v) fcI>( 1 f-Tfl )dµ < Jcr>(lfl)dµ

Dann existiert ein cr-Verband Sc: A , so daß Tf=JJ<I> ( f I S ) für alle fE1cI> (Falls zusätzlich T(-Tf)=-Tf, so ist Seine cr-Algebra).

Anmerkung. Seien µIA und cil geeignet (i.w. wie in Satz 7), sei Sc: A ein cr-Verband und Tf=1-1cll(fl S ) , fE14>. Dann kann der Operator T:14> - 14> als monoton stetiger Operator (d.h. fn++f-+ Tfn++Tf) in eindeutiger Weise auf den größeren Raum 1cll,~14> fortgesetzt werden.

Der fortgesetzte Operator T: 1<I>, - 14:> 1 hält die "wesentlichen" Eigen- schaften des Ausgangsoperators bei. Eine Erweiterung über den Raum 14>1 hinaus ist nicht möglich. In 1cll, gelten erneut Martingalsätze

(analog Satz 5 und Satz 6).

Ist <I>(x)=x, 2 so ist 1cI>1 =1

1~12=1<I> und die Fortsetzung von 1-12Cfl A

0 )

von 1

2 auf 1

1 liefert den klassischen bedingten Erwartungswert von fE11, gegeben A •

0

(Beweise zu all diesen Punkten findet man für <I>(x)=xP, p>1, in [23];

der allgemeine Fall verläuft analog).

(18)

14

5 Natürlicher Median und natürliche beste II 11

1 -Approxirnanten

In diesem Kapitel wird mit Hilfe der besten Approximanten das Kon- zept des natürlichen Medians eingeführt. Die fehlende Eindeutigkeit des Medians ist häufig in der Schätz- und Testtheorie recht störend.

Es wäre daher nützlich, wenn man mit Hilfe vernünftiger Kriterien - die auch möglichst subtil die Verteilung auf beiden Seiten des Me- dianintervalls berücksichtigen - genau einen Median auswählen könnte.

Es zeigt sich nun, daß genau ein Median hochgradig ausgezeichnet ist:

Er ist nicht nur - wie jeder andere Median - ein bester

II 11

1-Approxi- mant, sondern unter allen besten II 11

1 -Approximanten auch bester II II p -Approximant für alle p nahe bei 1. Dieses führt zu dem folgen- den Konzept, das sich sofort allgemeiner formulieren läßt.

Wir setzen ab jetzt voraus, daß µIA ein Wahrscheinlichkeitsmaß ist.

Definition. Es sei CcL

1

(n,

A ,µ) eine II 11

1 -abgeschlossene konvexe Menge und fEL

1. Dann heißt m

1(flC)Eµ

1(flC) natürlicher bester II 11

1 -Approximant von f in C, falls für jedes gEµ

1 (fl C), g~m

1 (fl C), eine Zahl p(g)>1 existiert, so daß

(+) 11 f- m1 ( f I C) 11 P < 11 f-g 11 P für 1 <p<p ( g) Ist C=L

1( A

0 ) mit A

0cA cr-Algebra, so heißt m

1(fl A

0 ) (:m

1(flL 1( A

0 ) ) )

der natürliche bedingte Median von f, gegeben A (siehe Spezialfall

0

(D), Kap. 1). Für A

O = { 0

,n}

erhalten wir den Begriff des natürlichen Medians m

1 ( f).

Trivialerweise gibt es höchstens einen natürlichen besten II II 1 - Approximanten von f in C; seine Existenz jedoch ist nicht trivial.

- 14 -

(19)

8 Satz Sei CcL

1 (

n,

A , µ) ein 11 11

1 -abgeschlossener konvexer Ver- band. Falls fEL1+:=UL und µ1(flC)cL1+, so gilt

p>1 p (i)

(ii)

(iii) (iv)

Es existiert (genau) ein natürlicher bester

II 11

1 -Approximant von f in C.

m1(flC) ist das eindeutig bestimmte Element aus µ1(flC), das flf-gllnlf-gldµ für g€µ

1CflC) minimiert.

II µp (fl CnLP)-m1 (f I C)" 1 p-1-1 • O Ist C=L

1 ( A ) mit A c A cr-Algebra, so gilt

0 0

µ (fl A ) p o p.J..1 • m1 (fl A ) o µ-f.ü.

Beweis siehe [ 2 5] •

Es ist nicht bekannt, ob (iv) auch für allgemeineres C gilt, z.B.

für C=L

1( S ) mit Sc A cr-Verband.

Die im Satz 8 auftretende Bedingung µ

1(flC)cL

1+ (f€L

1+) ist in den wesentlichen Fällen keine echte Zusatzbedingung: Sie ist z.B. für

C=L1( S ) mit Sc A cr-Verband automatisch erfüllt.

Ist Ac A eine cr-Algebra, so hat der natürliche bedingte Median

0

L1+ 3 f - m1(fl A

0 )EL1+ eine Reihe einfach zu beweisender Eigenschaf- ten über 11+:

(E1) (E2)

(E3)

(E4) (ES)

m1(· 1 A

0 ) ist idempotent m1(· 1 A

0 ) ist monoton m1(g+fl A

0 )=g+m

1(fl A

0 ) , g€L

1+( A

0 ) , f€L 1+ m1(gfl

A

0 )=g•m1(fl

A

0 ) , g€L=( A

0 ) , fEL

1

+

q>(m1 (fl A

0 ) ):::m1 (q>ofl A

0 ) ,falls q>:

:rn. - :rn.

konvex und

(20)

16

(E6)

(siehe hierzu [25)).

Abschließend sei noch auf zwei Dinge hingewiesen:

1. Das betrachtete Approximationsproblem ist auch für Banach- wertige Funktionen formulierbar (siehe Herrndorf {15]). Im

Banach-wertigen Fall sind jedoch völlig andere Methoden nötig, da keine Verbandsstruktur zur Verfügung steht, die das wesent- liche Hilfsmittel der in diesem Übersichtsartikel geschilder- ten Ergebnisse ist.

2. M.M. Rao befaßt sich in einer Reihe von Arbeiten (siehe [29]- [39]) mit einem ähnlichen Approximationsproblem. M.M. Rao be- trachtet strikt konvexe Funktionen~, versieht den Raum L~ mit einer (Orlicz-) Norm und untersucht das entsprechende Approxi- mationsproblem in dieser Norm. Die Approximationssysteme C sind bei M.M. Rao stets Systeme A -meßbarer Funktionen mit

0 A CA

0

cr-Algebra. M.M. Rao's recht weitreichende Ergebnisse über die resultierenden Approximanten sind leider nicht immer richtig

(siehe hierzu [14] und [20), S.235,236).

- 16 -

(21)

Literatur

[ 1 ] Ando,T.: Contractive projections in L -spaces, Pacific Journal p of Math. 17, 391-405 (1966)

[2] Ando,T., Amemiya,I.: Almost everywhere convergence of pre- diction sequence in Lp (1<p<=),

z.

Wahrscheinlichkeits- theorie verw. Geb. 4, 113-120 (1965)

[3] Bahadur, R.R.: Measurable subspace and subalgebras, Proc. Amer.

Math. Soc. 6, 565-570 (1955)

[4) Barlow, R.E., Bartholomew, D.J., Bremner, J.M., Brunk, H.D.:

Statistical inference under order restrictions, Wiley, New York, 1972

[5] Brunk, H.D.: Best fit to a random variable by a random variable measurable with respect to a cr-lattice. Pacif.

J. Math. 11, 785-802 (1961)

[6] -: On an extension of the concept conditional expectation. Proc.

Amer. Math. Soc. 14, 298-304 (1963)

[7J -: Conditional expectation given a cr-lattice and applications.

Ann. Math. Statist. 36, 1339-1350 (1965)

[8] -: Uniform inequalities for conditional p-means given cr-lattices.

Ann. Probability 3, 1025-1030 (1975)

[9J Brunk, H.D., Johansen, S.: A generalized Radon-Nikodym deri- vative. Pacif. J. Math. 34, 585-617 (1970)

[10] Douglas, R.G.: Contractive projections on an 1

1-space. Pacif.

J. Math. 15, 443-462 (1965)

[11] Dykstra, R.L.: A characterization of a conditional expectation with respect to a cr-lattice. Ann. Math. Statist. 41,

698-701 (1970)

[12) DeGroot, M.H., Rao, M.M.: Multidimensional Information in-

(22)

equalities. Proc. Internat. Sympos. on Multivariate Anal.

pp. 287-313, New York: Academic Press 1967

18

[13] Herrndorf, N.: Prediction Operatoren in Orlicz-Räumen. Diplom- arbeit; Köln (1979)

[14] -: Counterexamples to results of M.M. Rao.

z.

Wahrscheinlich- keitstheorie verw. Geb. 53, 283-290 (1980)

[15]

[16]

[17]

[18]

[19]

[20]

[21]

-: Beste~- und N~-Approximanten in Orlicz-Räumen vektorwerti- ger Funktionen. Dissertation; Köln (1980)

Krasnoselskii, M.A., Rutickii, Y.B.: Convex functions and Orlicz spaces, P. Noordhoff, Groningen (1961)

Landers, D., Rogge, L.: Connection between the different Lp-predictions with applications. Z. Wahrscheinlichkeits- theorie verw. Geb. 45, 169-173 (1978)

-: On linearity of projections in L -spaces. Ann. Prob. 7, p

108-110 (1979)

-: Characterization of p-predictors. Proc. Amer. Math. Soc.

76, 307-309 (1979)

-: Best approximants in L~-spaces.

z.

Wahrscheinlichkeits- theorie verw. Geb. 51, 215-237 (1980)

-: Isotonic approximation in L. Journal of Approximation s

Theory 31, 199-223 (1981)

[22) -: The natural median. To appear in Ann. Prob. (1981) (23] -: Characterization of best ~-approximants. To appear in

Trgnsactions of the Amer. Math. Soc. (1981)

[24] -· Continuity of best approximants. To appear in Proc. Amer.

Math. Soc.

(25] -: Natural choice of 1

1-approximants. To appear in Journal of Approximation Theory.

- 18 -

(23)

[26] Luxemburg, W.A.J., Zaanen, A.C.: Riesz spaces. Amsterdam- London: North Holland 1971

[27] Moy, S.C.: Characterizations of conditional expectation as transformation on function spaces. Pacific J. Math. 4, 47-63 (1954)

[28] Pfanzagl, J.: Characterization of conditional expectations, Ann. Math. Statist. 38, 415-421 (1967)

[29] Raa, M.M.: Conditional expectations and closed projections.

Indag. Math. 27, 100-112 (1965)

[30] -: Smoothness of 0rlicz spaces I,II. Indag. Math. 27, 671-690 (1965)

[31] -: Notes on pointwise convergence of closed martingales. Indag.

Math. 29, 170-176 (1967)

[32] -: Inference in stochastic processes III. Z. Wahrscheinlich- keitstheorie verw. Geb. 8, 49-72 (1967)

[33] -: Linear functionals on 0rlicz spaces. Pacific J. Math. 25, 553-585 (1968)

[34]

-

: Almost every 0rlicz space is isomorphic to a strictly convex 0rlicz space. Proc. AMS 19, 377-379 (1968)

[ 35)

-

: Contractive projections and prediction operators. Bull. AMS 75, 1369-1373 (1969)

[36] -: Abstract nonlinear prediction and operator martingales.

J.M.A. 1, 129-157 (1971)

[37] -: Inference in stochastic processes IV: Predictors and pro- jections. Sankhya: The Indian Journal o'f Statistics. 36 A 1, 63-120 (1974)

[38] -: Erratum. J.M.A. 9, 614 (1979)

[39] Shintani, T., Ando, T.: Best approximants in L

1-space.

z.

Wahr-

(24)

[40) Singer, I.: Best approximation in normed linear spaces by elements of linear subspaces. Berlin-Heidelberg-New York;

Springer (1970)

(41] Sparre Andersen, E., Jessen, B.: Same limit theorems on set functions. Math. fys. Meddr. 25, No. 8 (1948)

(42) Zaanen, A.C.: Integration. Amsterdam-London; North-Holland (1967)

- 20 -

20

(25)

C L U S T E R A N A L Y S E

AUF TOPOLOGISCH-MASSTHEORETISCHER GRUNDLAGE

Paul 0. Degens

Abteilung Statistik

UNIVERSITÄT DORTMUND D-4600 DORTMUND 50

(26)

2

§ 1 MISCHUNGSMODELLE ZUR CLUSTERANALYSE

Mit Methoden der Clusteranalyse versucht man eine Menge von Objekten so in Klassen einzuteilen, daß ähnliche Ob- jekte jeweils in einer Klasse zusammengefaßt werden, un- ähnliche Objekte aber in verschiedene Klassen fallen.

Solche Beschreibungen waren häufig Ausgangspunkt bei der Entwicklung von Clusterverfahren auf heuristischer Grund- lage. Um die unbefriedigende Vagheit derartiger Formulie- rungen zu vermeiden, wurden spezielle statistische Modelle entwickelt, in denen die einschlägigen Begriffe eine

exakte Bedeutung besitzen.

Naheliegend ist ein Mischungsmodell normalverteilter Zufallsgrößen, das auch in der Literatur am häufigsten verwendet wird. Hierbei wird die Objektmenge, genauer gesagt, werden die an den Objekten erhobenen Meßwerte, als Zufallsstichprobe aufgefaßt. Von den Meßwerten an den Objekten jeweils einer Klasse nimmt man an, daß sie iden- tisch entsprechend einer speziellen Normalverteilung ver- teilt sind. Man kann hierbei in der Literatur drei ver- schiedene Präzisierungen verfolgen, die zu Maximum-Likeli- hood-Schätzern führen. Vgl. Bock

(1974),

Man-iott

(1975),

Binder

(1977),

Sclove

(1977),

Bryant

&

Williamson

(1978)

und andere mehr.

Modell I : Mischverteilung

Bei dieser Präzisierung wird angenommen, daß die Meßwerte insgesamt unabhängig identisch verteilt sind, entsprechend einer Mischverteilung mit Dichte f(x)=[i~1cxiyi(x,_ri,["'i).

- 22 -

(27)

Diese Mischverteilung mit normalverteilten Komponenten ist durch folgende Parameter bestimmt:

m endliche Anzahl der Mischungskomponenten,

~- Gewicht der i-ten Komponente für i=1, ... ,m,

l

fai

Lageparameter der i-ten Komponente, [. Kovarianzmatrix der i-ten Komponente.

l

Die Parameter sind hierbei fest, aber zum Teil oder völlig unbekannt.

Mithilfe der Maximum-Likelihood-Methode kann man nun ver- suchen, einen Schätzer für die unbekannten Parameter zu bestimmen. Ohne genauer auf einige Probleme einzugehen, - z.B. ist die Likelihoodfunktion in einigen Fällen unbe- schränkt,- sei erwähnt, daß die übliche Asymptotik für ML-Schätzer mit Modifikationen angewandt werden kann.

Die Aufgabenstellung der Clusteranalyse, die Objekte an- hand ihrer Meßwerte in Cluster (Klassen) einzuteilen, ist hiermit aber noch nicht vollständig gelöst. Jedoch kann man mithilfe der geschätzten Parameter jedes Objekt einer Diskriminanzanalyse unterziehen, d.h. das Objekt anhand seiner Meßwerte z.B. der Komponente mit maximaler gewich- teter Dichte zuordnen.

Modell II : Komponentenzugehörigkeit als Parameter

Hierbei wird angenommen, daß die Meßwerte insgesamt unab- hängig verteilt sind, innerhalb jeder Komponente ent-

sprechend einer Normalverteilung. Die Komponentenzugehörig- keit ist dabei ein weiterer Parameter. Somit lautet die Dichte des n-ten Meßwertes f

n

(x)=r·m1 \,_ ~(x,M.,I.),

i= ~inl

1·i

i

sie ist durch folgende Parameter bestimmt:

(28)

m Anzahl der Komponenten,

Komponentenzugehörigkeit, d.h. ~- =1, wenn der

(J i n

4

n-te Meßwert zur i-ten Komponente gehört, 0 sonst.

11-i

r.

l

Lageparameter der i-ten Komponente, Kovarianzmatrix der i-ten Komponente.

Auch hierbei nehmen wir an, daß die Parameter fest, aber zum Teil oder völlig unbekannt sind. Insbesondere sind die Parameter~ ~ in unbekannt.

Auch hier kann man versuchen, mithilfe der Maximum-Likeli- hood-Methode Schätzer für die unbekannten Parameter zu bestimmen. Die Parameter

~hn

sind jedoch 11incidental para- meters" im Sinne von Neyman und Scott (1948), ihre Anzahl ist größer, als die Anzahl der Beobachtungen. Die übliche Asymptotik kann man also nicht anwenden. Mariott (1975) Wo

weist auf die offensichtliche Inkonsistenz des ML-Schätzers hin und vergleicht Modell I und II. Bryant und Williamson

(1978) untersuchen diese Inkonsistenz genauer und zeigen

11Konsistenz;1 der Schätzer gegen 11verzerrte Parameterwerte~, Auch unter dem Stichwort 11switching regression11 wird die- selbe Problematik in der Literatur wiederholt behandelt, vgl. z.B. Oberhafer (1980).

Modell III : Partitionen als Parameter

Dieses Modell ergibt sich als eine alternative Formulierung des Modell II. Hierzu formt man die Likelihoodfunktion von II geeignet um:

fCx1,···,xu)=1f°n~1 fn<xn)

=lfn~1<fi~1

&in~<xn;t\,~i)) =

=Tri~1 -rrnGA.i('(xn,A_,'fi) ·

l

- 24 -

(29)

Hierbei ist Ai:=fne(1, ... ,Nl

:Jin=1J

und Cl:=[A 1 ,A2 , ... ,Am) eine Partition von 1,2, ... ,N . Also bestimmen folgende Parameter die Verteilung:

m Anzahl der Komponenten

Q

Partition der Nummern 1,2, ... ,N

JA:.

Lageparameter der i-ten Komponente

l

~i Kovarianzmatrix der i-ten Komponente

Offensichtlich ist

Jin

Indikatorfunktion von Ai. Für jede spezielle

man mit

Numerierung (A

1, ... ,A) der Klassen von~ erhält

. m

\. = { 1 für nBAi ein Modell mit fester d in O sonst

Komponentenzugehörigkeit zurück. Die Unterschiede in der Numerierung sind wegen der Invarianz der Likelihoodfunktion unter Umnu m erierungen der Komponenten inhaltlich irrele- vant.

Auch bei dieser Formulierung unseres Modells kann man die Maximum-Likelihood-Methode anwenden, sie liefert natürlich die gleiche Lösung wie bei Modell II bis auf die Num erie- rung. Das Problem, mehr incidente Parameter schätzen zu müssen, als Meßwerte vorhanden sind, wird durch das Problem ersetzt, Partitionen einer mit dem Stichprobenumfang wach- senden Menge zu schätzen.

§ 2 GEMEINSAME EIGENSCHAFTEN DER MODELLE

Zunächst seien einige Gemeinsamkeiten der obigen Modelle aufgeführt.

a) Faktorisierung über empirische Maße

Die vorausgesetzte Unabhängigkeit der Verteilungen der

Meßwerte führt in allen Modellen zu einer Likelihoodfunktio~

(30)

6

ist. Fassen wir unter

v~

e 8 die jeweiligen Parameter des Modells zusammen, so gilt für eine konkrete Stichprobe vom Umfang N:

L(J

,X1

(r.,..,) ' . . .

,XN(~))

= lfn~1L(J;Xn (t...1)).

Die Likelihoodfunktion ist also invariant unter der Reihen- folge der Objekte, bzw. der daran erhobenen Meßwerte.

Für eine konkrete Stichprobe (X 1

(w)

,x

2 (c..v), ••.

,Xmfw)) vom Umfang Nk mit Xn((..,)

=

x 1

(<-..:;)

für n=l mod N - kurz

(X 1 ( ... ), ... ,XNk('"')) sei eine "Ver-k-fachung" der konkreten Stichprobe (X 1 (-), ... ,XN(cv)) - gilt weiterhin:

L (~;X 1 ( .... ) , ... , XNk ( .... ) ) =lf :=\ L

(-J;

Xn ( ~) )

=

c1f n ~ 1 L

(J-, Xn (w) )

r

= (

L (

J- ;

X 1 (...., ) , . . . , XN (

c-.>) ) ) • k

D.h. die Likelihoodfunktion der "ver-k-fachten" konkreten Stichprobe ist die k-te Potenz der einfachen konkreten Stichprobe; Maximum-Likelihood-Schätzer sind also unter

"Ver-k-fachung" konkreter Stichproben invariant.

Durch eine Stichprobe ist das zugehörige empirische Maß eindeutig bestimmt. Da das empirische Maß /N (""')

=~

ln~ f~k)

einer konkreten Stichprobe

(X1(...u), . . .

,XN(c:..v)) umgekehrt auch diese konkrete Stichprobe bis auf ihre Reihenfolge und bis auf"Ver-k-fachungn eindeutig bestimmt, ergibt sich zusammen:

Die Maximum-Likelihood-Schätzer der obigen Modelle hängen nur vom empirischen Maß der Stichprobe ab.

b) Invarianz unter Umnu m 2rierung der Komponenten

Die einzelne Dichte im Mischverteilungsmodell I und damit auch die gemeinsame Dichte, bzw. die Likelihoodfunktion der gesamten Stichprobe ist invariant unter Umnu m erierun- gen der einzelnen Komponenten. Gleiches gilt für das Modell

- 26 -

(31)

II mit Komponentenzugehörigkeit als Parameter. Hierbei muß aber der Parameter der Komponentenzugehörigkeit entsprechend mit "umnumeriert" werden.

Inhaltlich ist man auch nicht an einer speziellen Numerie- rung der Komponenten interessiert, sondern daran, welche Objekte zu einem Cluster zusammengefaßt werden. Dies ist aber ein Sachverhalt der von der speziellen Numerierung der Komponenten unabhängig ist.

Formal kann man die Unabhängigkeit von einer Numerierung oder die Invarianz unter Umnumerierungen durch Übergang zu einer Parametrisierung erreichen, bei der Parameter nicht unterschieden werden, die durch Umnumerierung auseinander hervorgehen können. Im Mischverteilungsmodell z.B. geht man vom Parameterraum mit Element (m,at

1,,i"1, ~

1, ... ,ocm,fA'm,Z"m) zum Quotientenraum mit dem Element -eine Äquivalenzklasse im ursprünglichen Raum-

über. Hierbei bezeichne ß(m) die Permutationsgruppe der Men- ge i1,2, ... ,m! . Wege9der Invarianz der Likelihoodfunktion unter Umnumerierung der Komponenten ist die Likelihoodfunk- tion auf den Äquivalenzklassen konstant und damit auf dem Quotientenraum wohldefiniert.

Im Modell III ist der Übergang zum Quotientenraum implizit schon berücksichtigt, da in einer Partition, also in einer Menge, keine Reihenfolge oder Numerieru~g gegeben ist.

Jedoch erweist sich die Faktorisierung bzgl. der Reihenfol- ge als günstiger. Einmal kann eine topologische Struktur durch Übergang zum topologischen Quotientenraum mit über- tragen werden, dagegen müßte man entsprechende Strukturen

(32)

8

auf Mengen von Partitionen erst einführen. Weiterhin können in einer Menge Elemente nicht wiederholt vorkommen, insbe- sondere auch kein leeres Cluster. Gerade dies kann aber aus formalen Gründen nützlich sein.

c) Identifizierbarkeitsprobleme

Offensichtlich sind Komponenten mit einem «i=O bzw. mit Jin=O für n=l, ... ,N nicht identifizierbar, da die gemein-

same Dichte dann nicht von "4. und

z.

abhängt. Entsprechend

/ i i

kann man ~i und «j bzw. Jin und djn für n=l, ... ,N nicht identifizieren, falls

.l'i

= /'j und I"i =

Ij

gilt für i;ij und

~.+~.)O bzw. 1. + l. =1. Denn die gemeinsame Dichte hängt i J a in (1 J n

offensichtlich nur von (X. i +eil. J und

J.

in

+J.

J n ab.

Bei nicht normalverteilten Komponenten können prinzipiell noch weitere Identifizierungsprobleme auftreten, vgl.Bock (1974). Auf diese und andere Probleme wollen wir hier je- doch nicht eingehen, sie lassen sich in einigen Fällen durch Identifizieren ununterscheidbarer Parameter lösen.

§

3

KONSISTENZ UND ROBUSTHEIT IN DER CLUSTERANALYSE

Um in Modellen mit incidenten Parametern sinnvolle, insbe- sondere konsistente Schätzer zu entwickeln, kann man, statt die incidenten Parameter selbst zu betrachten, deren Ver- teilung schätzen. Häufig ist es möglich, eine solche Vertei- lung konsistent zu schätzen, während für die incidenten Parameter selbst keine konsistenten Schätzer existieren.

Vgl. hierzu Kiefer

&

Wolfowitz (1956) und im Sinne der Bayes-Theorie den empirischen Bayes Ansatz von Robbins (1964).

Faßt man

C;- )._

1 für n=l, ... ,N als unabhängige iden- in i- , ... , m

tisch multinomialverteilte Zufallsgröße mit Wiederholungs- - 28 -

(33)

zahl 1 auf und gilt Pr(i. =1) =o(., so ist der Meßwert X

Qin i n

am n-ten Objekt verteilt gemäß der Dichte:

f(x) =

~

.m

1Pr(J- =1)•f (xf L =1) =

L,..i= in n 4in

Das Modell II mit Komponentenzugehörigkeit als Parameter wird zum Mischungsmodell I, wenn man die Parameter der Komponentenzugehörigkeit als unabhängige, identisch multi- nomialverteilte Zufallsgrößen auffaßt (Binder (1977), Sclove (1977)). Das Problem der Schätzung fällt in diesem Sinne für beide Modelle zusammen.

Die konsequente Anwendung der klassischen Maximum-Likeli- hood-Theorie führt hiernach zwangsweise zum Mischungsmodell.

Trotzdem wird in der Literatur z.B. bei Bock (1974), Binder (1977) und Sclove (1977) das Modell II mit Komponentenzu- gehörigkeit als Parameter nicht fallengelassen, sondern oft- mals bevorzugt. Ma~ott (1975) führt dies auf Robustheits- eigenschaften zurück, ohne dies jedoch näher auszuführen.

Bei Bock (1974) und Binder (1977) ergibt sich das Modell III und andere ähnliche Verfahren auch aus speziellen Bayesan- nahmen.

Will man das Modell II oder III beibehalten, weil es sich inhaltlich am besten für die Clusteranalyse eignet, dann muß man zu allgemeineren Schätzmethoden übergehen. So schlägt Wolfowitz (1953) und (1957) in einer ähnlichen Situation Minimum-Distanz-Schätzer vor, Pfanzagl (197 ) löst ähnliche Probleme mit Hilfe topologischer Hilfsmittel. Erster Schritt bei einem solchen Vorgehen ist die Konstruktion eines geeig-

(34)

10

untersuchungen für Clusterverfahren curchzuführen und Kon- sistenz für viele herkömmliche Verfahren nachzuweisen. In dem folgenden Modell werden spezielle Verteilungsannahmen vermieden, es geht von einem nicht parametrischen Ansatz aus. Hierdurch kann man auch die Robustheit von Clusterver- fahren untersuchen.

at(_ sei die Menge aller l~aße auf JRP,

711

1 die Teilmenge der w~Maße. \/ E 1n. heißt Teilmaß von

~117.,

in Zeichen

V~/ ,

wenn für alle Borelmengen B gilt: V{B)f/(B). Für ein festes mEJN (die Anzahl der Cluster) trage

~ :=

fc~~.)

111

-=

1 , ••• ,m E

Tr:

1 1

mlz-tt.sm

1 1}

die Produkttopologie zur schwachen Topologie auf

7/Z.

f: = f;ftm)

sei der topologische Quotientenraum von~, in dem m-Tupel mit verschiedenen Numerierungen identifiziert werden, Die Elemente

{ V

(/'"i) von

f

heißen dann Clusterungen von µ_, wenn ~ u

1. =~ gilt für einen Repräsentanten

j;'t. ) .

..:1

/ / / 1 l=--t, ••• ~

~

von

Yi).

Ist x1 (-), ••• ,XN(c...) eine konkreten Stichprobe, so entspricht einer Partition (X =[A

1, ••• ,Am~ im Modell III

/".:'.

d . 1e Cl us erung t (,..._N_) 1 1 m1 ' t F-i LtN = ·N 1 L..n@A. ~ d <' X (eo>). Das 1 eere

i n

Cluster, das Nullmaß, erweist sich als nützlich, da die Anzahl der Cluster konstant gehalten wird. Cluster (Teil- maße) können so gegen das leere Cluster konvergieren, wenn

ihr Gewicht gegen O konvergiert.

Hierbei gehen die in §2 beschriebenen Eigenschaften direkt in das Modell ein: Wegen a) können wir als Definitionsbe- reich der Clusterverfahren eine geeignete Teilmenge von 11Z1

,._

wählen, Durch die Bildung des Quotientenraumes (

=

l/fim) wird b) berücksichtigt. Durch die Einführung von Teilmaßen

- 30 -

(35)

als Cluster entfallen zumindest einige der behebbaren Iden- tifikationsprobleme von c).

Formal können wir somit ein Clusterverfahren als Abbildung auffassen, definiert auf einer r,.~enge

i:J

zulässiger W-Maße

~

mit Werten in

f .

~

~: 1'l1

)Z)-;> ~ , ,-,

- , >

(~> .

[ J.<.

rm

1. m1 t .

1 M.,

=

µ .

Y 1= 1 l '

Meist werden Clusterverfahren durch Gütefunktionen beschrie- ben, vgl. z.B. Bock (1974):

G: ( .J t(.1))

-->

JR

:,..,

die jeder Clusterung Y'"i) von zulässigen Maßen

JA-

eine

Güte (z.B. die Likelihood unter einer speziellen Modellan- nahme, ein reziproker Verlust u.a.) zuordnet.

Gütefunktionen werden in der Literatur im allgemeinen nur für konkrete Stichproben definiert, es ist aber meist mög- lich, sie geeignet auf ~aße fortzusetzen. Bock (1974) unte~

sucht z.B. "kontinuierliche Versionen" des Varianzkriteriuos.

Dies entspricht einer Erweiterung des Definitionsbereiches

:b

von der Menge der empirischen Maße auf alle W-Maße mit existierenden 2. Momenten.

Eine Gütefunktion induziert nun ein Clusterverfahren, indem jedem Maß f--8'b die bzw. eine CLusterung mit maximaler

Güte zugeordnet wird:

( V

<!>G: ~ -~t ,,,--1-~ h_)

wird implizit definiert als eine Lösung von

""'

( v.

l > e

t, '2 \/.

l

=

/

-'"'-1.

Unter recht allgemeinen Bedingungen gilt nun der Satz

(36)

12

, V

Degens (1978): Ist G stetig auf

f

und ist die optimale Clusterung ~G (14) für ein .fE

.8

durch G eindeutig bestimmt, so ist ~G stetig in

,r .

Hieraus ergibt sich: Enthält .Z) die empirischen Maße und die zugrundeliegende Verteilung, so ist ~G insbesondere konsistent. Da die Topologie

f

von der schwachen Topolo- gie auf

'111

induziert wird, sind stetige Funktionen be- schränkt. Die meisten Gütefunktionen sind jedoch unbe- schränkt. Hierfür läßt sich jedoch die Konsistenz und eine eingeschränkte' Stetigkeit nachweisen. Diese Aussagen ermöglichen auch erste Aussagen zur Robustheit der Ver- fahren, die jedoch noch quantifiziert werden müssen.

In der Literatur wird auf Konsistenz und Stetigkeits- fragen selten eingegangen, meist nur in parametrischen Fällen. Ausnahmen sind die Arbeiten von Hartigan (1978) und Pollard(1981), deren Überlegungen aber stark von

der speziellen Gütefunktion abhängig sind. Degens & Feder- kiel (1978) zeigen in einer Monte Carlo Studie die völlige Inkonsistenz eines speziellen hierarchischen Verfahrens.

Literatur

Binder,D.A.(1977) .Cluster Analysis under Parametric Models,Thesis,University of London

Bock,H.H.(1974) .Automatische Klassifikation.Theoretische und praktische Methoden zur Gruppierung und Struk- turierung von Daten (Clusteranalyse) .Vandenhoeck &

Ruprecht,Göttingen

Bryant,P.,Williamson,J.A.(1978) .Asymptotic behaviour of classification maximum likelihood estimates.

Biometrika 65 273-281.

- 32 -

(37)

Degens,P,0.(1978) .Clusteranalyse auf topologisch-maßtheore- tischer Grundlage.Dissertation,Fachbereich Mathematik, Universität München.

Degens,P.O.,Federkiel,H.(1978) .A Monte Carlo study on agglo- merative large sample clustering. Compstat 78 246-252.

Sartigan,J.A,(1978) .Asymptotic distributions for clustering criteria.Ann.Statist.6 117-131

Kiefer,J,,Wolfowitz,J.(1956) .consistency of the.maximum likelihood estimator in the presence of infinitely many incidental parameters.Ann.Math.Stat.27 887-906.

Marriott,F.H.C.(1975).Separating mixtures of normal distri- butions.Biometrics 31 767-769.

Neyman,J.,Scott,E.L.(1948) .consistent estimates based on partially consistent observations.Econometrica 16 1-34 Oberhofer,W.(1980].Die Nichtkonsistenz der M.-L.Schätzer

im "Switching Regression" Problem.Metrika 27 1-13.

Pfanzagl,J.(1970) .Consistent estimation in the presence of incidental parameters.Metrika 15 141-148

Pollard,D.(1981) .stromg consistency ofK-means clustering.

Ann.Statist.9 135-140.

Robbins,H.(1964) .The empirical Bayes approach to statistical decision problems.Ann.Math.Stat.35 1-20.

Sclove,S.L., (1977) .Population mixture models and clustering algorithms.Com.Stat.Theory &Methods A6 417-434

Wolfowitz,J.(1953) .Estimation by the minimum distance method.

Ann.Inst.Stat.Math.5 9-23

Wolfowitz,J.(1957) ,The minimum distance method.Ann.Math.Stat.

28 75-88

(38)
(39)

STOCHASTIC AND DETERMINISTIC REPRESENTATIONS OF NONDETERMINISTIC AUTOMATA

Ernst-Erich Doberkat

Clarkson College of Technology, Department of Mathematics and Computer Science, POTSDAM, N.Y. 13676, USA*

* on leave from the Department of Mathematics and Computer Science,

Fernuniversität Hagen, D 5800 HAGEN, West Germany

(40)

2

1. Introduction

Let (X,Y ,Z;R) be a nondeterministic automaton, i .e., after input of v EX* in state zEZ we are given a set R(v,z) of possible new states and outputs such that

0=1:

R(v,z)

cz

x

ylvl

holds, in particular the automaton works synchronously. In case anything is countable such a nondeterministic device may be represented by a sto- chastic automaton in the following way: there exists a stochastic automaton (X,Y,Z;K) such that for a state 'l..EZ and an output ward wEYlvl the following holds: zwER(v,z) is true if and only

if

K(v,z)(z,w) is positive. Here K(v,z)(z,w) is the probability that the output is wand the new state adopted is z after input of v in state z. In this note an attempt is made to generalize this observation to the noncountable, in particular to the nonfinite case. This requires some additional considerations in order to formulate the problem if nothing is finite or countable.

Assume that Y and Z are Polish spaces, i.e. separable and completely metrizable topological spaces, and that X, the set of inputs, is endowed with a cr-field in the sense of probability theory. Then a stochastic automaton (X,Y,Z;K) is charac- terized by the transition law K which is a transition probability (or stochastic kernel) from X x Z to Z x Y with the interpretation that after input of x EX in state z E Z the probabil ity K(x,z) is the distribution of the new states and the output in this situation. By some standard constructions it is possible to extend K to a transition probability from X*x Z to Zx Y*, again denoted by K, such that now K(v,z) is the distribution of states and output words after input vEX* in state z; more- over the length of the output is as lang as the input with probability one. Now denote by supp K(v,z) the support of the probability K(v,z), that is the smallest of those closed subsets C of Z x Y* for which K(v,z)(C)

=

1 holds. Since

it

may be shown that an element of supp K(v,z) is uniquely characterized by the fact that any open neighbourhood is assigned positive probability K(v,z), the set supp K(v,z) may be interpreted as the set of all possible new states and output words in this situation.

- 36 -

(41)

Now the problem tobe investigated may be reformulated: under which conditions does there exist a stochastic automaton such that the behavior of the nondeterministic automaton is characterized by supp K, when K is the defining transition law? Hence we want to construct a transition probability K such that R(v,z) equals supp K(v,z) for any input ward v and any state z. We will formulate here a set of conditions that allow to sketch such a construction. The same mathematical framework will permit us to state the following result: under the same conditions for the non- deterministic automaton tobe represented by a stochastic one there exists a deter- ministic automaton (~xX,Y,Z;f) such that R(v,z) equals the topological closure of {f(a,v,z); aElN lvl}. This might be called a deterministic representation for the nondeterministic automaton, since all the informations concerning Rare stored essentially, i.e., up to topological closure, in a deterministic device with a somewhat blown up input alphabet.

This note is organized as follows: in Section 2, some formal notions concerning

automata are introduced, andin Section 3 some necessary remarks on set valued maps

and probability measures are written down for the sake of an easy reference. In

Section 4, the results quoted are formulated in greater detail, and some proofs

are sketched.

(42)

4

2. Automata

Given finite sets of inputs and outputs, respectively, a finite stochastic automaton is a system which, after an input, chooses some output according to a probability law, hereby changing its internal state stochastically, too. Generalizing this for nonfinite sets requires measurable spaces of inputs, outputs, and states.

Definition:

Let

(X,X), (Y,Y),

(Z,Z) be measurable spaces of inputs, outputs, and states, respectively. Then

((X,X),

(Y,Y), (Z,Z);K) is said tobe a

stochastic a:utomaton

iff K is a transition probability from (XxZ,X@Z) to (ZxY,Z@Y).

Thus,

if

the automaton is in state zEZ and the input is xEX, the probability that the new state and the output are an element of DEZ@Y is K(x,z)(D). This notion of a stochastic automaton over general measurable spaces obviously generalizes finite stochastic automata: consider finite sets X,Y,Z together with their respec- tive power sets. Then a finite stochastic automaton is a stochastic automaton in the sense of this definition. Moreover, if Z and Y contain the respective single- tons of Z and Y, the following special case will be important: assume that for any xEX, zEZ there exists a finite set A(x,z)cZxY such that K(x,z)(A(x,z))=l, then the automaton will be called

discrete.

Such a discrete stochastic automaton has only finitely many possibilities for a state transition and an output.

Stochastic automata as well as the other automata considered here are assumed to

work

in a sequential manner. Let

xl'x2

be input letters, z a state and DEZ@Y@Y be a set of states and pairs of outputs, then

K ( x l ,

X

2 , z ) ( D ) : = f K ( x 2 , z l ) { { z 2y 2 ; z 2y l y 2 E D} ) K ( x l , z ) ( dz l , dy l ) is the probability that the new state and the pairs of outputs at time 1,2 are

elements of D. This construction is tobe carried over for arbitrary input sequences

- 38 -

(43)

of finite length. But before this can be done, remember that for any measurable space (M,M) there exists a unique cr-field M* on M* with the following properties (a) the trace Mn n M* := {Mn n R;RE M*} equals Mn:= M@ ... @M (n times) for any n E 1N ( b) semi group multi p l i cati on i s M*@ M* - M*-measurab l e.

If M is a topological space with

M

as Borel sets, and if M* has the topological sum of (Mn)n~O' then M* coincides with the Borel sets of M*.

Now let a stochastic automaton as in the definition above be given. Define for zEZ

(where o(z,e) is the Dirac measure on (z,e)EZxY*), Kl (

X '

z ) : = K (

X '

z ) '

if xEX, and assume K

1

v

1

(v,z) is defined for lvl ~n, then

if

vEXn, xEX,

D E Z 0

yn+

l, l

et

Kn+l(vz,z)(D) := f K(x,z

0

)({z 1y; z1wyED})K (v,z)(dz

0

,dw).

zxvn n

Then Kn+l is a transition probability from (Xn+lxz, xn+l@Z) to (ZxYn+l, Z®Yn+l).

From this, one gets a transition probability on the respective semigroups: given

v

E X*, z E Z, D E Z

0 Y*,

def i ne

K(v,z)(D) :=Klvl(v,z)(Dn(ZxYlvl)),

then K is a transition probability from (X*xZ, X*@Z) to (ZxY*, Z@Y*). Note that K describes the sequential work of the automaton, and that this automaton works synchronously, since K*(v,z)(zxylvl) = 1 holds for any vEX*.

Stochastic automata have been introduced as systems changjng their state and giving

some output according to some probability law, which depends on the input and the

actual state. If one takes into account only the possible states and outputs in a

given situation, one has to consider nondeterministic automata. Let X,Y,Z be again

fixed sets of inputs, outputs, and states, respectively.

Referenzen

ÄHNLICHE DOKUMENTE

Körper sind oft in ihrer Bewegung durch äussere Bedingungen eingeschränkt. So zwingen Auflageflächen, Seile, Fäden, Balken, Stangen, Führungen etc. einen Körper in

Dieser Versuch stellt eine Möglichkeit dar den SuS zu zeigen, dass gasförmiges Kohlenstoffdioxid eine größere Dichte besitzt als Luft.. Dafür wird die Klassische Glimmspanprobe

Mit- hilfe eines Aräometers kann die Dichte von Flüssigkeiten im Vergleich zu der Dichte von Wasser bestimmt werden. Dies geschieht durch unterschiedliche Eintauchtiefen, nachdem

Dieser Versuch eignet sich gut als Einführungsversuch zum Thema: „Kohlenstoffdioxid, Nachweis“, da hier ein lebensweltlicher Bezug des Themas hergestellt wird.

Materialien: Becherglas, Teelicht, Feuerzeug, Erlenmeyerkolben + Stopfen Chemikalien: Kohlenstoffdioxid (Druckgasflasche).. Durchführung: Ein Teelicht wird entzündet und in

Im Anschluss wird der Versuch wiederholt, der mit dem Uhrglas verschlossene Zylinder (Standzylinder 2) jedoch in einem Stativ mit der Öffnung nach unten eingespannt und das

Durchführung: Zwei Standzylinder werden unter dem Abzug mit dem Gas aus der Gasleitung befüllt, dabei sollte die Öffnung des Standzylinders nach oben zeigen.. Nach

Eine Substanz wird auf eine Platte (stationäre Phase) aufgetragen und anschließend in das Fließmittel (mobile Phase) gestellt, welches sich in einer Kammer befindet. Jetzt beginnt