Die Wahl einer geeigneten Kategorisierung

3.2 Die Kategorisierung von Wortarten

3.2.3 Die Wahl einer geeigneten Kategorisierung - Auswahl

Datenbank überführt werden, von der aus viele Untersuchungsschritte gemacht werden können. Zugleich – und diesen Aspekt habe ich bereits erwähnt – ist die Vielzahl an Tags auch nachteilig für die Person, die das Taggen übernimmt, da das Verfahren dadurch sehr zeitaufwendig ist. Auch ist es nicht immer eindeutig, welches Tag für ein bestimmtes Wort gewählt werden muss. Insbesondere bei der Arbeit an einem Korpus, welches kindliche Sprache enthält, kommt es zu uneindeutigen Fällen bzw. Fällen, in denen sich die syntaktische Kategorisierung nicht mit der semantischen Absicht des Gesagten deckt. Typische uneindeutige Fälle in dieser Arbeit sind z. B.: „Ich nehme das grüne xxx.“ In diesem Beispiel fehlt recht eindeutig das Nomen, welches an dieser Stelle akustisch nicht nachvollziehbar war.

Ebenso könnte grüne als NN getaggt werden, weil es in diesem Fall ohne Nomen (xxx) auftritt und dadurch als substantivierter Infinitiv bezeichnet werden kann. Als transkribierende Person kann ich durch meine Anwesenheit während der Aufnahme und durch angefertigte Mitschriften in diesem Fall nachvollziehen, dass das Kind an Stelle des xxx ein Nomen verwendet hat und bezeichne grüne mit dem POS-Tag ADJA. Eine besonders häufig auftretende Diskrepanz zeigt sich bei der Bezeichnung des Verbs sein, das je nach Kontext Kopulaverb, Auxiliarverb, Vollverb oder gar ein Verb in einem Funktionsverbgefüge sein kann. In den STTS gibt es nur die Möglichkeit sein als Auxiliarverb (VA) oder Vollverb (VV) zu bezeichnen. In den Fällen, in denen sein Auxiliarverb ist, stellt das kein Problem dar. In den überaus häufigen Fällen, in denen es Kopulaverb ist, kann unter Verwendung der STTS nur mit VV gekennzeichnet werden, da ein POS-Tag für Kopulaverben nicht vorliegt. An späterer Stelle in dieser Arbeit werden deshalb alle syntaktischen Wörter nochmals nach semantischen Kriterien auf Basis der Regeln der Dudengrammatik getaggt, wodurch unter anderem auch das Problem der Multifunktionalität von sein gelöst wird (Kapitel 7). Die eben dargestellten Fälle zeigen, dass es an vielen Stellen zu mehrdeutigen Situationen kommen kann. Das bedeutet jedoch nicht, dass die eine oder andere Form der Kategorisierung falsch ist. Vielmehr entstehen derartige Probleme durch unterschiedliche Sichtweisen der taggenden Person und durch das jeweilige Ziel, das mit der Klassifikation der Wortarten verfolgt wird.

3.2.3 Die Wahl einer geeigneten Kategorisierung - Auswahl und

wohlwissend, dass es viele weitere gibt. Doch es ist an dieser Stelle unmöglich, mich auf alle existierenden Klassifikationsvorschläge zu beziehen.³

Kauschke (1999) verwendet eine Einteilung, die sich besonders für eine Analyse von Sprache in einem frühen Stadium im Spracherwerb eignet.

Für eine Beschreibung des Lexikons Drei- bis Fünfjähriger ist sie jedoch nicht ausreichend. Vor allem für einen späteren Vergleich mit der Sprache Erwachsener erweisen sich einige Kategorien als unbrauchbar. Die Kategorie Relationale Wörter beinhaltet beispielsweise Wörter des Ortes, wie oben oder Funktionen mit Objekten wie ran oder auf. Diese könnten ebenso der Kategorie Adverb angehören bzw. eine Verbpartikel darstellen im Falle von ran oder auf. Die Kategorie Pronomen ist nicht weiter aufgesplittet.

Zur Kategorie Funktionswörter gehören Artikel, Hilfsverben, Konjunktionen, Fragewörter und Präpositionen, die meiner Meinung nach eigene Kategorien darstellen sollten. Insgesamt halte ich diese Klassifikation zur Beschreibung der Wortartenverteilung bei Ein- bis Dreijährigen für sehr sinnvoll, für den Wortschatz von Drei- bis Fünfjährigen ist sie hingegen nicht mehr ausreichend.

Die STTS sind ein häufig verwendetes Tagset, wenn es darum geht, eine Wortartendistribution zu erstellen. Aufgrund dieser Popularität und des logischen Aufbaus habe ich mich dazu entschieden, sie für diese Arbeit zu verwenden. Das syntaktische Wort steht im Mittelpunkt der Arbeit und es ist relevant bei jenem Schritt der Analyse, bei dem es um die Wortartenbezeichnung mittels der STTS geht. Dafür müssen zuvor die gesprochenen Wörter in graphematische Wörter transkribiert werden (Abschnitt 4.1.4). Ausgehend vom syntaktischen Wort erweisen sich die STTS als geeignet. Probleme tauchen dahingehend auf, dass die gesprochene Sprache der Kinder oft unvollständig bzw. unverständlich ist.

Diese Probleme können jedoch relativ gut klassiert werden. Es wurden Regelungen geschaffen, so dass eine Bezeichnung mit den jeweiligen POS-Tags möglich war (Abschnitt 4.1.7). Die STTS haben zudem den Vorteil, dass Klassen von POS-Tags zusammengefasst werden können, ohne dass eine Wortart verloren geht. Bei Bedarf kann hingegen die ganze Bandbreite der Wortarten Anwendung finden (Tabelle 3.2) oder es können Kategorien nach individuellem Bedarf zusammengefasst werden (Tabelle 6.1).

3Weitere Literatur zum Thema Wortarten und deren Klassifikation: [Budde (2000), Bergenholtz und Schaeder (1977), Hoffmann (2009), Ruoff (1981), Vogel und Thieroff (2009)]

Beobachtungsstudie - Ziele und Methodik

In diesem Kapitel soll die für die Ergebnisse der Arbeit zugrunde liegende Beobachtungsstudie erläutert werden. Eine Voraussetzung für das Erreichen der Ziele dieser Arbeit war es, ein Korpus der Spontansprache von deutschsprachigen Kindern zwischen 3;5 und 5;5 Jahren zu erstellen.

Den Input für dieses Korpus bildeten Sprachaufnahmen, die in der Kita des Studentenwerkes an der Technischen Universität Berlin¹ gesammelt wurden. Die Sammlung wurde durch die Methode der teilnehmenden Beobachtung erstellt. Diese Methode schien für den übergeordneten Zweck - dem Sammeln von spontanen Daten - die sinnvollste und zugleich einzige zu sein. Eine Untersuchung der Kinder unter kontrollierten Bedingungen, wie zum Beispiel im Labor, sollte für den Erhalt spontaner Daten unbedingt vermieden werden. Es erwies sich zudem als sehr geeignet, die Daten mit einem Diktiergerät aufzunehmen, weil die beobachteten Kinder jung genug waren, um sich aufgrund eines technischen Gerätes nicht beobachtet zu fühlen. Das sogenannte Beobachterparadoxon konnte somit ausgeschlossen werden ([Albert und Koster (2002)]). Insgesamt wurden etwa 40 Stunden Audiomaterial gesammelt. Von diesem Material wurden 26815 Tokens in die Analyse einbezogen. Alle Daten wurden sowohl quantitativ als auch qualitativ ausgewertet. Dafür wurden diese zunächst mit dem Transkriptionsprogramm FOLKER² transkribiert und anschließend mit dem EXMARaLDA Partitur Editor (Abschnitt 4.1.6). analysiert. Anschließend wurden alle erstellten EXMARaLDA-Dateien mit den dazugehörigen Informationen in eine Datenbank importiert. Mit Hilfe dieser Datenbank ([Mack (2014)]) können

1Genauere Informationen zur Kita finden Sie im Internet unter http://www.studentenwerk-berlin.de/kita/standorte/kita_tu/index.html.

2Genauere Informationen zu FOLKER finden Sie im Internet unter http://agd.ids-mannheim.de/folker.shtml

relevante Abfragen getätigt und Ergebnisse ausgegeben werden, die über die Wortartenverteilung in verschiedenen Altersclustern sowie über die Type-Token-Verteilung (Paragraph 4.1) Aufschluss geben. Ferner erfolgte eine Klassifizierung aller Lemmata hinsichtlich ihrer Bedeutungskategorie und eine anschließende Zusammenstellung dieser in einemLexikon des Vorschulalters (Kapitel 7; Anhang).

Im Verlauf der Arbeit sollen vor allem folgende Fragen überprüft werden:

1. Gibt es im Alter von 3;5 bis 5;5 Jahren individuelle Unterschiede in der Verteilung der Wortarten?

2. Ist hinsichtlich der Verwendung der Wortarten sowie in der inhaltlichen Entwicklung des Lexikons ein Trend erkennbar (individuell oder allgemein) oder bleibt die Komposition des Lexikons zwischen 3;5 und 5;5 Jahren konstant?

3. Wie ist das Lexikon der hier untersuchten Kinder zwischen 3;5 und 5;5 Jahren komponiert?

4.1 Methodik

Bevor die einzelnen Teilschritte des methodischen Vorgehens näher betrachtet werden, möchte ich einige allgemeine Möglichkeiten der Untersuchung des Wortschatzes bei Kindern aufzeigen. Grundlegend können im Hinblick auf die Zielstellung zwei verschiedene Untersuchungen des Wortschatzes vorgenommen werden: eine Analyse des produktiven und/oder eine Analyse des rezeptiven Wortschatzes. Für welches Vorgehen man sich entscheidet, ist abhängig davon, wofür die Daten verwendet werden sollen und welche Ergebnisse erwartet werden. Bei beiden Methoden ist es nahezu unmöglich, den Wortschatz vollständig zu erfassen.

Um das rezeptive Vokabular eines Kindes zu überprüfen, können Vokabularchecklisten eingesetzt werden. Diese enthalten eine Zusammen-stellung des kindlichen (Gesamt-)vokabulars. Durch unterschiedliche Methoden wird das Kind auf das Verständnis jeder Vokabel hin überprüft (siehe auch [Kauschke (2000)], S. 75). Der produktive Wortschatz bleibt bei diesem Verfahren quasi unberührt, wodurch ein Erfassen des Gesamtwortschatzes nicht möglich ist. Die wahrscheinlich älteste Methodik zur Erfassung des produktiven Vokabulars bieten sogenannte Elterntagebücher (z. B. [Stern und Stern (1965)]). Dabei halten Eltern jedes neue Wort ihres Kindes in Verbindung mit weiteren Daten wie Zeitangaben, Gestik, Mimik etc. fest. Ein solches Verfahren bietet sicher umfangreiche

Ergebnisse, die aber einen ebenso umfangreichen Einsatz der Eltern verlangen.

Kauschke (2000) bietet weiterhin eine gute Übersicht über den Einsatz von Beobachtungsmethoden, die ich im Folgenden kurz darstellen möchte, da es sich auch in der vorliegenden Arbeit um eine Beobachtungsstudie handelt ([Kauschke (2000)], S. 76-82). Beobachtungsdaten können laut Kauschke durch Video- und/oder Audioaufnahmen erhoben werden. Diese Aufnahmen können an verschiedenen Orten stattfinden: im Labor, zu Hause, in Kindertagesstätten etc. Im Anschluss an die Aufnahmen, müssen die erhobenen Sprachdaten transkribiert werden, wobei die Auswahl eines geeigneten Transkriptionssystems abhängig von der jeweiligen Fragestellung ist (siehe dazu auch Abschnitt 4.1.4). Nachdem das Transkript bzw. die Transkripte erstellt wurden, kommen unterschiedliche Auswertungsmethoden zum Einsatz. Diese können quantitative und/oder qualitative Aspekte des Lexikons berücksichtigen (ebd.). In der vorliegenden Arbeit werden - wie später ersichtlich - quantitative und qualitative Gesichtspunkte untersucht.

Die Vorteile einer solchen Erhebung liegen vor allem darin, dass zahlreiche Aspekte der Sprache ersichtlich werden. Während bei einer Datenerhebung mittels Fragebögen lediglich das Wissen um die Lexeme deutlich wird, gewähren beispielsweise durch Audio- und / oder Videoaufnahmen gewonnene und später transkribierte Daten Einblick in die phonologische Realisation von Wörtern. Aber auch gestische und mimische Gesichtspunkte sowie die Prosodie können untersucht werden. Ebenso können sämtliche phonetische Untersuchungen mittels akustischer Daten vorgenommen werden. In der vorliegenden Arbeit wurden Audiodaten mit zusätzlichen Protokollen der Interviewerin erhoben. Ein solches Verfahren wurde im Vorfeld (und im Nachhinein) als ausreichend erachtet, da lediglich der Wortschatz untersucht werden soll. Eine Videoinstallation an jedem der Aufnahmetage wäre zu aufwendig gewesen, zumal das Lexikon in seiner Entwicklung im Mittelpunkt der Untersuchung steht, nicht aber die Interaktion zwischen den Kindern untersucht werden sollte. Nichtsdestotrotz sollten aufgrund der recht guten Tonqualität auch phonetische Analysen möglich sein, die mit den vorliegenden Daten bisher jedoch nicht durchgeführt wurden.

Hinsichtlich der zeitlichen Aspekte können zum einen Längsschnittstudien, zum anderen Querschnittstudien durchgeführt werden. Bei einer Längsschnittstudie werden einzelne Kinder über einen längeren Zeitraum beobachtet, wodurch sich die Entwicklung der sprachlichen Fortschritte gut verfolgen lässt. Eine Querschnittstudie wird zu einem gegebenen Zeitpunkt mit mehreren Kindern durchgeführt und soll - wie der Name schon sagt - einen Querschnitt über die sprachlichen Fähigkeiten aller Kinder aufzeigen. In der

vorliegenden Beobachtung handelt es sich um eine Studie mit vielen Aspekten einer Längsschnittstudie. Oberste Priorität war es, möglichst spontane und nicht elizitierte Daten zu erhalten. Aus diesem Grund wurden die einzelnen Kinder nicht an an jedem Aufnahmezeitpunkt einzeln aufgenommen, sondern nur an jenen Tagen, an denen sie freiwillig dazu bereit waren.

Dementsprechend können keine (oder nur wenige) Entwicklungsschritte einzelner Kinder aufgezeigt werden. Wie sich später zeigen wird, ist die für diese Arbeit gewählte Vorgehensweise ausreichend, da sie zudem nicht den Anspruch einer experimentellen Untersuchung hat.

Was hier nicht getroffen werden kann und soll ist eine Aussage über die rezeptiven Sprachleistungen sowie über die Größe des Wortschatzes.

Letzterer ist meiner Meinung nach nie vollständig erfassbar, da sowohl produktive als auch rezeptive Sprachleistungen berücksichtigt werden müssen. Da in dieser Arbeit nur die syntaktischen Wörter im Gebrauch bei Kindern im Vorschulalter erfasst werden, sind die erstellten Transkripte vollkommen zweckmäßig (siehe auch [Kauschke (2000)], S. 78).

Wie bereits weiter oben angeführt, werden in der vorliegenden Arbeit sowohl quantitative als auch qualitative Aspekte des kindlichen Lexikons betrachtet. Aus diesem Grund kommen auch unterschiedliche Auswertungsmethoden zum Einsatz. Bezüglich der quantitativen Gesichtspunkte werden (ansatzweise) einerseits die Tokens (alle von einem Kind geäußerten und später aufbereiteten syntaktischen Wörter) und andererseits die Types (alle unterschiedlichen von einem Kind geäußerten Wörter in Bezug auf ihre Lemmata) berechnet und zudem in Relation zueinander gesetzt, um das Verhältnis der Types zu den Tokens zu ermitteln.

In traditionellen Messungen der Type-Token-Relation wird die Gesamtanzahl der Types durch die Gesamtanzahl der Tokens dividiert ([Kauschke (2000)], S. 81). Dies wirft allerdings die Frage auf, was damit genau gemessen werden soll: altersbedingte Veränderungen und/oder die Abgrenzung von Kindern mit unterschiedlichen individuellen Fähigkeiten? Zudem nimmt die Type-Token-Relation (im Folgenden TTR) ab, je mehr Tokens berücksichtigt werden, da es laut Kauschke (2000) zu Wiederholungen von Wörtern kommt ([Kauschke (2000)], S.81ff.). Mittlerweile wurden verschiedene Möglichkeiten erprobt, um die TTR zu ermitteln und die im Folgenden kurz erörtert werden sollen.

Die Type-Token-Relation In diesem und den folgenden Paragraphen soll das Verhältnis der Types (alle verschiedenen Wörter im gegebenen Korpus) zu den Tokens (alle Wörter im gegebenen Korpus) unter allgemeinen Aspekten

analysiert werden. Ziel ist es herauszufinden, ob eine Type-Token-Analyse mit den Daten der vorliegenden Arbeit notwendig und sinnvoll ist. Eine recht übersichtliche Definition dazu liefert meiner Meinung nach Wimmer (2005):

„The type-token relation is understood as the ration of the number of different words to all words in the text, or with other words, the ration of vocabulary richness to the text length.“

([Wimmer (2005)], S. 361)

Wimmer erläutert sehr übersichtlich die unterschiedlichen Interpretationen, Methoden zur Berechnung der Type-Token-Ratio sowie auch Möglichkeiten zur Modellierung. Da der Artikel der Autorin sehr umfassend und übersichtlich gestaltet ist und die für die vorliegende Arbeit nötigen Grundlagen zum Thema Type-Token-Ratio enthält, möchte ich mich im Folgenden darauf stützen ([Wimmer (2005)]). Wimmer geht auf die Vor- und Nachteile jeder Methode im Hinblick auf die jeweils verfolgten Zwecke ein. Demzufolge sei dieses Forschungsinteresse heutzutage nicht nur sehr umfassend, sondern auch äußerst uneinheitlich, da jedes neue Forschungsfeld auch neue Unregelmäßigkeiten mit sich bringe. Dieser Mangel an Uneinheitlichkeit ist auf folgende Aspekte zurückzuführen:

1. Identifikation der Types 2. Interpretation

3. Messung

4. Entstehung und theoretische Annäherung 5. Statistische Prozesse (Stichproben etc.)

Ich möchte nachfolgend nicht auf jeden einzelnen Aspekt eingehen, sondern nur jene betrachten, die für die Zwecke der vorliegenden Arbeit relevant sein können. Deshalb gehe ich vor allem auf die Punkte 1 bis 3 ein und in Annäherung auf Punkt 4.

Identifikation Laut Wimmer gibt es zwei Möglichkeiten, die Types in einem Text zu identifizieren.

i) Es werden unterschiedliche Wortformen betrachtet. Bei dieser Technik wird das Konzept des Lexems bzw. des Lemmas völlig außer Acht gelassen.

Das Resultat zeigt lediglich die Formenvielfalt der Sprache, nicht aber die Vielfalt des Vokabulars.

ii) Es werden unterschiedliche Lexeme betrachtet. Diese Methode führt zu komplexen qualitativen Problemen. Die Daten müssten zuvor adäquat vorbereitet werden (von Hand oder mit Hilfe von Programmen).

Diese Vorbereitung aber hängt von der linguistischen Schule ab, die die untersuchende Person genossen hat. Demzufolge können Probleme folgender Art entstehen:

a) Im Deutschen sind die unbestimmten Artikel ein, eine, einer, eines vereinigt in dem Lexem ein. Wie verhält es sich dann mit den bestimmten Artikeln der, die, das oder den dazugehörigen Pronomener, sie, es?

In der vorliegenden Arbeit wird mit diesen Erscheinungen folgendermaßen umgegangen: die unbestimmten Artikel werden beim Vorgang der Lemmatisierung nur durch die Wortform ein lemmatisiert, ungeachtet dessen, ob es sich um einen femininen, neutralen oder maskulinen Artikel handelt. Der Kasus ist immer im Nominativ. Die bestimmten Artikel werden lediglich unterschieden nach Singular (d) und Plural (d-p). Getaggt wird in Fällen des unbestimmten und des bestimmten Artikels immer mit ART. Die Pronomen er, sie, es wurden im Zuge der Lemmatisierung unterschieden nach Geschlecht und auch sie erhalten das entsprechende Lemma in der Nominativ-Form mit der jeweiligen Genuszuweisung. Daraus ergeben sich als mögliche Lemmata nur die Formen ich, du, er, sie, es, wir, ihr und sie.

Alle anderen Wortformen, wie z. B. ihm oder mich werden ebenso in ihrer Nominativ-Form lemmatisiert. Getaggt wurden solche Pronomen je nach Kontext als irreflexives Personalpronomen, also PPER oder als reflexives Personalpronomen (PRF).

b) Wie geht man um mit analytischen Konstruktionen wie am schönsten, was in diesem Fall den Superlativ eines Adjektives darstellt, dessen andere Formen synthetisch sind?

In der vorliegenden Arbeit kann dieses Problem ebenfalls durch die Struktur der STTS gelöst werden. Für eine solche Konstruktion gibt es klar abgegrenzte POS-Tags. So wird das Tag PTKA für Partikeln in Verbindung mit Adjektiven im Superlativ genutzt, also in diesem Falle füram. Handelt es sich beiam um eine Präposition, würde es mit APPRART getaggt werden. Zudem behält am (PTKA) nach der Lemmatisierung die Wortform am, während die Präposition am zu an würde, weil es sich in diesem Fall um die Präposition an + Artikel handelt. Der Superlativ schönsten wird nach der Lemmatisierung in seiner Grundformschönnotiert und erhält das POS-Tag (ADJA bzw. ADJD).

c) Wie kann das Problem von Verbformen wie in „ich werde gelobt werden“. gelöst werden? Handelt es sich hierbei um zwei Lemmata, drei oder sogar vier?

Diese Verbform tritt in den zu analysierenden Daten dieser Arbeit nicht auf, wodurch das oben genannte Problem irrelevant ist. Für den hypothetischen Fall, dass die aufgeführte Verbform mit Hilfe der STTS getaggt werden würde, ergäbe sich folgende Kennzeichnung: ich (PPER) werde (VAFIN) gelobt (VVPP)werden(VAINF/VVINF). Die dazugehörigen Lemmata wären:ich(^ICH) werde (WERDEN) gelobt (LOBEN) werden (WERDEN). Würde an dieser Stelle nur lemmatisiert werden, könnte dies durchaus ein Problem bei der späteren Zuordnung der Lemmata zu den entsprechenden Wortformen geben. Da die jeweiligen POS-Tags jedoch immer mit den Wörtern und den Lemmata in der Datenbank (Kapitel 5) verknüpft sind, ist eine spätere Zuordnung möglich.

In der Datenbank wäre leicht erkennbar, dass das erste Lemma WERDEN

das Tag VAFIN besitzt und das letzte Lemma WERDEN das Tag VAINF bzw.

VVINF.

d) Wie geht man mit dem Problem der Homonymität um, welches durch ein Programm leicht verdeckt bzw. nicht erfasst werden kann, z. B. der Artikel ein, die Zahlein und das Präfixein (ich trat ein).

Auch dieses Problem kann unter der Verwendung der STTS und seinen POS-Tags nicht auftreten. Der Artikel wird getaggt mit ART, die Zahl wird getaggt mit CARD und für das Präfix gibt es das Tag PTKVZ. Das Taggen erfolgt selbstverständlich immer von Hand. Würde es automatisiert werden können, wäre eine solch genaue Bezeichnung sicher (noch) nicht möglich.

Diese Methode erfolgt - zumindest unter diesen Umständen - auf einer syntaktischen Basis, was im Grunde den Zielen dieser Arbeit widerspricht. Da jedoch die STTS die Basis der Wortartenbestimmung bilden, muss in diesen Fällen von einer rein lexikalisch basierten Wortartenbestimmung abgesehen werden.

e) Wie kann das Problem femininer Formen³ von Nomen gelöst werden, z. B.beau undbelleoderactoreandactrice?

Die Verwendung von Nomen in der femininen respektive maskulinen Form stellt auch in der vorliegenden Arbeit zum Teil ein Problem dar. In fast allen

3An dieser Stelle möchte ich darauf hinweisen, dass diese Problemstellung, wie schon erwähnt, von Wimmer (2005) formuliert wurde. Selbstverständlich stellen feminine Formen kein Problem dar und meiner Meinung nach wäre es ebenso möglich, die maskulinen Formen im Zusammenhang mit dem Taggen zu problematisieren. Da dies jedoch eine gesonderte Diskussion unter Berücksichtigung von Genderaspekten erfordern würde, möchte ich hier nicht näher darauf eingehen.

Fällen handelt es sich dabei um Nomen, die entweder nur in der einen oder in der anderen Variante verwendet wurden. Es wurde das Wort Erzieherin geäußert, nicht aberErzieher. Oder es kam zu Äußerungen wie Krieger, nicht aberKriegerin. In diesen Fällen, in denen also die Verwendung der femininen oder maskulinen Form möglich ist, aber nur eine Form genutzt wurde, wurde diese Form auch nach der Lemmatisierung beibehalten.

Interpretation Hinsichtlich der Interpretation der Type-Token-Ratio suggeriert Wimmer zwei Möglichkeiten:

i) Das Verhältnis ist charakteristisch für die Vielfalt des Wortschatzes eines Textes.

ii) Das Verhältnis ist ein Modell des Informationsflusses im Text.

Der erste Fall (i) ist nur möglich, wenn die Type-Identifikation laut Punkt ii) (Abschnitt 4.1) stattgefunden hat. Wenn man annimmt, dass dies so geschehen ist, dann wird das Verhältnis der Types zu den Tokens durch einen Index oder eine Kurve charakterisiert werden. Es ist zudem bekannt, dass mit steigender Textlänge das Ansteigen neuer Wörter verlangsamt ist. Folglich müssen die Indizes relativiert werden und diese Umstände veranlassen die Entwicklung von immer neuen Indizes oder einer Transformation bereits bestehender Indizes, so Wimmer. Demnach seien einige Indizes irrelevant. Dies betreffe auch Graphen, die das Ansteigen neuer Wörter beschreiben (dargestellt in ihrer logarithmischen Form). Aufgrund dieser Mathematisierung würde man sich in einigen Fällen der Unendlichkeit nähern, was linguistisch gesehen nicht möglich ist. Wimmer erläutert, dass Mathematiker daraufhin Abhilfe schafften und eine Annäherung gegen einen finiten Wert erlangten. Eine Möglichkeit war es, den Graphen einfach an der Stelle abzubrechen, an welcher der Text zu Ende ist. Dieser Vorgang wurde dann als Vielfalt des Wortschatzes eines Autors bezeichnet. Tatsache sei jedoch, so Wimmer, dass sich alle Texte eines Autors unterschiedlichen Punkten nähern. Folglich sei jegliche Prognose illusorisch. So kenne jede erwachsene Person fast alle Wörter ihrer Sprache, auch wenn sie diese nicht alle verwendet. Der Unterschied bestehe in einigen tausend Wörtern, die man nur in speziellen Wörterbüchern findet. Um ihre Hypothese zu stützen nehmen Mathematiker an, dass der Punkt der Annäherung die Anzahl jener Wörter meint, die der Autor für seine eigenen Zwecke einbaut, um seinen Text zu schreiben. Wimmer (2005) steht dieser Behauptung mit Skepsis gegenüber und betitelt die Bezeichnung der Type-Token-Ratio als eine Messung der Wortschatzvielfalt als Fehlbezeichnung. Bestenfalls könne die

Type-Token-Ratio als Messung der Wortschatzvielfalt in einem Text fungieren ([Wimmer (2005)], S. 362).

Laut Wimmer ist Fall ii) korrekt. In ihrer Begründung zu dieser Entscheidung schreibt sie, dass in einem Text immer Information übermittelt wird. Eine Möglichkeit dies zu tun, sei es, neue Wörter einzubringen oder alte Wörter auf unterschiedliche Weisen zu kombinieren. In didaktischen Texten fließe die Information langsamer, weil Wiederholungen notwendig sind; in lyrischen Texten hingegen fließe die Information schneller, weil Wiederholungen vermieden werden. Ein Transfer der Information bedeute, dass der Sprecher oder Schreiber ein Wissenssystem in den Hörer einbaut, das dem eigenen sehr ähnlich ist und das zwei Dinge benötigt -Inputerhaltung und Inputinformation. Die Inputerhaltung besteht laut Wimmer aus Wiederholungen bekannter Wörter oder ihrer Rekombinationen, die lediglich die Anzahl der Tokens erhöhen. Die Inputinformation erhöht die Anzahl der Types, schafft neue Beziehungen im Wissensystem und erweitert es. Folglich sei die Erhaltung regulierend und stabilisierend, die Information selbstorganisierend.

Trotz der Kritik Wimmers, Möglichkeit i) der Interpretation sei zu einigen Teilen Unsinn, wird sie (zumindest teilweise) in dieser Arbeit angewendet.

Allerdings muss betont werden, dass die untersuchten Daten vorher adäquat aufbereitet wurden - sowohl von Hand als auch mit Hilfe von Programmen.

Sofern dies geschehen ist, ist laut Wimmer auch eine Interpretation nach Möglichkeit i) zulässig.

Messung Hinsichtlich der Messung der Type-Token-Relation zeigt Wimmer (2005) drei Methoden auf:

i) Der Position jedes Tokens (x) wird die Anzahl der Types (y) bis zu dieser Position zugeordnet.

Dies sei die gebräuchlichste Methode, die wiederum einen monoton steigenden Graphen generiert (<token, type>).

ii) Das Dividieren der Anzahl der Types bis zur Position x durch die Position selbst.

Dies ergebe eine monoton fallende Funktion (<token, type/token>).

iii) Die Köhler-Galle-Methode ([Köhler und Galle (1993)]) T T Rx= tx+T − ^xT_N

wobei: x = Position im Text (Anzahl von Tokens bis zu dieser Position x),

tx = Anzahl von Types bis zur Position x (inkl.), T = Anzahl von Types im gesamten Text, N = Textlänge (Anzahl von Tokens im gesamten Text); <x, TTRx>.

Methode i) ist für die zu analysierenden Daten dieser Arbeit nicht praktikabel, da es sich um annähernd 30.000 Tokens handelt.⁴Auch Methode iii) erschien für die hier vorliegenden Daten nicht passend zu sein, da es sich um gesprochene Daten handelt, die nur schwer in eine bestimmte Textlänge umgerechnet werden können. Vielmehr wurde aus praktikablen Gründen Methode ii), wenn auch in abgewandelter Form, durchgeführt.

Entwicklung und Modellierung Wimmer beschreibt drei Annäherungen, um die Type-Token-Ratio eines Textes zu beschreiben:

1) Entwurf eines Index’, der den Wortschatz eines Textes beschreibt.

In der Mehrheit werde dabei die Lexemanzahl und die Textlänge (Token-Anzahl) berücksichtigt. Aber auch eine spezielle Häufigkeitsklasse (z. B. Hapax Legomena) oder die gesamte Verteilung der Lexeme können Berücksichtigung finden. Dieser Art sind beispielsweise die Arbeiten von Ejiri et al. (1993) oder Yule (1944), so Wimmer ([Ejiri und Smith (1993)]; [Yule (1944)]).

2) Entwurf eines Graphen, der den Informationsfluss eines Textes erfasst.

3) Ausgehend von einem statistischen Prozess werden neue Wörter generiert und die Ergebnisse für unterschiedliche Zwecke verwendet (Wortschatzreichtum, Prognosen, Type-Token-Ratio, Häufigkeitsverteilungen).

Tatsache sei, dass all diese Hinweise, Graphen, Verteilungen etc. akzeptabel sind. Problematisch ist das, was wir erfassen wollen und welche theoretische Tiefe wir erreichen möchten ([Wimmer (2005)], S. 364).

Je nach verwendeter Methode müssen laut Kauschke (2000) entsprechende Effekte berücksichtigt werden, die bei der Interpretation zu Tage treten ([Kauschke (2000)], S. 83). Des Weiteren sollte vor allem aufgrund unterschiedlicher Methoden von einem Vergleich mit den Ergebnissen anderer Studien Abstand genommen werden. Demzufolge sei die TTR besonders der Sprechfreudigkeit sowie der allgemeinen Produktivität

4Eine beispielhafte Übersicht findet sich in dem von Wimmer (2005) verfassten Paper ([Wimmer (2005)], S. 363).

des jeweiligen Kindes unterworfen, wodurch es zu Einbußen bei der Aussagegenauigkeit kommen kann.

Trotz aller Kritik an der Berechnung der TTR soll diese in der vorliegenden Arbeit im weiteren Verlauf zu einem kleinen Teil ermittelt werden (Abschnitt 6.2.3). Zum einen aus purer Neugier meinerseits, welche Ergebnisse zu Tage treten; zum anderen bin ich daran interessiert, ob sich bei den Kindern in den drei Altersguppen Unterschiede auftun.

In Bezug auf qualitative Beschreibungen des kindlichen Lexikons wurde in Kapitel 3 bereits auf die Wortarten eingegangen. Demnach beinhaltet die Analyse qualitativer Aspekte in dieser Arbeit die Identifizierung jener Wortarten, welche die Kinder im untersuchten Zeitraum verwendeten. Des Weiteren wird im Anschluss daran eine Veranschaulichung der Verteilung dieser Wortarten unter unterschiedlichen Gesichtspunkten vorgenommen. In Kapitel 7 werden alle Lemmata nach semantischen Kriterien kategorisiert.

Zusätzlich wird im Abschnitt 7.2 eine Analyse der inhaltlichen Kategorien Nomen, Verb, Adjektiv und Adverb sowie im Abschnitt 7.3 der Funktionswörter vorgenommen. Abschließend wird ein Lexikon des Vorschulalters auf der Basis aller zuvor getätigten Analysen erstellt.

Im Dokument Lexikalischer Spracherwerb im Vorschulalter (Seite 47-59)