Zählen und Erzählen - Zur Anwendung statistischer Verfahren in der Textlinguistik

(1)

Die Bedeutung statistischer Verfahren für die Linguistik ist umstritten und derart geeig- net, zum Forumsthema zu werden. Diese Eignung leitet die Redaktion weniger aus Häu- figkeitseindrücken denn aus grundlagentheoretischen Überlegungen her. Sie wird dem als Auftakt abgedruckten Artikel von Ulrich Schmitz weitere, namentlich auch „polarisieren- de" Beiträge folgen lassen.

Ulrich Schmitz

Zählen und Erzählen -

Zur Anwendung statistischer Verfahren in der Textlinguistik

Versucht man, sich der Eigenart einzelner Texte auf statistische Weise zu nähern, so bleibt das Verhältnis von Aufwand und Ertrag auf jeder Stufe fragwürdig.

Ausgehend von praktischen Erfahrungen aus der Un- tersuchung eines mittelgroßen Textes wird diskutiert, in welchem Sinne statistische Verfahren zur qualitativen Analyse individueller Texte beitragen könnten.

L Einleitung

Unzufrieden mit der gegenseitigen Abschottung hermeneutischer und linguistischer Interessen¹, haben wir uns eine möglicherweise unlösbare Aufgabe in den Kopf gesetzt. Am Beispiel der „Tagesschau" wollen wir herausbekommen, mit welchen sprachlichen Mitteln welche Vorstellungen von Wirklichkeit aufgebaut werden.² Im folgenden sollen aus diesem Vorhaben einige Erfahrungen beim Umgang mit statistischen Verfahren mitgeteilt werden.³

Bekanntlich stellen die Wissenschaften zahlreiche Möglichkeiten bereit, wil- des Denken (das sich durch übergroße Fragen auszeichnet) methodisch zu zäh-

1 Vgl. Jakobson (1974: 163): „Die philologische Hermeneutik ganzer Texte tritt all- mählich in den Gesichtskreis der Sprachwissenschaft".

2 Mit Schulz (1976: 28) gehen wir davon aus, „daß Nachrichten ,Realität' eigentlich konstituieren".

3 Man erwarte also keine systematische Diskussion über Gegenstand, Theorie und Methodik der linguistischen Statistik (vgl. etwa Frumkina 1973, Guiraud 1959, Hoff- mann/Piotrowski 1979) bzw. einer empirisch orientierten Textwissenschaft (vgl. Bergen- holtz/Schaeder Hg. 1979).

Zeitschrift für Sprachwissenschaft 2,1 (1983), 132-143

(2)

men. Mit der deskriptiven und analytischen Statistik verfügen wir über eines der masochistischsten, aber deswegen nicht unbedingt erkenntnisträchtigsten In- strumente zur Unterwerfung der individuellen Urteilskraft unter die Bedingun- gen intersubjektiver Überprüfbarkeit. Wie alle Verfahren des Denkens unterstellt sie vorab schon eine bestimmte Art, den fraglichen Gegenstand aufzufas- sen. In dem Maße, wie die von der Methode implizierte Sichtweise nicht mit den wahren Eigenschaften des ganzen Gegenstandes übereinstimmt, kann das Er- gebnis allenfalls fragmentarisch zur Lösung der Fragestellung beitragen.

Im Falle der Sprache steckt das Problem in der Differenz zwischen Wort und Zahl. Selbst wenn man beide gleichermaßen als Produkte des Logos auffassen wollte, was ja zusammen mit mancherlei philosophischen Traditionen (vgl. etwa Cassirer (1923/1953: 184-212)) etwa die Etymologie von zählen und erzählen nahelegt, so sind Zahlen im Gegensatz zu Worten doch auf ahistorische Ab- straktionen hin definiert⁴ (übrigens mit den Mitteln der Sprache), deren beson- derer Nutzen gerade in der Absehung vom Qualitativen liegt.⁵ Dementspre- chend kann man mit statistischen Verfahren in der Sprachwissenschaft relativ problemlos dort arbeiten, wo es entweder um Entwicklung theoretischer Model- le für allgemeine Eigenschaften des Sprachgebrauchs oder aber ohne große theo- retische Ansprüche nur um Abzählen vordefinierter sprachlicher Einheiten in laufenden Texten geht. Die meisten sprachstatistischen Arbeiten beziehen sich denn auch auf allgemeine Eigenschaften des Sprachgebrauchs (z. B. Zipf (1935), Grotjahn (1982) u.v.a.) oder auf lexikographische Fragestellungen (bes. die Arbeiten am Bonner Zeitungskorpus, vgl. etwa (mit Literatur) Schaeder (1979)), wenn sie sich nicht mit rein deskriptiven Verfahren begnügen (z.B. Krallmann (1968), Nail (1981), Ortmann (1975-1979), weitgehend auch Rohrmann (1974), Rosengren (1972-1977)). Freilich stellt sich auch hier schon stets die Frage nach dem Verhältnis von Aufwand und Ertrag.

Andererseits liegen, wie nicht anders zu erwarten, kaum analytisch-statistische Untersuchungen zur Eigenart einzelner Texte vor (vgl. Pieper (1979)). Text- statistik ist ein Faß ohne Boden. Sachlich Wünschenswertes und technisch Machbares streben gegen unendlich, nur leider in entgegengesetzte Richtungen.

Will man unübersichtliche Zahlengräber von geringem Erkenntniswert vermei- den, so wird man Arbeitsfeld und Fragestellung an fast allen Rändern mehr oder

4 „Denn die Zahl ist eben die gänzlich ruhende, tote und gleichgültige Bestimmtheit, an welcher alle Bewegung und Beziehung erloschen ist und welche die Brücke zu dem Lebendigen der Triebe, der Lebensart und dem sonstigen sinnlichen Dasein abgebrochen hat" (Hegel 1807/1970: 217).

5 So konnte falschlich der Eindruck entstehen, mathematische Verfahren dienten wohl den Wissenschaften von der als gleichförmig unterstellten Natur, stünden aber den Wissenschaften von den als je einmalig begriffenen Kulturprodukten im Wege. Nur in dem Maße, wie man — ggf. vorübergehend - deskriptivistisch auf Erkenntnis von Wahrheit verzichtet, scheint mit dem Konzept des »Zufalls* auch das Abzählen in allen Wissenschaf- ten eine gleichartige Bedeutung zu gewinnen.

(3)

minder pragmatisch begrenzen müssen. Im folgenden werden zunächst solche Einschränkungen erörtert (2), bevor nach einem Anwendungsbeispiel (3) ab- schließend diskutiert wird, in welchem Sinn statistische Verfahren dennoch im Rahmen qualitativer Beschreibungen individueller Texte eingesetzt werden könnten (4).

2. Grenzen der Textstatistik

Die Grenzen sinnvoller Anwendung textstatistischer Verfahren werden durch zwei Parameter diktiert, deren genaue Ausprägung und Tragweite im Einzelfall oft nicht vorab, sondern teils erst im aktuellen Umgang mit statistischen Metho- den und konkreten Texten abgeschätzt werden können. Wir beginnen mit den Konsequenzen der Differenz zwischen Zahl und Wort und gehen dann über zum Verhältnis von Aufwand und Ertrag.

(a) Texte stellen komplexe Gefüge von Teilen und Ganzen dar (vgl. Jakobson (1963/1971), Husserl (1913: 225ff.)), die im statistischen Zugriff notwendiger- weise auseinandergezogen werden müssen. Der Vorteil intersubjektiv verläßli- cher Genauigkeit (Rieger (1972)) (gegenüber hermeneutischer Bemühung, den Teil aus dem Ganzen und das Ganze aus den Teilen zu verstehen), ist erkauft mit Eindimensionalität der Ergebnisse, die zwar wohldefmierten, kleinen Aspekten, nicht aber dem Ganzen des Textes gerecht wird und mit gleichen Methoden auch nicht mehr rückgängig gemacht werden kann. Die Sprache der Statistik trägt einen zu mikroskopischen Blick⁶, um die ,,Einheit des Sinnes"¹ auf ihre Weise rekonstruieren zu können.

Technischer, d.h. oberflächlicher, formuliert: Texte enthalten sequentielle und dependentielle Relationen. Gezählt werden können wohl alle Abfolgen von Elementen, Abhängigkeiten zwischen Elementen jedoch nur, soweit sie zusammen mit dem Text bereits codiert wurden. In diesem Falle wäre der Text aber schon auf nichtstatistische Weise in bezug auf die jeweilige Fragestellung hinrei- chend erforscht, es sei denn, man interessierte sich für die Abfolgen von Abhän-

6 Wir formulieren hier in der Tradition des deutschen Idealismus. - Vgl. etwa Goethe (1948ff., 22: 720): „Die Zahlen sind, wie unsere armen Worte, nur Versuche, die Erschei- nungen zu fassen und auszudrücken, ewig unzureichende Annäherungen". - Goethe (1948ff., 9: 660): „Die Mathematiker sind eine Art Franzosen: redet man zu ihnen, so übersetzen sie es in ihre Sprache, und dann ist es alsobald ganz etwas anders". - Humboldt (1820/1963: 19f.): „dass die Sprachen nicht eigentlich Mittel sind, die schon erkannte Wahrheit darzustellen, sondern weit mehr, die vorher unerkannte zu entdecken. Ihre Ver- schiedenheit ist nicht eine von Schällen und Zeichen, sondern eine Verschiedenheit der Weltansichten selbst".

7 „d.i. nach welchen apriorischen Formen Bedeutungen der verschiedenen Bedeu- tungskategorien sich zu Einer Bedeutung vereinen, statt einen chaotischen Unsinn zu ergeben" (Husserl 1913: 295).

(4)

gigkeiten, die dann selbst wie einfache Elemente behandelt würden. Zählen er- faßt Elemente und blendet Strukturen aus.

Insofern können sich textstatistische Verfahren sinnvollerweise nur (deskrip- tiv) auf die Verteilung von Häufigkeiten bzw. (analytisch) auf die Wahrschein- lichkeit des Auftretens einzelner, vorab definierter Textbestandteile beziehen.

Ob und wie die Ergebnisse solcher Verfahren in die Beantwortung einer umfas- senderen Forschungsfrage integriert werden können, hängt jeweils von An- spruch und Design der betreffenden Untersuchung ab.

(b) Darüber hinaus können textanalytische Fragen nur insoweit statistisch behandelt werden, wie sie theoretisch-linguistisch exakt formuliert werden kön- nen. Diese triviale Bedingung ist in vielen Fällen freilich nicht erfüllt und kann vielleicht auch gar nicht immer erfüllt werden. Beispielsweise gibt es fürs Deut- sche keine eindeutige Abgrenzung der Wortarten voneinander, die es erlaubte, jedes vorkommende Textwort zweifelsfrei und intersubjektiv verläßlich der betreffenden Kategorie zuzuordnen. Auch die Versuche automatischer Lemmati- sierung zeigen, wie wenig genau die einschlägigen sprachwissenschaftlichen Pro- bleme oft erst behandelt worden sind bzw. nur behandelt werden können (vgl.

etwa Dietrich (1973), Rath (1971), Willee (1979)). Stärker als bei algebraischen Grammatikmodellen zeigt sich gerade gegenüber der statistischen Textanalyse der widerspenstige, „genetische" Charakter der Sprache: sie „ist etwas bestän- dig und in jedem Augenblicke Vorübergehendes. Selbst ihre Erhaltung durch die Schrift ist immer nur eine unvollständige, mumienartige Aufbewahrung" (Hum- boldt 1836/1963: (418)).

Abgesehen von solchen theoretischen Problemen gibt es aber noch (minde- stens) drei eher technische Bedingungen, welche das Anwendungsfeld für statistische Verfahren bei der Textanalyse einschränken.

(c) Die Textelemente selbst (z.B. Wörter) - im Gegensatz zu einigen ihnen äußerlich zukommenden Eigenschaften (z. B. Wortlänge: Verhältnisskala; Posi- tion im Satz oder Text: Ordinalskala) - werden auf einer Nominalskala gemessen. Dafür können aber in der deskriptiven Statistik nur die am wenigsten infor- mationshaltigen Parameter - Modus für die Lage, Häufigkeitsverteilung für die Streuung und der nur mit einigem Aufwand vollständig zu berechnende (vgl.

Sachs 1978: 371f; SPSS (Beutel u.a. 1978: 114) liefert nur den nicht korri- gierten Wert) Kontingenzkoeffizient für die Korrelation - und in der analytischen Statistik nur einige wenige Schätz- und Entscheidungsverfahren verwendet werden (es sei denn, man konstruierte das zu untersuchende Merkmal dicho- tom, indem man z. B. ein einzelnes Wort der Menge aller anderen Wörter gegen- überstellt, was in der Regel aber wenig Sinn macht).

(d) Ein untersuchter Text muß sehr groß und genügend differenziert sein, um sinnvoll zu verrechnende Daten liefern zu können. In unserem Corpus mit gut 54000 Wörtern, was einem Taschenbuch von etwa 140 Seiten entspricht, kommen z.B. nur 60 Wortformen (types) mehr als je einhundertmal vor (tokens).

Rangfolgenvergleiche mit großen Häufigkeitswörterbüchern, statistische Tests

(5)

u. ä. stoßen hier früh an die Grenzen ihrer Leistungsfähigkeit. (Als „repräsenta- tiv" für anderes als sich selbst kann ohnehin auch ein noch so großer Text nicht gelten, weil die jeweilige Grundgesamtheit nur als hypothetische definiert werden kann, meistens unendlich groß ist und weil gewöhnlich nicht ohne weiteres ein konstanter Bedingungskomplex unterstellt werden kann, der die Merkmals- träger der Grundgesamtheit produziert (vgl. dazu auch Rieger (1979: 58-68)).

Ein langer Text will aber erst einmal codiert und in eine maschinenlesbare Form gebracht werden.

Damit sind wir schon beim Verhältnis von Aufwand und Ertrag in der statistischen Textanalyse.

(e) Fast alle statistischen Verfahren und die meisten Modelle wurden im Rah- men natur- und sozialwissenschaftlicher Fragestellungen entwickelt. Sie passen nicht ohne weiteres zum Gegenstand Sprache bzw. Sprechtätigkeit und laden bei sprachwissenschaftlicher Übertragung zu Fehlern ein. Lehrbücher für linguistische Statistik beschränken sich in der Regel auf Einführungen in die Grundlagen der allgemeinen Statistik und geben höchstens mehr oder minder interessante sprachbezogene Anwendungsbeispiele (Altmann (1980), Muller (1972), Nikito- poulos (1973)). Auch prominente Forschung zeichnet sich nicht selten durch grundlegende Mängel oder Fehler aus.⁸ In dieser Situation kann man sich entweder um die Entwicklung neuer statistischer Verfahren oder Modelle aus dem Geiste sprachwissenschaftlicher Fragestellungen kümmern (z.B. Altmann Hg.

(1978), Grotjahn Hg. (1980), Herdan (1966)) oder man kann sich in seinen dann beschränkten Fragestellungen von den Implikationen existierender allgemein- statistischer Verfahren leiten lassen.

Entscheidet man sich, wie hier geschehen, für letzteres, so wird man sich weiterhin angesichts der (nicht selten im Unterschied zu sozial- und naturwissen- schaftlichen Problemen) bei textstatistischen Untersuchungen nötigen erhebli- chen Datenfülle auf solche Verfahren beschränken müssen, die maschinell ver- fügbar sind. Sonst bliebe die Arbeit schon in der Programmierung von Details stecken, jedenfalls wenn es sich nicht um ein Großforschungsprojekt handelt.

Ich gebe ein Beispiel. Die selten - und nur in Psychologie und Medizin - erprobte Konfigurationsfrequenzanalyse (Krauth/Lienert (1973)) könnte vermutlich aussagekräftige und sprachwissenschaftlich interessante Posthoc-Klas- sifikationen z.B. von Sätzen oder anderen Textabschnitten liefern, wenn man die in ihnen vorkommenden Wortarten, Wortklassen, Morpheme o. ä. als Merk- malsausprägungen definierte. Dafür, daß das zu erwartende Ergebnis nur eine weitere Facette zur gesamten Fragestellung beitragen kann, übersteigt der Zeit-

8 Mängel: z. B. ungenügend begründete und zu kleine Textauswahl, zu ungenau mit- geteilte Definition untersuchter Variablen, redundante bzw. fehlende statistische Kenn- werte, allzu große Lücken zwischen empirischem Befund und theoretischer Interpretation etwa bei Böhm u. a. (1972). Fehler: Das „Zipfsche Gesetz" ist kein Gesetz im eigentlichen Sinne, „the ,rank^c not being a linguistic variable at all, but only a mathematical transfor- mation of the occurrence frequency" (Herdan 1962: 61).

(6)

aufwand für eine linguistischen Wünschen gerecht werdende Ausarbeitung, Pro- grammierung und Ausführung - vermutlich über 1000 Arbeitsstunden - die realistischen Möglichkeiten eines nicht institutionalisierten Projekts. Manuelle Auswertungen verbieten sich angesichts der (auch bei Zufallsstichproben not- wendigen) Datenfülle ohnehin.

3. Beispiel: Ungleichverteilung

An einem Anwendungsbeispiel sollen nun Aufwand und Reichweite statistischer Verfahren zur Diskussion gestellt werden. Unser Corpus umfaßt den Text der Hauptausgaben der „Tagesschau" vom Januar 1978 (ohne Wetterbericht;

54180 Wörter). Er verteilt sich auf sieben Textsorten, die von drei verschiedenen Textproduzenten stammen (Redaktion 54%, Korrespondenten 33%, medienex- terne Persönlichkeiten 13%). 34 verschiedene Themenbereiche werden ange- sprochen, die zu sieben einigermaßen gleich großen Hauptthemenbereichen zu- sammengefaßt werden können (Außereuropa 11%, Nahost 10%, Europa 13%, deutsch-deutsche Beziehungen 14%, Bundesrepublik: Wirtschaft und Soziales

14%, Bundesrepublik: Innenpolitik 19%, Nonpolitics 18%).

Mithilfe des Chi-Quadrat-Tests - vgl. Bortz (1977: 189-193), Sachs (1978:

252-255); linguistische Anwendung bei Deutlich (1974); hier errechnet nach Beutel u.a. (1978:138f.) am RRZK in Köln - läßt sich nun etwa feststellen, wie gleichmäßig beliebige Textbestandteile nach verschiedenen Textdimensionen (z.B. Tag, Sorte, Thema) verteilt sind. Ein Signifikanzniveau des Chi-Quadrat- Wertes von l würde bedeuten, daß sich die tatsächliche Häufigkeitsverteilung des fraglichen Textelements in der untersuchten Textdimension exakt mit der erwarteten Verteilung deckt. Als erwartete Häufigkeiten gelten die Verteilungen aller Textelemente (z. B. Wörter) auf die jeweilige Textdimension, in chronologischer Hinsicht beispielsweise also das proportionale Verhältnis der Wortanzah- len jeder einzelnen „Tagesschau"-Sendung. Ein Signifikanzniveau (Irrtums- wahrscheinlichkeit) nahe an 0 bedeutet umgekehrt, daß in den einzelnen Aus- prägungen der Dimensionsvariablen erheblich mehr bzw. weniger der fraglichen Textelemente vorkommen, als der Umfang des entsprechenden Textabschnittes erwarten ließe.

Funktionswörter (Präpositionen, Konjunktionen, andere Partikeln, Artikel, Pronomen, Hilfsverben und Modalverben (aufzählend definiert)) stellen knapp 46% unseres Textes. In chronologischer Hinsicht scheinen sie sich ziemlich gleichmäßig, auf die Textsorten und Themenbereiche hingegen recht ungleich- mäßig zu verteilen. Die Signifikanz von² für ihre Verteilung auf die vierein- halb Wochen beträgt nämlich 0.789, für die Verteilung auf die sieben Textsorten 0.000, auf die sieben Hauptthemenbereiche 0.089 und auf die 34 Einzelthemen 0.074. Wollten wir Prognosen wagen, so könnten wir beispielsweise sagen, die

(7)

Irrtumswahrscheinlichkeit der (Alternativ-)Hypothese, daß die Menge aller Funktionswörter ungleich über die 34 thematisch in sich geschlossenen Teilcor- pora verteilt ist, betrage weniger als 7,4%.

Gemessen an linguistischen Kriterien sind die Standards des Chi-Quadrat- Tests allerdings ziemlich streng. Die in Sozial- bzw. Naturwissenschaften übli- chen Erwartungen (s. z.B. Sachs (1978: 90-92)) an Signifikanzniveaus können daher nicht ohne weiteres übernommen werden. Betrachtet man zum Beispiel die Verteilung der Artikel (14% des ganzen Corpus) auf die sieben Textsorten (Signifikanz 0.006) im einzelnen, so weicht die kleinste beobachtete Häufigkeit um 19%, die zweitkleinste um 13% und weichen die anderen fünf um 3% oder weniger von den bei Gleichverteilung zu erwartenden Häufigkeiten ab. Bei der Verteilung aller Funktionswörter ohne verbale Funktoren (39% des Corpus) auf die sieben Hauptthemenbereiche (Signifikanz 0.169) betragen die relativen Ab- weichungen zwischen 0,7% und 5,4%. Hunderte von Tests an unserem gesamten Material legen nahe, daß - anders als bei sozial- oder gar naturwissenschaftli- chen Fragestellungen - Signifikanzniveaus über 0.1 oder 0.2 in der Regel eine in linguistischer Hinsicht recht hohe Anpassung an die erwartete Häufigkeitsver- teilung anzeigen, während gewöhnlich erst Werte sehr nahe an 0.00 interessante Abweichungen erwarten lassen.

Vor diesem Hintergrund zeigen sich erhebliche Verteilungsunterschiede zwischen verschiedenartigen Textelementen, insbesondere zwischen verschiedenen Wortarten bzw. Wortgruppen. Zu Demonstrationszwecken betrachten wir hier nur FunktionsWörter und Eigennamen bzw. eigennamenähnliche Wörter.

Eigennamen und eigennamenähnliche Wörter⁹ (13% des Corpus) sowie alle zehn untersuchten Untergruppen (z. B. Namen für Sachen, Personen, Institutio- nen, geographische Einheiten) sind jeweils in allen oder - selten - fast allen Textdimensionen extrem ungleich verteilt. Nur acht von sechzig in Betracht kommenden Werten weichen von 0.000 ab, nur vier davon liegen über 0.05. Im Gegensatz dazu, etwas weniger ausgeprägt auch im Gegensatz zu vielen anderen Wortgruppen bzw. Wortarten, sind die Funktionswörter sowie zwei Drittel der sinnvoll zu bildenden Teilmengen davon jedenfalls in chronologischer Hinsicht, also quer durch die 31 thematisch ja recht verschieden gemischten Sendungen, mehr oder weniger gleichmäßig verteilt (0.166 ^ ^ 0.923).

Diese Tatsache unterstreicht die Gültigkeit ihrer Bestimmung als derjenigen Wörter, die in erster Linie strukturelle Funktionen im Satz erfüllen, ohne selbst über eine eindeutig ausgeprägte lexikalische Bedeutung zu verfügen. Freilich gibt es Abstufungen und Ausnahmen, welche eine allzu strikte Abgrenzung zwischen Funktionswörtern und „Bedeutungswörtern" fragwürdig machen und die intuitiv plausible These unterschiedlicher Grade an struktureller Funktionalität

9 in einem sehr weiten Sinne von echten Eigennamen über Institutionsbezeichnungen bis zu geographischen Adjektiven, aber streng nach zehn Gruppen und zahlreichen Unter- gruppen aufzählend definiert

(8)

nahelegen. Präpositionen mit Konjunktionen (0.923), Hilfsverben (0.808) und Artikel (0.681) rangieren ganz oben, während die Pronomen (0.000), unter ihnen insbesondere auch die Personal- und Possessivpronomen (0.000) sowie die De- monstrativpronomen (0.061) - ganz im Gegensatz zu den Indefinitpronomen (0.559) -, aber auch die Modalverben (0.006) besonders niedrige Werte, d.h.

hohe Signifikanzen, erreichen.

Die durchweg niedrigen Signifikanzen für die Verteilung der Funktionswörter und ihrer Teilmengen auf die verschiedenen Textsorten (großenteils = 0.000) lassen sich, ganz im Gegensatz zu denen der Eigennamen, auf wenige Ursachen zurückfuhren. Die beiden „Tagesschau"-Sprecher (On und Off) gebrauchen 5%

weniger Funktionswörter, insbesondere viel (24%) weniger Pronomina und (11%) verbale Funktoren, als rechnerisch zu erwarten wäre, auch wenn der Erste Sprecher (3%) mehr Artikel verwendet. Entsprechend tauchen in den Korre- spondentenberichten und Interviewfragen etwas (1%) sowie in den Interview- antworten, Redeausschnitten und Statements viel mehr (18%) Funktionswörter auf. Pronomina häufen sich in Interviewfrage (81% mehr), Interviewantwort (92% mehr) und Redeausschnitt/Statement (86% mehr). Verbale Funktoren sind auch bei Korrespondenten leicht unter- (2%), bei Befragten und Rednern hingegen deutlich überrepräsentiert (52%). Schließlich kommen in Interviews und Statements (15% bzw. 3%) mehr Artikel vor, als man bei Annahme völliger Gleichverteilung erwarten müßte. Der Haupt unterschied, nämlich zwischen dem redaktionell verantworteten Sprechertext einerseits und dem Interview (besonders der Interviewantwort) und dem Redeausschnitt bzw. Statement andererseits, läßt sich wohl so erklären, daß ersterer mehr Inhalt (also weniger Funk- tionswörter, insbesondere etwa Eigenname statt Pronomen) pro Sprachquan- tum mitzuteilen bemüht ist, als das in freier Rede möglich wäre.

Die Ungleichverteilungen der Funktionswörter auf die Themenbereiche lassen sich, auch wieder anders als bei den Eigennamen, großenteils aus den unter- schiedlich großen Anteilen der Textsorten an den thematisch in sich geschlossenen Teilcorpora erklären. Insbesondere daß bei den drei deutschen Themenbe- reichen etwas mehr, bei den drei internationalen und dem nichtpolitischen Be- reich dagegen etwas weniger Funktionswörter verwendet werden, als völlige Gleichverteilung erwarten ließe (Abweichungen zwischen 1% und 5%), dürfte hauptsächlich auf den nachgewiesen hohen Anteil an Interviews und Statements bei den deutschen Themen zurückzuführen sein.

Was zeigen nun solche mit erheblichem Aufwand¹⁰ gefundenen und hier nur kursorisch vorgestellten statistischen Werte?

10 Der Text mußte vom Band geschrieben und mit sinnvollen Codes versehen, dann auf maschinell lesbare Datenträger gebracht und mehrfach korrekturgelesen werden.

Wortgruppen mußten eingeteilt Homographe beachtet, Programme erstellt und erprobt werden, deskriptive und dann erst analytische statistische Prozeduren durchgeführt, die Ergebnisse ausgewertet und interpretiert werden, wobei es u. a. brauchbare von sinnlosen bzw. überflüssigen Ergebnissen zu unterscheiden galt usw.

(9)

4. Fazit

Die einzelnen Ergebnisse sind für sich genommen vermutlich recht uninteres- sant. Erst eine sinnvoll ausgewählte und interpretierte, dabei große Menge auf- einander beziehbarer Werte erlaubt es, untersuchenswerte Hypothesen abzusi- chern bzw. zu formulieren. In der Fluchtlinie unseres Beispiels liegen etwa Indi- zien für typische Textsortendifferenzen sowie für das Verhalten von Wortarten, die textlinguistische bzw. grammatiktheoretische Kontroversen (z.B. über Ei- genarten von Textsorten bzw. über die Abgrenzung grammatischer Kategorien) aufgrund empirischer Daten zu entscheiden oder präziser zu formulieren helfen.

Die Divergenz linguistischer Methoden, die sich aus der begrifflichen Unter- scheidung von langue und parole ergibt, könnte in dem Maße gemildert werden, wie subjektive Urteilskraft und objektive Verfahren einander auf die Sprünge hülfen. Vielleicht verhalten sich ,Zählen' und ,Erzählen' wie der Blinde und der Lahme in der Wissenschaft.

Zusammen mit allgemein-linguistischen Informationen liefern statistisch- textlinguistische Untersuchungen auch Hinweise auf die besondere Eigenart einzelner Texte. Um diese von jenen einigermaßen trennscharf unterscheiden zu können, bedarf es sowohl hermeneutischer Fähigkeiten als auch möglichst ver- gleichbarer (ähnliche Ziele und Standards anerkennender) Untersuchungen an verschiedenen Texten. Derzeit kann man sich also nur tentativ vortasten.

Auch noch aus einem anderen Grunde bewegt sich, wer (nichtästhetische) Spezifika einzelner Texte intersubjektiv möglichst nachprüfbar herausarbeiten will, in einem Dilemma. Der erheblich prozedurale Aufwand, der - nicht nur aufgrund der geringen Erfahrungen auf diesem Gebiet -jeweils getrieben werden muß, wird durch die Ergebnisse allenfalls dann gerechtfertigt, wenn zahlreiche Aspekte und Detailfragen an einem Text zugleich untersucht werden. (Vor- bereitungen und Abfallprodukte einer Detailuntersuchung liefern einen großen Teil der technischen Voraussetzungen für die Untersuchung anderer Details: die Untersuchung von Eigennamen setzt die Sichtung aller Nicht-Eigennamen vor- aus, einmal entwickelte Programme können mehrfach verwendet oder brauchen nur leicht modifiziert zu werden usw.) Damit gerät der Untersucher in den Risi- ko-Rausch des Spielcasinos: je mehr der Verlierer im kleinen sich in gleicher Richtung engagiert, mit desto geringerem Aufwand scheinen immer größere Erfolge möglich, desto fragwürdiger wird aber auch die eingeschlagene Strategie und damit der Sinn des immer steigenden Gesamteinsatzes.

Denn je mehr Aspekte eines Textes unter wechselseitiger Beziehung aufeinan- der untersucht werden sollen, desto schwieriger wird die Organisation der inne- ren Arbeitsteilung, desto leichter verliert man den Überblick. Mit anderen Wor- ten : Konzentriert man sich auf die solide Untersuchung abgezirkelter Einzelfra- gen, so rechtfertigt das zwar exakte, aber wenig aussagekräftige Ergebnis nicht den dafür unvermeidlichen enormen Aufwand des Verfahrens. Soll umgekehrt der technische Aufwand auch zu vergleichsweise ergiebigen Resultaten führen,

(10)

so gerinnt die eingangs vielleicht wohldeflnierte Fragestellung zunehmend zu unscharfen Interessen. Der analytische Scharfblick richtet sich aufs Uferlose.

Damit tun sich freilich eher Ungewisse Eigenschaften der menschlichen Sprechtätigkeit auf, als daß statistische Prozeduren selbst fragwürdig würden.

Daß der statistische Zugriff seinen Gegenstand prinzipiell als Menge abzählba- rer Elemente auffaßt, ist zugleich seine Stärke wie seine Schwäche. Stark ist er hinsichtlich des Grades an Genauigkeit und intersubjektiver Überprüfbarkeit seiner Ergebnisse; schwach ist er, insofern in der Sprache das Ganze mehr ist als die Summe ihrer Teile. Das Mißverhältnis von Aufwand und Ertrag in der Textstatistik hat seinen Grund also in der Differenz zwischen Wort und Zahl.

Literaturnach weis

[Altmann 1980] Altmann, Gabriel: Statistik fiir Linguisten. - Bochum: Brockmeyer 1980.

= Quantitative linguistics. 8.

[Altmann Hg. 1978] Glottometrika. L Ed. by G. Altmann. - Bochum: Brockmeyer 1978.

[Bergenholtz/Schaeder Hg. 1979] Empirische Textwissenschaft. Aufbau und Auswertung von Text-Corpora. Hrsg.: Henning Bergenholtz, Burkhard Schaeder. - Königstein/Ts.:

Scriptor 1979.

[Beutel u. a. 1978] Beutel, Peter/Küffner, Helmuth/Röck, Ernst/Schubö, Werner: SPSS 7.

Statistik-Programm-System ßir die Sozialwissenschaften. - Stuttgart & New York:

Gustav Fischer 1978.

[Böhm u a. 1972] Böhm, Stefan/Koller, Gerhard/Schönhut, Jürgen/Straßner, Erich:

Rundfunknachrichten. Sozio- und psycholinguistische Aspekte. - In: Sprache und Gesellschaft. Hrsg. und eingeleitet von Annamaria Rucktäschel. - München: Fink

1972. S. 153-194.

[Bortz 1977] Bortz, Jürgen: Lehrbuch der Statistik Für Sozialwissenschaftler. ~ Berlin &

Heidelberg & New York: Springer 1977.

[Cassirer 1923/1953] Cassirer, Ernst: Philosophie der symbolischen Formen. Erster Teil:

Die Sprache. 2. Aufl. - Darmstadt: Wiss. Buchgesellschaft 1953.

[Deutlich 1974] Deutrich, Karl-Helge: Zur statistischen Absicherung mit dem Chi- Quadrat-Test. (= Exkurs zu: Elmauer, Ute/Müller, Rolf: Belegung der Freiburger Forschungshypothese über die Beziehung zwischen Redekonstellation und Textsorte).

- In: Gesprochene Sprache. - Düsseldorf: Schwann 1974. S. 121-128. (= Sprache der Gegenwart. 26).

[Dietrich 1973] Dietrich, Rainer: Automatische Textwörterbücher. Studien zur maschinellen Lemmatisierung verbaler Wortformen des Deutschen. - Tübingen:

Niemeyer 1973.

[Frumkina 1973] Frumkina, R.M.: Die Anwendung statistischer Methoden in der Sprachforschung. - In: Sprachstatistik. Hrsg. von P. M. Alexejew, W. M. Kalinin, R. G.

Piotrowski. Übers, von einem Kollektiv unter Leitung von Lothar Hoffmann. - München & Salzburg: Fink 1973. S. 272-298.

[Goethe 1948 ff.] Goethe, Johann Wolfgang: Sämtliche Werke. (Artemis- Gedenkausgabe). - Zürich: Artemis 1948ff.

[Grotjahn 1982] Grotjahn, Rüdiger: Ein statistisches Modell für die Verteilung der Wortlänge. - In: Zeitschrift für Sprachwissenschaft l (1982), 44-75.

(11)

[Grotjahn Hg. 1980] Glottometrika. 2. Ed. by R. Grotjahn. - Bochum: Brockmeyer 1980.

[Guiraud 1959] Guiraud, Pierre: Problemes et methodes de la statistique linguistique. - Dordrecht: Reidel 1959.

[Hegel 1807/1970] Hegel, Georg Wilhelm Friedrich: Phänomenologie des Geistes. In: H', G' W F': Werke in zwanzig Bänden. Hrsg. Eva Moldenhauer und Karl Markus Michel. Bd.3. - Frankfurt/M.: Suhrkamp 1970.

[Herdan 1962] Herdan, Gustav: The calculus of linguistic observations. - 's-Gravenhage:

Mouton 1962.

[Herdan 1966] -: The advanced theory of language as choice and chance. - Berlin &

Heidelberg & New York: Springer 1966.

[Hoffmann/Piotrowski 1979] Hoffmann, L./Piotrowski, R.G.: Beiträge zur Sprachstatistik. - Leipzig: Verlag Enzyklopädie 1979.

[Humboldt 1820/1963] Humboldt, Wilhelm von: Ueber das vergleichende Sprachstudium in Beziehung auf die verschiedenen Epochen der Sprachentwicklung. - In: (Humboldt

1963), S. 1-25.

[Humboldt 1836/1963] -: Ueber die Verschiedenheit des menschlichen Sprachbaues und ihren Einfluss auf die geistige Entwicklung des Menschengeschlechts. - In: (Humboldt 1963), S. 368-756.

[Humboldt 1963] -: Werke in fünf Bänden. 3: Schriften zur Sprachphilosophie. Hrsg. von Andreas Flitner und Klaus Giel. - Darmstadt: Wiss. Buchgesellschaft 1963.

[Husserl 1913] Husserl, Edmund: Logische Untersuchungen. Bd II/l. 2. Aufl. -Tübingen:

Niemeyer 1913.

[Jakobson 1963/1971] Jakobson, Roman: Parts and wholes in language. - In: J', R':

Selected writings. . - The Hague: Mouton 1971. S. 280-284.

[Jakobson 1974] -: Die Linguistik und ihr Verhältnis zu anderen Wissenschaften. - In: J', R': Aufsätze zur Linguistik und Poetik. Hrsg. von Wolfgang Raible. - München:

Nymphenburger 1974. S. 150-224.

[Krallmann 1968] Krallmann, Dieter: Stilistische Textbeschreibung mit statistischen Methoden. - In: Nicht-numerische Informationsverarbeitung. Beiträge zur Behandlung nicht-numerischer Probleme mit Hilfe Digitalrechenanlagen. Hrsg. von Rul Gunzenhäuser. - Wien & New York: Springer 1968. S. 330-345.

[Krauth/Lienert 1973] Krauth, J./Lienert, G.A.: Die Konfigurationsfrequenzanalyse (KFA) und ihre Anwendung in Psychologie und Medizin. Ein multivariates nichtparametrisches Verfahren zur Aufdeckung von Typen und Syndromen. - Freiburg &

München: Alber 1973.

[Muller 1972] Muller, Charles: Einführung in die Sprachstatistik. - München: Hueber 1972.

[Nail 1981] Nail, Norbert: Nachrichten aus Köln, London, Moskau und Prag.

Untersuchungen zum Sprachgebrauch deutschsprachiger Auslandssendungen. - Marburg: Elwert 1981.

[Nikitopoulos 1973] Nikitopoulos, Pantelis: Statistik für Linguisten. Eine methodische Darstellung. I. Teil. - Mannheim: Narr 1973.

[Ortmann 1975-1979] Ortmann, Wolf Dieter: Hochfrequente deutsche Wortformen. Bde I-IV. - München: Goethe-Institut 1975-1979.

[Pieper 1979] Pieper, Ursula: Über die Aussagekraft statistischer Methoden für die linguistische Stilanalyse. - Tübingen: Narr 1979.

[Rath 1971] Raht [recte: Rath], Rainer: Vorschläge zur Automatischen Lemmatisierung (AL) deutscher Adjektive. - In: Linguistische Berichte 12 (1971), 53-59.

[Rieger 1972] Rieger, Burghard: Warum mengenorientierte Text Wissenschaft? Zur Begründung der Statistik als Methode. - In: Zeitschrift für Literaturwissenschaft und Linguistik 2, Heft 8 (1972), 11-28.

(12)

[Rieger 1979] -: Repräsentativität. Von der Unangemessenheit eines Begriffs zur Kennzeichnung eines Problems linguistischer Korpusbildung. - In: (Bergenholtz/Schae- derHg. 1979), S. 52-70.

[Rohrmann 1974] Rohrmann, Bernd: Psychometrische und textstatistische Studien zu syntaktischen Variablen. - Hamburg: Buske 1974.

[Rosengren 1972-1977] Rosengren, Inger: Ein Frequenzwörterbuch der deutschen Zeitungssprache. 2 Bde. - Lund: CWK Gleerup 1972, 1977.

[Sachs 1978] Sachs, Lothar: Angewandte Statistik. Statistische Methoden und ihre Anwendungen. 5. Aufl. - Berlin & Heidelberg & New York: Springer 1978.

[Schaeder 1979] Schaeder, Burkhard: Zur Methodik der Auswertung von Textkorporafür die Zwecke der Lexikographie. - In: (Bergenholtz/Schaeder Hg. 1979), S.220-267.

[Schulz 1976] Schulz, Winfried: Die Konstruktion von Realität in den Nachrichtenmedien.

Analyse der aktuellen Berichterstattung. - Freiburg & München: Alber 1976.

[Willee 1979] Willee, Gerd: LEMMA - Ein Programmsystem zur automatischen Lemmatisierung deutscher Wortformen. - In: Sprache und Datenverarbeitung 3 (1979), 45-60

[Zipf 1935] Zipf, George Kingsley: The psycho-biology of language. - London: Houghton Mifflin 1935.

Eingereicht am 19.7.1982