• Keine Ergebnisse gefunden

Das Schweizer SMS-Projekt: Sammlung und Eckdaten

3.1  Das SMS-Korpus

3.1.2  Das Schweizer SMS-Projekt: Sammlung und Eckdaten

Um die in Belgien entwickelte Methodologie zur Aufbereitung und Nutzung der Korpusdaten für die internationale linguistische Forschung nutzbar zu machen, entstand das Forschungsnetzwerk ‚sms4science‘ (vgl.

Stähli/Dürscheid/Bégue-werden (vgl. ebd.: 21). Dürscheid/Stark (vgl. 2011: 301) betonen, dass der Verzicht auf eine solche Transkription die im ‚sms4science‘-Projekt verankerten Korpora einzigartig mache.

38 Diese starke Reduktion ist der Normalisierung, also der (alignierten) Übersetzung der Nach-richten in ein standardisiertes Französisch, geschuldet. Diese wurde nur an einem Teil des Kor-pus durchgeführt (vgl. Fairon/Klein/Paumier 2006: 35).

lin 2011: 3), dem auch die Schweiz angehört. Das daraus entstandene Schweizer SMS-Projekt nimmt aufgrund seiner multilingualen Ausrichtung auf alle vier offi-ziellen Landessprachen eine Sonderstellung ein und grenzt sich entsprechend von anderen SMS-Korpora ab, die den Fokus auf eine einzige Sprache (zumeist die Landessprache) legen (vgl. Dürscheid/Stark 2011: 302). Neben dem Einbezug dieser „äusseren Mehrsprachigkeit“ (Dürscheid/Spitzmüller 2006: 14) widerspie-gelt das Korpus einen weiteren Aspekt der besonderen Sprachsituation in der Deutschschweiz: Die „innere Zweisprachigkeit“, die sich durch das Nebeneinan-der von Dialekt und Standard auszeichnet (vgl. ebd.), und die sich im Korpus darin manifestiert, dass in überwiegender Zahl dialektale SMS enthalten sind (siehe unten).

Analog zur belgischen Vorgehensweise wurde die Schweizer Bevölkerung in den lokalen Medien dazu aufgerufen, der linguistischen Forschung ihre SMS zu spenden. Der Schwerpunkt der Sammelaktion lag dabei auf Nachrichten, die via Mobiltelefon – und nicht am Computer – versandt wurden, „da hier spezifische, vom Computer distinkte mediale Bedingungen gelten, die wiederum zu einem spe-zifischen Sprachgebrauch führen können.“ (Stähli/Dürscheid/Béguelin 2011: 3).

Unter der Zusicherung absoluter Anonymität39 konnten die Teilnehmen-den die von ihnen selektionierten Nachrichten an eine Gratisnummer senTeilnehmen-den.

Anschliessend erhielten sie einen Link zu einem fakultativ auszufüllenden Online-Fragebogen, mithilfe dessen Alter, Geschlecht, Wohnort, weitere soziode-mografische Daten sowie die Schreibgewohnheiten der einsendenden Personen abgefragt wurden (vgl. Dürscheid/Stark 2001: 306). Die SMS-Sammlung erfolgte in zwei Phasen: Die erste Sammelperiode, die ‚original collection‘, fand zwischen November 2009 und Februar 2010 statt. Im Mai und Juli 2011 gab es eine zweite Sammelaktion (die ‚additional collection‘) im italienischen und rätoromanischen Sprachraum, die deshalb notwendig war, weil im ersten Durchgang nur eine kleine Anzahl SMS in diesen beiden Sprachen eingegangen war. Am Ende beider Sammelperioden entstand zunächst ein Korpus von rund 27‘000 SMS, wovon allerdings einige aussortiert werden mussten, sodass das finale Korpus 25‘947 Nachrichten umfasst.40 Diese stammen von insgesamt 2784 Mitwirkenden, von denen 1316 den dazugehörigen Online-Fragebogen ausgefüllt haben. Aufgrund

39 Das Schweizer Telekommunikationsunternehmen Swisscom, das für die technische Umset-zung der Sammlung verantwortlich war, übermittelte die eingesandten SMS entsprechend ohne Angabe der Mobiltelefonnummmer an die Forschenden. Als Anreiz zur Beteiligung an der Studie gab es jede Woche einen Preis zu gewinnen.

40 Die kürzeste SMS umfasst lediglich 1 Zeichen, während die längste ganze 2374 Zeichen bein-haltet. Die durchschnittliche SMS-Länge beträgt 115 Zeichen (vgl. Ueberwasser 2015).

Das SMS-Korpus  39

der hohen Rate an Mehrfacheinsendungen einzelner Personen entspricht das einem prozentualen Anteil von gut 75 % aller Teilnehmenden, zu denen soziode-mografische Daten vorliegen. Daraus lassen sich die folgenden Eckdaten41 zum Schweizer SMS-Korpus eruieren:

Tabelle 1: Überblick Korpusdaten (in Anlehnung an Dürscheid/Stark 2011: 306; verwendet in Frick/Rauch 2014: 36)

SMS Tokens

Teilneh-mende Geschlecht Sprachen

F M CHD SD F I R

Σ 25‘947 ca. 500‘000 2784 847 465 10‘737 7262 4650 1527 1121 CHD = Schweizerdeutsch, SD = Standarddeutsch, F = Französisch, I = Italienisch, R = Rätoro-manisch. Die Totale des Französischen, Italienischen und Rätoromanischen beinhalten sowohl dialektale als auch nicht-dialektale SMS.

Weiter oben ist bereits darauf hingewiesen worden, dass sich das Korpus durch einen hohen Dialektanteil auszeichnet. Diesen Umstand verdeutlichen die Zahlen in der Tabelle, aus der ersichtlich wird, dass das schweizerdeutsche Subkorpus am meisten Nachrichten enthält. Interessant ist in diesem Zusammenhang auch die Aufschlüsselung nach der angegebenen Muttersprache der teilnehmen-den Personen: Mit 69 % gab die überwiegende Mehrheit Schweizerdeutsch als Muttersprache an; dem folgen Französisch mit 20 % und Standarddeutsch mit 13 %. Italienisch wird von 8 % und Romanisch noch von 5 % aller Personen als Muttersprache angegeben. Die restlichen 10 % sind anderen Sprachen als den genannten zuzuordnen.42 Die abgebildeten Zahlen zeigen ausserdem, dass der Anteil weiblicher Teilnehmerinnen mit einem Prozentsatz von 64 % gegenüber 35 % männlichen Einsendungen überwiegt; vier Personen haben keine Angabe zum Geschlecht gemacht (vgl. Ueberwasser 2015).

41 Die hier abgebildeten Zahlen entsprechen der Korpusversion, die ich in meiner Arbeit ver-wendet habe. Da seither verschiedene Korrekturen am Korpus durchgeführt wurden, haben sich die Zahlen leicht verschoben; sie stimmen deshalb nicht mit der aktuellen Dokumentation (vgl.

Ueberwasser 2015) überein.

42 Der Totalwert liegt deshalb über 100 %, weil viele Personen mehr als eine Muttersprache angaben: „More precisely, 176 people selected two mother tongues and 27 chose three of them.“

(Ueberwasser 2015).

Tabelle 2: Altersdistribution der Fragebogen-Teilnehmenden (aus: Ueberwasser 2015)

Alter Teilnehmende % SMS % SMS pP

10–19 246 19 % 3506 7 % 14.3

20–29 603 46 % 8867 43 % 14.7

30–39 196 15 % 2858 14 % 14.6

40–49 149 11 % 2872 14 % 19.3

50–59 78 6 % 1437 7 % 18.4

60+ 40 3 % 870 4 % 21.8

Altersmässig gestaltet sich die Verteilung so, dass die meisten SMS (rund 46 % aller Nachrichten) von der Altersgruppe der 20–29-Jährigen stammen. Dem folgt mit 19 % die Gruppe der 10–19-Jährigen. Die gesamte Altersspanne der Teilneh-menden reicht von 12 bis 77 Jahren, wobei insgesamt 5 Personen zur Zeit der Sammlung über 70 Jahre alt waren. Tabelle 2 gibt detailliert Aufschluss über das Alter der teilnehmenden Personen.

Mit Blick auf die soziodemografischen Parameter der eingesandten SMS ist schliesslich noch festzuhalten, dass sich aufgrund der Situierung der Studie am akademischen Umfeld der Universität ein gewisses Bias die (Aus)bildung der beteiligten Personen betreffend nicht hat vermeiden lassen. So stammt die Mehrheit (ca. 15‘800 von 20‘500) der Nachrichten von einem Publikum, das eine Matura (= Abitur) bzw. einen Bachelor oder höher besitzt (vgl. Stark/Ueberwas-ser/Ruef 2015).

3.1.2.1  Korpusaufbereitung und Fragestellungen

Die ursprünglich eingesandten 27‘000 SMS sind, wie bereits erwähnt, auf ein Korpus von 25‘947 Nachrichten reduziert worden. Dieser Dezimierung liegen ver-schiedene Ursachen zugrunde, die jedoch allesamt formaler Natur sind – es fand keinerlei inhaltliche Zensur statt. Ausgemustert wurden entsprechend „[…] nur technisch verursachte Dubletten (mit identischem Zeitstempel) sowie offensicht-lich von Computern automatisch generierte SMS (z. B. Erinnerungen eines digi-talen Kalenders) […]“ (Frick/Rauch 2014: 36 f.). Grenz- und Zweifelsfälle, wie bei-spielsweise vom Computer gesendete oder erhaltene (anstatt gesendete) SMS, die der Originalinstruktion im Medienaufruf widersprachen, wurden beibehalten.

Durch diese Vorgehensweise sollte ein möglichst komplettes und authentisches Bild der Datensammlung gewährleistet werden (vgl. Dürscheid/Stark 2011: 308).

Das SMS-Korpus  41

Eine weitere Herausforderung bei der Bearbeitung der Rohdaten zu einem für die Forschung verwendbaren Korpus stellte der Umgang mit sensiblen Daten dar, deren Vorkommen in der privaten Alltagskommunikation häufig und charak-teristisch ist (vgl. Frick/Rauch 2014: 37). Die Gewährleistung der zugesicherten Anonymität geschah über die Ersetzung von Schriftzeichen (NNN für Nummern, xxx@yyy.ch für E-Mail-Adressen) oder aber durch Platzhalter ([LastName], [StreetAddress]). Die Vornamen hingegen wurden rotiert: aus Marie-Christine wurde im Zuge dessen beispielsweise Florence, aus Daniel vielleicht Benedikt.

Ein solches Vorgehen sollte gewährleisten, dass bei gleichzeitiger Anonymität der betreffenden Personen der dialogische Charakter der SMS erhalten bleibt und die Daten so auch für soziolinguistische und kommunikationstheoretische Frage-stellungen nutzbar sind (vgl. Dürscheid/Stark 2011: 308). Für die in dieser Arbeit abgebildeten Beispiele bedeutet das, dass darin vorkommende Namen nicht mit realen Personen in Verbindung gebracht werden können.

Neben Ausmusterung und Anonymisierung durchlief das Korpus eine auto-matische Spracherkennung. Deren Ziel bestand in der Beibehaltung des multi-lingualen Charakters des Korpus als spezifisches soziolinguistisches Merkmal der Sprachsituation in der Schweiz (vgl. ebd.: 309). Um diesem Anspruch gerecht zu werden, erfolgte die Spracherkennung in zwei Phasen: Anhand von Referenz-listen mit typischen Buchstabenkombinationen für eine Sprache wurden alle Nachrichten zunächst nach einer Hauptsprache kategorisiert. Anschliessend wurden einzelne Tokens (bzw. Token-Folgen), die in anderen Sprachen als der SMS-Hauptsprache erschienen, getaggt.43

Auf der Basis des Sprachentaggings erfolgte in einem nächsten Schritt die Normalisierung der Daten, was insbesondere für das schweizerdeutsche Teilkor-pus von Bedeutung war, da sie die Voraussetzung für das später durchzuführende automatische Part-of-Speech-Tagging (POS-Tagging) bereitete. Um dieses an den dialektalen Daten durchführen zu können, mussten alle schweizerdeutschen SMS Wort für Wort, möglichst originalnah und ohne Rücksicht auf die Syntax in den Standard übertragen werden.44 Dazu wurde ein Regelwerk erstellt, in dem

43 Unterschieden wurde dabei in ‚borrowings‘ und ‚nonce borrowings‘. Erstere wurden wie folgt definiert: „Words from a language other than the main language. The words in the foreign language, however, have to be an established part of the main language’s vocabulary.” (Ueber-wasser 2015). Demgegenüber galten diejenigen Wörter als ‚nonce borrowing‘, die ebenfalls nicht zur Hauptsprache gehören und auch noch kein etablierter Teil derselben sind. Dieses Vorgehen führte zu verschiedenen Schwierigkeiten und Problemen (vgl. dazu ausführlich Ueberwasser 2015 sowie Bucher 2016).

44 Diese Vorgehensweise wurde in der vorliegenden Arbeit auch auf die Übersetzung der ver-wendeten Beispiele angewandt. Es erfolgt also eine möglichst textnahe Übersetzung, bei der

das Vorgehen bei der Normalisierung im Allgemeinen wie auch für spezifische Einzelfälle festgehalten wird; diese Methode sollte eine möglichst konsistente Durchführung der Glossierung gewährleisten (ausführlich zur Normalisierung und deren technischen Details vgl. Ruef/Ueberwasser 2013).

3.1.2.2  Arbeitsgrundlage: schweizerdeutsches Subkorpus

Bei der Darstellung der Eckdaten des Korpus wurde darauf hingewiesen, dass die schweizerdeutschen SMS mit insgesamt 10‘737 Nachrichten den grössten Anteil ausmachen. Aus diesem Teilkorpus45 ist für die im Rahmen dieser Arbeit durchge-führten Ellipsenannotation ein weiteres Subkorpus extrahiert worden: Zunächst sind diejenigen Nachrichten ausgeschlossen worden, zu denen keine soziodemo-grafischen Informationen vorliegen. Damit reduzierte sich das schweizerdeut-sche Korpus auf 7891 SMS. Davon habe ich wiederum 3999 Nachrichten46 – und damit etwas mehr als die Hälfte – mit Annotationen versehen.47 Diese weitere Dezimierung hat sich während des Arbeitsprozesses als dessen logische Konse-quenz ergeben. Sie ist damit zu begründen, dass sich nach der Annotation der ersten Hälfte des schweizerdeutschen Subkorpus mit soziodemografischen Daten relativ deutlich herauskristallisiert hat, dass eine Annotation der restlichen SMS nicht zu neuen Erkenntnissen führen würde. Die bis dahin bearbeiteten Daten wiesen nämlich bereits relativ eindeutige Tendenzen hinsichtlich der Elliptizität der untersuchten Kategorien auf. Die für die Analyse ausgewählten Korpusdaten resultieren demnach aus einem gleichzeitig ablaufenden Sammel- und Auswer-tungsprozess.

Gross- und Kleinschreibung, Interpunktion, Emoticons u.Ä. originalgetreu aus den Dialekt-SMS übernommen werden. Abkürzungen werden dabei allerdings, wenn möglich, aufgelöst.

45 Scherer (2006: 19) bezeichnet Ausschnitte aus Gesamtkorpora als „Teilkorpora“. Dieser Be-griff wird für den schweizerdeutschen Part des Korpus übernommen, da es sich um eine (nach Sprachen kategorisierte) Teilmenge des Gesamtkorpus handelt. Die zusätzliche Eingrenzung dieses Teilkorpus wird zur Abgrenzung im Folgenden als ‚Subkorpus‘ bezeichnet.

46 Die ungerade Anzahl ergibt sich aus der automatischen Zusammenstellung der Annotations-batches, die aufgrund der parallel stattfindenden Arbeiten am Korpus in Einzelfällen variieren konnte.

47 Zu diesem annotierten Subkorpus existiert ein normalisiertes Parallelkorpus, das die glei-chen SMS mit einer normalisierten Ebene beinhaltet. Das erleichtert die Suche nach einzelnen Wörtern (z. B.: ich), weil nach der normalisierten Form gesucht werden kann und alle dialektalen Formen ausgegeben werden. Aufgrund von später durchgeführten Korrekturen am Sprachentag-ging der Nachrichten fehlen allerdings in der normalisierten Subkorpus-Version 20 SMS.

Methode und Datenauswertung  43