• Keine Ergebnisse gefunden

Praktikumsbericht HochschuleWismar

N/A
N/A
Protected

Academic year: 2022

Aktie "Praktikumsbericht HochschuleWismar"

Copied!
29
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Hochschule Wismar

Fakult¨ at Wirtschaftswissenschaften Wirtschaftsinformatik binational

Praktikumsbericht

Tobias Aagard Matrikelnummer 113716

tobias@aagard.net

¨

uber das abgeleistete Praktikum bei IAIB e.V.

Alter Holzhafen 17c 23966 Wismar

vom 20. Februar 2012 bis 11. Mai 2012

(2)

Einleitung

Texte verstehen kann jedes Schulkind. Doch was f¨ur den Menschen so einfach, ist f¨ur den Rechner ungleich schwieriger. Die Bedeutung einer Aussage in einem gegebenen Kontext zu neuem Wissen zu verarbeiten, ist eine ¨außerst komplexe Aufgabe.

Dies zu erreichen versucht Text Mining1. Der Fokus liegt hierbei ¨uberlicherweise auf nat¨urlichsprachlichen Fließtexten. Ungrammatische Texte werden kaum unter- sucht.

Hier liegt der Schwerpunkt des Projektes conTEXT des IAIB: Leistungspositio- nen, wie sie zum Beispiel in Lieferscheinen vorkommen, sollen miteinander verglichen werden.

Inhalt des Praktikums waren die Datenvorverarbeitung und Aufbereitung sowie Text Mining Verfahren zu recherchieren.

1HR06.

(3)

Inhaltsverzeichnis

Abbildungsverzeichnis 3

Tabellenverzeichnis 4

1 Kurzportrait IAIB e.V. 5

2 Praktikumsaufgabe 5

2.1 conTEXT . . . 5

2.2 Text Mining . . . 6

2.3 Vorgehen . . . 6

3 Text Mining 6 3.1 Sprachstatistik . . . 6

3.1.1 Zipfverteilung . . . 7

3.1.2 Kookkurrenzen . . . 7

3.1.3 Clustering . . . 8

3.2 Musteranalyse . . . 11

4 H¨aufigkeitsanalysen 11 4.1 Vorverarbeitung / Termgrenzen . . . 12

4.1.1 W¨orter . . . 12

4.1.2 Zahlen . . . 13

4.1.3 Kombinationen . . . 13

4.2 Zipfverteilung . . . 14

5 Kookkurrenzen 16 5.1 Signifikanz . . . 16

5.2 Semantisches Clustern von Termen . . . 17

5.3 Termklassen . . . 19

6 Ergebnisse 19

A Anhang 21

Literatur 28

(4)

Abbildungsverzeichnis

1 H¨aufigkeitsverteilung der Terme nach Lieferant . . . 15

2 Verteilung der Signifikanzwerte bei Termabstand 1 . . . 17

3 Terme in Relation zu Kookkurrenten . . . 18

4 Verteilung der Terme ¨uber alle Lieferanten in doppellogarithmischer Darstellung . . . 21

5 Verteilung der Terme ¨uber alle Lieferanten in logarithmischer Dar- stellung . . . 21

6 H¨aufigkeitsverteilung der Termanzahl aller Positionen . . . 23

7 Verteilung der Termklassen nach Lieferant . . . 24

8 Verteilung der Signifikanzwerte nach Abstand . . . 26

9 Kookkurrenzen zum Term ”anschlussbogen“ . . . 27

(5)

Tabellenverzeichnis

1 Termanzahl nach Klassen ¨uber alle Lieferanten . . . 14 2 Matrix der Termvektoren ti mit den Dimensionen dj . . . 18 3 Die ersten zehn R¨ange der H¨aufigkeitsverteilung nach Lieferant . . . . 22 4 Ausgew¨ahlte R¨ange der H¨aufigkeitsverteilung ¨uber alle Lieferanten . . 23 5 Anzahl der Kookurrenzen nach Abstand ¨uber alle Lieferanten . . . . 24 6 Die f¨unf signifikantesten Kookkurrenz nach Termabstand . . . 25

(6)

1 Kurzportrait IAIB e.V.

Das Institut f¨ur angewandte Informatik im Bauwesen e. V. ist ein Forschungs- und Entwicklungsinstitut mit Sitz im Technologie- und Forschungszentrum am Wismarer Hafen. Das Leistungsspektrum des An-Instituts der Hochschule Wismar umfasst Studien, Gutachten, Schulungen und Forschungsprojekte auf dem Gebiet Geb¨aude- energieeffizienz.

Die Forschungsschwerpunkte sind intelligente Steuer- und Regelungsverfahren f¨ur Geb¨audetechnik und Betriebsfehler¨uberwachung Geb¨audetechnischer Anlagen.

Seit kurzem werden auch Verfahren zur kontextsensitiven Textanalyse untersucht.

Besonderes Augenmerk liegt dabei auf Dokumenten aus dem ingenieurtechnischen Gebiet.

2 Praktikumsaufgabe

Aktuell f¨uhrt das IAIB unter anderem das Projekt

”conTEXT“ durch. Im Rah- men dieses Projektes stellt sich die Praktikumsaufgabe als

”Datenaufbereitung und Vorverarbeitung ungrammatischer Datens¨atze“. Es gilt, Text Mining Verfahren und Methoden zu recherchieren und auf deren Verwendbarkeit zu untersuchen.

2.1 conTEXT

conTEXT ist

”[e]in Verfahren f¨ur den automatischen Abgleich von Leistungsposi- tionen in ERP-Systemen“.2

Im Verlaufe eines Projektes eines mittelst¨andischen Unternehmens fallen ver- schieden Dokumente mit prinzipiell gleichen Leistungspositionen an. Angebot, Be- stellung, Rechnung und Lieferschein sollen die gleichen Inhalte haben. Allerdings nennen verschiedene H¨andler gleiche Produkt anders, oder belegen unterschiedliche Produkte mit gleichen Begriffen. Auch kann eine Positionen in anderen Dokumente auf mehrere Positionen verteilt worden sein.

Der inhaltliche Abgleich zwischen den Dokumenten erfolgt bisher manuell; und ist dementsprechend fehleranf¨allig und zeitintensiv. ConTEXT zielt darauf ab, die- sen Abgleich zu teilautomatisieren: zu einer gegebenen Positionen sollen m¨oglichst

¨

ahnliche Positionen gefunden, und dem Nutzer zur Zuordnung empfohlen werden.

Es soll die

”Ahnlichkeit von Textabschnitten [. . . ] hinsichtliche ihres Inhaltes und¨ unabh¨angig vom [. . . ] Wortlaut berechne[t]“3 werden.

Das Verfahren soll in m¨oglichst vielen Dom¨anen anwendbar sein. Deswegen sind Annahmen ¨uber Inhalt weitestgehend zu vermeiden. Die Semantik der Positionen wird darum ausschließlich ¨uber deren Syntax modelliert.

Daf¨ur ist ein Merkmalsvektor f¨ur Texte zu definieren. Darauf aufbauend kann mit einem, ebenfalls zu entwickelnden Distanzmaß die ¨Ahnlichkeit zweier Texte be- stimmt werden.

2IAI11.

3IAI11.

(7)

2.2 Text Mining

Zur Definition des Merkmalsvektors werden unter anderem Verfahren des Text Mi- nings untersucht.

Text Mining ist der

”weitgehend automatisierte[. . . ] Prozess“4, neue

”relevante Informationen“5 aus textuellen Daten zu gewinnen. Die

’relevanten Informationen‘

ergeben sich aus dem jeweiligen Anwendungsfall: zu einem gegeben Begriff relevan- te Dokumente finden, inhaltlich ¨ahnliche Dokumente clustern, Texte automatisch zusammenfassen.

Nach [KK11] umfasst Text Mining dabei die

”Teilbereiche Information Retrieval, Text Clustering, Textklassifikation und Informationsextraktion“.

Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten Daten einen anderen Untersuchungsgegenstand: Daten liegen im Data Mining als

”atomare Werte“6 vor. Text Mining hingegen basiert auf schwach oder unstrukturierte Daten.

2.3 Vorgehen

Im Projekt conTEXT liegen die Daten als ungrammatische7 Texte vor. Dadurch sind linguistische Verfahren nicht anwendbar, wie zum Beispiel8 Stemming9, PoS- Tagging10 oder Parsing11. Statt dessen werden gr¨oßtenteils statistische Verfahren eingesetzt.

Daraus leitete sich das Vorgehen w¨ahrend des Praktikums ab: zuerst wurden ver- schiedene Text Mining Verfahren recherchiert, dann deren Eignung f¨ur das Projekt experimentell gepr¨uft.

3 Text Mining

In Anlehnung an [HQW08] lassen sich Text Mining Methoden in zwei Klassen teilen:

statistische und musterbasierte Verfahren.

3.1 Sprachstatistik

Das unmittelbar messbare Merkmal eines Textes ist die H¨aufigkeitsverteilung einzel- ner W¨orter. Die innere Struktur des Textes wird ignoriert; nur die Anzahl der W¨orter ist entscheidend. Daher wird dieser Ansatz auch als

”Bag Of Words“ bezeichnet.

4HR06.

5HQW08, S. 4.

6HR06.

7im linguistischen Sinne

8HR06.

9uckf¨uhren auf Stammform

gesehen“

sehen“

10Part-of-Speech-Tagging: Annotieren einzelner Terme mit Wortart

11Satzbauanalyse

(8)

Die Semantik wird hierbei zun¨achst außer Acht gelassen, respektive nur indirekt betrachtet. Bedeutung wird einzig ¨uber die Wortfrequenz modelliert. Von besonde- rer Relevanz sind dabei W¨orter, die h¨aufiger auftreten, als im Vergleich zu einem m¨oglichst ausgewogenen Referenzkorpus. Diese sind Indikatoren f¨ur das Thema des Textes.

Doch die absolute H¨aufigkeit allein ist kein verl¨assliches Anzeichen. So sind zum Beispiel deutschen Fließtexten die h¨aufigsten W¨orter

”der“,

”die“,

”und“,

”in“ sowie

”den“.12 Diese, zwar h¨aufigen, aber wenig bedeutungstragenden W¨orter werden als Stoppw¨orter bezeichnet und werden meist in der weiteren Verarbeitung ignoriert.

3.1.1 Zipfverteilung

Die charakteristische Verteilung von W¨ortern in einem nat¨urlichsprachlichen Text ist die Zipfverteilung.

Nach absteigender H¨aufigkeit sortiert f¨allt auf: nur wenige W¨orter kommen sehr h¨aufig vor, aber der Großteil vergleichsweise selten. Eben dieser Zusammenhang liegt der Zipfverteilung zugrunde. Danach kann aus der Position in der Liste, also dem Rang eines Wortes, seine relative H¨aufigkeit gesch¨atzt werden.

Diser Zusammenhang zwischen Rang und Anzahl des Auftretens ist umgekehrt

proportional. In doppelt logarithmischer Darstellung bilden die H¨aufigkeiten n¨aherungsweise eine Gerade.13

Anwendung findet die Zipfverteilung unter anderem um n¨otige Textgr¨oßen ab- zusch¨atzen. Beispielsweise muss eine Wortformen f¨ur einige Untersuchungen mit ei- ner Mindestzahl auftreten. Der erforderliche Umfang des Textes kann so im Voraus bestimmt werden.

3.1.2 Kookkurrenzen

Die einfach H¨aufigkeitsanalyse betrachtet W¨orter isoliert; die innere Struktur eines Dokuments wird ignoriert.

Einen Schritt weiter geht die Kookkurrenzanalyse. Hierbei werden

”zwei[. . . ] oder mehrere[. . . ] W¨orter in einem Kontext von fest definierter Gr¨oße“14 untersucht.

Interessant sind besonders die Kookkurrenzen, bei denen die beiden W¨orter ¨uberzuf¨allig zusammen vorkommen. Denn das Auseinanderfallen von erwartetem und gez¨ahltem Auftreten wird als Indikator f¨ur einen starken semantischen Zusammenhang ge- wertet. Mittels Signifikanzmaß kann die St¨arke dieses Zusammenhangs ausgedr¨uckt werden. Das in der Literatur15 ¨ubliche Maß daf¨ur ist:

sig(A, B) =

−log

1−e−λ

k−1

P

i=0 1 i!λi

logn (1)

12HQB12.

13siehe Abschnitt 4.2, Abbildung 4

14LZ06, Glossar.

15HQW08, S. 139.

(9)

Dabei istλ definiert als:

λ = ab

n (2)

aund b sind jeweils die Anzahl der S¨atze (Positionen) die den Begriff A, respektive B, enthalten; n die Gesamtanzahl der S¨atze. Die Zahl der Kookkurrenzen, also der S¨atze, in denen A und B gemeinsam vorkommen, ist k.

F¨ur die so berechneten Signifikanzwerten, kann ein Schwellwert festgelegt werden.

Die signifkanten Kookkurrenzen bilden dann die Grundlage f¨ur das automatisierte Finden von Kollokationen.

Kollokationen sind nicht kompositionale16 Kookkurrenzen; die also aus mehr als der Summe der Einzelbedeutungen17 bestehen. Ein Beispiel hierf¨ur ist

”Blin- der Passagier“. Solche Zusammensetzungen ben¨otigen

”interpretierende Schritte“18. Eine automatisierte Verarbeitung ist dadurch nur schwer m¨oglich.

Kollokationen sind allerdings eher von linguistischem Interesse. Außerdem sind Leistungspositionen, wie sie dem Projekt zugrunde liegen, ¨uberlicherweise komposi- tional. Es werden explizit alle Eigenschaften eines Produktes aufgez¨ahlt, die es von Ahnlichen abgrenzen. Somit sollten Kookkurrenzen ausreichen, um die relevanten¨ sprachliche Muster zu entdecken.

Im Projekt conTEXT werden Kookkurrenzen zwischen zwei Termen betrachtet.

EinTermist dabei eine semantisch eigenst¨andige, zusammenh¨angende Zeichenket- te. Sie lassen sich einteilen in W¨orter, Zahlen, oder sonstige Folgen von Buchstaben, Ziffern und Sonderzeichen.

Zum einen werden Kookkurrenzen auf Termebene betrachtet, also als das ge- meinsames Vorkommen zweier eindeutiger Terme. Zum anderen in Hinblick auf die Termklasse des Nachbarn. Sind zum Beispiel links eines Wortes fast ausschließlich Zahlen zu finden, so kann dies eine physikalische Gr¨oße anzeigen. Dann ist diese Zahl im Positionsvergleich wichtiger als Andere, zum Beispiel herstellerinterne Ka- tegoriebezeichnungen.

Ein weitere m¨ogliche Anwendung sind Kookkurrenzen h¨oherer Ordnung. Dabei werden Terme gesucht, die zwar nicht direkt zusammen h¨aufig vorkommen, aber oftmals zusammen mit den gleichen Termen. So kommen zum Beispiel verschiedene Farben nicht als direkte Kookkurenz vor. Aber verschiedene Produkte haben gleiche Farbvarianten, so dass die gleichen Terme in verschiedenen Kontexten auftreten. Mit Hilfe der Kookkurrenzanalyse sollen solche Zusammenh¨ange entdeckt werden.

3.1.3 Clustering

Clustering-Verfahren dienen im Text Mining den gleichen Zweck wie beispielsweise im Data-Mining: eine Menge von Elementen in homogene Gruppen einzuteilen19. Da meist Dokumente gruppiert werden sollen, wird im Folgenden TF-IDF als typisches Verfahren erl¨autert.

16MS99, S. 151.

17Bub09, S. 115.

18Bub09, S. 113.

19HQW08, S. 196.

(10)

Das ¨ublicherweise relevante Cluster-Kriterium ist der Inhalt20. Dokumente, die thematisch ¨ahnlich sind, sollen auch nah beieinander liegen. Daf¨ur wird jedes Do- kument durch einen Merkmalsvektor dargestellt, um dann deren Abstand mit be- kannten Cluster-Algorithmen zu bestimmen.

Wie wird nun der Inhalt eines Dokuments ermittelt? Dazu werden Schl¨usselw¨orter gesucht, die f¨ur den Text charakteristisch sind. Diese

”diskriminierende Merkmale“21 sind Terme, die in dem Dokument m¨oglichst h¨aufig, in Allen aber selten vorkom- men. Kandidaten daf¨ur k¨onnen mit Hilfe der H¨aufigkeitsverteilung ausgew¨ahlt wer- den. Die so bestimmten Terme aller Dokumente bilden dann die Dimensionen des Merkmalsvektors:

di = (wi,1, wi,2, wi,3, . . . , wi,n) (3) Die Auspr¨agungen wm,i des Vektors folgen aus der Formel:

wi,m = tfi,m∗idfi (4)

Dabei steht der Indexi f¨ur den Term und m f¨ur das Dokument.

Die Relevanz eines Terms f¨ur das jeweilige Dokument findet sich im ersten Faktor wieder. Diese sogenannte Termfrequenz (tfi,m) errechnet sich aus der H¨aufigkeit, mit der der Termiim Dokument mvorkommt. Die absolute H¨aufigkeit ist aber nur begrenzt aussagekr¨aftig. Denn im Allgemeinen wird kein linearer Zusammenhang zwischen Anzahl und Relevanz angenommen wird. So w¨urden Merkmalsvektoren verzerrt, wenn nur infolge eines gr¨oßere Textumfangs die H¨aufigkeit eines Termes steigt. Daher wird die Termfrequenz normalisiert.

Ein Ansatz ist

ntfi,m = tfi,m P

tj∈dm

tfj,m

(5) als relative H¨aufigkeit22 in Bezug auf die Summe aller absoluten H¨aufigkeiten der Dimensionsterme im Dokument.

ntfi,m= tfi,m

maxjtfj,m (6)

ist die

”Normierung mittels Frequenz des h¨aufigsten Terms“23.

In [MRS08] finden sich zwei weitere Normalisierungsmethoden. Zum einen durch Logarithmus:

ntfi,m = 1 + log tfi,m (7)

Zum anderen mit einen D¨ampfungsfaktora, um gr¨oßere Ausschl¨age innerhalb ntfi,m zu vermeiden:

ntfi,m =a+ (1−a) tfi,m

maxjtfj,m (8)

a hat einen Wert zwischen 0 und 1, typisch24 ist 0,4.

20Denkbar w¨are auch andere, wie zum Beispiel die Dokumentl¨ange

21HQW08, S. 202.

22HQW08, S. 203.

23HQW08, S. 203.

24MRS08, S. 127.

(11)

Der zweite Faktor, die inverse Dokumentenfrequenz (idfi), verk¨orpert die Relevanz eines Terms in Hinblick auf alle Dokumente. Sie ergibt sich als

idfi = log |d|

|d : ti ∈d| (9) Hier ist|d|die Gesamtanzahl der Dokument, respektive |d:ti ∈d|die Zahl der Do- kumente, die den Termtienthalten. Terme, die nur in einem Dokument vorkommen, erhalten den gr¨oßtm¨oglichen Wert25; die in allen vorhanden sind den Wert 0. Das korrespondiert mit der Absicht, Termen, die nur f¨ur das Dokument charakteristisch sind, mit einem gr¨oßeren Gewicht zu versehen.

Das Produkt aus Termfrequenz und inverser Dokumentenfrequenz weist jedem Term f¨ur jedes Dokument einen Wert zu. Aus diesen setzen sich die Merkmalsvekto- ren zusammen, mit denen der Abstand zwischen zwei Dokumenten bestimmt werden kann. Es bieten sich verschiedeneAhnlichkeitsmaße¨ 26 an: das Skalarprodukt:

simSkal−→ di−→

dj

=

n

X

k=1

(wk,i·wk,j) (10)

oder das Cosinus-Maß:

simCos

−→ di

→dj

=

n

P

k=1

(wk,i·wk,j) s n

P

k=1

(wk,i)2· s n

P

k=1

(wk,j)2

(11)

Bei diesen Maßen steht ein hoher Wert f¨ur eine hohe ¨Ahnlichkeit zwischen den beiden Dokumenten.

Die euklidische Distanz hingegen ist einDistanzmaß. Hier steht ein kleiner Wert f¨ur große ¨Ahnlichkeit.

distEukl−→ di−→

dj

= v u u t

n

X

k=1

(wk,i−wk,j)2 (12) Ahnlichkeits- und Distanzmaße lassen sich aber ineinander ¨¨ uberf¨uhren27, beispiels- weise ¨uber

sim−→ di−→

dj

= 1

dist−→ di−→

dj + 1

(13) Die paarweise Abst¨ande zwischen allen Dokumenten bilden die Dokument-Dokument- Matrix. Diese bildet die Grundlage f¨ur bekannte Cluster-Verfahren wie

”k-Means, Support Vector Machines oder Kohonen Feature Maps“28.

25MS99, S. 543.

26HQW08, S. 206.

27HQW08, S. 207.

28IAI11, S. 9.

(12)

Die Intention der Cluster-Verfahren gleicht dem Anliegen des Projekts: zu einem Element sollen m¨oglichst ¨ahnliche gefunden werden. Allerdings spricht eine Reihe von Gr¨unden gegen den Einsatz: TF-IDF ist ein recht simpler Ansatz, der Inhalt eines Dokuments findet sich nur in den ausgew¨ahlten Termen wieder. Homony- me, W¨orter mit unterschiedlicher Bedeutung aber gleicher Schreibweise, werden nicht unterschieden. Sollten zum Beispiel die W¨orter

”Baum“,

”Wurzel“,

”Blatt“,

”Ast“ und

”Daten“ als relevante Terme identifiziert werden, k¨onnten ein Text ¨uber Graphentheorie und eine forstwirtschaftliche Untersuchung zu nah beieinander an- geordnet werden. Synonyme, verschiedene W¨orter mit gleicher oder ¨ahnlicher Be- deutung, werden ebenfalls nicht identifiziert. Bei diesen beiden Problemen kann versucht werden, die Terme manuell zu bearbeiten, oder die Verzerrung ¨uber den Kontext auszugleichen. Speziell f¨ur das Projekt conTEXT ist TF-IDF ungeeignet, da Leistungspositionen einen zu geringen Textumfang haben, als dass angemessene Merkmalsvektoren nur mittels Termen aufgestellt werden k¨onnen. Außerdem ist es erkl¨artes Projektziel, sich von den unmittelbaren Termen zu l¨osen und die Bedeu- tung ¨uber andere Merkmal zu modellieren.

Trotzdem sollen Clusterverfahren im weiteren Verlauf eingesetzt werden. Jedoch werden nicht ganze Positionen miteinander verglichen, sondern nur einzelne Terme.

3.2 Musteranalyse

Die Voraussetzung f¨ur den Einsatz von musterbasierten Verfahren ist eine große Regelm¨aßigkeit in der Sprache.

Dies ist in der deutschen Allgemeinsprache, durch die vielen Sonderf¨alle und Ausnahmen, nicht gegeben. Fachsprachen jedoch besitzen meist

”spezielle Wortbil- dungsmuster“29. Das erm¨oglicht den Einsatz regul¨arer Ausdr¨ucke, um zum Beispiel Fachtermini aus Texten zu extrahieren. In syntaktisch annotierten30 Texten kann nach festen Wendungen31 gesucht werden.

Im Projekt sind die Voraussetzungen nicht gegeben. Allerdings werden regul¨are Ausdr¨ucke in der Vorverarbeitung der Leistungspositionen eingesetzt. Genaueres ist in Abschnitt 4.1 aufgef¨uhrt.

4 H¨ aufigkeitsanalysen

Die in Kapitel 3 vorgestellten Methode wurden nun auf realen Daten angewendet.

Es wurden die Produktkataloge von vier verschiedenen Lieferanten f¨ur Heizungs-, L¨uftungs- und Sanit¨artechnik benutzt. Beispiele f¨ur Positionen sind:

• tuer m.f.seg.m.sw cosima tg re.Uebergroesse rund esg matt pflegepx gr.b chrom vigour

29HQW08, S. 238.

30PoS-Tagging, Bsp:

Das [ART] Kind [NOMEN] schl¨aft [VERB].“

31siehe auch: Abschnitt 3.1.2, Kollokationen

(13)

• innengewindemuffe pe 25mm x 1/2?

m.gfk-verstaerkt.haltemut.z.stumpfschw.

• sur rauchrohrbogen schwarz 2mm 130mm gesch.45grad m.tuer pulverbesch.b.650grad

• ju gasart-umbausatz 23>31 fuer zwbr 8-37a > zwbr 11-37a

• kugelhahnhalterung typ175-7/275-7 dn25

An einer kleinen Stichprobe wurde die erste Schwierigkeit deutlich: die Positionen be- stehen nicht nur aus W¨ortern und Zahlen. Es wurden unregelm¨aßige Bezeichnungen verwendet wiePlattenhk¨orper,m.kombi-abdeckpl.,w250..s0201ta,ta1 oderstiftl.kfz.m.rastf..

Weiterhin traten Formatierungsartefakte auf. So wurde m2 zu m2 oder Leerzei- chen, die beispielsweise Zahlen von Einheiten trennen, gingen beim Konvertieren verloren.

Um die Daten automatisiert zu verarbeiten, war somit eine Datenaufbereitung n¨otig. Es galt, die Zeichenketten in einzelne Terme zu trennen.

4.1 Vorverarbeitung / Termgrenzen

Vor jeglicher weiteren Verarbeitung wurden die Daten ges¨aubert. So wurde alles klein geschrieben, einige Sonderzeichen entfernt und Umlaute ersetzt. Außerdem wurden alle Kommata entfernt, die nicht zwischen zwei Ziffern standen.

Um die Termgrenzen festzulegen wurden inkrementell regul¨are Ausdr¨ucke entwi- ckelt.

4.1.1 W¨orter

Es wird nicht gefordert, dass alle als

”Wort“ identifizierten Terme auch tats¨achlich lexikalische W¨orter sind.

”Wort“ ist in diesem Zusammenhang eher als Abgrenzung zu Zahlen und sonstigen Termen zu verstehen.

Der unmittelbare Ansatz W¨orter zu identifizieren, sind Zeichenketten, die nur aus Buchstaben bestehen. Sie setzen sich zusammen aus einer nichtleeren Folge von Buchstaben und sind eingeschlossen von Leerzeichen, Zeilenanfang oder -ende.

sed ’s/\( \|ˆ\)\([a-z]\+\)\( \|$\)/ \2 /g’

Beispiele sind steckmuffeoder verzinkt

Einige W¨orter haben Interpunktionszeichen am Anfang oder Ende. Diese Zei- chenketten sollen auch als W¨orter erkannt werden; jedoch nur mitmaximal einem Interpunktionszeichen als Affix.

sed ’s/\(ˆ\| \)[[:punct:]]\?\([a-z]\+\)[[:punct:]]\?

\( \|$\)/ \2 /g’

Hier finden sich Terme wie inliner:, steckanschl. oder(abgasrohr)

(14)

Schließlich sind noch W¨orter vorhanden, die nur durch Interpunktion getrennt sind, und nicht durch Leerzeichen. Deshalb wurde erst Interpunktion zwischen Buchstabenentfernt, und dann die W¨orter einzeln identifiziert.

sed ’s/\([a-z]\)[[:punct:]]\([a-z]\)/\1 \2/g’

sed ’s/\(ˆ\| \)[[:punct:]]\?\([a-z]\+\)[[:punct:]]\?

\( \|$\)/ \2 /g’

4.1.2 Zahlen

Analog zu den W¨ortern ist der erste Versuch, Zahlen zu finden, Zeichenketten, die nur aus Ziffernbestehen.

sed ’s/\( \|ˆ\)\([0-9]\+\)\( \|$\)/ \2 /g’

Terme wie30,12000 oder 90wurden damit gefunden

Der n¨achste Schritt ist das Einbeziehen von Dezimaltrennzeichen. Nach einer nichtleeren Folge von Ziffern kann ein Punkt oder Komma stehen, muss dann aber vonmindestens einer Ziffer gefolgt werden.

sed ’s/\( \|ˆ\)\([0-9]\+\)\([.,][0-9]\+\)\?\( \|$\) / \1\2 /g’

Beispiele daf¨ur sind35.8, 1.4301 und 21,23.

Semantisch zur Zahl geh¨oren auchVorzeichen. Diese k¨onnen, m¨ussen aber nicht vorhanden sein.

sed ’s/\( \|ˆ\)\([+-]\?[0-9]\+\)\([.,][0-9]\+\)\?\( \|$\) / \2\3 /g’

Damit wurden auch Terme wie-476,+180und+19,99als Zahlen identifiziert.

Wie auch bei den W¨ortern, k¨onnen nach den Zahlen Interpunktionszeichen vorkommen. Diese wurde mit dem folgenden Ausdruck entfernt.

sed ’s/\(ˆ\| \)\([+-]\?[0-9]\+\)\([.,][0-9]\+\)\?

[[:punct:]]\?\( \|$\)/ \2\3 /g’

4.1.3 Kombinationen

W¨orter und Zahlen werden bisher nur erkannt, wenn Sie von Leerzeichen oder Zei- lenenden umgeben sind. Allerdings kommen sie auch in Verbindungen vor, teilweise durch Interpunktion getrennt.

Wort-Zahl-Kombinationen finden sich zum Beispiel bei Normen oder anderen Typ-Bezeichnungen. Identifiziert werden sie mit:

sed ’s/\(ˆ\| \)\([a-z]\+\)\([[:punct:]]\)\?

\([+-]\?[0-9]\+\)\([.,][0-9]\+\)\?\([[:punct:]]\?\)\( \|$\) / \2 \4\5 /g’

Damit gefunden werden Termkombinationen wiehandtuchhaken-3,jz-001.000 und pe-100.

Zahl-Wort-Kombinationen sind zum ¨uberweigenden Teil physikalische Gr¨oßen.

In ihre Bestandteile zerlegt werden sie mittels

(15)

sed ’s/\(ˆ\| \)\([+-]\?[0-9]\+\)\([.,][0-9]\+\)\?

\([[:punct:]]\?\)\([a-z]\+\)\([[:punct:]]\?\)\( \|$\) / \2\3 \5 /g’

Verbindungen wie+1200gr,-55cmund-460lkwerden damit identifiziert und zerlegt.

Zwei Zahlen hintereinander stehen meist f¨ur Bereiche oder Abmessungen. Ge- trennt werden sie durchInterpunktion oder denBuchstaben

”x“.

sed ’s/\(ˆ\| \)\([+-]\?[0-9]\+\)\([.,][0-9]\+\)\?

\([[:punct:]x]\) \([+-]\?[0-9]\+\)\([.,][0-9]\+\)\?

[[:punct:]]\?\( \|$\) / \2\3 \5\6 /g’

Beispiele sind 600x1800, 500/1200, 110-280, 0.75/80 oder15x1.15.

Weiterhin treten noch zwei oder drei Zahlen mit anschließendem Wort auf. Auch dies sind gew¨ohnlich Maße.

Termklasse Anzahl W¨orter 90.509 Zahlen 51.829 Sonstige 167.836

Tabelle 1: Termanzahl nach Klassen ¨uber alle Lieferanten

Insgesamt wurden aus 1.350.664 Positionen 310.174 Terme identifiziert.

Nachdem die Positionen in Terme zerlegt worden sind, konnte die H¨aufigkeitsverteilung ermittelt werden.

4.2 Zipfverteilung

In Abbildung 1 sind die H¨aufigkeitsverteilungen der Terme nach Lieferant abgebil- det.

Obwohl die Daten ungrammatisch sind, ist die f¨ur die Zipf-Verteilung typische Ge- rade in der doppeltlogarithmischen Darstellung zu erkennen. Die H¨aufigkeitsverteilung

¨uber alle Lieferanten approximiert ebenfalls die Gerade32. Der h¨aufigste Term bei allen Lieferanten ist

”mm“33.

Dies ¨uberrascht nicht in Hinblick auf den Datenursprung. Zudem wurde eben gerade versucht, die physikalische Einheiten von den Maßzahlen zu trennen.

In den n¨achsten R¨angen sind einzelne Ziffern und Buchstaben. Auch diese lassen sich durch die Quelle der Daten erkl¨aren. So werden Abmaße teilweise mit

”x“ von- einander getrennt; oder es finden sich Angaben wie

”bt“ (Breite×Tiefe). Genormte Rohrgr¨oßen werden als

”dnX“ angegeben, wobei

”X“ f¨ur eine Zahl steht.

Weitere ausgew¨ahlte R¨ange sind in Tabelle 4 aufgef¨uhrt.

32siehe Abbildung 4

33siehe Tabelle 3

(16)

Abbildung 1: H¨aufigkeitsverteilung der Terme nach Lieferant

(17)

Der Rang dieser Terme erschließt sich oft nur mit anwendungsbezogenem Wissen.

Ob weitere Formalismen wie Norm- oder Typbezeichnungen vorhanden sind, kann mit der Kookkurrenzanalyse ermittelt werden.

5 Kookkurrenzen

Das f¨ur eine erste Auswertung relevante Fenster wurde auf einen maximalen Ab- stand von f¨unf Termen festgelegt, da vor allem lokale Zusammenh¨ange interessieren.

Außerdem entspricht dieses Betrachtungsfenster in etwa der mittleren L¨ange aller Positionen, welche bei 9,73 Termen liegt. Eine Verteilung der Positionsl¨angen findet sich in Diagramm 6.

Es wurden nur rechte Nachbarn extrahiert, da sich korrespondierende linke Nach- barn durch Vertauschen ergeben.

Durch diesen Schritt wurde der Aufwand halbiert. In Anbetracht der Anzahl der auftretenden Kookkurrenzen (vgl. Tabelle 5) ergeben sich daraus bedeutsame Effizienzsteigerungen.

Die erwartete Anzahl der Kookkurrenzen ergab sich aus:

k(d) =X

i=1

max (0;ni(i−d)) (14)

Dabei istd der Termabstand und ni die Anzahl der Positionen mit L¨ange i.

Bei welchen Kookkurrenzen sich eine genauere Betrachtung lohnt, wird ¨uber den Signifikanzwert ermittelt.

5.1 Signifikanz

Die f¨unf signifikantesten Kookkurrenzen aus jedem Datensatz sind in Tabelle 6 auf- gef¨uhrt.

Da in der Formel aus Abschnitt 3.1.2 die Reihenfolge der beiden Terme irrele- vant ist, wurde auch hier nur mit den rechten Nachbarn gerechnet. Auch hier sind entsprechende linke Nachbarn durch Vertauschen zu ermitteln.

F¨ur den Termabstand 1, also direkte Nachbarn, ergibt die Verteilung der Signifi- kanzwerte das Diagramm 2.

Um die Gr¨oßenordnungen zu vergleichen, wurde die logarithmische Darstellung gew¨ahlt. Dadurch fehlen die Werte kleiner gleich 0 in der Abbildung. Auff¨allig ist, dass nur ein kleiner Teil der Kookkurrenzen ¨uber einem Signifikanzwert von 1 liegt (14,13%), zwischen 0 und 1 aber mit 71,34% die Mehrheit. Ein m¨oglicher Grund ergibt sich aus dem Verh¨altnis der m¨oglichen und tats¨achlichen Termpaare. 310.174 verschieden Terme kommen vor, somit sind 9,6×1010 Paare m¨oglich. Da aber mit 0,0013% aller m¨ogliche Kookkurrenzen nur ein Bruchteil tats¨achlich vorkommt, ist durch Vorhandensein einer Kookkurrenz automatisch eine gewissen Relevanz zuzu- messen.

Die Termanzahl hat keinen direkten Einfluss auf die Signifikanz. Aber bei weit- gehend konstanter Verteilung der Positionsl¨angen ist Positionsanzahl proportional

(18)

Abbildung 2: Verteilung der Signifikanzwerte bei Termabstand 1

zur Anzahl der Kookkurrenzen34. Somit l¨asst sich ein indirekter Zusammenhang zwischen Termanzahl und Anzahl der Kookkurrenzen und somit der Signifikanz ein- zelner Kookkurrenzen finden.

Die anderen Termabst¨ande ergeben ein ¨ahnliches Bild35. In Abbildung 9 sind die Kookkurrenzen zum Term

”anschlussbogen“ dargestellt.

Es stellt sich die Frage, ob semantisch ¨ahnliche Begriffe ¨ahnliche Kookkurrenzen haben. Kann man also anhand ausreichender Signifikanzwerte als Merkmalsvektor auf die Bedeutung einzelner Terme schließen36?

5.2 Semantisches Clustern von Termen

Zuerst ist der Merkmalsvektor zu definieren: Ein Term k¨onnte in Relation zu allen vorhandenen Termen betrachtet werden. Dies ist aber in Anbetracht der zu erwar- tenden Matrixgr¨oße vorerst nicht empfehlenswert. Dieses Problem w¨are durch eine Reduktion der Dimensionen, wie zum Beispiel mit der Hauptkomponentenanalyse, noch l¨osbar. Aber die Vergleichbarkeit zwischen verschiedenen Datens¨atzen ist nicht gew¨ahrleistet. Da verschiedene Lieferanten verschieden Vokabulare nutzen, h¨atten die Vektoren unterschiedliche Dimensionen.

Erfolg versprechender ist, die Terme zu verwenden, die in allen Datens¨atze der

34vgl. Formel 14

35vgl. Abbildung 8

36HQW08, vgl. S. 209 ff.

(19)

verschieden Lieferanten vorkommen. DiesesGemeinsame Vokabularbildet somit die Dimensionen des Vektors.

Eine m¨ogliche Fehlerquelle ist, dass Terme in mehreren Bedeutungen verwen- det werden. Dies kann sowohl innerhalb eines Datensatzes, als auch zwischen Ver- schiedenen auftreten. Allerdings sind im Anwendungskontext jedoch kaum bis keine Ambiguit¨aten zu erwarten, oder meist manuell zu beheben. Dadurch kann diese Fehlerquelle weitgehend ausgeschlossen werden.

d1 d2 d3 . . . dn

t1 sig(t1, d1) sig(t1, d2) sig(t1, d3) . . . sig(t1, dn) t2 sig(t2, d1) sig(t2, d2) sig(t2, d3) . . . sig(t2, dn) t3 sig(t3, d1) sig(t3, d2) sig(t3, d3) . . . sig(t3, dn)

... ... ... ... . .. ...

tm sig(tm, d1) sig(tm, d2) sig(tm, d3) . . . sig(tm, dn) Tabelle 2: Matrix der Termvektoren ti mit den Dimensionen dj

Die so definierten Vektoren k¨onnen mit bekannten Verfahren geclustert werden.

Da im Vorfeld keine Vermutungen ¨uber Clusteranzahl und -gr¨oße bestehen, bieten sich zum Beispiel selbstorganisierende Karten an.

So k¨onnen Homonyme, oder zumindest einander inhaltlich ¨ahnliche W¨orter ent- deckt werden. Da diese wahrscheinlich in gleichen Kontexten auftreten, wie in Ab- bildung 3a skizziert, werden sie nah zusammen angeordnet.

Eine Konfiguration wie in Abbildung 3b dargestellt ergibt sich bei Synonymen.

Weil verschiedene Bedeutung in einem Term zusammenfallen, sind nicht eindeutig einem Cluster zuzuordnen.

(a) Zwei homonyme Terme (a,b)

(b) Ein synonymer Term (a) mit drei ver- schiedenen Bedeutungen

Abbildung 3: Terme in Relation zu ihren Kookkurrenten – Kantenst¨arke korrespon- diert mit Signifikanz

(20)

5.3 Termklassen

Ein anderer Ansatz, Kookkurrenzen zu betrachten, ist die Klasse des zweiten Terms.

Die in Abschnitt 4.1 entwickelten regul¨aren Ausdr¨ucke k¨onnen verwendet werden, um dem Term die Klasse

”Wort“ oder

”Zahl“ zuzuweisen. Die restlichen Terme werden unter

”Sonstige“ subsumiert.

Die allgemeine Verteilung ist in Abbildung 7 dargestellt.

Interessant sind die Terme, bei denen die Verteilung der Termklassen signifikant von der durchschnittlichen Verteilung abweicht.

Um diese zu identifizieren, muss im weiteren Verlauf des Projekts ein geeignetes Maß gefunden werden.

6 Ergebnisse

Ziele des Praktikums waren die Datenaufbereitung und Verfahren auf ihre Eignung f¨ur den Einsatz im Projekt zu pr¨ufen.

Der erste Teil, die Datenaufbereitung, besteht aus der Trennung der Positio- nen in einzelne Terme und anschließender Extraktion der Kookkurrenzen. Durch Unregelm¨aßigkeiten, Formatierungs- und Konvertierungsartefakte mussten die Po- sitionen erst in einzelne Terme getrennt werden. Die Einteilung in die syntaktischen Kategorien

”Wort“,

”Zahl“ und

”Sonstiges“ bildet dabei Grundlage f¨ur die sp¨atere Analysen.

Die H¨aufigkeitsanalyse ergab das f¨ur nat¨urlichsprachliche Texte bekannte Bild der Zipfverteilung. Wenige Terme komme sehr h¨aufig und viel sehr selten vor.

Die h¨aufigsten Terme wie mm, m oder dn erkl¨aren sich aus der Datenquelle, Lie- feranten f¨ur Heizung, L¨uftung und Sanit¨ar. Auch wurde festgestellt, dass keine Stoppw¨orter vorhanden sind. In nat¨urlichsprachlichen Texten sind W¨orter wie Ar- tikel oder Pr¨apositionen h¨aufig vorhanden, tragen aber wenig zur Bedeutung des gesamten Textes bei. Solche W¨orter sind in den vorliegenden Daten aber nicht vor- handen, sondern im Gegenteil: auch die h¨aufigsten Terme sind semantisch relevant.

Problematisch hingegen kann sich die Tatsache auswirken, dass 60% der Ter- me nur einmal vorkommen37. Da darunter auch 27,8% aller als

”Wort“ klassifizier- ten Terme sind, wird ein einfacher Vergleich der Terme zwischen Positionen nicht gen¨ugen.

Ein erster Ansatz, den Kontext eines Wortes zu betrachten, ist die Kookkurrenz- analyse. Auch hier erkl¨aren sich die prominentesten R¨ange durch die Datenquelle.

F¨ur die Verteilung der Signifikanzwerte38 wurde die Korpusgr¨oße aus Erkl¨arung ge- funden. Wie auch in der H¨aufigkeitsanalyse, sind die Terme problematisch, die nur einmal vorkommen. Diese k¨onnen durch ihre Kookkurrenten nur unzureichend be- stimmt werden. Ziel der Kookkurrenzanalyse ist allerdings auch eher das Entdecken syntaktischer Auff¨alligkeiten wie Einheiten oder Typ-Bezeichnungen.

37vgl. Abb. 5

38vgl. Abb. 2

(21)

Um diese Auff¨alligkeiten zu identifizieren, werden im weiteren Verlauf des Pro- jekts Kookkurrenzen in Hinblick auf die Klasse des zweiten Terms untersucht.

Auch Kookkurrenzen h¨oherer Ordnung, also das Auftreten zweier Terme in glei- chen Kontexten, sind noch zu untersuchen.

Zu ¨Uberpr¨ufen ist ebenfalls, ob Terme semantisch zu clustern sind, wie in Ab- schnitt 5.2 beschrieben.

So ist auch das zweite Ziel des Praktikums, Verfahren f¨ur das weitere Vorgehen ermitteln, erreicht worden.

(22)

A Anhang

Abbildung 4: Verteilung der Terme ¨uber alle Lieferanten in doppellogarithmischer Darstellung

Abbildung 5: Verteilung der Terme ¨uber alle Lieferanten in logarithmischer Darstel- lung

(23)

Lieferant1Lieferant2Lieferant3Lieferant4 Positionen313.454323.918566.938146.354 Terme58.06172.554208.24061.518 RangTermH¨aufigkeitTermH¨aufigkeitTermH¨aufigkeitTermH¨aufigkeit 1mm134.056mm110.944mm103.274mm367748 2m67.519l51.985287.789m21.207 3x63.382h50.659587.217cm18.648 4dn51.569134.312#82.274117.852 5f47.579bl29.625181.317216.088 6143.845bh29.335m73.317f15.029 7240.218b29.111361.800dn12.067 8typ29.073bt25.401pho51.777fuer11.097 9323.291acova25.151a49.082weiss10.488 10cm22.190lackiert24.803448.401mit9.916 Tabelle3:DieerstenzehnR¨angederH¨aufigkeitsverteilungnachLieferant

(24)

Rang Wort H¨aufigkeit

1 mm 385.022

2 m 185.450

3 1 177.326

4 2 167.015

5 x 125.467

6 5 116.293

7 f 111.400

8 3 110.361

9 dn 106.450

10 cm 105.022

20 v 63.628

50 lackiert 31.231

100 hk 17.685

200 anschl 9.746

500 67 3.552

1.000 freistromventil 1.616

2.000 topperg 697

5.000 akzent 204

10.000 uel. 76

100.000 f03/04/05 2

Tabelle 4: Ausgew¨ahlte R¨ange der H¨aufigkeitsverteilung ¨uber alle Lieferanten

Abbildung 6: H¨aufigkeitsverteilung der Termanzahl aller Positionen

(25)

Abbildung 7: Verteilung der Termklassen nach Lieferant

Abstand Anzahl Kookkurrenzen

1 11.792.513

2 10.445.877

3 9.114.610

4 7.804.975

5 6.548.435

Tabelle 5: Anzahl der Kookurrenzen nach Abstand ¨uber alle Lieferanten

(26)

Rang

1 2 3 4 5

Termabstand 1

Signifikanz 5.105,512 4.290,094 3.835,260 3.030,315 2.599,781

Wort low bt lackiert nach glied

Nachbar h2o bl in farbkarte ab

Termabstand 2

Signifikanz 2.743,240 2.662,949 2.523,991 2.440,230 2.335,240 Wort sonderfarben element acova minicanal h

Nachbar farbkarte charleston clarian h2o l

Termabstand 3

Signifikanz 2.683,404 2.493,145 2.367,890 1.990,856 1.797,209

Wort minical ze glied in lackiert

Nachbar komplett charleston bt farbkarte nach Termabstand 4

Signifikanz 2.798,829 2.152,241 1.956,296 1.746,262 1.385,561

Wort clarin glied lackiert h2o bh

Nachbar glied bl farbkarte l ab

Termabstand 5

Signifikanz 2.389,324 2.242,479 1.732,880 1.489,818 1.371,246

Wort clarin modell low glied komplett

Nachbar ab glied l 95 b

Tabelle 6: Die f¨unf signifikantesten Kookkurrenz nach Termabstand

(27)

Abbildung 8: Verteilung der Signifikanzwerte nach Abstand

(28)

Abbildung 9: Kookkurrenzen zum Term

”anschlussbogen“ – Kantenst¨arke korre- spondiert mit Signifikanz, Rote Kante kennzeichnen rechte Nachbarn, blaue Kanten repr¨asentieren linke Nachbarn

(29)

Literatur

[Bub09] N. Bubenhofer. Sprachgebrauchsmuster: Korpuslinguistik Als Methode Der Diskurs- Und Kulturanalyse. Sprache Und Wissen. De Gruyter, 2009. isbn: 9783110215847.

[HQB12] Gerhard Heyer, Uwe Quasthoff und Volker Boehlke. Deutscher Wort- schatz – Wortlisten. http : / / wortschatz . uni - leipzig . de / html/wliste.html. [Online; Zugriff am 31. Mai 2012]. 2012.

[HQW08] Gerhard Heyer, Uwe Quasthoff und Thomas Wittig. Text Mining: Wis- sensrohstoff Text – Konzepte, Algorithmen, Ergebnisse. W3L-Verlag, 2008.

[HR06] Hajo Hippner und Ren´e Rentzmann. “Text Mining”. In: Informatik- Spektrum 29 (4 2006). 10.1007/s00287-006-0091-y, S. 287–290. issn: 0170-6012. url: http://dx.doi.org/10.1007/s00287- 006- 0091-y.

[KK11] Carolin Kaiser und Johannes Kr¨ockel. “Meinungsanalyse in Onlinenetz- werken mittels Schwarmintelligenz”. In:Informatik-Spektrum34 (4 2011).

10.1007/s00287-010-0444-4, S. 355–363. issn: 0170-6012. url: http : //dx.doi.org/10.1007/s00287-010-0444-4.

[LZ06] L. Lemnitzer und H. Zinsmeister. Korpuslinguistik: Eine Einf¨uhrung.

Narr Studienb¨ucher. Narr, 2006.isbn: 9783823362104.

[MRS08] C.D. Manning, P. Raghavan und H. Sch¨utze.Introduction to Information Retrieval. Cambridge University Press, 2008. isbn: 9780521865715.

[MS99] C. Manning und H. Sch¨utze. “Foundations of Statistical Natural Lan- guage Processing”. In: MA, USA: MIT Press, 1999.

[IAI11] IAIB e. V. Projektbeschreibung conTEXT. 2011.

Referenzen

Outline

ÄHNLICHE DOKUMENTE

Die wöchentliche Höchstarbeitszeit beträgt 45 Stunden für Arbeitnehmerinnen und Arbeitnehmer in industriellen Betrieben, für Büropersonal, für technische und andere

abaddabab 

Beispiel: Wenn Mutti morgens die Lippen anmalt, sieht sie in den Spiegel.. Sonst weiß sie ja nicht, ob es

Wichtig: Werden Verbindungen, die jetzt getrennt geschrieben werden, als Nomen benutzt, werden sie weiterhin zusammen geschrieben:. vorwärts kommen – das Vorwärtskommen

Bilder Print Master http://vs-material.wegerer.at Marion Weyland 2007.. Beim Schaukeln kann man sich gegenseitig

Schreib einige Sätze in dein Heft und zeichne dazu!. Der Apfel

hen kann, wie Schülerinnen und Schüler in der Auseinandersetzung mit einem realen Objekt die Naturwissenschaften für sich entdecken und für ihre Arbeit fruchtbar

Dennoch hätte er noch etliche andere Geschichten statt dieser wählen können, doch wie es scheint, hat gerade der Mythos von Hero und Leander einen großen Vorteil: Er ist in sich