SEMINT - Schema-Matching Seminar Informationsintegration and Informationsqualit¨at

Das System Semantic Integrator (SEMINT) [Li00] benutzt Neuronale Netze, um ¨Ahnlichkeiten zwischen Attributen in verschiedenen Datenbanksystemen zu berechnen. Wie LSD ist es kein rein instanzenbasiertes System, da es auch In-formationen aus den Schemata nutzt.

SemInt verf¨ugt ¨uber verschiedene Parser, die auf Schemata eines Datenbank-systems spezialisiert sind (z. B. Oracle 7, SQL), um die ben¨otigten Informationen automatisch extrahieren zu k¨onnen. Zu diesen Informationen geh¨oren:

Die Typen der Attribute SemInt konvertiert die Datenbanktypen in sein ei-genes Typen-System, das die folgenden unterscheidet: Character, Zahl, Da-tum, Rowid (also eine eindeutige Identifikationsnummer) und Raw (sonstige Bin¨ardaten).

Zus¨atzlich werden Pr¨azision, also die Anzahl g¨ultiger Stellen in einer Zahl, Skalierungsfaktor (Scale), d. h. die Anzahl an Stellen hinter dem Dezimal-komma und L¨ange vermerkt. L¨ange bezieht sich f¨ur Character auf die L¨ange der Zeichenkette, f¨ur alle anderen Typen hat es keine Bedeutung.

Constraints Hierunter fallen Eigenschaften der Attribute: Ob sie der Prim¨ ar-oder Fremdschl¨ussel sind, Wert- und Bereichsbeschr¨ankungen haben, ob NULL ein zul¨assiger Wert ist und sogar Zugriffsbeschr¨ankungen.

Die Instanzen werden dazu benutzt, um statistische Daten ¨uber die Attribu-te zu ermitAttribu-teln. Zu diesen geh¨oren Durchschnittswerte, Verteilungen, Varianzen, Muster sowie Minimal- und Maximalwerte. SemInt berechnet diese Werte au-tomatisch, indem es SQL-Anfragen generiert. F¨ur Zeichenketten beziehen sich diese Werte auf die Anzahl von Buchstaben, Ziffern, etc.

Die statistischen Daten erlauben es, Attribute zu unterscheiden, die in ihren Typen und Constraints ¨ubereinstimmen, aber sich in ihren konkreten Werten unterscheiden. Es wird nicht direkt mit den Daten der Instanzen gearbeitet, son-dern mit ihren Patterns und Verteilungen. Daher ist das System fehlertoleranter (es k¨onnen auch fehlerbehafte Daten in der Datenbank liegen) und schneller, da f¨ur die Statistiken nicht alle Daten, sondern nur ein kleiner Teil ben¨otigt wird.

In SemInt werden die unterschiedlichen Charakteristika (Typ, Constraints, Verteilung), die ber¨ucksichtigt werden, um ein Attribut zu beschreiben, Diskri-minatoren genannt.

Das Klassifikator-Netz Nachdem alle relevanten Daten aus der Datenbank extrahiert wurden, wird mit ihnen ein neuronales Netz trainiert, der Klassifika-tor, der anhand vonN DiskriminatorenM Cluster zu unterscheiden lernt.

Idealerweise f¨allt jedes Attribut in eigenes Cluster. In der Praxis ist das aber nicht zu erreichen, da z. B.

”Vorname“ und

”Nachname“ durch statitisti-sche Werte sich kaum unterstatitisti-scheiden lassen;

”Vorname“ und

”Nachname“ w¨urden

in denselben Cluster fallen. Clusterbildung hat zudem den Vorteil, das Verfah-ren schneller zu machen, da beim Mapping mit einem andeVerfah-ren Schema statt P verschiedenen Attributen nur M verschiedene Cluster ber¨ucksichtigt werden m¨ussen. Abbildung 4 zeigt das Netz des Klassifikators.

Länge

Abbildung 4.Neuronales Netz des Klassifikators

Neuronale Netze sind im Allgemeinen vereinfachte Modelle eines biologischen Nervensystems. Die Knoten sind Nervenzellen, die Neuronen, die mittels Axo-nen miteinander verbunden sind. Ein Neuron hat mehrere Eing¨ange und einen Ausgang. In der Natur verarbeitet ein Neuron elektrische Impulse; ab einer be-stimmten Schwell-Spannung sendet es selbst einen Impuls. In der mathemati-schen Modellierung ist jede Eingabe und die Ausgabe eine Zahl von 0 bis 1. Die Eingaben werden gewichtet und aufsummiert.

Damit der Klassifikator die Eingaben verwerten kann, m¨ussen sie normiert werden. F¨ur numerische Werte in einem Intervall [a, b] geschieht dies nach der Formel:f(x) = 1/(1+k^−x).kwird unabh¨angig von den Intervall-Grenzen immer auf 1.01 gesetzt, damit man die Werte von verschiedenen Attributen unterschei-den kann. Ein Beispiel: Angenommen man w¨urde f¨ur ein AttributAeinfach eine lineare Normalisierung der Formf(x) =x/max_A w¨ahlen. Seimax_A = 100 und max_B = 1000. Dann w¨aren f¨ur a ∈ A = 10 und b ∈ B = 100 ihre normali-sierten Werte f(a) = 10/100 = 100/1000 =f(b) gleich, obwohl sie urspr¨unglich verschieden sind. Es k¨ame zu einer falschen ¨Ubereinstimmung (false match).

Umgekehrt k¨onnte es auch zu einer falsche Ablehnung (false drop) kommen, bei-spielsweise f¨ur a ∈ A = 10 und b ∈ B = 10 w¨aren ihre normalisierten Werte f(a) = 10/1006= 10/1000 =f(b).

F¨ur L¨angenangaben wird die Funktionf(length) = 2·(1/(1 +k^−length)−0.5) benutzt, da L¨angen keine negativen Werte annehmen k¨onnen.

Bei Boolsche Werten wird falsch auf 0, wahr auf 1 und Null auf 0.5 abgebildet (falls es vorkommt).

Die f¨unf Typen, die SemInt kennt, m¨ussen auch als Zahl im Bereich 0-1 ko-diert werden. Allerdings kann man nicht einfach Character auf 0, Zahl auf 0.25, Datum auf 0.5, etc. abbilden, da das implizieren w¨urde, dass ein Datum ¨ahnlicher zu einer Zahl ist als zu einem Character, was je nach Anwendungsfall sinnvoll sein kann oder nicht. Solche ¨Ahnlichkeiten sollen gelernt und nicht vorprogram-miert werden. Daher wird ein Typ wird als F¨unf-Tupel kodiert: Character ist (1,0,0,0,0), Zahl ist (0,1,0,0,0), etc.

Die Datenbank-Parser geben dem Klassifikator f¨ur jedes Attribut einen Diskriminatorvektor, der alle normalisierten Daten ¨uber das Attribut enth¨alt.

Der Diskriminatorvektor in SemInts Implementierung enth¨alt 20 Werte. Ein At-tribut wird als Punkt in einem 20-dimensionalen Raum repr¨asentiert. Der eukli-dische Abstand zwischen zwei Punkten ist ein Maß f¨ur die ¨Ahnlichkeit zwischen den entsprechenden Attributen, der maximale Abstand betr¨agtsqrt(20), da jede Dimension den Bereich 0-1 umfasst.

Der Klassifikator benutzt den Self-Organizing Map Algorithm [Kohonen87]

um die Punkte in Cluster einzuteilen. Punkte, die nahe beieinander liegen, wer-den zu einem Cluster zusammengefasst. Dabei darf der Radius eines Clusters einen bestimmten Maximalwert nicht ¨ubersteigen. Dieser Maximalwert wurde empirisch ermittelt und betr¨agt standardm¨aßig√

20/10 (er kann vom Benutzer uberschrieben werden).¨

Die Ausgabe des Klassifikators ist ein Vektor der Gr¨oßeM, der den Cluster beschreibt, der zu der Eingabe geh¨ort. Cluster 1 entspricht (1,0,0, . . . ,0), Cluster 2 (0,1,0, . . . ,0), etc.

Das Back-Propagation-Netz Mit der Ein- und Ausgabe des Klassifikators wird nun ein Back-Propagation-Netz trainiert. Es handelt sich hierbei um einen supervised Lerner, das heißt er ben¨otigt zum Lernen die korrekte Ausgabe.

Der Lernalgorithmus funktioniert wie folgt: Die Gewichte der Kanten sind anfangs zuf¨allige Werte zwischen -0.5 und 0.5, da ¨uber die Zwischenschicht jeder Eingabeknoten mit jedem Ausgabeknoten verbunden sind (N ·(N +M)/2· = (N+M)²/2 Kanten), kann jeder Diskriminator einen Beitrag zu jedem Cluster liefern. In der Forward-Propagation-Phase wird zu jeder Eingabe die Ausgabe, die sich aus den momentanen Gewichten ergibt, berechnet.

Anschließend werden die Ist-Ausgaben mit den Soll-Ausgaben verglichen, die Differenz bestimmt den Fehler. Dieser Fehlervektor wird nun r¨uckw¨arts durch das Netz propagiert (Backward Propagation) und dabei werden die Gewichte angepasst. Das ganze wird wiederholt, bis der Fehler klein genug ist, also er unter einem Schwellwert bleibt. Der Schwellwert kann vom Benutzer eingestellt werden. Der Prozess endet also, wenn die Ausgabeknoten f¨ur jede Eingabe das richtige Cluster anzeigen.

Länge

Abbildung 5.Das Back-Propagation Netz

Nach dem Training des Back-Propagation-Netzes kann es benutzt werden, um die Attribute anderer Datenbanken in Cluster einzuteilen. F¨ur jedes Attribut werden die Cluster mit dem h¨ohsten ¨Ahnlichkeitswerten als Mapping vorgeschla-gen. Der Benutzer kann hier angeben, wie hoch der ¨Ahnlichkeitswert mindestens sein soll und wie viele Cluster maximal vorgeschlagen werden.

SEMINT hat den großen Vorteil, dass es sich selbst Trainingsdaten generiert;

daher ist nur eine minimale Benutzer-Interaktion erforderlich. Ein Nachteil ist, dass das System nur schlecht mit String-Daten umgehen kann, da diese schwer in eine numerische Repr¨asentation f¨ur die neuronalen Netze gebracht werden k¨onnen.

Wie man sieht, gibt es die unterschiedlichsten Ans¨atze, das Schema-Matching-Problem zu l¨osen. Bemerkenswert ist, dass keines der vorgestellten Verfahren auf Schema-Informationen v¨ollig verzichtet.

4 Vergleich der unterschiedlichen Verfahren

Ein Vergleich zwischen den Systemen ist schwierig, da die Verfahren zum Teil auf unterschiedlichen Datenmodellen aufbauen, unterschiedliche Eingaben erfordern und Ausgaben liefern und f¨ur unterschiedliche Zwecke eingesetzt wurden.

Das Maß des Vergleichs hier soll dieArbeitserleichterung des Benutzers sein.

Dabei kommt es zum einen auf Vollst¨andigkeit an: Wurden alle Korrespondenzen gefunden? DerRecall ist ein Maß hierf¨ur. Zum anderen kommt es auf die Kor-rektheit an: DiePr¨azision (Precision) gibt an, wieviele Korrespondenzen g¨ultig waren im Verh¨altnis zu allen gefundenen.

Sei A die Menge der real-vorkommenden Korrespondenzen und B die der generierten. Die Pr¨azision und der Recall sind dann formal definiert als:

P recision = ^|A∩B|_|B| und Recall = ^|A∩B|_|A| . Im Allgemeinen ist der Recall wich-tiger, da der Benutzer evtl. nur unter den vorgeschlagenen Korrespondenzen die richtigen ausw¨ahlt und nicht davon ausgeht, dass andere g¨ultige vom Sys-tem ¨ubersehen wurden. Auf der anderen Seite darf das System nicht zu viele ung¨ultige Korrespondenzen vorschlagen, denn sonst reduziert das die Arbeitser-leichterung.

Es ist leicht eine Gr¨oße auf Kosten der anderen zu verbessern: Schl¨agt ein System alle m¨oglichen Korrespondenzen vor, ist der Recall maximal und die Pr¨azision minimal (im Idealfall sind beide Gr¨oßen 1). Man muss also beide Gr¨oßen ber¨ucksichtigen. Hierf¨ur bietet die Information-Retrieval-Forschung fol-gende M¨oglichkeiten [Do02]:

– F−M easure(α) = P recision·Recall

(1−α)·P recision+α·Recall, wobei α ∈ (0,1) angibt, was st¨arker zu gewichten ist, denn es gilt: lim_α→1F−M easure(α) =P recision und lim_α→0F−M easure(α) = Recall Wenn Pr¨azision und Recall gleich gewichtet werden (α= 0.5), ergibt sich folgende Formel:

– F−M easure= 2· P recision·Recall

P recision+Recall, die das Harmonische Mittel von Pr¨ azi-sion und Recall darstellt.

– Overall=Recall·(2−_{P recision}¹ ); dieses Maß wurde extra f¨ur das Problem des Schema Matchings entwickelt [Melnik01]. Es basiert auf der Idee, die Arbeit, die nach dem Matching-Prozess anf¨allt, zu quantifizieren. Die zugrundelie-gende Annahme ist, dass es keine Arbeit kostet ein korrektes Match-Paar zu identifizieren und gleich viel Arbeit kostet ein falsches Match-Paar (falsches Positiv) zu l¨oschen wie ein fehlendes (falsches Negativ) hinzuzuf¨ugen, ob-wohl letzteres in der Regel mehr Zeit in Anspruch nimmt, da man in den unspr¨unglichen Schemata nachsehen muss.

Sei|A|=m,|B|=nund|A∩B|=c. Es m¨ussenn−c Paare gel¨oscht und m−chinzugef¨ugt werden. Bei der manuellen Durchf¨uhrung eines Matchings m¨ussen m Paare hinzugef¨ugt werden, die Kosten betragen m. Daher ist

(n−c)+(m−c)

m ein Maß f¨ur die Arbeit, die nach dem automatischen Matching aufgewandt werden muss; 1−(n−c)+(m−c)

m = _m^c(2−ⁿ_c =Recall·(2−_{P recision}¹ ) ist ein Maß f¨ur die Arbeitserleichterung. Overall kann negative Werte an-nehmen, was anschaulich bedeutet, dass man mit der maschinellen

” Un-terst¨utzung“ mehr Arbeit hat als man ohne sie h¨atte.

Sowohl F-Measure als auch Overall nehmen f¨ur P recision = Recall = 1 ihren maximalen Wert (1) an. F-Measure ist ein optimistischeres Maß als Overall [Do02].

Tabelle 4 listet die Durschnittswerte f¨ur die Systeme LSD, SEMINT, Simi-liarity Flooding (SF) und f¨ur Cupid.

Die Werte f¨ur Cupid stammen nicht von dessen Autoren, sondern aus [Giunchiglia05] und beziehen sich auf andere Test-Schemata, was erkl¨aren k¨ onn-te, warum Cupid bedeutend schlechter bei Overall abschneidet. Beim Overall-Wert von SEMINT wurde ber¨ucksichtigt, dass SEMINT nur Cluster von

At-Tabelle 4.Vergleich der Systeme

Cupid LSD S-Match SEMINT SF

Precision 0.45 0.8 1.0 0.78

-Recall 0.6 0.8 0.98 0.86

-F-Measure 0.51 0.8 0.99 0.81

-Overall -0.13 0.6 0.98 0.48 0.6

tributen aufeinander abbildet, daher ist der Wert geringer als bei den anderen Verfahren.

Man sieht, dass S-Match am besten abschneidet. Allerdings wurde es auch nur f¨ur zwei Matching-Aufgaben ausf¨uhrlich getestet. LSD und SF schneiden gleich gut ab. Dies ist bemerkenswert f¨ur das Similarity Flooding, da es ein allgemeiner Graphenalgorithmus ist, der nicht daf¨ur entwickelt wurde, mit spe-ziellen Schema-Matching-Verfahren zu konkurieren [Melnik01].

Ein grundlegendes Problem bei Messungen wie dieser ist, dass nur wenige Test-Schemata zur Verf¨ugung stehen; so wurde Cupid mit 2 Match-Aufgaben getestet, LSD mit 20, S-Match mit 2, SEMINT mit 5 und SF mit 9. Leider sind umfangreichere und bessere Benchmarks kaum vorhanden [Do02], mit denen man bestimmter sagen k¨onnte, welcher Ansatz der effektivste ist. Vermutlich schneiden hybride Verfahren, die sowohl Instanzen als auch Schemata betrachten, am besten ab.

Literatur

[Bernstein01] Erhard Rahm, Philip A. Bernstein: A survey of approaches to automatic schema matching The VLDB Journal 10, 2001

[Bernstein04] Philip A. Bernstein, Sergey Melnik, Michalis Petropoulos, Christoph Quix: Industrial-strength schema matching SIGMOD Record, 33(4):38-43, 2004

[Rahm01] Jayant Madhavan, Philip A. Berstein, Erhard Rahm: Generic Schema Mat-ching with Cupid Proceedings of the 27th VLDB Conference, 2001

[Doan01] AnHai Doan, Pedro Domingos, Alon Halevy: Reconciling Schemas of Dispa-rate Data Sources: A Machine-Learning Approach ACM SIGMOD 2001 [Melnik01] Sergey Melnik, Hector Garcia-Molina, Erhard Rahm: Similarity Flooding:

A Versatile Graph Matching Algorithm 2001

[Empley04] David W. Embley, Li Xu, Yihong Ding: Automatic Direct and Indirect Schema Mapping: Experiences and Lessons Learned SIGMOD Record, Vol.

33, No. 4, 2004

[Do02] Hong-Hai Do, Sergey Melnik, Erhard Rahm: Comparison of Schema Matching Evaluations Proc GI-Workshop

”Web and Databases“ Erfurt, Oktober 2002 [Li00] Wen-Syan Li, Chris Clifton: SEMINT: A tool for identifying attribute

corre-spondences in hererogenous databases using neural networks Data Knowl. Eng.

33(1): 49-84, 2000

[Giunchiglia05] Fausto Giunchiglia, Pavel Shvaiko, Mikalai Yatskevich: Semantic Sche-ma Matching Technical Report DIT-05-014, 2005

[Cohen98] W. Cohen, H. Hirsh: Joins that generalize: Text classification using Whirl Proc. of the Fourth Int. Conf. on Knowledge Discovery and Data Mining (KDD), 1998

[Fellbaum98] Christiane Fellbaum: WordNet: An Electronic Lexical Database Bradford Books, 1998

[Kohonen87] T. Kohonen: Adaptive associative and self-organizing functions in neural computing Appl. Optics 26 4910-4918, 1987

Im Dokument Schema-Matching Seminar Informationsintegration and Informationsqualit¨at (Seite 18-24)