• Keine Ergebnisse gefunden

3.2 Der Suchprozess

3.2.3 Distanzbildung und Kombination

Das Kernst¨uck der inhaltsbasierten Bildsuche bildet die Idee, die Merkmale als als Vektoren in einem Raum zu interpretieren, auf dessen Basis die M¨oglichkeit besteht, einen r¨aumlichen Abstand zwischen den Vektoren zweier Bildobjekte zu berechnen. Dieser Abstand bildet dann wiederum die Grundlage f¨ur die Generierung eines ¨Ahnlichkeitswertes. Unter der Verwendung mehrerer Merkmale f¨ur die formale Repr¨asentation der Bildobjekte m¨ussen die erzeugten Di-stanzen bzw. ¨Ahnlichkeitswerte zu einem einzigen Wert zusammengefasst werden.

K¨onnen die erzeugten Merkmale wirklich als Vektor interpretiert werden, bei denen die Kompo-nenten voneinander unabh¨angig sind jedoch ¨ahnliche Charakteristika aufweisen, dann k¨onnen Abstandsmaße wie zum Beispiel der euklidische Abstand, wie in Gleichung (3.1) gezeigt, f¨ur die Distanzbildung verwendet werden. Die genannten Voraussetzungen sind jedoch nicht immer erf¨ullt.

d(~r, ~q) =p

(~r −~q)T(~r −~q) (3.1) Oftmals weisen die einzelnen Komponenten der Vektoren unterschiedliche Wertebereiche oder unterschiedliche Dynamik auf. Damit auch diese Vektoren den oben beschriebenen Voraus-setzungen entsprechen, werden Normierungen durchgef¨uhrt. Die Unterschiedlichen Normie-rungsverfahren sollen daf¨ur sorgen, dass die Differenzen, die sich f¨ur die unterschiedlichen Komponenten zwischen den Vektoren ergeben, gleiche oder ¨ahnliche Wertebereiche aufwei-sen. Mit diesem Vorgehen wird vermieden, dass Differenzen einer Komponente grunds¨atzlich von Differenzen anderer Komponenten ¨uberschattet werden.

Die Normierung findet im Allgemeinen direkt im Anschluss an die Merkmalsberechnung statt.

Die Normierung der Wertebereiche der unterschiedlichen Komponenten kann direkt durch-gef¨uhrt werden, denn die Wertebereiche sind durch die Berechnungsvorschriften der Merkmale klar gegeben. Die Anwendung von Normierungen, die die unterschiedliche Dynamik der Vek-toren ber¨ucksichtigen, verlangt jedoch die Analyse der bereits gebildeten Vektoren und muss dadurch in einem separaten Schritt nach der Merkmalsberechnung durchgef¨uhrt werden. Sie hat damit den Nachteil, dass sie von dem Inhalt der Bilder der Datenbank abh¨angt, was bei dem Einf¨ugen neuer Bilder in die Datenbank ber¨ucksichtigt werden muss.

Bei einer anderen Gruppe von Merkmalen sind die Komponenten der vektoriellen Darstel-lung nicht wie eben betrachtet unabh¨angig voneinander. So sind beispielsweise die Kompo-nenten eines Farbhistogramms durch die eingesetzte Quantisierung stark mit den jeweiligen Nachbarn verbunden. Eine Distanzberechnung durch den von Swain et. al vorgestellten Hi-stogrammschnitt [Swa91] ber¨ucksichtigt diese Abh¨angigkeit nicht. Ein Abstandsmaß, was die Abh¨angigkeiten der Komponenten untereinander ganz allgemein unterst¨utzt, ist der in Ab-schnitt 3.2.4 vorgestellte generalisierte euklidische Abstand, der bei symmetrischen Matrizen auch den Gesetzm¨aßigkeiten von metrischen R¨aumen unterst¨utzt (vergleiche Zeidler [Zei96]).

Werden die oben angef¨uhrten Distanzberechnungen richtig auf die verwendeten Merkmale angepasst, resultiert f¨ur den Vergleich zweier Bildobjekte eine der Menge der verwendeten Merkmale entsprechende Anzahl von Distanzwerten. Dabei k¨onnen auch Distanzberechnun-gen verwendet werden, die nur f¨ur einen bestimmten Merkmalsrepr¨asentanten sinnvoll einsetz-bar sind. Die gebildeten Distanzwerte weisen wiederum unterschiedliche Wertebereiche und Dynamik auf, was f¨ur die sich anschließende Zusammenfassen ber¨ucksichtigt werden muss.

Es werden zwei grunds¨atzliche Methoden, die Distanzwerte der zu benutzenden Merk-malsr¨aume zu kombinieren, unterschieden. Das ist zum einen die Linearkombination der Ein-zeldistanzen, also eine hierarchisch gebildete Distanz, und im anderen Fall handelt es sich um die die Zusammenlegung der Merkmalsr¨aume zu einem gemeinsamen Raum, in dem nur eine einzige Distanz gebildet werden muss, der flache Ansatz. Beide Ans¨atze werde im Folgenden gegen¨ubergestellt.

3.2 Der Suchprozess

Vereinigung der Merkmalsr¨aume

Unter der Vereinigung der Merkmalsr¨aume ist zun¨achst eine Vergr¨oßerung der Raumes zu verstehen, bei der die Merkmalsvektoren konkateniert werden, so dass sich die Dimension des vereinigten Raums aus der Summe aller Repr¨asentantendimensionen ergibt. Durch diese Maßnahme muss bei einer Distanzbestimmung nur ein Wert berechnet werden, was die Al-gorithmik sehr einfach h¨alt. Der gravierende Vorteil dieser Handhabung von Merkmalsr¨aumen ist jedoch der, dass auf dem vereinigten Raum eine Hauptkomponentenanalyse durchgef¨uhrt werden kann. Diese Analyse erlaubt es, eine Dimensionsreduktion aufgrund von redundanter Information der Vektoren durchzuf¨uhren, so dass sich sowohl bez¨uglich der Speicherung als auch der Verarbeitung der Vektoren ein erheblich kleinerer Verbrauch von Ressourcen ergibt.

Diese Vorgehensweise kann auch in jedem Raum separat durchgef¨uhrt werden, jedoch werden Redundanzen, die vektor¨ubergreifend sind, nicht erfasst.

Schwierig gestaltet sich hier die Normierung des konkatenierten Vektors, bei der die Di-mension der zugrunde liegenden Vektoren mit ber¨ucksichtigt werden muss. Wird die-ser Verh¨altnism¨aßigkeit keine Rechnung getragen, dann dominieren die Merkmale mit h¨oherdimensionalen Vektoren die sich anschließende Distanzbildung.

Obwohl die Vereinigung der Merkmalsr¨aume zun¨achst augenscheinlich sehr vielversprechend ist, birgt sie den Nachteil, dass die Wertung der beteiligten Merkmalsrepr¨asentanten fest zu gleichen Teilen in die Distanzberechnung eingeht. Damit ist eine sp¨ateres Modifizieren der Gewichtung durch den Einsatz eines Lernverfahrens nicht mehr m¨oglich.

Distanzbasierte Verkn¨upfung der Distanzen

Bei dieser Art der Distanzbildung werden die Distanzen zun¨achst f¨ur jeden beteiligten Merk-malsrepr¨asentanten gebildet. Die Gesamtdistanz bildet sich aus der gewichteten Summe der Einzeldistanzen, wobei in die Gewichtung Normierungsgr¨oßen eingehen k¨onnen.

Bei dem realen Einsatz einer Bilddatenbank ist davon auszugehen, dass die Repr¨asentanten der unterschiedlichen Merkmalsklassen ungleich stark vertreten sind. Daher muss daf¨ur Sorge getragen werden, dass die Merkmalsklassen, die nur wenige Repr¨asentanten aufweisen k¨onnen nicht durch andere Klassen ¨uberschattet werden. Auch hier k¨onnen Gewichtungen der Einzel-distanzen Abhilfe schaffen.

Rangbasierte Verkn¨upfung der Distanzen

G¨anzlich kann auf eine Normierung verzichtet werden, wenn die ermittelten Distanzen nur f¨ur das Bilden einer Abfolge der Objekte in jedem Merkmalsraum benutzt werden. Mit dem Einsatz dieser rangbasierten Verkn¨upfung werden also die Objekte in eine ¨aquidistante Abfolge gebracht. Diese Vereinfachung bringt es naturgem¨aß mit sich, dass jegliche Relationen der Distanzen nicht mehr in die Gesamtdistanz eingehen k¨onnen. Der Rang, den ein Objekt in der Abfolge einnimmt muss wiederum auf einen Distanz- oder ¨Ahnlichkeitswert abgebildet werden.

Diese Werte k¨onnen dann wie bei der distanzbasierten Verkn¨upfung aufsummiert werden. Die Repr¨asentanz der unterschiedlichen Merkmalsklassen ist hier ebenso zu ber¨ucksichtigen.

Kombination von rang- und distanzbasierter Verkn¨upfung

Schließlich ist eine Kombination von rang- und distanzbasierter Verkn¨upfung denkbar, die ebenfalls nur dann einsetzbar ist, wenn die Suche in allen Merkmalsr¨aumen getrennt durch-gef¨uhrt wird. So kann beispielsweise die Distanz eines Bildobjekts eines bestimmten Ranges in jedem Repr¨asentantenraum als Normierungsgrundlage dienen.

Fazit f¨ur den Systementwurf

Aus den vorangehenden Abschnitten geht hervor, dass der hierarchische Ansatz zwar zur Lauf-zeit rechenintensiv ist, jedoch eine erhebliche Flexibilit¨at beinhaltet, die f¨ur den Forschungs-prototyp w¨unschenswert ist.

Eine besondere Flexibilit¨at bietet der hierarchische Ansatz in der M¨oglichkeit, f¨ur die unter-schiedlichen Merkmalsr¨aume angepasste, also unterschiedliche Distanzfunktionen zu w¨ahlen.

Das ist sogar zwingend erforderlich, wenn Signaturen mit variablen Vektorl¨angen verglichen werden sollen.

Eine Vereinigung der Merkmalsr¨aume kann als ein Sonderfall der hierarchischen Distanzberech-nung behandelt werden, bei der durch das Zusammenlegen der Einzelr¨aume die Suche faktisch nur auf einem Merkmal beruht. Daher wird die Flexibilit¨at des Systems bei der Umsetzung der hierarchischen Suche maximal garantiert.