Eigenbewegung aus optischem Fluß
Flußfelder• Distanzen und Translation können nur bis auf einen Skalierungsfaktor bestimmt werden => meist wird nur Translationsrichtung bestimmt.
• N Flußmessungen führen auf 2N Gleichungen mit N + 5 Unbekannten (N Dist- anzen, 3 Rotationsfreiheitsgrade, 2 Translationfreiheitsgrade) => 5 Flußmes- sungen reichen theoretisch.
• Führt auf ein nichtlineares Gleichungssystem ohne geschlossene Lösung, eine Vielzahl mehr oder weniger aufwendiger Lösungsverfahren sind bekannt
• Lösung liefert gleichzeitig Distanzen und Eigenbewegung („structure from motion“)
+ −
−
−
− +
+
+
−
=
b b z b
b b
y b
b b
x y
x b
b z y
x
x y f
y x f f x f f
y f
y x T
f T y T x u z
u ω ω ω
2
2
1
Matched Filter für Eigenbewegungsdetektion
Flußfelder
Grundidee: Berechne eine Reihe erwarteter Flußfelder für verschiedene Eigenbewegungen, selektiere Eigenbewegung mit der größten Ähnlichkeit.
Problem: Bestimmte Flußfelder sind bei kleinen Sichtfeldern nicht robust unterscheidbar
Translation Rotation um
in x-Richtung y-Achse
=> Große Sichtfelder erforderlich
Neuronale Antwort auf einen
Bewegungsstimulus Pfeillänge:
Lokale Bewegungs- Sensitivität
Pfeilrichtung:
Lokale
Vorzugsrichtung
*from Krapp et al., 1998
Tangentialneuronen im Fliegengehirn
Rotatory and translatory neurons
• LPDs appear to follow optic flow lines
• LMSs roughly match relative sizes of flow vectors
• pronounced dorsoventral asymmetry: rotational neurons assign less weight to ventral regions, translational less weight to dorsal regions.
VS4 Hx
Simplified neural estimator
• estimator is a weighted sum of flow components => distance dependence of translational flow is ignored.
• use prior knowledge about distance distribution of environment, noise and movement characteristics for choosing unit vectors and weights.
• unit vector field corresponds to LPDs, local weights to LMSs.
optic flow field
projection on unit vector field
w11
w12
w13
+
local w eights
sum m ation
self-motionestimate
Task:
• find best possible linear estimator for the self-motion of sensor (i.e., rotation
R and translation Talong x-, y- and z- axis) based on flow components.
Sensor Model
i x i i
i n
x=up+ ,
y
x z
di
ui
vi
• the eyes are modeled as a unit sphere, viewing directions of ommatidia are denoted by d
i(“markers”).
• at every marker exists a local coordinate system of orthogonal local tangential unit vectors u
iand v
i.
• along each tangential vector u
i, a measurement x
iof the local image motion p
iis available, subject to additive noise n
x,iwith zero mean:
• analogously, along v
i• optic flow at d
i (Koenderink & v. Doorn)pi xi
yi
i y i i
i n
y = vp + ,
i x i i
i
n
x = u p +
,i i
i i
i
T Td d R d
p = − µ ( − ( ) ) − ×
Prior knowledge
i i i
µ µ= + ∆µ
Prior knowledge of
• average nearness and its covariance matrix C
µover the sensor
• covariance C
nof sensor noise
• covariance C
Tof translation T
⇒ inter-scene covariance*:
*µ, n and T are assumed to be statistically independent.
Nearness decomposition:
=> Sensor signal:
Nearness deviation of current scene
,1 1 1
1 1 1 1 1
,1 1 1
1 1 1 1 1
, , x y
x N N N
N N N N N
y N N N
N N N N N
x n y n
F x n
y n
µ µ µ µ µ µ µ µ
− − × − ∆
− − × − ∆
= + = +
− − × − ∆
− − × − ∆
u u d u T v v d v T
T x Q
R u T
u u d
v v d v T
µ
i, ,
T
ij n ij ij i T j
C = C + C
µu C u
Optimal estimator
Linear estimator:
• A reliable estimator should be as consistent as possible in different scenes
=> minimize covariance of estimator output (square error):
• estimator should be unbiased:
Minimization of the Euler-Lagrange-Functional
yields optimal solution with
Special case: let C
µand C
ndiagonal,
ithe angle between d
iand the self- motion axis to be estimated.
⇒ LMSs :
rotational translational
ˆ = W [
[ T]
E =tr WCW
1
WF WF
= ⇒ =
[
T] [
T(1 )]
J = tr WCW + Λ tr − WF
1 1 2
W = Λ F C
T −Λ = 2( F C F
T −1)
−12 2 2
sin
( )
i ij
i i i
w n
ϕ
= µ
∆ + ∆ Tu
2 2 2sin
( )
i i
ij
i i i
w n
µ ϕ
= µ
∆ + ∆ Tu
Prediction of VS receptive fields
h D0 ε
∆D
Assumptions:
• Average distance in the ventral visual field is smaller.
• C
µand C
nare diagonal with identical diagonal elements.
•
T has a broadly peaked distribution inforward direction.
Parameters of this “world model” are varied until best fit to data is achieved.
Results:
• theory predicts measured LPD distribution.
• rotational estimators show the same dorsoventral asymmetry as the VS neurons.
• asymmetry is reversed in translational estimators.
• However: LMS distribution is significantly different although qualitatively similar => theory must be modified to take nonlinear response properties of EMDs into account (Franz & Krapp, 2000).
Distance statistics of indoor environments
Laser scanner on tripod Distance deviation
Average distance
Optimal indoor estimators
x-translation y-translation z-translation
x-rotation y-rotation z-rotation
Accuracy test on gantry
Position accuracy of gantry: 0,1 mm Data acquisition:
• move optics to one of 10 different start positions
• perform either translation, rotation or both in 5 steps
• at each step, record omnidirectional image
135 deg.
Omnidirectional mirror optics*:
• 360 deg. horizontal and 270 deg. vertical viewing field
• parabolically shaped mirror
*Chahl & Srinivasan, 1997
Image processing and performance evaluation
1. Original view of parabolic mirror
2. Unwarped and lowpass filtered image pairs
3. 2D optic flow field on 9x152 sampling grid 4.Thresholding of flow field, renormalization of weights, self- motion estimation Performance evaluation using spherical statistics:
For N trials, compute Bias:
Scatter:
1 ˆ
true N i
b= −
∑
1 (1 ˆi ˆi)2
N N
σ =
∑ ∑
−Estimator performance
Rotation error (N=450):
b = 5.7%, = 1.7 deg.
Translation error (N=420):
b = 7.5%, = 4.5 deg.
Estimator Consistency
Variability of estimates in different locations
Variability for combined translation and rotation
Rotation Translation
Fixed translation, variable rotation Fixed rotation, variable translation
Grundidee („structure from stereo“): Analog zu „structure from motion“, Bestimmung der Tiefe eines Raumpunktes aus Vermessung seiner
unterschiedlichen Bildpositionen(Parallaxenunteschied). Die Bewegung einer einzelnen Kamera wird dabei durch 2 oder mehr Kameras ersetzt.
Unterschiede zu „structure from motion“:
• Die gegenseitige Lage und Orientierung (sog. relative Orientierung des Kamerapaares) wird als bekannt vorausgesetzt.
• relative Orientierung bleibt konstant.
• Aufnahme der Bilder erfolgt gleichzeitig.
• Es werden keine infinitesimalen, sondern endliche Distanzen und Drehungen zwischen den Bildern durchgeführt => Zusammenhang zwischen
Bildverschiebung und Tiefe wird durch eine andere Gleichung beschrieben.
• Bei der Stereoauswertung heissen die durch den unterschiedlichen Blickwinkel verursachten Bildunterschiede Disparitäten. Unterschieden werden dabei
Punktdisparität (entspricht Verschiebungsvektor, wird unterteilt in Quer- und Vertikaldisparität), Orientierungs-, Schattierungs und Verdeckungsdisparität.
Alle Disparitäten können zur Extraktion von Tiefeninformation genutzt werden.
Stereopsis
Stereo
Optische Achsen der Kameras sind parallel und senkrecht zum gegenseitigen Verschiebungsvektor (Stereobasis b).
Normalfall der Stereoauswertung
Stereo
Perspektivische Abbildung:
(links)
(rechts) Disparität:
Elimination von x ergibt z
b f x
xl = + /2
z b f x
xr = − /2
r
l x
x d
= −
d b f z z
f b d x
xl
−
r= = ⇒ =
Tiefenfehler: => je grösser die Basis, desto kleinerer Fehler
=> Tiefenfehler nimmt quadratisch mit der Tiefe zu fb d
z= z ∆
∆ 2
Im Prinzip sind alle Verfahren aus der Berechnung des optischen Flusses zur Messung von Punktdisparitäten geeignet, allerdings reicht hier eine
Vereinfachung aufgrund der sog. Epipolarengeometrie:
Alle Sehstrahlen, die die Bilder und den Objektpunkt schneiden, liegen in einer Fläche, der sog. Epipolarenfläche. Der Schnittmenge mit den Bildebenen sind die Epipolarenlinien.
⇒Wird ein Objekt in einem Bild an einer bestimmten Bildposition detektiert, kann es im anderen Bild nur auf der epipolaren Linie liegen
⇒2-D-Korrespondenzproblem wird zu 1-D-Korrespondenzproblem entlang der Epipolaren
-Oft werden zusätzliche Ordnungsbedingungen verwendet, z.B. Eindeutigkeit, Vollständigkeit oder Beibehaltung der Reihenfolge.
- Disparitätsberechnung vereinfacht sich, wenn Bilder so verzerrt werden, dass die Epipolaren auf horizontalen Linien im Bild liegen (entspricht
Stereonormalfall)
Epipolaren und Stereoalgorithmen
Stereo
Globales Disparitätsverfahren zur Hindernisdetektion.
Inverse Perspektive
Stereo
Version
Konvergierende Kameraachsen
Stereo
Vergenzwinkel Epipolarengeometrie:
Vieth-Müller- Kreis => gleiche Vergenz
Fixierpunkt: Disparität verschwindet (sog.
theoretischer Horopter)
Empirischer Horopter: Alle Punkte, die gleich weit entfernt erscheinen wie der Fixierpunkt
Quelle: Mallot, 1998
Hering-
Koordinaten
Stereo
Vieth-Müller- Kreis => gleiche Vergenz
Hillebrand- Hyperbel =>
gleiche Version
Stereokalibrierung
Stereo
Kalibrierung: Abbildungsgleichung (Bestimmung der Translation/Rotation zwischen beiden Kameras=>analog zur Eigenbewegungsschaetzung aus Fluss), basiert auf Objekt mit bekannten Strecken und Abständen.
Kalibriertargets
Kalibrierbilder