Numerical Optimization

(1)

Numerical Optimization

CHAPTER 13. ADMM

(2)

Today

ADMM: Alternating Direction Method of Multipliers

[Glowinski, R. & Marroco, A., 1975]

[D. Gabay & B. Mercier, 1976]

For an introduction: [Boyd et al., FnT ML, 2010]

Aim:

•   Understanding the algorithm

•   Convergence

•   Consensus formulation

(3)

Dual Ascent

min

x ∈ R ⁿ

f ( x )

s . t

. Ax = b

A ∈ R ^m ^× ⁿ , f : R ⁿ → R convex

Lagrangian L ( x ; y ) = f ( x ) + y ^T ( Ax − b ) y ∈ R ^m

Dual objective function: g ( y ) = inf

x

L ( x ; y )

Let x ^∗ minimizes L (x ; y ) for a given y . Then

g (y ) = L (x ^∗ ; y ) = f (x ^∗ ) + y ^T (Ax ^∗ − b)

(4)

Dual Problem

max

y

g ( y ) ^Ax ^∗ ⁻ ^b ^∈ ^∂ ^g ⁽ ^y ⁾ ^,

x ^∗ ∈ arg min

x

L ( x ; y )

Using subgradient ascent:

α ^k > 0 is a stepsize

x ^k ⁺¹ ∈ arg min

x

L (x ; y ^k )

y ^k ⁺¹ = y ^k + α ^k ( Ax ^k ⁺¹ − b )

(5)

Dual Subgradient Ascent

When alpha ^k is chosen carefully, and with additional assumptions, this procedure can produce

However, this requires conditions often do not hold in practice.

x ^k ⁺¹ ∈ arg min

x

L ( x ; y ^k )

y ^k ⁺¹ = y ^k + α ^k ( Ax ^k ⁺¹ − b )

x ^k → x ^∗ , y ^k → y ^∗

(6)

Augmented Lagrangian

Lagrangian:

Augmented Lagrangian:

This is the Lagrangian function associated with an equivalent problem:

L ( x ; y ) = f ( x ) + y ^T ( Ax − b )

L _ρ ( x ; y ) = f ( x ) + y ^T ( Ax − b ) + ρ

2 k Ax − b k ² ₂ ρ > 0 : penalty parameter

min

x

f ( x ) + ρ

2 k Ax − b k ²

s . t . Ax = b

(7)

MM: Method of Multipliers

Dual ascent with augmented Lagrangian:

•   Converges in more general conditions than dual ascent

x ^k ⁺¹ ∈ arg min

x

L _ρ ( x ; y ^k )

y ^k ⁺¹ = y ^k + ρ(Ax ^k ⁺¹ − b)

(8)

ADMM

min

x ∈ R ⁿ , z ∈ R ^m f ( x ) + g ( z ) s . t . Ax + Bz = c

A ∈ R ^p ^× ⁿ , B ∈ R ^p ^× ^m

Augmented Lagrangian:

L _ρ ( x , z ; y ) = f ( x ) + g ( z ) + y ^T ( Ax + Bz − c ) + ρ

2 k Ax + Bz − c k ² ₂

“Alternating direction” method of multipliers

x ^k ⁺¹ ∈ arg min

x

L _ρ ( x , z ^k ; y ^k )

z ^k ⁺¹ ∈ arg min

z

L _ρ ( x ^k ⁺¹ , z ; y ^k )

y ^k ⁺¹ = y ^k + ρ( Ax ^k ⁺¹ + Bz ^k ⁺¹ − b )

Coordinate-Wise Minimization

Dual Ascent

(9)

MM vs. ADMM

x ^k ⁺¹ ∈ arg min

x

L _ρ ( x , z ^k ; y ^k )

z ^k ⁺¹ ∈ arg min

z

L _ρ ( x ^k ⁺¹ , z ; y ^k )

y ^k ⁺¹ = y ^k + ρ( Ax ^k ⁺¹ + Bz ^k ⁺¹ − b )

( x ^k ⁺¹ , z ^k ⁺¹ ) ∈ arg min

x

L ρ ( x , z ; y ^k )

y ^k ⁺¹ = y ^k + ρ ( Ax ^k ⁺¹ + Bz ^k ⁺¹ − b )

MM

ADMM

(10)

Convergence of ADMM

Assumptions:

1. f : R ⁿ → R ∪ {∞}, g : R ^m → R ∪ {∞} are closed, proper, and convex

This implies that x-update and z-update are solvable, i.e., minimizers exist (but may not be unique)

epi f = {( x , t ) ∈ R ⁿ × R : f ( x ) ≤ t }

⇔

epi g = {( x , t ) ∈ R ⁿ × R : g ( x ) ≤ t }

are closed nonempty convex sets

(11)

Assumption 2:

With assumption 1, this implies that

L 0 has a saddle point, i.e. there exists (x ^∗ , z ^∗ , y ^∗ ) s.t.

L 0 (x ^∗ , z ^∗ , y ) ≤ L 0 (x ^∗ , z ^∗ , y ^∗ ) ≤ L 0 (x , z , y ^∗ ), ∀ x , z , y

(x ^∗ , z ^∗ ) is a primal solution of min

x , z f (x ) + g (z ) s.t. Ax + Bz = c

y ^∗ is a dual solution

(12)

Convergence of ADMM

Under assumptions 1 & 2,

r ^k := Ax ^k + Bz ^k − c → 0 as k → ∞ f ( x ^k ) + g ( z ^k ) → f ^∗ + g ^∗ as k → ∞

y ^k → y ^∗ as k → ∞

Residual Objective Dual variable

Primal variables need not converge to optimal values, although such

results can be shown under additional assumptions

(13)

Convergence of ADMM

General convex case

•   Sublinear convergence O(1/k)

•   [He & Yuan, SIAM J Numerical Analysis, 2012]

Strongly convex case

•   Linear convergence

•   [Deng & Yin, Rice Univ. Tech rep, TR12-14, 2012]

(14)

Global Variable Consensus

x min ∈ R ⁿ f ( x ) =

N

!

i =1

f _i ( x ) f _i : R ⁿ → R ∪ {∞} convex

A global variable x is shared across f _i ’s

x _i ∈ R min ⁿ , z ∈ R ⁿ

N

!

i =1

f _i ( x _i )

s.t. x _i − z = 0 , i = 1 , 2 , . . . , N .

A simple reformulation (global consensus problem):

(15)

ADMM for Global Consensus

Augmented Lagrangian:

L _ρ (x 1 , . . . , x _N , z ; y ) =

N

!

i =1

"

f _i (x _i ) + y _i ^T (x _i − z ) + ρ

2 "x _i − z " ² ₂ # ADMM:

x _i ^k ⁺¹ = arg min

x

i

! f _i ( x _i ) + ( y _i ^k ) ^T ( x _i − z ^k ) + ρ

2 " x _i − z ^k " ² ₂ "

z ^k ⁺¹ = 1 N

N

#

i =1

$

x _i ^k ⁺¹ + 1 ρ

y _i ^k

%

k +1 k k +1 k +1

(16)

Simplification

⇒ z ^k ⁺¹ = ¯ x ^k ⁺¹ + 1 ρ y ¯ ^k

¯

x := 1 N

N

!

i =1

x _i

⇒ by averaging, ¯ y ^k ⁺¹ = ¯ y ^k + ρ(¯ x ^k ⁺¹ − z ^k ⁺¹ )

∴ y ¯ ^k ⁺¹ = 0

∴ z ^k ⁺¹ = ¯ x ^k ⁺¹

ADMM:

x _i ^k ⁺¹ = arg min

x

_i

!

f _i (x _i ) + (y _i ^k ) ^T (x _i − z ^k ) + ρ

2 "x _i − z ^k " ² ₂ "

z ^k ⁺¹ = 1 N

N

#

i =1

$

x _i ^k ⁺¹ + 1 ρ

y _i ^k

%

y _i ^k ⁺¹ = y _i ^k + ρ ( x _i ^k ⁺¹ − z ^k ⁺¹ )

(17)

Simplification

z ^k ⁺¹ = ¯ x ^k ⁺¹

ADMM:

x _i ^k ⁺¹ = arg min

x

_i

!

f _i ( x _i ) + ( y _i ^k ) ^T ( x _i − z ^k ) + ρ

2 " x _i − z ^k " ² ₂ "

z ^k ⁺¹ = 1 N

N

#

i =1

$

x _i ^k ⁺¹ + 1 ρ y _i ^k

%

y _i ^k ⁺¹ = y _i ^k + ρ ( x _i ^k ⁺¹ − z ^k ⁺¹ )

Simplified ADMM:

x _i ^k ⁺¹ = arg min

x i

⇣

f _i ( x _i ) + ( y _i ^k ) ^T ( x _i − x ¯ ^k ) + ρ

2 k x _i − x ¯ ^k k ² ₂ ⌘

(18)

ADMM for Global Consensus

Each function access local data

Simplified ADMM:

x _i ^k ⁺¹ = arg min

x _i

⇣

f _i ( x _i ) + ( y _i ^k ) ^T ( x _i − x ¯ ^k ) + ρ

2 k x _i − x ¯ ^k k ² ₂ ⌘ y _i ^k ⁺¹ = y _i ^k + ρ( x _i ^k ⁺¹ − x ¯ ^k ⁺¹ )

Numerical Optimization

Numerical Optimization

CHAPTER 13. ADMM

Today

ADMM: Alternating Direction Method of Multipliers

[Glowinski, R. & Marroco, A., 1975]

[D. Gabay & B. Mercier, 1976]

For an introduction: [Boyd et al., FnT ML, 2010]

Aim:

• Understanding the algorithm

• Convergence

• Consensus formulation

Dual Ascent

min

x ∈ R n

f ( x )

s . t

. Ax = b

A ∈ R m × n , f : R n → R convex

Lagrangian L ( x ; y ) = f ( x ) + y T ( Ax − b ) y ∈ R m

Dual objective function: g ( y ) = inf

x

L ( x ; y )

Let x ∗ minimizes L (x ; y ) for a given y . Then

g (y ) = L (x ∗ ; y ) = f (x ∗ ) + y T (Ax ∗ − b)

Dual Problem

max

y

g ( y ) Ax ∗ − b ∈ ∂ g ( y ) ,

x ∗ ∈ arg min

x

L ( x ; y )

Using subgradient ascent:

α k > 0 is a stepsize

x k +1 ∈ arg min

x

L (x ; y k )

y k +1 = y k + α k ( Ax k +1 − b )

Dual Subgradient Ascent

When alpha k is chosen carefully, and with additional assumptions, this procedure can produce

However, this requires conditions often do not hold in practice.

x k +1 ∈ arg min

x

L ( x ; y k )

y k +1 = y k + α k ( Ax k +1 − b )

x k → x ∗ , y k → y ∗

Augmented Lagrangian

Lagrangian:

Augmented Lagrangian:

This is the Lagrangian function associated with an equivalent problem:

L ( x ; y ) = f ( x ) + y T ( Ax − b )

L ρ ( x ; y ) = f ( x ) + y T ( Ax − b ) + ρ

2 k Ax − b k 2 2 ρ > 0 : penalty parameter

min

x

f ( x ) + ρ

2 k Ax − b k 2

s . t . Ax = b

MM: Method of Multipliers

Dual ascent with augmented Lagrangian:

• Converges in more general conditions than dual ascent

x k +1 ∈ arg min

x

L ρ ( x ; y k )

y k +1 = y k + ρ(Ax k +1 − b)

ADMM

min

x ∈ R n , z ∈ R m f ( x ) + g ( z ) s . t . Ax + Bz = c

A ∈ R p × n , B ∈ R p × m

Augmented Lagrangian:

L ρ ( x , z ; y ) = f ( x ) + g ( z ) + y T ( Ax + Bz − c ) + ρ

2 k Ax + Bz − c k 2 2

“Alternating direction” method of multipliers

x k +1 ∈ arg min

x

L ρ ( x , z k ; y k )

z k +1 ∈ arg min

z

L ρ ( x k +1 , z ; y k )

y k +1 = y k + ρ( Ax k +1 + Bz k +1 − b )

•   Understanding the algorithm

•   Convergence

•   Consensus formulation

x ∈ R ⁿ

A ∈ R ^m ^× ⁿ , f : R ⁿ → R convex

Lagrangian L ( x ; y ) = f ( x ) + y ^T ( Ax − b ) y ∈ R ^m

Let x ^∗ minimizes L (x ; y ) for a given y . Then

g (y ) = L (x ^∗ ; y ) = f (x ^∗ ) + y ^T (Ax ^∗ − b)

g ( y ) ^Ax ^∗ ⁻ ^b ^∈ ^∂ ^g ⁽ ^y ⁾ ^,

x ^∗ ∈ arg min

α ^k > 0 is a stepsize

x ^k ⁺¹ ∈ arg min

L (x ; y ^k )

y ^k ⁺¹ = y ^k + α ^k ( Ax ^k ⁺¹ − b )

When alpha ^k is chosen carefully, and with additional assumptions, this procedure can produce

x ^k ⁺¹ ∈ arg min

L ( x ; y ^k )

y ^k ⁺¹ = y ^k + α ^k ( Ax ^k ⁺¹ − b )

x ^k → x ^∗ , y ^k → y ^∗

L ( x ; y ) = f ( x ) + y ^T ( Ax − b )

L _ρ ( x ; y ) = f ( x ) + y ^T ( Ax − b ) + ρ

2 k Ax − b k ² ₂ ρ > 0 : penalty parameter

2 k Ax − b k ²

•   Converges in more general conditions than dual ascent

x ^k ⁺¹ ∈ arg min

L _ρ ( x ; y ^k )

y ^k ⁺¹ = y ^k + ρ(Ax ^k ⁺¹ − b)

x ∈ R ⁿ , z ∈ R ^m f ( x ) + g ( z ) s . t . Ax + Bz = c

A ∈ R ^p ^× ⁿ , B ∈ R ^p ^× ^m

L _ρ ( x , z ; y ) = f ( x ) + g ( z ) + y ^T ( Ax + Bz − c ) + ρ

2 k Ax + Bz − c k ² ₂

x ^k ⁺¹ ∈ arg min

L _ρ ( x , z ^k ; y ^k )

z ^k ⁺¹ ∈ arg min

L _ρ ( x ^k ⁺¹ , z ; y ^k )

y ^k ⁺¹ = y ^k + ρ( Ax ^k ⁺¹ + Bz ^k ⁺¹ − b )

x ^k ⁺¹ ∈ arg min

L _ρ ( x , z ^k ; y ^k )

z ^k ⁺¹ ∈ arg min

L _ρ ( x ^k ⁺¹ , z ; y ^k )

y ^k ⁺¹ = y ^k + ρ( Ax ^k ⁺¹ + Bz ^k ⁺¹ − b )

( x ^k ⁺¹ , z ^k ⁺¹ ) ∈ arg min

L ρ ( x , z ; y ^k )

y ^k ⁺¹ = y ^k + ρ ( Ax ^k ⁺¹ + Bz ^k ⁺¹ − b )

1. f : R ⁿ → R ∪ {∞}, g : R ^m → R ∪ {∞} are closed, proper, and convex

epi f = {( x , t ) ∈ R ⁿ × R : f ( x ) ≤ t }

epi g = {( x , t ) ∈ R ⁿ × R : g ( x ) ≤ t }

L 0 has a saddle point, i.e. there exists (x ^∗ , z ^∗ , y ^∗ ) s.t.

L 0 (x ^∗ , z ^∗ , y ) ≤ L 0 (x ^∗ , z ^∗ , y ^∗ ) ≤ L 0 (x , z , y ^∗ ), ∀ x , z , y

(x ^∗ , z ^∗ ) is a primal solution of min

y ^∗ is a dual solution

r ^k := Ax ^k + Bz ^k − c → 0 as k → ∞ f ( x ^k ) + g ( z ^k ) → f ^∗ + g ^∗ as k → ∞

y ^k → y ^∗ as k → ∞

•   Sublinear convergence O(1/k)

•   [He & Yuan, SIAM J Numerical Analysis, 2012]

•   Linear convergence

•   [Deng & Yin, Rice Univ. Tech rep, TR12-14, 2012]

x min ∈ R ⁿ f ( x ) =

f _i ( x ) f _i : R ⁿ → R ∪ {∞} convex

A global variable x is shared across f _i ’s

x _i ∈ R min ⁿ , z ∈ R ⁿ

f _i ( x _i )

s.t. x _i − z = 0 , i = 1 , 2 , . . . , N .

L _ρ (x 1 , . . . , x _N , z ; y ) =

f _i (x _i ) + y _i ^T (x _i − z ) + ρ

2 "x _i − z " ² ₂ # ADMM:

x _i ^k ⁺¹ = arg min