theorie Codierung

(1)

Codierung

s

theorie

Steffen ^Reith

(2)

1

Vorlesung ^Kodierung

^stheorie

1.

Einleitung

Literatur ^:

. Dirk W.

Hoffman

^,

^Einführung

in die

Informations

^- ^und Codierung^. theorie _,

Springer

^-

Vieweg

^, ²⁰¹⁴

.

Juergen ^Bierbrauer

^, Introduction to

CodingTheory

^, ^CRC ^- ^Press ^, ²⁰¹⁶

Ziele ^:

. Verbessertes Verständnis des

Informations begriffs

•

Grundlagen

^, ^Ideen ^und Anwendungen

von Kanal ^- und Quellen

Kodierungen

. Mathematische

Grundlagen

⁽ ^Algebra^,

Vehtorräume

, etc

)

werden bei

Bedarf

(3)

eingeführt

2

. Modus ^: wöchentliche

Vorlesung

^t

Übungsbahn

Def

^: ^Seien^!

₎

_,^Z dann

endlich

^und ^IT

heißt ^Alphabete

^eine

injehtive ⁽

Abbildung

c :

Et

^→ IT ^"

Codierung

^.

Z

^nennt ^man ^Quell

alphabet

^und

IT Code alphabet loon c)

^.

Benin

^. Ê^' ^bzw ÎT ^" ênthalten âlle ^Worte

bet

^. ^aber ^endlicher

_Länge

^.

• In _der Praxis _wird

oft

^IT ⁼ ^20,1^G ^verwendet

(4)

3

• Ist ^c nicht

injehtiv

^, ^dann

spricht

^man ^von ^einer ^verlust ^behafteten Codierung

(

warum ?

)

Bsg

^:

^Lauf ^längen

Codierung

CRLE ^- _{Run Length}

Encoding )

Idee Wird ein

Buchstabe mehrfach

verwendet

, dann ersetzt man diese durch den Buchstaben ^und ^seine Anzahl

KAFFEE

Htkt

^AZFZE

TARDIS

_HAT _1A ₁ _RAD ₁₁₁₅

Alternativ kann man markieren _, ob

ein Zeichen

mehrfach

^vorkommt

Ü ⁼ def T ^' ^u 2 # b und #

¢

^IT ^',

dann KAFFEE H KA # ZF # ZE

(5)

4

Diese Art

^der

Kodierung

^ist

besonders bei Schwarz

/

_Weiß ^- ^Bildern

effektiv

^.

Defmi Sei c eine

Codierung

_, ^dann ^ist der von c erzeugte ^Code

C ⁼ aef ^c

(2)

⁼

{

^clr ⁾ ^/ ^OEE

}

Die Wörter ^ccr ) heißen

Codeword

^von ^o ^,

Viele

Codierung

êu êrsetzen êin ^l^Teil ⁾ ^wort ^des

Quell alphabets ^durch das

gleiche

^Codewort ^:

Defni

^Sei ^c ^: ^Zt ^→ ^IT ^" ^eine

Codierung

^und

U ⁼ none ^.^.^. Un ^.e E

Zt

^mit nie Et

, Oficn .

Gilt cln ) ⁼ cluoue.n.nu ^. e) ⁼ ^Cluo ⁾ ^.^. ^. ^cluuu

)

_,

dann heißt ^c ^zeichen ^weise

Codierung

^.

(6)

Benn

^; ^. ^Gilt ^Inikt , 0 Eicn _, dann

5

kann man c als Tabelle

5 ccr )

A ⁰

] ¹⁰

Z 11

oder

Baum ^darstellen

÷ Ig .

] Z

In diesem Fall kann man c als

(Halbgroppen

)

Homomorpkismus ^auffassen^.

Defmi Sei ^c ^: El ^→ IT ^" _eine Codierung , so

daß T.ie

² ^ex ^. ^mit ¹ ^clr )

1¥

¹

cloth

_,

so heißt ^c längen

variabel

.

(7)

6

Längen

^variable

Codierung

^en

spielen

z.B. bei ^der

Datenkompression

^eine

wichtige

Rolle

^.

Problem

^: Am ⁰ _, In 1 Z ^ts ¹⁰ ZZZ ^# ¹⁰

:p öilo

JAZZ ^↳

^0:10:10 ii.

ZJAZH ¹⁰ ^: 0:10ii.

⇒ Ohne Treuen zücken

entstehen

Mehrdeutigkeiten

, die eine

Decoding unmöglich

machen

^,

Idee

^: _Sorge

dafür

^, ^{dass kein}

^Codewort

Pnräfixn ^eines ^anderen Codeworts

ist

^,

(8)

7

Def

^: ^Sei ^c ^: Ît ^→ ÎT êine ^Kodierung, dann

heißt

^c

präfix ^erfüllt

^Man^kein

^sagt

^. ^weit^, ^dass^ex

^frei

^. ^c^mit^, ^die^wenn^clo^Fano⁾

^f.

⁼^-

^Bedingung

^a.^Präfix

^CII ^o.ie

^w ^-2

Bend

^. ^Ist ^ein ^Code

präfix

frei

^, ^dann ^ist

kein innerer Knoten der

Baum darstellung

mit einem

Buchstaben

des Quell

alphabets

markiert .

• Ist ^ein Code nicht

präfix frei

^so ^braucht

man ein

spezielles

^Treuen

symbol

⁽

vgl

"

Pause

^" im Morse code

)

(9)

Die Baum

darstellung

^einer

Codierung

^kann

8

man als Wahrscheinlichkeit

experiment

auffassen

:

112 0 Z

0-1 ^Been -1

^.

Wahrscheinlichkeit ^0A

^Hat^dann112

^µ

⁰

#

^ein^" ^erwischt^Codewort^]

_Yze

^" ^man^.^. ^die

^plz

^p₍^(A)^es

^Länge

_binäres⁾

^=p

⁼^mit^1k

^A)

_Alphabet^l⁼ ^,¹⁴

₎

Im allgemeinen Fall

ergibt

^sich ¹

^#

^e

. Im

obigen

^Fall ^hat

^jeder

^innere

Knoten

genau

^zwei ^Kinder

⇒ eine Folge ^von ^Münz würfen

führt

zu einem Buchstaben ^aus Z

, d.h.

für

^die Wahrscheinlichkeit

gilt

^:

(10)

9 [ #

⁼ ¹ ^. ^Sollte ^es ^inner Knoten geben, OEZ

Ich ^=L

die

nicht ^den maximalen Grad ^haben _,

dann

muß

^" ⁼ ^l

"

durch

" El ^"

ersetzt

^werden^.

Dies führt

^zur ^,^,

^Kraft

^sehen

^Ungleich

^ung ^" ^:

Satz

(

^Leon ^G.

Kraft

^, ¹⁹⁴⁸

⁾

^:

Für

jede Folge llihsi.nu

^von

natürlichen

Zahlen ex . ein

präfix freier

^Code ^mit

Code

alphabet ^IT

^und ^den ^Codewort

längen

ln

^.^.^.

^.lu gdw Fifa ^NTIFEI

^tl

Beweisen

" ⇒ ^" Dies ^ist ^eine ^direkte

Folge

^aus

obigo Beobachtung

" ⇐ ^"

konstruieren

_geeigneten ^Code

für

^#

^T.tn

(11)

„ absteigende_- ^"

8 (

andere Fälle _analog

)

^. ^0.B.d.tt

gilt

^bis ^, ^hin ^,

dann sei S_, ⁼ eng ^O und Sinn ⁼ Sit 2- ^li ^" # .

Sei

binlsiye

,

die Binär

darstellung

^der

ersten

li

^Nach ^komma ^stellen _, ^so ^entstehen Codewörter ,

BEI ^Dieser

^Code ^ist

_präfix _frei

^und

erfüllt

^die

Kraft

^sehe

Ungleich uug

^.

Aus ^ht )

folgt für

^1k

^je

ⁿ ^- ⁱ

Sitj

⁼ Siegen^. ⁺

2- ^litt

^' _ys _; + z

- litj

⇐ Sieg^. ^- Sieg 2-

litt (

* *

)

Ann ^: Der Code ist ^nicht

präfixfrei

Die ^{Werte li} ^sind ^⇒ ^es ^le Summen _Si und _si +j ^die

absteigend ^sortiert ^⇒

auf

^{den ersten}

^li

⁺ ^Nach ^komma ^stellen

" kleine Indices ^" ^! j

" langen ^Wörtern

"

mit _si übereinstimmen.

(12)

1

Die Binär

darstellungen

^haben ^immer

die Form 0

, ^... , da

ja sogar ? #

^± ¹

gilt

^.

Also ^ist die Differenz

Sinj

^- ^si ^sehr

klein und es

gilt sogar

Sitj

^- ^Si ^c

^2- ^litj

^,

denn

_{die Binär}

darstellungen

^von ^si ^bzw

sie j unterscheiden frühestens ⁱⁿ der

lifte

Stelle.

↳

^Zu Ungleich_uug ( * *

)

^⇒ ^Code _muß

präfix frei

^sein

^#

Bend ^Diese

Konstruktion

funktioniert

^auch

für

#

^Ü > 2

, dann

muß

^statt ^der

Binär darstellung

(13)

120 die

# Kadisch

Darstellung gewählt

^werden^.

DI

^Sei ^c ^: ^-2 ⁺ ^→ ^IT ⁺ ^eine Codierung ^wobei -2 ⁼

Lon

_, ^... _, out ^. Gilt lccr.lt ⁼ ^. ^. ^. ⁼

1 Clou ) ¹ _, so

heißt

^c ^Block

codierung

^.

BST

^" _. _Asch

, Unicode

, 1508859

• Die ^DNA ^verwendet einen Blockade

, der

sogar

^redundant ^ist ^.

Defni ^Sei ^K ^" ^, ^mit ^ein ^K^- ^Vehtorraum über einem

endlichen _Körper ^k ^. _Die Menge ^CEK ^"

heißt

^linearer ^[ ⁿ ^, ^k^] ^- ^Code _, ^wenn

C ein Untvvehtorraum der

Dimension

^{k ist} ^.

(14)

Bekannt

^: ^. ^Ein ^Bit

string

^b ⁼ ^b. ^... ^bn ^hat

5

gerade

Parität

_, wenn 21 #el b) ^.

i. Anzahl^der ^Einsen ^ist _gerade^"

• Ein Uutervehtorraum wird ^durch

eine geeignete Generator matrix

erzeugt

¹ beschrieben ^,

Also Vehtoren der Basis zeitenweise

aufschreiben

ûnd ^man êrhält êine ^Matrix

mit ^k Zeiten und u

Spalten

^. ^Es

gilt

C ⁼

{ ⁽

^uo _, ^... _, _um ,

)

^- ^G ^/

⁽

^no _, ^... ,

und ^Ekk ^}

1

Zeiten vehtor

Ganz natürlich wird so auch eine

Codierung

definiert

^:

(

^no _,^. ^. ^. _, um . ) ^Ins ( ^no , ^- , un ^.e)^'G

(15)

Bsfi

^Sei ^B^'

:{ ⁽

^tg

⁾

_,

^(f) ^}

4

:

01

. ^"

^Damit

^ist

Sno

^⇒

oroo ⁰¹⁰¹

⁰⁰⁰^Alle

⁽

⁽ ^0,1^0,0

Codewörkrhabeugerade

⁾

⁰⁰⁰¹^.^' ^G^Gz¹⁰⁰⁰⁼ ⁽⁽

^0,1

^0,0^,

^.

^,

¹⁾

⁰^1.⁾^Prüfbit

^:(

^G-

⁽

⁽^1.

^(10%1)

^1,0^Parität

¹⁾

⁾^.^. ^G^G^, ^> ⁽^1.^1. ^0,1

^1,0)

⁾

Ben

^: Êin ^Linearer ^Code ênthält _innern ^Ö âls ^Codewort^.

Def

^:

Einkinearerlcode

heißt Parität

^.

code , wenn alle ^Codewörkr

gerade

Parität

haben

(16)

150

Beni ^. ^Der obige ^Code

verlängert

^die

Nachricht nur

, solche ^Codes ^nennt

man systematischer ^Code

. Es

gibt

^weitere ^[ ^3,2J ^- ^Codes ^z.B.

mit Generator matrix

G.

⁼

( ^Gfk ⁾

2.

Kanalkapazität

^und ^der

Informations begriff

Für diesen Abschnitt ist besonders die ^Arbeit

von C. E. Shannon _,

" A Mathematical Theory

of

Communication ^" _, 1948 ^zu nennen . Shannon

gilt

als

Begründer

^der

Informations

^theorie ^.

VEIT^'

UEE^' UEE^'

Quelle ô ^Sender ô _. ôEmpfänger ô Senke

c :[ Hut c-¹ :# → [ ^t

Rausch^.

quelle _Quelle

: Wikipedia

kommunikations moddl nach Shannon ^Foto^:Yocnrßayd.IS?fozbIde

(17)

4

Been ^Der

Einfachheit

^halber ^sei ^-2=20,13 ^,

Versorgt

^man ^den ^Sender ⁱⁿ ^einem

Zeitraum

von T Einheiten mit einem Bit ^-

string

^d.

Längen

^, ^so ^{kann der} ^Sender

diese

übertragen

^, ^wenn ^er ² ^" verschiedene

Signale auf

^dem Übertragungs ^kanal ^im Zeitraum T verschicken kann .

Dmefi Kommunikations

^Mit ^T Zeiteinheiten^kanal ^:

gilt für

^einen

NÜ ) ⁼

eng ^{, ,} Anzahl der erlaubten / _möglichen

Signale

ⁱⁿ ^T Zeiteinheiten ^"

Also werden

4¥ ^Bits pro Zeiteinheit

übertragen

^.

(18)

7

In ^der Praxis stabilisiert sich dieser Quotient

über _"

lange

^Zeit

"

:

Def

^: ^"

Kanalkapazität

^"

Ein diskreter Übertragungs kanal besitzt logz ^NLT⁾

die Kanalkapazität

^C ⁼

^him

^-

Tv T

Benin

^Wir

geben

^die

Kanalkapazität

ⁱⁿ ^Bits

pro

Zeiteinheit ^an

, aber es ist noch

gar

^nicht

geklärt

^, ^was ^der

Informations

^.

begriff

^und ^die ^Einheit

Bit bedeutet

^!

Ideen Information

^ist ^die Verringerung ¹Beseitigung

von Ungewissheit^.

(19)

180 Bsg ^Wir

^sollen ^aus ^allen

^Bitstrings

^der ^Länge ³

einen bestimmten

herausfinden

^.

Dazu können wir

übergeordnete einer

^Instanz

Fragen

^{der Form} ^" ^Ist ^das ^i. ^te ^Zeichen ¹ ^? ^"

stellen_, die wahrheitsgemäß

beantwortet

werden ^. Eine solche

Instanz heißt

ⁱⁿ ^der

Theoretischen Informatik

^Orakel ^.

111 _soo Ist das erste ^"

000 Ono ^u

Zeichen ¹ ? _ooo

° 01

101

,, µ ein ^"

3 001 010

110 Orr 011

Ungewiss ^heit verringert ^sich •

Also ^:

. 8 Möglichkeiten

auf

4 eingrenzen ^: ¹ ^Bit

. 8 ^- ^" ^- 2 ^- ^" ^- ^: 2 Bit

(20)

Allgemein^:

2k

Möglichkeiten

auf

2.

^eingrenzen

⁵

bedeutet

^k ^. ^l ^Bit Information ^.

Deff

^Sei ^nun ^. ^Die Eingrenzung ^von

n Möglichkeiten auf ^m Möglichkeiten

entspricht

logzkt

^Bits

Bsg

^. Gesucht ist ^ein

Bitstring

^aus ^der Menge

{

⁰⁰ ,

01,100,101,1100

, 1101

, 1110,1111 ^}

{^00,01g

0200 Mio

}

° 1Bit

0 1

0201

zpit }

:

^Mit

02100cg

^%^• ^,^%¹ ⁱ

_Orff

^o ^1B.it¹⁰

02101

^{

1001101,1100 00

^'^Es^Ag^,

¹¹⁰⁰ ^Mit

^µ ^O ^}^nßit^1B.it ^{ ^}

,

1101,0 qffj

⁰ ⁰

10 ²¹¹⁰¹

^}

1110,1111 }

113%1

^Bit

np.IO

21110

}

21110,0

1B.it

1111 } 1

02

¹¹¹¹ }

(21)

20 Auf

_jedem

Pfad

^wird ^von ⁸

auf

^eine

Möglichkeit

eingeschränkt^, ^d.h.

auf _gi

^dem

^Pfad

von Wurzel zu Blatt muss die Summe 3 Bits

betragen

^l ^⇒

überprüfen

^!

⁾

BEI

^Man ^kann ^die Informationsgewinnung

mit der Eintrittswahrscheinlichkeit l ^eines Ereignisses

)

vergleichen^:

100,01g

Piok ⁰²⁰⁰

}

0 Pay

°

µ^" ¹

0201

}

µ

021003

0

Ofb

^→^"^%¹ ^' ⁰ ⁰

102101300

^{

1100

^T ^p^-112 ^O ^Puk ^}

{

1001101,1100

^,

1101,0

^

0 ^°

1%21101

P

}

1110,1111 } ^{F- %} ^Pa ^, ¹ ⁰ ⁰

21110

}

= puk

21110,0

1111 } 1Ag

02

¹¹¹¹ }

(22)

Also macht

folgende Definition

^Sinn ^:

7 Der Informationsgehalt

^eines

Ereignisses

^,

das mit Wahrscheinlichkeit p ^so ^eintritt ^ist

Ilp ⁾

⁼^auf

^dogz f-

⁼ ^-

logzp

BEI

^Die ^Fht ^I ^hat ^vier

Eigenschaften

^, ^die

mit dem intuitiven

Informations begriff gut

übereinstimmt ^:

i_,

Ilp

^{) 7,0} , ^wenn

PEI

^0,1

^In

ii ,

Ilp

⁾ ^ist

stetig

^, ^d. ^h ^. ^kleine Änderungen der W ^' heit bewirken nur kleine Änderungen des

Informationsgehalt

^s

(23)

220 iii. Icp

⁾ ^ist ^monoton ^, ^d. ^h^.

^pecpz

^⇒

Ilp

^.⁾ ^>

Ilpz

⁾

iy Icp

^{) ist} ^additiv

Ilpipz ⁾

⁼

IP.lt Ilpz

⁾ ^, ^wenn ^pe ^und

pzstochastisch

unabhängig ^sind ^.

" Gesamt

information

⁼ ^Summe ^der

Einzel

informationen

^"

3. Quell

Codierung

7¥

_Quelle ^u^EÜ_. _Sender

II

^" ^o^Empfänger^"

EÜO

^Senke

Wie

definiert

^man _@ âzesut ît ^:# ^→ Êl

Rausch

eine

Informationsquelle

^mathe ^. ^quelle

matisoh ^?

(24)

230

Defm^: ^Diskrete ^Quelle

Eine diskrete Quelle X mit dem Quell

alphabet

^Z ⁼

term

^. _.ru ^} ^emittiert

einen unendlich

langes

^Wort ^über ^-2^. Jeder Buchstabe _oi kommt _mit einer

Wahrscheinlichkeit > 0 ^vor ^,

Deff

^Eine ^Quelle ^mit

^Alphabet

^[ ⁼ ^La^, ^_

^rntö

heißt gedächtnis

^, ^wenn ^sie

i, an ^.^.^. .ru statistisch unabhängig

ii , mit den Wahrscheinlichkeiten

ploi

⁾^,^. ^.^.

- - .

plrn

⁾

emitiot ^. Ist -2=20,1 } ^so heißt ^sie Bernoulli ^- Quelle .

(25)

21 Bend

Offensichtlich

gibt

^es ^auch ^nicht

gedächtnis

lose ^Quellen

, dh ^. z ^. B.

folgt

ⁱⁿ ^d. ^deutschen

Schrift auf

, g

'

fast

îmmer ^, û ^' ûnd

^Paare

, au ^'_, .ci ^' oder _, ss

' sind

häufiger

als _,

yj

^.

Def

^" _i

, Die Wahrscheinlichkeit _, das

auf

r der Buchstabe ^T

folgt

⁽ ^kurz ^:

polt

⁾

)

heißt Transitions

wahrscheinlichkeit .

ii, Die

Bigramm

wahrscheinlichkeit

(

^kurz ^:

_plo

, i )

)

^ist ^die

Wahrscheinlichkeit

, dass die beiden

Buchstaben

OT

emittiert werden .

(26)

250 Proposition

^Sei ^Z ^ein

Alphabet

^einer

Quelle

, dann

gilt

Poule plot

⁼

^Plo

^, ^T ⁾

(

bedingte Wahrscheinlichkeit ⁾

Been

^kennt ^man ^alle _Bigramm

wahrscheinlichkeiten

, dann kann man

plo

⁾ ^ausrechnen

plr

⁾ ⁼

¥

_,

^plo.tl

=

Fez pur ⁾

Also prlt

⁾ ^-

ftp.plr.T

⁾ ⁼

^Plo

^,^T

⁾

⇒ Transitions Wahrscheinlichkeiten ^kann

man aus Bigramm Wahrscheinlichkeiten

gewinnen

^.

(27)

Deff

^Eine ^Quelle

^heißt

^Markov

4

- Quelle

,

wenn ihr Emissions verhalten ^von ^einen

Zustands

diagramm

beschrieben wird _,

dessen Knoten Buchstaben ^und dessen

Andrei Markov

* 14.6.1856 Ryazan

+ zotieszzst ^.Petersburg Kaufen mit Transitions Wahrscheinlichkeiten

Quelle^: Mactutor History

of Mathematics

History markiert sind .

Die Quelle hat

Ordnung

ⁿ , wenn die Transitions ^. Wahrscheinlichkeiten ^von ⁿ vorhergehenden Buchstaben

( ^± _" Vorgeschichte^"

) _abhängen

^.

OYPOOLO)

7

_11Pooh₎

OIPLD

02

^Ofpolo⁾ ⁰⁰ ^- ⁰¹

A

olpdol

[

211pm

⁾

olp.io/oiI%d1ufp1lporlD

#

1)

13 ^KÄM

^so

11PM⁾

Welp

^.eu ⁾

Ordnung ⁰ Ordnung¹ Ordnung ²

Lgedächtnis^los

)

(28)

7

3. 1.

Datenkompression

Beo: Ziel der Quell Codierung îst ês êinen

möglichst kompakten Code ^zu

finden

^,

um den

Übertragungskabel

auszulasten .

⇒ möglichst ^hoher

Informationsgehalt

Bekannte Verfahren

- Entropie Kodierungen

(

^Shannon _, ^Fano _, _Huffman

)

- Arithmetisch Kodierung

- Substitutions _verfahren ( LZ77_, ^LZW

)

Def

^: ^Sie ^c ^:[ ^t ^→ ^Ü ⁺ ^eine Kodierung ^, ^dann

heißt

intim .tt#k

Kompression

^rate

⁽

^von ^c) ^.

(29)

20 Deff

^Sei ^c ^: ^Zt ^→ ^Tt ^eine Codierung ^und E-

2h

, ^... .ru } _, ^dann

heißt

⇐ ^holt ^plo

⁾

die mittlere Codewort länge _, ^wenn

plo

⁾ ^die Auftretens wahrscheinlichkeit ^von rüt

3. 1.1 Shannon ^-

Codierung

,,

Die

grundlegende

^Idee ^ist ^"

häufige

^Buchstaben

durch kurze ^Code ^wörter zu

repräsentieren

^und

„ seltene ^" ^durch lange Code wörter .

Shannon

schlägt ^folgendes Verfahren

^vor , wobei

(30)

wir kurz

pi für pcri

⁾ ^schreiben ^:

5

i_, Sei Z ⁼ 2h _, ^...

, rub ^das Quell alphabet^, wobei

pik ^pits

^, ^1k ^itn ^. ¹ ^.

(

Wahrscheinlichkeiten absteigende ^sortieren

)

ii, Berechne ^Kumulierte Summen

(

^IA

) P

_, ⁼ ⁰

( ^Is )

Pin

⁼

Pit _pi

iii,

Die

^Shannon

codierung

^c ^ist ^dann

wie

folgt ^definiert

:C

( _Ti

)

⁼ _aeg ,, Die ersten _mi Nachkommen ^-

bits von

Pi

^" _, ^wobei

mi ⁼ eng

Flog

^.

#

(31)

30 Bsfi

^Sei ^E- ^la ^,^b. ^c ^, ^die ^} ^mit

pla

⁾ ⁼ ⁴² ^,

_pl

^b) ⁼

plc

⁾ ^=p ^(d) ⁼

ple

⁾ ^- ⁴⁸

"

wirf .ir?.::i:ni:iII::::I:.z.. ^:O ^:c

Buchstaben

und

, mr ⁼ 1 und _mz ⁼ _mg ⁼ _my ⁼ ^m ₅ ⁼ 3

bekommen

Somit da

)

⁼ ⁰ _, ^cl ^b) ⁼ ¹⁰⁰ _, ^clc ⁾ ⁼ ¹⁰¹ _,

h.us?:r:.e4:!;.:..Id.g::iiaFi.risst

das immer so ?

satz.im

Das Verfahren

^von ^Shannon Konstruiert

einen präfix ^freien

^Code ^.

Beweis

^: Ein ähnliches

Argument

^wie ^bei

der Ungleich

_ung ^von

Kraft führt

zum Ziel ^,

(32)

31

Sei c ^: Z ^→ 20,13 ^. die konstruierte Codierung ^.

Wir wissen Pi ⁼ ⁰, an azas ^.^. ^.^. ⁼

It

^GZT ⁺

¥

^t ^.^. ^.

und

log ptikmi

^.

Somit

gilt für gidesjyi.it

Pj

^-

^Pink

^Pinie ^-

^Pi

⁼ pi ⁷

# ⁽

^*

⁾

Angenommen ^der ^Code ^wäre ^nicht

präfix frei

^, ^dann

ex . i und

j

^mit

ihj

^, ^cloi

⁾

⁼ ân âz ^.^. ^. âmi

clrj

) ⁼ b. b. ^.^. ^.

bmj

^, ^wobei ^mit ^mj ^.

Dies gilt

^, ^da

für _piipzs

^, ^... ^auch ^mit ^mzs.ee

erfüllt

^ist ^,

Weiterhin

^ist

ai.be

, az ⁼ bz _, ^.^. ^- _, _ami ⁼

bmi

^und

somit

gilt

(33)

320 OLPJ

^- ^Pi

=

( ^Ge

^... ⁺ ^aznn.in ⁺ ^bmzintf.me ^.

⁾

-

# t.n.io#ctanzinI.mt.... )

<

2-

^mi ⁼

⇐

Widerspruch

^zu ⁽ ^*

⁾

, d.hn der Code von

c ist

präfix ^frei

^,

^#

3. 1. 2. Arithmetischen

Kompression

Bisher ^: Entropie Kodierungen ^koalieren

häufige

Symbole

^kurz ^und ^seltene

lang

^.

Aber ^: Jedes Codewort ^hat eine

ganz

^zahlige

^Länge

^⇒ ^es ^kommt ^zu

" Verschnitt ^",

(34)

Fragen

: ^. Geht ^es auch besser ^?

330

.

Gibt

ês êine ûntere ^Schranke ^. ^die

nicht unterschritten werden kann ^?

Idee ^: Codioe eine Nachricht nicht zeichen ^. weise

, sondern die

ganze

^Nachricht

Wir ordnen einer Nachricht MEZ ^* ein Intervall

[

a. b [

RE

^{[ 0,1} ^ER ^zu ^.

Die Kodierung

_ist

dann ein ^{a E} [ ^a _, b [ _oz mit ^der kürzesten

Binäre darstellung

^.

Häufige

Nachrichten bekommen _" große^" Intervalle_,

damit

ist die Wahrscheinlichkeit

groß

^, ^dass

man eine kurze Binär

darstellung findet

^.

⇒ Größen ^verhältnis ^der ^Intervalle

entspricht

^der

Auftretens

wahrscheinlichkeiten der

Nachrichten

.

(35)

340

Für _eine

gedächtnis

^lose ^Quelle ^mit

Alphabet

^E

=

la

, ^. ^. .ru }

funktioniert ^folgendes

^Vorgehen^.

Sei m ⁼

ri

, ^... ^. Tim ^die ^Nachricht

i, setze ^a- ⁰ _, b ^-1 und

j

⁼ ¹

ii _, Teile das ^Intervall in n Teile t _{, ,} . . . .tn _, wobei

tn

die Breite von ^, ¹ ^Eken

proportional plrij

^zu

₎

ist

iii. jnjtt

iv , Wenn

j

^Em ^dann ^gehe ^zu ⁱⁱ ^,

Bspmi

^E- ^La^,^{b. cb}

pla

⁾ ⁼ ^% ^und

pcb ⁾

⁼

plc

⁾ ⁼ ¹¹⁴^.

Nachricht ^m ⁼ ^abae

(36)

350

a b c

. e -

±

¥

^' ^" ^. ^?, 4T

4 ^i.

: ^' .

! '

n

; ^. .

1 in

I

.

.l

1.

^. ^" ^' ^I

Es ^,^' ² ³ ^'^..

8 ,

. '

' T -8 _i. 4J

.

' i.

.

'

: .

'

; ,^, ^'

'

T I.

^. ¹

sei

± ^" ^.

.SE

³²Î^:^!î. Î ê. î.Î ^' ⁱⁿ ^. ^.^. ^" ^"

^II

¹

⇐

IF ^÷

,

¥

64

Intervall

:(

^IST _,

¥ )

Bekannt ^: ^Sei ^[ a. b [ _R E [

0,14

_, ^dann

ex ^. ein ^re Q mit ^RE [ _a. b [ _uz

(

^Stichwort ^: ⁰

liegt

^dicht ⁱⁿ ^R

)

Im

obigen Spezialfall ergibt

^sich ^0,010011 ^, ^d.h.

die

Codierung

^von ^m ^ist ⁰¹⁰⁰¹¹ ^.

(37)

34 Frage

^: ^Wie ^lang

^muß

^ein ^Codewort

für

ein Intervall sein ?

Oder^. Wie eng ^müssen ^die ^Binär ^zahlen

gewählt

^werden ûm êin Întervall ^zu

"

treffen

^"

Sei E-

2h

_, ^. _i. rnb ^und ^me ^-2 k eine _" typische^"

Nachricht der Länge

keiner

gedächtnis

^losen ^Quelle^. Für

große

^k ^tritt

pik

^das ^Zeichen ^ri

^auf

^,

d.h. für

^das ^Intervall ^[ ^a. ^b ^[

ergibt

^sich ^eine

Breite

b- ^a ⁼

pi

^.^. ^. ^pnipziipzi ^.^. ^. ^'

Pn

^:^. ⁱ ^Pu

- - ^mm

pik

^- ^mal

pik

⁼ ^pnpi

!

^. ^. ^. ^- ^mal ^pn^. ^k ^- ^mal

pink

=

ftp.Pik

(38)

7

Sei ⁰_, _bei . .

bedie

Binär darstellung ^einer ^rationalen

Zahl ^r

, dann ^rs , 2- ^l,

Soll also ^r sicher im Intervall

liegen

^, ^dann

muß

^gelten^:

2-

es ftp.cpik

⇐ ^- l E

? ^pikelogzpi

⇐ ls ^, ^k

? ^pilogzphi

Da le ^IN wählen wir

1- k ^.

? ^pilogzphü ⁷

^, ^d. ^h^.

k ^.

? pilogzphitlkttkT.cn ^pilogzpti

Da mittlere Codewort

länge

^ist ^L ⁼

%

_, ^also

theorie Codierung

Codierung

theorie

Steffen Reith

Vorlesung Kodierung

Einleitung

Hoffman

Einführung

Informations

Springer

Vieweg

Juergen Bierbrauer

CodingTheory

Informations begriffs

Grundlagen

Kodierungen

Grundlagen

Vehtorräume

)

Bedarf

eingeführt

Vorlesung

Übungsbahn

Def

)

endlich

heißt Alphabete

injehtive (

Abbildung

Et

Codierung

Z

alphabet

IT Code alphabet loon c)

Benin

bet

Länge

oft

injehtiv

spricht

(

)

Bsg

Lauf längen

Codierung

Encoding )

Buchstabe mehrfach

verwendet

Htkt

TARDIS

mehrfach

¢

Diese Art

Kodierung

/

effektiv

Codierung

(2)

{

}

Codeword

Codierung

gleiche

Defni

Codierung

Zt

)

Codierung

Benn

Baum darstellen

÷ Ig .

)

daß T.ie

1¥

cloth

variabel

Längen

Codierung

spielen

Datenkompression

Steffen ^Reith

Vorlesung ^Kodierung

^Einführung

Juergen ^Bierbrauer

₎

heißt ^Alphabete

injehtive ⁽

_Länge

^Lauf ^längen

Baum ^darstellen

^0:10:10 ii.

^Codewort

präfix ^erfüllt

^sagt

^frei

^f.

^Bedingung

^CII ^o.ie

0-1 ^Been -1

Wahrscheinlichkeit ^0A

^µ

_Yze

^plz

^Länge

^=p

^A)

₎

^#

^jeder

^Kraft

^Ungleich

⁾