Codierung
s
theorie
Steffen Reith
1
Vorlesung Kodierung
stheorie1.
Einleitung
Literatur :
. Dirk W.
Hoffman
,Einführung
in die
Informations
- und Codierung. theorie ,Springer
-Vieweg
, 2014.
Juergen Bierbrauer
, Introduction toCodingTheory
, CRC - Press , 2016Ziele :
. Verbessertes Verständnis des
Informations begriffs
•
Grundlagen
, Ideen und Anwendungenvon Kanal - und Quellen
Kodierungen
. Mathematische
Grundlagen
( Algebra,Vehtorräume
, etc)
werden beiBedarf
eingeführt
2
. Modus : wöchentliche
Vorlesung
tÜbungsbahn
Def
: Seien!)
,Z dannendlich
und ITheißt Alphabete
eineinjehtive (
Abbildung
c :
Et
→ IT "Codierung
.Z
nennt man Quellalphabet
undIT Code alphabet loon c)
.Benin
. E' bzw IT " enthalten alle Wortebet
. aber endlicherLänge
.• In der Praxis wird
oft
IT = 20,1G verwendet3
• Ist c nicht
injehtiv
, dannspricht
man von einer verlust behafteten Codierung(
warum ?)
Bsg
:Lauf längen
Codierung
CRLE - Run Length
Encoding )
Idee Wird ein
Buchstabe mehrfach
verwendet
, dann ersetzt man diese durch den Buchstaben und seine Anzahl
KAFFEE
Htkt
AZFZETARDIS
HAT 1A 1 RAD 1115Alternativ kann man markieren , ob
ein Zeichen
mehrfach
vorkommtÜ = def T ' u 2 # b und #
¢
IT ',dann KAFFEE H KA # ZF # ZE
4
Diese Art
derKodierung
istbesonders bei Schwarz
/
Weiß - Bilderneffektiv
.Defmi Sei c eine
Codierung
, dann ist der von c erzeugte CodeC = aef c
(2)
={
clr ) / OEE}
Die Wörter ccr ) heißen
Codeword
von o ,Viele
Codierung
eu ersetzen ein lTeil ) wort desQuell alphabets durch das
gleiche
Codewort :Defni
Sei c : Zt → IT " eineCodierung
undU = none . .. Un .e E
Zt
mit nie Et, Oficn .
Gilt cln ) = cluoue.n.nu . e) = Cluo ) . . . cluuu
)
,dann heißt c zeichen weise
Codierung
.Benn
; . Gilt Inikt , 0 Eicn , dann5
kann man c als Tabelle
5 ccr )
A 0
] 10
Z 11
oder
Baum darstellen
÷ Ig .
] Z
In diesem Fall kann man c als
(Halbgroppen
)
Homomorpkismus auffassen.Defmi Sei c : El → IT " eine Codierung , so
daß T.ie
2 ex . mit 1 clr )1¥
1cloth
,so heißt c längen
variabel
.6
Längen
variableCodierung
enspielen
z.B. bei der
Datenkompression
einewichtige
Rolle
.Problem
: Am 0 , In 1 Z ts 10 ZZZ # 10:p öilo
JAZZ ↳
0:10:10 ii.
ZJAZH 10 : 0:10ii.
⇒ Ohne Treuen zücken
entstehen
Mehrdeutigkeiten
, die eine
Decoding unmöglich
machen
,Idee
: Sorgedafür
, dass keinCodewort
Pnräfixn eines anderen Codeworts
ist
,7
Def
: Sei c : It → IT eine Kodierung, dannheißt
cpräfix erfüllt
Mankeinsagt
. weit, dassexfrei
. cmit, diewenncloFano)f.
=-Bedingung
a.PräfixCII o.ie
w -2Bend
. Ist ein Codepräfix
frei
, dann istkein innerer Knoten der
Baum darstellung
mit einem
Buchstaben
des Quellalphabets
markiert .• Ist ein Code nicht
präfix frei
so brauchtman ein
spezielles
Treuensymbol
(vgl
"
Pause
" im Morse code)
Die Baum
darstellung
einerCodierung
kann8
man als Wahrscheinlichkeit
experiment
auffassen
:
112 0 Z
0-1 Been -1
.Wahrscheinlichkeit 0A
Hatdann112µ
0#
ein" erwischtCodewort]Yze
" man.. dieplz
p((A)esLänge
binäres)=p
=mit1kA)
Alphabetl= ,14)
Im allgemeinen Fall
ergibt
sich 1#
e. Im
obigen
Fall hatjeder
innereKnoten
genau
zwei Kinder⇒ eine Folge von Münz würfen
führt
zu einem Buchstaben aus Z
, d.h.
für
die Wahrscheinlichkeitgilt
:9
[ #
= 1 . Sollte es inner Knoten geben, OEZIch =L
die
nicht den maximalen Grad haben ,dann
muß
" = l"
durch
" El "ersetzt
werden.Dies führt
zur ,,Kraft
sehenUngleich
ung " :Satz
(
Leon G.Kraft
, 1948)
:Für
jede Folge llihsi.nu
vonnatürlichen
Zahlen ex . ein
präfix freier
Code mitCode
alphabet IT
und den Codewortlängen
ln
. ...lu gdw Fifa NTIFEI
tlBeweisen
" ⇒ " Dies ist eine direkte
Folge
ausobigo Beobachtung
" ⇐ "
konstruieren
geeigneten Codefür
#T.tn
„ absteigende- "
8
(
andere Fälle analog)
. 0.B.d.ttgilt
bis , hin ,dann sei S, = eng O und Sinn = Sit 2- li " # .
Sei
binlsiye
,die Binär
darstellung
derersten
li
Nach komma stellen , so entstehen Codewörter ,BEI Dieser
Code istpräfix frei
underfüllt
dieKraft
seheUngleich uug
.Aus ht )
folgt für
1kje
n - iSitj
= Siegen. +2- litt
' ys ; + z- litj
⇐ Sieg. - Sieg 2-
litt (
* *)
Ann : Der Code ist nicht
präfixfrei
Die Werte li sind ⇒ es le Summen Si und si +j die
absteigend sortiert ⇒
auf
den erstenli
+ Nach komma stellen" kleine Indices " ! j
" langen Wörtern
"
mit si übereinstimmen.
1
Die Binär
darstellungen
haben immerdie Form 0
, ... , da
ja sogar ? #
± 1gilt
.Also ist die Differenz
Sinj
- si sehrklein und es
gilt sogar
Sitj
- Si c2- litj
,denn
die Binärdarstellungen
von si bzwsie j unterscheiden frühestens in der
lifte
Stelle.
↳
Zu Ungleichuug ( * *)
⇒ Code mußpräfix frei
sein#
Bend Diese
Konstruktionfunktioniert
auchfür
#
Ü > 2, dann
muß
statt derBinär darstellung
120 die
# KadischDarstellung gewählt
werden.DI
Sei c : -2 + → IT + eine Codierung wobei -2 =Lon
, ... , out . Gilt lccr.lt = . . . =1 Clou ) 1 , so
heißt
c Blockcodierung
.BST
" . Asch, Unicode
, 1508859
• Die DNA verwendet einen Blockade
, der
sogar
redundant ist .Defni Sei K " , mit ein K- Vehtorraum über einem
endlichen Körper k . Die Menge CEK "
heißt
linearer [ n , k] - Code , wennC ein Untvvehtorraum der
Dimension
k ist .Bekannt
: . Ein Bitstring
b = b. ... bn hat5
gerade
Parität
, wenn 21 #el b) .i. Anzahlder Einsen ist gerade"
• Ein Uutervehtorraum wird durch
eine geeignete Generator matrix
erzeugt
1 beschrieben ,Also Vehtoren der Basis zeitenweise
aufschreiben
und man erhält eine Matrixmit k Zeiten und u
Spalten
. Esgilt
C =
{ (
uo , ... , um ,)
- G /(
no , ... ,und Ekk }
1
Zeiten vehtor
Ganz natürlich wird so auch eine
Codierung
definiert
:(
no ,. . . , um . ) Ins ( no , - , un .e)'GBsfi
Sei B':{ (
tg)
,(f) }
4
:
01
. "Damit
istSno
⇒oroo 0101
000Alle(
( 0,10,0Codewörkrhabeugerade
))
0001.' GGz1000= ((0,1
0,0,.
,1)
01.)Prüfbit:(
G-(
(1.(10%1)
1,0Parität1)
).. GG, > (1.1. 0,11,0)
)Ben
: Ein Linearer Code enthält innern Ö als Codewort.Def
:Einkinearerlcode
heißt Parität
.code , wenn alle Codewörkr
gerade
Parität
haben150
Beni . Der obige Code
verlängert
dieNachricht nur
, solche Codes nennt
man systematischer Code
. Es
gibt
weitere [ 3,2J - Codes z.B.mit Generator matrix
G.
=( Gfk )
2.
Kanalkapazität
und derInformations begriff
Für diesen Abschnitt ist besonders die Arbeit
von C. E. Shannon ,
" A Mathematical Theory
of
Communication " , 1948 zu nennen . Shannon
gilt
als
Begründer
derInformations
theorie .VEIT'
UEE' UEE'
Quelle o Sender o . oEmpfänger o Senke
c :[ Hut c-1 :# → [ t
Rausch.
quelle Quelle
: Wikipedia
kommunikations moddl nach Shannon Foto:Yocnrßayd.IS?fozbIde
4
Been Der
Einfachheit
halber sei -2=20,13 ,Versorgt
man den Sender in einemZeitraum
von T Einheiten mit einem Bit -
string
d.Längen
, so kann der Senderdiese
übertragen
, wenn er 2 " verschiedeneSignale auf
dem Übertragungs kanal im Zeitraum T verschicken kann .Dmefi Kommunikations
Mit T Zeiteinheitenkanal :gilt für
einenNÜ ) =
eng , , Anzahl der erlaubten / möglichen
Signale
in T Zeiteinheiten "Also werden
4¥ Bits pro Zeiteinheit
übertragen
.7
In der Praxis stabilisiert sich dieser Quotient
über "
lange
Zeit"
:
Def
: "Kanalkapazität
"Ein diskreter Übertragungs kanal besitzt logz NLT)
die Kanalkapazität
C =him
-Tv T
Benin
Wirgeben
dieKanalkapazität
in Bitspro
Zeiteinheit an, aber es ist noch
gar
nichtgeklärt
, was derInformations
.begriff
und die EinheitBit bedeutet
!Ideen Information
ist die Verringerung 1Beseitigungvon Ungewissheit.
180
Bsg Wir
sollen aus allenBitstrings
der Länge 3einen bestimmten
herausfinden
.Dazu können wir
übergeordnete einer
InstanzFragen
der Form " Ist das i. te Zeichen 1 ? "stellen, die wahrheitsgemäß
beantwortet
werden . Eine solche
Instanz heißt
in derTheoretischen Informatik
Orakel .111 soo Ist das erste "
000 Ono u
Zeichen 1 ? ooo
° 01
101
,, µ ein "
3 001 010
110 Orr 011
Ungewiss heit verringert sich •
Also :
. 8 Möglichkeiten
auf
4 eingrenzen : 1 Bit. 8 - " - 2 - " - : 2 Bit
Allgemein:
2k
Möglichkeiten
auf
2.
eingrenzen5
bedeutet
k . l Bit Information .Deff
Sei nun . Die Eingrenzung vonn Möglichkeiten auf m Möglichkeiten
entspricht
logzkt
BitsBsg
. Gesucht ist einBitstring
aus der Menge{
00 ,01,100,101,1100
, 1101
, 1110,1111 }
{00,01g
0200 Mio
}
° 1Bit
0 1
0201
zpit }
:
Mit02100cg
%• ,%1 iOrff
o 1B.it1002101
{1001101,1100 00
'EsAg,1100 Mit
µ O }nßit1B.it { },
1101,0 qffj
0 010 21101
}1110,1111 }
113%1
Bitnp.IO
21110
}
21110,0
1B.it
1111 } 1
02
1111 }20
Auf
jedemPfad
wird von 8auf
eineMöglichkeit
eingeschränkt, d.h.auf gi
demPfad
von Wurzel zu Blatt muss die Summe 3 Bits
betragen
l ⇒überprüfen
!)
BEI
Man kann die Informationsgewinnungmit der Eintrittswahrscheinlichkeit l eines Ereignisses
)
vergleichen:
100,01g
Piok 0200
}
0 Pay
°
µ" 1
0201
}
µ
021003
0Ofb
→"%1 ' 0 0102101300
{1100
T p-112 O Puk }{
1001101,1100
,1101,0
^
0 °
1%21101
P}
1110,1111 } F- % Pa , 1 0 0
21110
}
= puk
21110,0
1111 } 1Ag
02
1111 }Also macht
folgende Definition
Sinn :7
Der Informationsgehalt
einesEreignisses
,das mit Wahrscheinlichkeit p so eintritt ist
Ilp )
=aufdogz f-
= -logzp
BEI
Die Fht I hat vierEigenschaften
, diemit dem intuitiven
Informations begriff gut
übereinstimmt :i,
Ilp
) 7,0 , wennPEI
0,1In
ii ,
Ilp
) iststetig
, d. h . kleine Änderungen der W ' heit bewirken nur kleine Änderungen desInformationsgehalt
s220
iii. Icp
) ist monoton , d. h.pecpz
⇒Ilp
.) >Ilpz
)iy Icp
) ist additivIlpipz )
=IP.lt Ilpz
) , wenn pe undpzstochastisch
unabhängig sind .
" Gesamt
information
= Summe derEinzel
informationen
"3. Quell
Codierung
7¥
Quelle uEÜ. SenderII
" oEmpfänger"EÜO
SenkeWie
definiert
man @ azesut it :# → ElRausch
eine
Informationsquelle
mathe . quellematisoh ?
230
Defm: Diskrete Quelle
Eine diskrete Quelle X mit dem Quell
alphabet
Z =term
. .ru } emittierteinen unendlich
langes
Wort über -2. Jeder Buchstabe oi kommt mit einerWahrscheinlichkeit > 0 vor ,
Deff
Eine Quelle mitAlphabet
[ = La, _rntö
heißt gedächtnis
, wenn siei, an ... .ru statistisch unabhängig
ii , mit den Wahrscheinlichkeiten
ploi
),. ..- - .
plrn
)emitiot . Ist -2=20,1 } so heißt sie Bernoulli - Quelle .
21
Bend
Offensichtlichgibt
es auch nichtgedächtnis
lose Quellen, dh . z . B.
folgt
in d. deutschenSchrift auf
, g
'
fast
immer , u ' undPaare
, au ', .ci ' oder , ss
' sind
häufiger
als ,
yj
.Def
" i, Die Wahrscheinlichkeit , das
auf
r der Buchstabe T
folgt
( kurz :polt
))
heißt Transitions
wahrscheinlichkeit .ii, Die
Bigramm
wahrscheinlichkeit(
kurz :plo
, i ))
ist dieWahrscheinlichkeit
, dass die beiden
Buchstaben
OTemittiert werden .
250
Proposition
Sei Z einAlphabet
einerQuelle
, dann
gilt
Poule plot
=Plo
, T )(
bedingte Wahrscheinlichkeit )
Been
kennt man alle Bigrammwahrscheinlichkeiten
, dann kann man
plo
) ausrechnenplr
) =¥
,plo.tl
=
Fez pur )
Also prlt
) -ftp.plr.T
) =Plo
,T)
⇒ Transitions Wahrscheinlichkeiten kann
man aus Bigramm Wahrscheinlichkeiten
gewinnen
.Deff
Eine Quelleheißt
Markov4
- Quelle
,
wenn ihr Emissions verhalten von einen
Zustands
diagramm
beschrieben wird ,dessen Knoten Buchstaben und dessen
Andrei Markov
* 14.6.1856 Ryazan
+ zotieszzst .Petersburg Kaufen mit Transitions Wahrscheinlichkeiten
Quelle: Mactutor History
of Mathematics
History markiert sind .
Die Quelle hat
Ordnung
n , wenn die Transitions . Wahrscheinlichkeiten von n vorhergehenden Buchstaben( ± " Vorgeschichte"
) abhängen
.OYPOOLO)
7
11Pooh)OIPLD
02
Ofpolo) 00 - 01A
olpdol
[
211pm
)olp.io/oiI%d1ufp1lporlD
#
1)13 KÄM
so11PM)
Welp
.eu )Ordnung 0 Ordnung1 Ordnung 2
Lgedächtnislos
)
7
3. 1.
Datenkompression
Beo: Ziel der Quell Codierung ist es einen
möglichst kompakten Code zu
finden
,um den
Übertragungskabel
auszulasten .⇒ möglichst hoher
Informationsgehalt
Bekannte Verfahren
- Entropie Kodierungen
(
Shannon , Fano , Huffman)
- Arithmetisch Kodierung
- Substitutions verfahren ( LZ77, LZW
)
Def
: Sie c :[ t → Ü + eine Kodierung , dannheißt
intim .tt#k
Kompression
rate(
von c) .20
Deff
Sei c : Zt → Tt eine Codierung und E-2h
, ... .ru } , dannheißt
⇐ holt plo
)die mittlere Codewort länge , wenn
plo
) die Auftretens wahrscheinlichkeit von rüt3. 1.1 Shannon -
Codierung
,,
Die
grundlegende
Idee ist "häufige
Buchstabendurch kurze Code wörter zu
repräsentieren
und„ seltene " durch lange Code wörter .
Shannon
schlägt folgendes Verfahren
vor , wobeiwir kurz
pi für pcri
) schreiben :5
i, Sei Z = 2h , ...
, rub das Quell alphabet, wobei
pik pits
, 1k itn . 1 .(
Wahrscheinlichkeiten absteigende sortieren)
ii, Berechne Kumulierte Summen
(
IA) P
, = 0( Is )
Pin
=Pit pi
iii,
Die
Shannoncodierung
c ist dannwie
folgt definiert
:C
( Ti
)
= aeg ,, Die ersten mi Nachkommen -bits von
Pi
" , wobeimi = eng
Flog
.#
30
Bsfi
Sei E- la ,b. c , die } mitpla
) = 42 ,pl
b) =plc
) =p (d) =ple
) - 48"
wirf .ir?.::i:ni:iII::::I:.z.. :O :c
Buchstaben
und
, mr = 1 und mz = mg = my = m 5 = 3
bekommen
Somit da
)
= 0 , cl b) = 100 , clc ) = 101 ,h.us?:r:.e4:!;.:..Id.g::iiaFi.risst
das immer so ?
satz.im
Das Verfahren
von Shannon Konstruierteinen präfix freien
Code .Beweis
: Ein ähnlichesArgument
wie beider Ungleich
ung vonKraft führt
zum Ziel ,
31
Sei c : Z → 20,13 . die konstruierte Codierung .
Wir wissen Pi = 0, an azas .. .. =
It
GZT +¥
t .. .und
log ptikmi
.Somit
gilt für gidesjyi.it
Pj
-Pink
Pinie -Pi
= pi 7# (
*)
Angenommen der Code wäre nicht
präfix frei
, dannex . i und
j
mitihj
, cloi)
= an az .. . amiclrj
) = b. b. . . .
bmj
, wobei mit mj .Dies gilt
, dafür piipzs
, ... auch mit mzs.eeerfüllt
ist ,Weiterhin
istai.be
, az = bz , .. - , ami =bmi
undsomit
gilt
320
OLPJ
- Pi=
( Ge
... + aznn.in + bmzintf.me .)
-
# t.n.io#ctanzinI.mt.... )
<
2-
mi =⇐
Widerspruch
zu ( *)
, d.hn der Code vonc ist
präfix frei
,#
3. 1. 2. Arithmetischen
Kompression
Bisher : Entropie Kodierungen koalieren
häufige
Symbole
kurz und seltenelang
.Aber : Jedes Codewort hat eine
ganz
zahligeLänge
⇒ es kommt zu" Verschnitt ",
Fragen
: . Geht es auch besser ?
330
.
Gibt
es eine untere Schranke . dienicht unterschritten werden kann ?
Idee : Codioe eine Nachricht nicht zeichen . weise
, sondern die
ganze
NachrichtWir ordnen einer Nachricht MEZ * ein Intervall
[
a. b [RE
[ 0,1 ER zu .Die Kodierung
istdann ein a E [ a , b [ oz mit der kürzesten
Binäre darstellung
.Häufige
Nachrichten bekommen " große" Intervalle,damit
ist die Wahrscheinlichkeitgroß
, dassman eine kurze Binär
darstellung findet
.⇒ Größen verhältnis der Intervalle
entspricht
derAuftretens
wahrscheinlichkeiten derNachrichten
.340
Für eine
gedächtnis
lose Quelle mitAlphabet
E=
la
, . . .ru }funktioniert folgendes
Vorgehen.Sei m =
ri
, ... . Tim die Nachricht
i, setze a- 0 , b -1 und
j
= 1ii , Teile das Intervall in n Teile t , , . . . .tn , wobei
tn
die Breite von , 1 Ekenproportional plrij
zu)
istiii. jnjtt
iv , Wenn
j
Em dann gehe zu ii ,Bspmi
E- La,b. cbpla
) = % undpcb )
=plc
) = 114.Nachricht m = abae
350
a b c
. e -
±
¥
' " . ?, 4T4 i.
: ' .
! '
n
; . .
1 in
I
.
.l
1.
. " ' IEs ,' 2 3 '..
8 ,
. '
' T -8 i. 4J
.
' i.
.
'
: .
'
; ,, '
'
T I.
. 1sei
± " ..SE
32I:!i. I e. i.I ' in . .. " "II
1⇐
IF ÷
,¥
64
Intervall
:(
IST ,¥ )
Bekannt : Sei [ a. b [ R E [
0,14
, dannex . ein re Q mit RE [ a. b [ uz
(
Stichwort : 0liegt
dicht in R)
Im
obigen Spezialfall ergibt
sich 0,010011 , d.h.die
Codierung
von m ist 010011 .34
Frage
: Wie langmuß
ein Codewortfür
ein Intervall sein ?
Oder. Wie eng müssen die Binär zahlen
gewählt
werden um ein Intervall zu"
treffen
"Sei E-
2h
, . i. rnb und me -2 k eine " typische"Nachricht der Länge
keiner
gedächtnis
losen Quelle. Fürgroße
k trittpik
das Zeichen riauf
,d.h. für
das Intervall [ a. b [ergibt
sich eineBreite
b- a =
pi
.. . pnipziipzi .. . 'Pn
: . i Pu- - mm
pik
- malpik
= pnpi!
. . . - mal pn. k - malpink
=ftp.Pik
7
Sei 0, bei . .
bedie
Binär darstellung einer rationalenZahl r
, dann rs , 2- l,
Soll also r sicher im Intervall
liegen
, dannmuß
gelten:2-
es ftp.cpik
⇐ - l E
? pikelogzpi
⇐ ls , k
? pilogzphi
Da le IN wählen wir
1- k .
? pilogzphü 7
, d. h.k .
? pilogzphitlkttkT.cn pilogzpti
Da mittlere Codewort