# TD 2, Codage de Lempel-Ziv-Welsh
*Introduction à la théorie de l’information*

##  Algorithme de Lempel-Ziv

Grandes lignes de l’algorithme de codage :

- on lit le texte jusqu’à trouver un mot m suivi d’une lettre a tels que m soit dans le dictionnaire, mais pas m||a,
- on imprime l’indice de m dans le dictionnaire puis la lettre a,
- on ajoute m||a dans le dictionnaire,
- on continue la lecture après la lettre a 

Initialement le dictionnaire ne contient que le mot vide.

Grandes lignes de l’algorithme de décodage :

- on lit un indice i suivi d’une lettre a
- on imprime le mot m d’indice i et la lettre a
- on ajoute le mot m||a au dictionnaire
- on recommence 

Pour représenter les données :

- Pour le codage le dictionnaire sera représenté par un arbre, chaque nœud peut avoir une multitude de fils, un pour chaque lettre. Un mot sera dans le dictionnaire si il existe un nœud (pas forcément une feuille) tel que le chemin de la racine à ce nœud forme le mot en question.
- Pour le décodage le dictionnaire sera représenté par une table indexée par des entiers. Chaque nouveau mot sera placé à la fin du tableau. 

##  Algorithme de Lempel-Ziv-Welsh

Grandes lignes de l’algorithme de codage :

- on lit le texte jusqu’à trouver un mot m suivi d’une lettre a tels que m soit dans le dictionnaire, mais pas m||a,
- on imprime l’indice de m dans le dictionnaire,
- on ajoute m||a dans le dictionnaire,
- on continue la lecture à partir de la lettre a incluse. 

Il faudra avoir préalablement placé dans le dictionnaire tous les mots d’une lettre.

Grandes lignes de l’algorithme de décodage :

- on lit un indice i,
- on imprime le mot m d’indice i
- on ajoute à la fin du dictionnaire le mot m||a où a est la première lettre du mot suivant (on ne connaîtra a que lorsqu’on aura lu un indice de plus). 

Comme pour le codage, il faudra avoir préalablement placé dans le dictionnaire tous les mots d’une lettre.

Les structures de données pour le codage et le décodage sont identiques à celles de l’algorithme de Lempel-Ziv.

##  Questions

Un squelette de programme pour les deux algorithmes mentionnés plus haut est donnée dans la cellule ci dessous.

Vous pouvez exécuter la cellule et observer les versions compressées pour Lempel-Ziv, celles-ci contiennent des entiers (en base 10) suivis chacun d’une virgule et d’un caractère.

In [2]:
from math import log, ceil

class LZTree:
    def __init__(self, i):
        self.fils = {}
        self.indice = i

# lit un entier en base 10, s'arrête à la première virgule
# un fichier mal formatté provoquera probablement une erreur
def lire_entier_lz(fichier):
    c = fichier.read(1)
    i = 0
    while c != ",":
        if c == '':
            return -1
        i = 10 * i + int(c)
        c = fichier.read(1)
    return i

def coder_lz(entree,sortie):
    f = open(entree, 'r')
    g = open(sortie, 'w')
    A = racine = LZTree(0)
    taille = 1
    c = f.read(1)
    while c != '':
        if c in A.fils:
            A = A.fils[c]
        else:
            g.write(str(A.indice)+"," + c)
            A.fils[c]=LZTree(taille)
            taille +=1
            A = racine
        c = f.read(1)
    g.write(str(A.indice) + ",")
    f.close()
    g.close()

def decoder_lz(entree,sortie):
    f = open(entree, 'r')
    g = open(sortie, 'w')
    dico = [""]
    i = lire_entier_lz(f)
    while i != -1:
        c = f.read(1)
        mot = dico[i] + c
        dico.append(mot)
        g.write(mot)
        i = lire_entier_lz(f)
    f.close()
    g.close()

def coder_lzw(entree,sortie):
    f = open(entree, 'r')
    g = open(sortie, 'w')
    racine = LZTree(-1)
    racine.fils = {chr(i):LZTree(i) for i in range(256)}
    taille = 256
    A = racine.fils[f.read(1)]
    c = f.read(1)
    while c != '':
        if c in A.fils:
            A = A.fils[c]
        else:
            #
            # À compléter
            #
        c = f.read(1)
    g.write(str(A.indice) + ",")
    f.close()
    g.close()

def decoder_lzw(entree,sortie):
    f = open(entree, 'r')
    g = open(sortie, 'w')
    dico = [chr(i) for i in range(256)]
    i = lire_entier_lz(f)
    g.write(dico[i])
    dico.append(dico[i])
    i = lire_entier_lz(f)
    while i != -1:
        dico[-1] += dico[i][0]
        g.write(dico[i])
        dico.append(dico[i])
        i = lire_entier_lz(f)
    f.close()
    g.close()

coder_lz('extrait.txt','extrait.lz')
decoder_lz('extrait.lz','extrait.dlz')

coder_lz('candide.txt','candide.lz')
decoder_lz('candide.lz','candide.dlz')

#coder_lzw('extrait.txt','extrait.lzw')
#decoder_lzw('extrait.lzw','extrait.dlzw')

#coder_lzw('candide.txt','candide.lzw')
#decoder_lzw('candide.lzw','candide.dlzw')


### 3.1   

En s’inspirant du codeur de Lempel-Ziv, écrire le codeur Lempel-Ziv-Welsh (i.e. compléter la fonction coder_lzw). Pour ce dernier, le fichier codé contiendra une suite d’entiers (en base 10) séparés par des virgules. On pourra tester la correction grâce au decodeur decoder_lzw.

### 3.2   

Modifier les programmes de façon à imprimer la longueur que devrait avoir une version binaire du codage. On pourra en particulier comparer les taux de compression.

### 3.3   

Modifier les programmes de façon à ce que le fichier codé soit binaire (c’est-à-dire composé des caractères ’0’ et ’1’).