Le TP sera réalisé en Python.
jours_mois = (31, 28, 31, 30, 31, 30, 31, 31, 30, 31, 30, 31)
Toutes ces fonctions seront testées par un programme principal.
On considère une série d’enregistrements concernant des ventes réalisées par un exportateur de véhicules miniatures. Pour chaque vente, il entre dans son registre de nombreuses informations :
Ces informations sont stockées dans un fichier au format ‘csv’ (comma separated values) : ventes.csv
.
Téléchargez ce fichier.
Dans un premier temps, regardez son contenu avec un editeur de texte (geany
, gedit
ou autre…). La première ligne contient les noms des attributs (NUM_COMMANDE
, QUANTITE
,…).
Les ligne suivantes contiennent les valeurs d’attributs correspondant à une vente donnée.
en tout plus de 2000 ventes sont répertoriées dans ce fichier.
Ouvrez-le maintenant à l’aide d’un tableur (par exemple localc
).
Les données sont maintenant “rangées” en lignes et colonnes pour faciliter la lecture.
Notez bien l’emplacement du fichier ventes.csv
dans l’arborescence de fichiers.
Créez maintenant un script Python, par exemple à l'aide de l'éditeur Pycharm.
pycharm.sh
Dans le script, ouvrez le fichier avec la commande:
f = open('ventes.csv', 'r')
try… except…
(essaye … sinon …) permettant de prévoir une action de secours lorsqu’une une opération “risquée” échoue.
try : f = open('monfichier.dat','r') except IOError: print "Erreur d'ouverture!"
La commande s = f.readline()
lit une ligne du fichier et la copie dans la variable s
. Chaque nouvel appel à la fonction readline
permet de lire une nouvelle ligne (jusqu’à ce qu’on atteigne la fin du fichier)
La première ligne du fichier est une chaîne de caractères contenant la liste des attributs. On remarque que les différents attributs sont séparés par des virgules (la virgule est donc le caractère de séparation.)
Définissez une liste d’attributs attr
à partir de la chaîne s
en utilisant la commande split
.
(la commande s.split(',')
permet de construire une liste à partir d’une chaîne de caractères s
et un caractère séparateur ,
)
Définissez la variable m
contenant le nombre d’attributs .
Les lignes suivantes contiennent des valeurs d’attributs.
Chaque ligne doit être “découpée” pour extraire les différentes valeurs.
val
à partir de la nouvelle ligne en utilisant la commande split
.val
. Vérifiez que val
contient bien m
éléments.d
à partir de attr
et val
tel que pour tout j
∈ 0,…,m-1
: d[attr[j]] = val[j]
print('nom du client :' + d['NOM_CONTACT']) print('montant de la vente :' + d['MONTANT'])
Une fois nos manipulations sur le fichier effectué, on ferme le fichier avec la commande f.close()
.
Il est possible de lire le fichier dans sa totalité en séparant les lignes avec f.readlines()
: le résultat est une liste dont chaque élément est une ligne du fichier.
L
.L = f.readlines()
n
contenant le nombre d’éléments de cette liste.L[7]
. Il y a un problème!! lequel?
Pour lire “proprement” le contenu d’un fichier csv, on utilise la librairie csv
:
import csv
Pour ouvrir mon_fichier.csv :
Lr = csv.reader(open("mon_fichier.csv","r"))
Lr
se comporte comme un flux (on ne peut pas accéder directement au ième élément Lr[i]
).Pour lire un enregistrement, on utilise
e = Lr.__next__()
e
correspond à une liste d’attributs.e
puis copiez-le dans une liste attr
.Pour afficher tous les éléments :
for e in Lr : print(e)
avec e
correspondant maintenant à des listes de valeurs (celles à partir de la ligne 1)
Pour effectuer plus commodément des opérations sur les données, on veut construire une liste de dictionnaires, nommée D
, contenant la totalité des enregistrements (chaque élément D[i]
est donc un dictionnaire qui contient les valeurs du ième enregistrement sous forme de couple (attribut : valeur))
Pour parcourir la totalité de la liste Lr
, on peut écrire :
for e in Lr: ... for i in ... d[attr[i]] = e[i] ...
Ecrire une fonction qui prend en argument le descripteur Lr
et retourne D
On souhaite extraire des listes de valeurs particulières à partir de D
.
Si on affiche, par exemple, pour i de 0 à n-1, D[i]['PAYS']
,on obtient une liste de pays avec de nombreux doublons.
On souhaite créer une liste de pays liste_pays
sans doublon. Pour tester si un pays p
est déjà dans la liste, on utilise :
if p in liste_pays :
Le but est maintenant d’effectuer des statistiques simples : on souhaite connaître le nombre de ventes réalisées par pays.
- a -
D
et retourne le nombre de ventes effectuées en France.- b -
D
et la liste des pays et retourne un dictionnaire nb_ventes
contenant le nombre de ventes par pays.Pour construire ce dictionnaire,
nb_ventes = {}
for pays in liste_pays: nb_ventes[pays] = 0
D[i]['PAYS']
On constate que sont regroupés sous label différent ‘United States’
et ‘USA’
. Écrivez une fonction qui modifie la liste D en remplaçant tous les attributs contenant la valeur United States
par USA
.
On constate également que dans certains cas, la valeur de l’attribut MONTANT
est erronée. On souhaite recalculer tous les montants à partir des valeurs des champs PRIX_UNITAIRE
et QUANTITE
. Écrivez une fonction qui reçoit la liste D
et recalcule ces valeurs.
Attention : les valeurs contenues dans le dictionnaire sont de type chaîne de caractère. Il faut donc au préalable “traduire” le champ PRIX_UNITAIRE
en “réel” à virgule flottante et le champ QUANTITE
en entier pour pouvoir ensuite calculer la valeur de MONTANT
.
n = int(s)
x = float(s)
x = eval(s)
On souhaite dans un premier temps sauvegarder les données corrigées de la liste D
dans un format identique à celui du fichier de départ (format csv).
g = open('ventes_corrige.csv','w')
writer
de la librairie csv pour enregistrer les données dans un format adapté: Lw = csv.writer(g, delimiter = ",")
writerow
permettant d’ajouter des lignes au fichier:Lw.writerow(e)
(avec e
liste de valeurs)
e = [] for j in range(m): e.append(d[attr[j]]) Lw.writerow(e)
N’oubliez pas de fermer le fichier à la fin de l’écriture (g.close()
).
Il est possible également de sauvegarder les données en une seule opération dans des formats différent de csv. Le format json correspond à une mise en forme de type dictionnaire, facile à lire et interpréter.
Pour importer la librairie json :
import json
On commence par ouvrir un fichier en écriture.
h = open("ventes_corrige.json", "w")
On sauvegarde notre liste D en utilisant la méthode dump du module json
json.dump(D, h, sort_keys=True, indent=4) h.close()
Les données ont été sauvées! ouvrez ce fichier avec un éditeur de texte pour voir à quoi ressemble ce format.
Si on veut relire l'objet contenu dans ventes_corrige.json
, on commence par ouvrir le fichier:
f = open("ventes_corrige.json", "r") D_prime = json.load(f) f.close()