Table des matières

Analyse des données et découverte d'informations

La découverte d'informations consiste à développer des outils de mise en forme des données facilitant leur analyse. Elle repose sur deux aspects :

Le but est de dégager :

à partir d’un grand ensemble de données (chiffre d’affaires, nb de ventes, masse salariale, …) évoluant dans le temps et dans l’espace, afin de

Vocabulaire anglophone généralement utilisé :
"Unlike Online Transaction Processing (OLTP), where typical operations read and modify individual and small numbers of records, OLAP deals with data in bulk, and operations are generally read-only."
Entrepôts de données (Data warehouses) / Magasins de données (Data Mart)

Exemples de grandes masses de données :

Remarque : Les transactions marchandes sont un cas typique/fondateur (acte d’achat bien répertorié et enregistrés, livres de comptes, …)

Cas d’utilisation :
Analyse :

1. Aggrégation

1.1 Opérateurs d'aggrégation

usage : statistique sur les données

principe :

Exemples de requêtes faisant appel aux fonctions d’aggrégation :

Nombre d’élèves par groupe de TD / par prepa d’origine etc..:
select groupe_TD , count(num_eleve)
from eleve
group by groupe_TD
Donner les chiffres des ventes du magasin pour chaque mois de l’année
select mois, sum(montant)
from vente
group by mois
Donner le nombre de ventes d’un montant > à 1000 euros pour chaque mois de l’année
select mois, count(num_vente)
from vente
group by mois
having montant >= 1000
Tester les diaparités salariales entre hommes et femmes
SELECT gender, avg( salary )
FROM employee
GROUP BY gender
Tester les diaparités salariales selon le niveau d’éducation
SELECT education_level, avg( salary )
FROM employee
GROUP BY education_level
Problèmes :

1.2 Faits élémentaires

Exemples de “fait”:

Tous ces faits peuvent être localisés. Des mesures peuvent être effectuées sur ces faits (montant d’une vente, durée d’un appel, montant d’une opération bancaire, …)

Points clés :

1.3 Cube de données

Un cube de données est une structure de données organisée sur le principe des espaces vectoriels. Différents axes sont définis, chaque axe étant associé à une dimension particulière.

Un élément essentiel du modèle de données est la définition de hiérarchies sur les dimensions du cube. Chaque dimension se divise en intervalles et sous-intervalles (pour le continu/ quantitatif) ou en catégories et sous-catégories (pour le discret/qualitatif)

Les hiérarchies sur les différentes dimensions permettent de définir le “niveau de résolution” sur les différentes dimensions.

La structure de cube de données est adaptée pour la réalisation d’histogramme multidimensionnels, selon les axes choisis et le niveau de résolution choisi, à l’aide de fonctions d’aggrégation.

1.4 Modèle de données en étoile

La réalisation d’un cube de données repose en général sur une base de données relationnelle organisée selon un “modèle en étoile”.

Le modèle en étoile est une extension des schéma Entité/Association pour lesquels :

Exemples :

etc…

2. Mise en oeuvre

Pandas

http://pandas.pydata.org/pandas-docs/stable/10min.html

XMLA / MDX