Table des matières

TODO

Gestionnaire de bases de données

Analyse des données

Définitions:

cas d’utilisation :

analyse:

Les opérateurs d’aggrégation permettent de réaliser des statistiques sur les données, sous forme d’histogrammes (ou camemberts) organisés selon des catégories définies par les valeurs de certains attributs:

principe :

Exemples de requêtes faisant appel aux fonctions d’aggrégation :

Nombre d’élèves par groupe de TD / par prepa d’origine etc..:

SELECT groupe_TD , COUNT(num_eleve)
FROM Eleve
GROUP BY groupe_TD

Donner les chiffres des ventes du magasin pour chaque mois de l’année

SELECT mois, SUM(montant)
FROM Vente
GROUP BY mois

Donner le nombre de ventes d’un montant > à 1000 euros pour chaque mois de l’année

SELECT mois, COUNT(num_vente)
FROM Vente
GROUP BY mois
HAVING montant >= 1000

Tester les disparités salariales entre hommes et femmes

SELECT sexe, avg( salaire )
FROM Employé
GROUP BY sexe

Tester les disparités salariales selon le niveau d’éducation

SELECT niveau_educatif, avg( salaire )
FROM Employé
GROUP BY niveau_éducatif

4. Analyse des données et découverte d'informations

TODO : Manu
  • fichiers csv
  • matrice données (cube)
  • excel

La découverte d'informations consiste à développer des outils de mise en forme des données facilitant leur analyse. Elle repose sur deux aspects :

Le but est de dégager :

à partir d’un grand ensemble de données (chiffre d’affaires, nb de ventes, masse salariale, …) évoluant dans le temps et dans l’espace, afin de

Vocabulaire anglophone généralement utilisé :
"Unlike Online Transaction Processing (OLTP), where typical operations read and modify individual and small numbers of records, OLAP deals with data in bulk, and operations are generally read-only."
Entrepôts de données (Data warehouses) / Magasins de données (Data Mart)

Exemples de grandes masses de données :

Remarque : Les transactions marchandes sont un cas classique (acte d’achat bien répertorié et enregistrés, livres de comptes, …)

Problèmes
Agrégation

L'agrégation consiste:

Dimensions
Problèmes :

4.1 Tableaux de données

Organisation des données sous forme de tableaux bidimensionnels :

Schémas de données

Tableau de données

Un tableau de données est une liste (finie et ordonnée) de tuples, chaque tuple obéissant à un même schéma $R$.

Formats d'échange

Les principaux formats d'échange de données sont :

TODO

Exemples :

Sites de données :

4.2 Faits élémentaires

Exemples de “fait”:

Tous ces faits peuvent être localisés. Des mesures peuvent être effectuées sur ces faits (montant d’une vente, durée d’un appel, montant d’une opération bancaire, …)

Points clés :

Modèle en étoile

Exemples :

etc…

Exemples

Tables pivot

Les tables pivot permettent d'analyser des faits selon deux dimensions organisées sur les deux axes d'un tableau

Cubes de données

Un cube de données est une structure de données organisée sur le principe des espaces vectoriels. Différents axes sont définis, chaque axe étant associé à une dimension particulière.

Un élément essentiel du modèle de données est la définition de hiérarchies sur les dimensions du cube. Chaque dimension se divise en intervalles et sous-intervalles (pour le continu/ quantitatif) ou en catégories et sous-catégories (pour le discret/qualitatif)

Les hiérarchies sur les différentes dimensions permettent de définir le “niveau de résolution” sur les différentes dimensions.

La structure de cube de données est adaptée pour la réalisation d’histogramme multidimensionnels, selon les axes choisis et le niveau de résolution choisi, à l’aide de fonctions d’aggrégation.

4.3. Mise en oeuvre

Pandas

http://pandas.pydata.org/pandas-docs/stable/10min.html

XMLA / MDX