===== Analyse des données===== **Définitions**: * **Données aggrégées** : données regroupées en classes (clusters), éventuellement organisées de façon hiérarchiques. Possibilité d’appartenances à de multiples hiérarchies (cubes de données). * **Analyse des données** : le but est de dégager des indicateurs à partir d’un grand ensemble de données, afin de faciliter la prise de décision. **cas d’utilisation** : * quels sont les magasins les plus rentables? doit-on ouvrir / fermer des magasins? * où doit-on implanter un nouveau magasin? * y a-t-il une corrélation entre le lancement d’une campagne publicitaire et les chiffres de vente? quels sont les supports les plus efficaces? * quelle est la liste des clients à fidéliser? * de quelle quantité doit-on approvisionner les magasins en fonction de la période de l’année? analyse: * quels sont les catégories de films/livres les plus fréquemment empruntés? * réussite / taux d’embauche / salaire en fonction de la prépa d’origine / sexe / profession des parents Les opérateurs d’aggrégation permettent de réaliser des statistiques sur les données, sous forme d’histogrammes (ou camemberts) organisés selon des catégories définies par les valeurs de certains attributs: **principe :** * opérateur d’aggrégation : comptage, somme, moyenne, ecart-type (count, sum, mean, avg, …) * les données aggrégées sont de type quantitatif * les attributs définissant les classes sont de type qualitatif. Exemples de requêtes faisant appel aux fonctions d’aggrégation : //Nombre d’élèves par groupe de TD / par prepa d’origine etc..:// SELECT groupe_TD , count(num_eleve) FROM Eleve GROUP BY groupe_TD //Donner les chiffres des ventes du magasin pour chaque mois de l’année// SELECT mois, sum(montant) FROM Vente GROUP BY mois //Donner le nombre de ventes d’un montant > à 1000 euros pour chaque mois de l’année// SELECT mois, count(num_vente) FROM Vente GROUP BY mois HAVING montant >= 1000 //Tester les disparités salariales entre hommes et femmes// SELECT sexe, avg( salaire ) FROM Employé GROUP BY sexe //Tester les disparités salariales selon le niveau d’éducation// SELECT niveau_educatif, avg( salaire ) FROM Employé GROUP BY niveau_éducatif