Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente |
public:omi-5a-o-rech:4._travail_final [2017/03/26 12:08] – [Divers] edauce | public:omi-5a-o-rech:4._travail_final [2018/02/22 10:22] (Version actuelle) – [Documentation] edauce |
---|
| ===== Documentation ===== |
| |
| * Pour les données au format ''csv'', on utilisera: |
| * ''pandas.read_csv''. Voir {{http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/notebooks/td2a_cenonce_session_1.html#dataframe-pandas|dataframes pandas}}. Pandas permet également de lire les données au format ''xls'' et ''xlsx'' (Excel). |
| * Pandas permet de manipuler des données de type ''DataFrame''. Si ''d'' est votre ''Dataframe'' et que vous avez besoin de passer au format ''array'' de ''numpy'' : ''m = d.as_matrix()'' |
| * Pour les données au format ''xml'', on utilisera la librairie ''etree''. L'énoncé suivant donne les indications pour utiliser cette librairie{{https://forge.centrale-marseille.fr/attachments/download/269/S7TP2(1).pdf|Lecture des fichiers xml}} |
| * Pour le format ''json'', voir : {{https://www.safaribooksonline.com/library/view/python-cookbook-3rd/9781449357337/ch06s02.html|Lecture des fichiers json}} |
| |
| ===== Datasets ===== |
| |
| ==== Bases de textes ==== |
| |
| == Anglais == |
| |
| * {{https://snap.stanford.edu/data/web-Amazon.html}} |
| |
| * {{http://mlg.ucd.ie/datasets/bbc.html}} |
| |
| |
| == Français == |
| |
| * {{http://www.cnrtl.fr/corpus/estrepublicain|Articles de l'Est Republicain}} |
| |
| * {{http://www.cnrtl.fr/corpus/frantext|Base Frantext}} |
| |
| * {{https://www.data.gouv.fr/fr/datasets/breves-d-actualite-de-vie-publique-fr|Flux d'actualités officielles}} |
| |
| * {{http://data.cquest.org/dila/associations/associations_2014.zip|Associations loi 1901 (2014)}} |
| |
| * [[public:twitter data|Extraire un flux twitter en francais]] |
| |
| ==== Recommandation ==== |
| |
| * {{http://www.dtic.upf.edu/~ocelma/MusicRecommendationDataset/lastfm-360K.html||Recommandation musicale}} |
| * {{http://www2.informatik.uni-freiburg.de/~cziegler/BX|Recommandation littéraire}} |
| * {{http://www.ieor.berkeley.edu/~goldberg/jester-data|Recommandation de blagues}} |
| |
| * {{http://archive.ics.uci.edu/ml/datasets/Entree+Chicago+Recommendation+Data||Recommandation culinaire (!!)}} |
| |
| ==== Analyse ==== |
| |
| * {{https://data.opendatasoft.com/explore/dataset/fr-esr-enseignants-titulaires-esr-public-national@mesr/}} |
| |
| * {{https://data.opendatasoft.com/explore/dataset/parrainages-valides-elections-presidentielle-2017@public/}} |
| |
| * {{https://www.data.gouv.fr/fr/datasets/fete-de-la-musique-2016/}} |
| |
| ==== Divers ==== |
| |
| * {{https://www.data.gouv.fr/fr/datasets/les-prenoms-des-petits-francais|Prénoms français (2002 à 2012)}} |
| ===== Ressources ===== |
| |
| * {{http://web.stanford.edu/class/cs276|Stanford Information Retrieval}} |
| |
| * {{http://mlg.ucd.ie/index.html}} |
| |
| * {{http://www.cnrtl.fr|Centre National de Ressources Textuelles et Lexicales}} |
| |
| * {{https://snap.stanford.edu/index.html|SNAP}} |