===== Documentation ===== * Pour les données au format ''csv'', on utilisera: * ''pandas.read_csv''. Voir {{http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/notebooks/td2a_cenonce_session_1.html#dataframe-pandas|dataframes pandas}}. Pandas permet également de lire les données au format ''xls'' et ''xlsx'' (Excel). * Pandas permet de manipuler des données de type ''DataFrame''. Si ''d'' est votre ''Dataframe'' et que vous avez besoin de passer au format ''array'' de ''numpy'' : ''m = d.as_matrix()'' * Pour les données au format ''xml'', on utilisera la librairie ''etree''. L'énoncé suivant donne les indications pour utiliser cette librairie{{https://forge.centrale-marseille.fr/attachments/download/269/S7TP2(1).pdf|Lecture des fichiers xml}} * Pour le format ''json'', voir : {{https://www.safaribooksonline.com/library/view/python-cookbook-3rd/9781449357337/ch06s02.html|Lecture des fichiers json}} ===== Datasets ===== ==== Bases de textes ==== == Anglais == * {{https://snap.stanford.edu/data/web-Amazon.html}} * {{http://mlg.ucd.ie/datasets/bbc.html}} == Français == * {{http://www.cnrtl.fr/corpus/estrepublicain|Articles de l'Est Republicain}} * {{http://www.cnrtl.fr/corpus/frantext|Base Frantext}} * {{https://www.data.gouv.fr/fr/datasets/breves-d-actualite-de-vie-publique-fr|Flux d'actualités officielles}} * {{http://data.cquest.org/dila/associations/associations_2014.zip|Associations loi 1901 (2014)}} * [[public:twitter data|Extraire un flux twitter en francais]] ==== Recommandation ==== * {{http://www.dtic.upf.edu/~ocelma/MusicRecommendationDataset/lastfm-360K.html||Recommandation musicale}} * {{http://www2.informatik.uni-freiburg.de/~cziegler/BX|Recommandation littéraire}} * {{http://www.ieor.berkeley.edu/~goldberg/jester-data|Recommandation de blagues}} * {{http://archive.ics.uci.edu/ml/datasets/Entree+Chicago+Recommendation+Data||Recommandation culinaire (!!)}} ==== Analyse ==== * {{https://data.opendatasoft.com/explore/dataset/fr-esr-enseignants-titulaires-esr-public-national@mesr/}} * {{https://data.opendatasoft.com/explore/dataset/parrainages-valides-elections-presidentielle-2017@public/}} * {{https://www.data.gouv.fr/fr/datasets/fete-de-la-musique-2016/}} ==== Divers ==== * {{https://www.data.gouv.fr/fr/datasets/les-prenoms-des-petits-francais|Prénoms français (2002 à 2012)}} ===== Ressources ===== * {{http://web.stanford.edu/class/cs276|Stanford Information Retrieval}} * {{http://mlg.ucd.ie/index.html}} * {{http://www.cnrtl.fr|Centre National de Ressources Textuelles et Lexicales}} * {{https://snap.stanford.edu/index.html|SNAP}}