public:omi-5a-o-rech:4._travail_final

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:omi-5a-o-rech:4._travail_final [2017/03/27 08:50] – [Bases de textes] edaucepublic:omi-5a-o-rech:4._travail_final [2018/02/22 10:22] (Version actuelle) – [Documentation] edauce
Ligne 1: Ligne 1:
 +===== Documentation =====
  
 +  *  Pour les données au format ''csv'', on utilisera: 
 +    * ''pandas.read_csv''. Voir {{http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/notebooks/td2a_cenonce_session_1.html#dataframe-pandas|dataframes pandas}}. Pandas permet également de lire les données au format ''xls'' et ''xlsx'' (Excel). 
 +    * Pandas permet de manipuler des données de type ''DataFrame''. Si ''d'' est votre ''Dataframe'' et que vous avez besoin de passer au format ''array'' de ''numpy'' : ''m = d.as_matrix()''
 +  *  Pour les données au format ''xml'', on utilisera la librairie ''etree''. L'énoncé suivant donne les indications pour utiliser cette librairie{{https://forge.centrale-marseille.fr/attachments/download/269/S7TP2(1).pdf|Lecture des fichiers xml}}
 +  *  Pour le format ''json'', voir : {{https://www.safaribooksonline.com/library/view/python-cookbook-3rd/9781449357337/ch06s02.html|Lecture des fichiers json}}
 +
 +===== Datasets =====
 +
 +==== Bases de textes ====
 +
 +== Anglais ==
 +
 +  * {{https://snap.stanford.edu/data/web-Amazon.html}}
 +
 +  * {{http://mlg.ucd.ie/datasets/bbc.html}}
 +
 +
 +== Français ==
 +
 +  * {{http://www.cnrtl.fr/corpus/estrepublicain|Articles de l'Est Republicain}}
 +
 +  * {{http://www.cnrtl.fr/corpus/frantext|Base Frantext}}
 +
 +  * {{https://www.data.gouv.fr/fr/datasets/breves-d-actualite-de-vie-publique-fr|Flux d'actualités officielles}}
 +
 +  * {{http://data.cquest.org/dila/associations/associations_2014.zip|Associations loi 1901 (2014)}}
 +
 +  * [[public:twitter data|Extraire un flux twitter en francais]]
 +
 +==== Recommandation ====
 +
 +  * {{http://www.dtic.upf.edu/~ocelma/MusicRecommendationDataset/lastfm-360K.html||Recommandation musicale}}
 +  * {{http://www2.informatik.uni-freiburg.de/~cziegler/BX|Recommandation littéraire}}
 +  * {{http://www.ieor.berkeley.edu/~goldberg/jester-data|Recommandation de blagues}}
 +
 +  * {{http://archive.ics.uci.edu/ml/datasets/Entree+Chicago+Recommendation+Data||Recommandation culinaire (!!)}}
 +
 +==== Analyse ====
 +
 +  * {{https://data.opendatasoft.com/explore/dataset/fr-esr-enseignants-titulaires-esr-public-national@mesr/}}
 +
 +  * {{https://data.opendatasoft.com/explore/dataset/parrainages-valides-elections-presidentielle-2017@public/}}
 +
 +  * {{https://www.data.gouv.fr/fr/datasets/fete-de-la-musique-2016/}}
 +
 +==== Divers ====
 +
 +  * {{https://www.data.gouv.fr/fr/datasets/les-prenoms-des-petits-francais|Prénoms français (2002 à 2012)}}
 +===== Ressources =====
 +
 +  * {{http://web.stanford.edu/class/cs276|Stanford Information Retrieval}}
 +
 +  * {{http://mlg.ucd.ie/index.html}}
 +
 +  * {{http://www.cnrtl.fr|Centre National de Ressources Textuelles et Lexicales}}
 +
 +  * {{https://snap.stanford.edu/index.html|SNAP}}