Text corpus of "Le Monde" 
View resource name in all available languages
Corpus de textes du journal "Le Monde"
ID:
ELRA-W0015
Electronic archiving of "Le Monde" articles started on 1 January 1987. Some 200 articles are added every day, and as of October 1997 the database contains more than 500,000 articles, making it the biggest of its kind for all French daily newspapers.
Years 1987 to 2002 are available in an ASCII text format. Years 2003 to 2007 are available in .XML format. Each month consists of some 10 MB of data (circa 120 MB per year).
The number of words available since 2005 is given below:
- 2005: 19 million words
- 2006: 17 million words
- 2007: 21 million words
Years 2008 to 2012 are also available, in an ASCII text format, with no markup.
Data ranging from 1987 until 2012 are available through ELRA.
The approx. number of articles available per year is as follows:
- 1987: 39742 articles
- 1988: 40190 articles
- 1989: 39784 articles
- 1990: 38680 articles
- 1991: 39127 articles
- 1992: 40661 articles
- 1993: 42664 articles
- 1994: 44013 articles
- 1995: 47646 articles
- 1996: 49557 articles
- 1997: 63161 articles
- 1998: 56431 articles
- 1999: 59630 articles
- 2000: 61977 articles
- 2001: 61480 articles
- 2002: 60148 articles
- 2003: 48900 articles
- 2004: 43448 articles
- 2005: 40169 articles
- 2006: 36142 articles
- 2007: 44290 articles
- 2008: 40075 articles
- 2009: 39912 articles
- 2010: 40816 articles
- 2011: 40290 articles
- 2012: 40210 articles
TOTAL: 1,199,143 articles
Nota: Prices are indicated for one year of data only. If you would like to obtain several years, please indicate in your cart the number of copies (=years) and specify in the comments which years you would like to get.
View resource description in
French
L'archivage des articles du quotidien français "Le Monde" a débuté le 1er janvier 1987. Chaque jour, la base s'enrichit d'environ 200 articles, et compte en octobre 1997 plus de 500 000 articles, constituant ainsi la plus grosse base de données en texte intégral de la presse quotidienne française.
Les années 1987 à 2002 sont disponibles au format texte ASCII. Les années 2003 à 2007 sont disponibles au format .xml. Chaque mois comprend environ 10MB de données (soit 120 MB par an).
Le nombre de mots disponibles depuis 2005 est donné ci-dessous:
- 2005: 19 million de mots
- 2006: 17 million de mots
- 2007: 21 million de mots
Les années 2008 à 2012 sont également disponibles au format texte ASCII, sans balises.
Un choix de données de 1987 jusqu'à 2012 est disponible à ELRA.
Le nombre approximatif d'articles disponible par année est le suivant:
- 1987: 39742 articles
- 1988: 40190 articles
- 1989: 39784 articles
- 1990: 38680 articles
- 1991: 39127 articles
- 1992: 40661 articles
- 1993: 42664 articles
- 1994: 44013 articles
- 1995: 47646 articles
- 1996: 49557 articles
- 1997: 63161 articles
- 1998: 56431 articles
- 1999: 59630 articles
- 2000: 61977 articles
- 2001: 61480 articles
- 2002: 60148 articles
- 2003: 48900 articles
- 2004: 43448 articles
- 2005: 40169 articles
- 2006: 36142 articles
- 2007: 44290 articles
- 2008: 40075 articles
- 2009: 39912 articles
- 2010: 40816 articles
- 2011: 40290 articles
- 2012: 40210 articles
TOTAL: 1 199 143 articles
Remarque: Les prix sont indiqués pour une année de données uniquement. Pour obtenir plusieurs années, merci d'indiquer dans le panier le nombre de copies (=années) et de spécifier en commentaire quelles années vous souhaitez obtenir.
MEMBER | academic | commercial |
---|---|---|
Licence: Non Commercial Use - ELRA END USER |
240.91 €
![]() |
240.91 €
![]() |
NON MEMBER | academic | commercial |
---|---|---|
Licence: Non Commercial Use - ELRA END USER |
313.18 €
![]() |
313.18 €
![]() |