PAROLE French Corpus

View resource name in all available languages

Corpus Français PAROLE

270-087-727-987-7

ID:

ELRA-W0020

The PAROLE French corpus contains the following data:
Miscellaneous: Data provided by ELRA (CRATER, MLCC Multilingual and Parallel Corpora) 2 025 964 words
Books: CNRS Editions 3 267 409 words
Periodicals: CNRS Info, Hermès 942 963 words
Newspapers: Le Monde, provided by ELRA 13 856 763 words
Total 20 093 099 words
1. Newspapers:
14 million words were extracted from complete issues of years 1987, 1989, 1991, 1993 and 1995 of Le Monde newspaper. 241,484 words, from 7 issues of Le Monde of September 1987, have been extracted, and POS-tagged automatically. Each article consists of a complete item ? header ? according to the directives of the TEI (Text Encoding Initiative). Le Monde original markups were changed into classication features, so that extracting articles of different topics is possible.
2. Periodicals:
? HERMES
Issues 15 to 22 have been used (134 articles, one Word file per article). The data have been converted from Word to RTF (Rich Text Format) and then, via a translator, from RTF to HTML. The conversion from HTML to the PAROLE format was made thanks to flex programs. The result for each article is: one "header" file which contains information on the author and the article id, and one "body" file which contains the article itself. A perl script is creating the final file from both "header" and "body".
? CNRS-Infos
The data come from the CNRS-Infos Web site (http://www.cnrs.fr/Cnrspresse/cnrsinfo.html). Each file has been processed as follows: cleaning the HTML header, extracting a summary, cleaning of HTML markups, translation to the PAROLE format, creation of the "header" and the "body" files (see Hermès). . Like Hermès files, a perl script is creating the final file from both "header" and "body".
3. Books
All books were provided on CD-ROM as Xpress files, each book having its own structure. Therefore, each book has been considered separately. XPress allows conversion to a format called "Xpress markup". This format enables to spot the different structures of the book (if the Xpress file has been laid out well - which is not always the case). The structure of each book had to be worked out to create the perl script which enables the translation to the PAROLE format. Conformance to the PAROLE format was made thanks to a "nsgmls" tool. The errors found during the verification have been manually corrected.

***
Introduction on the PAROLE project

LE-PAROLE project (MLAP/LE2-4017) aims to offer a large-scale harmonised set of "core" corpora and lexica for all European Union languages.

Language corpora and lexica were built according to the same design and composition principles, in the period 1996-1998.

PAROLE Corpora:

The harmonisation with respect to corpus composition (selection of corpus texts) was to be achieved by the obligatory application of common parameters for time of production and classification according to publication medium. No texts older than 1970 were allowed. As for publication medium, the corpus had to include specific proportions of texts from the categories “Book”, “Newspaper”, “Periodical” and “Miscellaneous” within a settled range.

The harmonisation effort also applied to the textual and linguistic encoding of the language corpora involved. With respect to the mark up of text structure and primary data, every single corpus text was to be encoded according to the PAROLE DTD, which is compatible with the DTD of the Text Encoding Initiative (TEI) and with that of the Corpus Encoding Standard (CES). The level of encoding was set to Level 1 of the CES, implying the encoding of text structure and textual features up to Paragraph Level, with the additional constraint, however, that all legacy data was kept.

As for linguistic corpus annotation, an equal proportion of the corpus texts (up to 250,000 running words) was to be morphosyntactically annotated according to a common core PAROLE tagset, extended with a set of language specific features. The checking of the tags was split in two: 50,000 words had to be checked for maximum granularity and 200,000 for part-of-speech (PoS) only.

The languages involved in PAROLE corpora are: Belgian French, Catalan, Danish, Dutch, English, French, Finnish, German, Greek, Irish, Italian, Norwegian, Portuguese and Swedish.

PAROLE Lexica:

The lexica (20,000 entries per language) were built conform to a model based on EAGLES guidelines and GENELEX results, underlying a common lexical tool adapted from the EUREKA-GENELEX project. This software tool was extended to support the PAROLE model and conversion and management processes of the resulting resources.

The languages involved in PAROLE lexica are: Catalan, Danish, Dutch, English, Finnish, French, German, Greek, Italian, Portuguese, Spanish and Swedish.

View resource description in French

Le corpus français PAROLE contient les données suivantes :

Divers : Données provenant d'ELRA (CRATER, MLCC Multilingue, MLCC Parallèle) 2 025 964 mots
Ouvrages (CNRS Editions) 3 267 409 mots
Périodiques (CNRS Info, Hermès) 942 963 mots
Presse (Le Monde, en provenance d'ELRA) 13 856 763 mots
Total 20 093 099 mots

1. Données de presse :

14 millions de mots provenant par choix aléatoire de numéros entiers parmi ceux des années 1987, 1989, 1991, 1993 et 1995 du Journal Le Monde constituent la partie Presse du corpus réalisé dans le cadre du projet. 241 484 mots, provenant de 7 numéros du Monde de septembre 1987, ont été extraits , étiquetés automatiquement et corrigés manuellement pour la partie du discours. Chaque article constitue un composant à part entière ' en-tête ' suivant les propositions de la TEI (TextEncoding Initiative). Les champs signalétiques fournis par la documentation du Monde ont été transformés en catégories classificatoires. Il est ainsi possible d'extraire les articles relevant de différentes rubriques ou de différents genres.

2. Périodiques :

HERMES
Les numéros 15 à 22 ont été utilisés (134 articles, un par fichier, au format Word). La conversion a été réalisée de Word vers RTF (Rich Text Format) puis, via un traducteur, vers HTML. La conversion des fichiers HTML vers le format PAROLE a été effectuée à l'aide de programmes écrit avec flex. Le résultat de ce traitement est pour chaque article : un fichier "header" contenant des informations sur l'auteur et l'identifiant de l'article et un fichier "body" contenant l'article proprement dit au format PAROLE. Finalement un script perl crée le fichier final à partir des fichiers "header" et "body".

CNRS-Infos
Les données extraites du "CNRS-Infos" proviennent du serveur web hébergeant la revue (http://www.cnrs.fr/Cnrspresse/cnrsinfo.html). Pour chaque fichier, les traitements suivants ont été appliqués : nettoyage de l'en-tête HTML, extraction du résumé, nettoyage des balises HTML, traduction vers le format PAROLE, création des fichiers "header" et "body" (comme pour Hermès). Comme pour Hermès, un script perl crée le fichier final à partir des fichiers "header" et "body".

3. Ouvrages

Tous les livres ont été fournis sur cédérom au format Xpress, chaque ouvrage ayant sa propre structure. Le traitement s'est donc fait ouvrage par ouvrage. XPress permet la conversion vers un format "balise XPress". Ce format permet de repérer, si le fichier Xpress a correctement été mis en page (ce qui n'est pas toujours le cas), les différentes structures d'un ouvrage. Pour chaque ouvrage il a fallu étudier la structure pour pouvoir réaliser le script perl permettant la traduction vers le format PAROLE. La conformité au format PAROLE a été faite à l'aide de l'outil "nsgmls". Les erreurs découvertes lors de la vérification ont été corrigées "à la main" dans le fichier.

***
Présentation du projet PAROLE

Le projet LE-PAROLE (MLAP/LE2-4017) a pour but d’offrir un noyau comparable et harmonisé de lexiques et corpus de toutes les langues de l’Union européenne.

Les corpus et lexiques ont été construits d’après une conception et des principes de composition identiques, entre 1996-1998.

Corpus PAROLE:

L’harmonisation de la composition du corpus (sélection de textes) a pu être mise en place grâce à l’application obligatoire de paramètres communs en termes de temps de production et en termes de classification des supports de publication. Aucun texte antérieur à 1970 n’a été retenu. En ce qui concerne les supports de publication, le corpus devait comprendre des proportions spécifiques de textes selon les catégories « Livre », « Journal », « Périodique » et « Divers ».

L’effort d’harmonisation concernait également le codage textuel et linguistique des corpus. Chaque corpus devait suivre la DTD PAROLE, elle-même compatible avec la DTD de la TEI (Text Encoding Initiative – Initiative de codage de textes) et du CES (Corpus Encoding Standard - Standard de codage de corpus).

Pour ce qui est de l’annotation du corpus, une proportion égale de textes (jusqu’à 250 000 mots) devait être annotée morpho-syntaxiquement selon un ensemble commun d’étiquettes, augmenté par des attributs spécifiques à chaque langue. La vérification des balises a été divisée en deux : 50 000 mots devant être vérifiés à un niveau de granularité maximum et 200 000 devant être vérifiés pour une « partie du discours » seulement.

Les corpus PAROLE concernent les langues suivantes : catalan, danois, hollandais, anglais, français, finnois, allemand, grec, italien, portugais, suédois, belge-français, irlandais et norvégien.

Lexiques PAROLE:

Les lexiques (20 000 entrées par langue) ont été construits conformément à un modèle basé sur les recommandations d’EAGLES et les résultats de GENELEX, en utilisant un outil lexical commun adapté du projet EUREKA-GENELEX. Ce logiciel a été étendu afin de supporter le modèle PAROLE, ainsi que les procédés de conversion et de gestion des ressources obtenues.

Les lexiques PAROLE concernent les langues suivantes : catalan, danois, hollandais, anglais, finnois, français, allemand, grec, italien, portugais, suédois et espagnol.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
1540.00 € submit
1540.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
4300.00 € submit
4300.00 € submit
06/03/2000
People who looked at this resource also viewed the following:
Resources from the same project