PAROLE Irish Distributable Corpus

View resource name in all available languages

Corpus PAROLE irlandais

628-474-388-133-4

ID:

ELRA-W0026

The PAROLE Irish Distributable Corpus consists of over 8 million words (a subset of the 15+ million words Irish Reference corpus).

The text is marked-up in accordance with the PAROLE encoding standard which incorporates the Corpus Encoding Standard (CES) and Text Encoding Initiative (TEI) Guidelines. All the files are in SGML format with a detailed header and the body of the text tagged to paragraph level. The header includes information such as title, author(s), number of words, ownership, publication details and also a standard coding for Medium, Topic and Genre categories.

A subset of the Distributable Corpus is morpho-syntactically tagged.

Included in this distribution is approximately 3,000 manually checked words.

***
Introduction on the PAROLE project

LE-PAROLE project (MLAP/LE2-4017) aims to offer a large-scale harmonised set of "core" corpora and lexica for all European Union languages.

Language corpora and lexica were built according to the same design and composition principles, in the period 1996-1998.

PAROLE Corpora:

The harmonisation with respect to corpus composition (selection of corpus texts) was to be achieved by the obligatory application of common parameters for time of production and classification according to publication medium. No texts older than 1970 were allowed. As for publication medium, the corpus had to include specific proportions of texts from the categories “Book”, “Newspaper”, “Periodical” and “Miscellaneous” within a settled range.

The harmonisation effort also applied to the textual and linguistic encoding of the language corpora involved. With respect to the mark up of text structure and primary data, every single corpus text was to be encoded according to the PAROLE DTD, which is compatible with the DTD of the Text Encoding Initiative (TEI) and with that of the Corpus Encoding Standard (CES). The level of encoding was set to Level 1 of the CES, implying the encoding of text structure and textual features up to Paragraph Level, with the additional constraint, however, that all legacy data was kept.

As for linguistic corpus annotation, an equal proportion of the corpus texts (up to 250,000 running words) was to be morphosyntactically annotated according to a common core PAROLE tagset, extended with a set of language specific features. The checking of the tags was split in two: 50,000 words had to be checked for maximum granularity and 200,000 for part-of-speech (PoS) only.

The languages involved in PAROLE corpora are: Belgian French, Catalan, Danish, Dutch, English, French, Finnish, German, Greek, Irish, Italian, Norwegian, Portuguese and Swedish.

PAROLE Lexica:

The lexica (20,000 entries per language) were built conform to a model based on EAGLES guidelines and GENELEX results, underlying a common lexical tool adapted from the EUREKA-GENELEX project. This software tool was extended to support the PAROLE model and conversion and management processes of the resulting resources.

The languages involved in PAROLE lexica are: Catalan, Danish, Dutch, English, Finnish, French, German, Greek, Italian, Portuguese, Spanish and Swedish.

View resource description in French

Le corpus PAROLE irlandais est composé de plus de 8 millions de mots (provenant du corpus de référence irlandais PAROLE, qui lui comporte plus de 15 millions de mots).

Le texte a été étiqueté selon le standard de codage PAROLE qui comprend les directives CES (Corpus Encoding Standard) et TEI (Text Encoding Initiative). Tous les fichiers sont au format SGML qui inclut un en-tête détaillé, ainsi que le corpus du texte annoté au niveau du paragraphe. L'en-tête comprend des informations tels que le titre, le(s) auteur(s), le nombre de mots, le détenteur des droits, des détails de publication, ainsi qu'un standard de codage pour les catégories "Support", "Thème" et "Genre".

Un sous-ensemble du corpus a été étiqueté au niveau morpho-syntaxique..

Environ 3 000 mots vérifiés manuellement sont également fournis.

***
Présentation du projet PAROLE

Le projet LE-PAROLE (MLAP/LE2-4017) a pour but d’offrir un noyau comparable et harmonisé de lexiques et corpus de toutes les langues de l’Union européenne.

Les corpus et lexiques ont été construits d’après une conception et des principes de composition identiques, entre 1996-1998.

Corpus PAROLE:

L’harmonisation de la composition du corpus (sélection de textes) a pu être mise en place grâce à l’application obligatoire de paramètres communs en termes de temps de production et en termes de classification des supports de publication. Aucun texte antérieur à 1970 n’a été retenu. En ce qui concerne les supports de publication, le corpus devait comprendre des proportions spécifiques de textes selon les catégories « Livre », « Journal », « Périodique » et « Divers ».

L’effort d’harmonisation concernait également le codage textuel et linguistique des corpus. Chaque corpus devait suivre la DTD PAROLE, elle-même compatible avec la DTD de la TEI (Text Encoding Initiative – Initiative de codage de textes) et du CES (Corpus Encoding Standard - Standard de codage de corpus).

Pour ce qui est de l’annotation du corpus, une proportion égale de textes (jusqu’à 250 000 mots) devait être annotée morpho-syntaxiquement selon un ensemble commun d’étiquettes, augmenté par des attributs spécifiques à chaque langue. La vérification des balises a été divisée en deux : 50 000 mots devant être vérifiés à un niveau de granularité maximum et 200 000 devant être vérifiés pour une « partie du discours » seulement.

Les corpus PAROLE concernent les langues suivantes : catalan, danois, hollandais, anglais, français, finnois, allemand, grec, italien, portugais, suédois, belge-français, irlandais et norvégien.

Lexiques PAROLE:

Les lexiques (20 000 entrées par langue) ont été construits conformément à un modèle basé sur les recommandations d’EAGLES et les résultats de GENELEX, en utilisant un outil lexical commun adapté du projet EUREKA-GENELEX. Ce logiciel a été étendu afin de supporter le modèle PAROLE, ainsi que les procédés de conversion et de gestion des ressources obtenues.

Les lexiques PAROLE concernent les langues suivantes : catalan, danois, hollandais, anglais, finnois, français, allemand, grec, italien, portugais, suédois et espagnol.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
50.00 € submit
250.00 € submit
Licence: Commercial Use - ELRA VAR
250.00 € submit
250.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
50.00 € submit
250.00 € submit
Licence: Commercial Use - ELRA VAR
250.00 € submit
250.00 € submit
23/01/2001
People who looked at this resource also viewed the following:
Resources from the same project