Quaero Old Press Extended Named Entity corpus

Corpus Quaero "Old Press" étendu en entités nommées




The Quaero Old Press Extended Named Entity corpus consists of the manual annotation of 76 newspaper issues published in 1890-1891 and provided by the French National Library (Bibliothèque Nationale de France). Three different titles are used (Le Temps, La Croix and Le Figaro) for a total of 295 pages.

The corpus is fully manually annotated according to the Quaero extended and structured named entity definition, which differentiates entity "types" and "components". The training part of the corpus is composed of 231 pages and contains 1,297,742 words, 114,599 types and 136,113 components. The test corpus is composed of 64 pages and contains 363,455 words, 33,083 types and 40,432 components.

The Quaero Old Press Extended Named Entity Corpus consists of:
- 76 newspaper issues published in 1890-1891 and provided by the French National Library (Biblioth\`eque Nationale de France) (images and OCR output),
- 295 extracted pages in text format along with the corresponding images,
- the fully annotated txt corpus amounts to about 1,3 million words,
- a sub-corpus serving as a mini-reference corpus for quality evaluation purposes,
- tools developed for the extraction of text and images, for annotation and for evaluation,
- guidelines.

Le corpus Quaero "Old Press" étendu en entités nommées consiste en l’annotation manuelle de 76 numéros de journaux, publiés en 1890-1891 et fournis par la Bibliothèque Nationale de France. Trois publications sont utilisées (Le Temps, La Croix et Le Figaro) pour un total de 295 pages.

Le corpus est annoté manuellement dans son intégralité selon la définition étendue et structurée d’entités nommées Quaero, qui distingue les “types” et les “composants” d’entités. La partie apprentissage du corpus est constituée de 231 pages pour 1 297 742 mots, 114 599 types et 136 113 composants. Le corpus de test est constitué de 64 pages pour 363 455 mots, 33 083 types et 40 432 composants.

Le corpus Quaero "Old Press" étendu en entités nommées consiste en:
- 76 numéros de journaux publiés en 1890-1891 et fournis par la Bibliothèque Nationale de France (images et sortie OCR),
- 295 pages extraites au format texte avec les images correspondantes,
- le corpus txt entièrement annoté pour un total d’environ 1,3 million de mots,
- un sous-corpus servant de corpus de reference minimal dans un but d’évaluation de la qualité,
- des outils développés pour l’extraction de textes et d’images, pour l’annotation et l’évaluation,
- un manuel de recommandations.

