MTP Annotated German corpus - untagged version
View resource name in all available languages
MTP - Corpus allemand - version non étiquetée
ID:
ELRA-W0008-01
This morphosyntactically annotated 500,000 word German corpus was developed as part of the Münster Tagging Project (MTP). It comprises a collection of SGML-formatted texts from two German newspapers, "Die Frankfurter Allgemeine Zeitung" and "Die Zeit", for the years 1990 to 1992. The articles reflect the typical distribution of newspaper topics, including economics, regional, national and international politics, the arts, sport, literature, history, science and modern life.
The text was segmented into sentence units and word tokens, and tagged for morphosyntactic POS markers. Two tagsets, which mainly differed in the granularity of the noun and verb tags, and which comprised 137 and 52 tags respectively, were used. Users may obtain annotated versions using either set, each of which comes with documentation and an instruction manual for tag application. A suite of tools, including the MTP taggers and the Xlex workbench for text handling, textual analysis and lexicography, is also available.
View resource description in
French
Ce corpus allemand, d'environ 500 000 mots, avec annotation morpho-syntaxique, a été développé dans le cadre du projet MTP (Münster Tagging Project). Il contient un ensemble de textes au format SGML provenant de deux journaux allemands, le "Frankfurter Allgemeine" et le "Die Zeit" , et couvrant les années 1990 à 1992. Les thèmes des articles sont typiques des sujets traités habituellement dans un journal : économie, politique régionale, nationale et internationale, arts, sports, littérature, histoire, science et vie moderne.
Le texte est segmenté en phrases et en mots, et étiqueté par des marqueurs de classes morpho-syntaxiques. Deux types de marqueurs ont été employés, avec respectivement 137 et 52 étiquettes, qui diffèrent principalement par la finesse des catégories pour les noms et les verbes. Le corpus est fourni avec les deux annotations et un manuel d'instructions pour l'étiquetage. Un ensemble d'outils comprenant les systèmes d'annotation du MTP et le logiciel Xlex de manipulation et d'analyse de données textuelles et lexicographiques est également disponible.
MEMBER | academic | commercial |
---|---|---|
Licence: Non Commercial Use - ELRA END USER |
2000.00 €
|
2000.00 €
|
Licence: Commercial Use - ELRA VAR |
2000.00 €
|
2000.00 €
|
NON MEMBER | academic | commercial |
---|---|---|
Licence: Non Commercial Use - ELRA END USER |
3500.00 €
|
3500.00 €
|
Licence: Commercial Use - ELRA VAR |
3500.00 €
|
3500.00 €
|