2006 CoNLL Shared Task - Ten Languages

View resource name in all available languages

Tâche partagée CoNLL 2006 - dix langues

578-227-532-044-0

ID:

ELRA-W0086

2006 CoNLL Shared Task - Ten Languages consists of dependency treebanks in ten languages used as part of the CoNLL 2006 shared task on multi-lingual dependency parsing. The languages covered in this release are: Bulgarian, Danish, Dutch, German, Japanese, Portuguese, Slovene, Spanish, Swedish and Turkish.

The Conference on Computational Natural Language Learning (CoNLL) is accompanied every year by a shared task intended to promote natural language processing applications and evaluate them in a standard setting. In 2006, the shared task was devoted to the parsing of syntactic dependencies using corpora from up to thirteen languages. The task aimed to define and extend the then-current state of the art in dependency parsing, a technology that complemented previous tasks by producing a different kind of syntactic description of input text. More information about CoNLL and the 2006 shared task are available respectively at: http://ifarm.nl/signll/conll and http://ilk.uvt.nl/conll.

The source data in the treebanks in this release consists principally of various texts (e.g., textbooks, news, literature) annotated in dependency format. In general, dependency grammar is based on the idea that the verb is the center of the clause structure and that other units in the sentence are connected to the verb as directed links or dependencies. This is a one-to-one correspondence: for every element in the sentence there is one node in the sentence structure that corresponds to that element. In constituency or phrase structure grammars, on the other hand, clauses are divided into noun phrases and verb phrases and in each sentence, one or more nodes may correspond to one element. All of the data sets in this release are dependency treebanks.

The individual data sets are:
BulTreeBank (Bulgarian)
The Danish Dependency Treebank (Danish)
The Alpino Treebank (Dutch)
The TIGER Corpus (German)
Treebank Tuba-J/S (Japanese)
Floresta Sinta(c)tica (Portuguese)
Slovene Dependency Treebank, SDT V0.1 (Slovene)
Cast3LB (Spanish)
Talbanken05 (Swedish)
METU-Sabanci Turkish Treebank (Turkish)

This corpus is distributed jointly with LDC. LDC Catalogue Reference is: https://catalog.ldc.upenn.edu/LDC2015T11.

View resource description in French

Le corpus de la tâche partagée CoNLL 2006 - dix langues contient des treebanks annotés en dépendances en dix langues, utilisés dans le cadre de la tâche partagée CoNLL 2006 concernant l’analyse en dépendances syntaxiques multilingues. Les langues couvertes par cette édition sont les suivantes: bulgare, danois, néerlandais, allemand, japonais, portugais, slovène, espagnol, suédois et turc.

La conférence CoNLL (Conference on Computational Natural Language Learning – Conférence sur l’apprentissage du langage naturel computationnel) s’accompagne chaque année d’une tâche partagée visant à promouvoir les applications de traitement du langage naturel et les évalue dans un environnement standardisé. En 2006, la tâche partagée s’est consacrée à l’analyse en dépendances syntaxiques, exploitant des corpus allant jusqu’à 13 langues. La tâche avait pour objectif de définir et élargir l’état de l’art du moment de l’analyse en dépendances syntaxiques, une technologie venant en complément de tâches précédentes par la production d’un genre différent des descriptions syntaxiques des textes en entrée. Plus d’informations sur CoNLL et la tâche partagée de 2006 sont disponibles respectivement sur http://ifarm.nl/signll/conll et http://ilk.uvt.nl/conll.

Les données sources des treebanks de cette édition comprennent principalement différents types de textes (manuels, actualités, littérature, etc.) annotés en dépendance. En général, la grammaire de dépendance est basée sur le principe que le verbe est le centre de la structure propositionnelle et que les autres unités de la phrase sont connectées au verbe par des liens directs ou dépendances. C’est une correspondance biunivoque : pour chaque élément, on a un noeud de la structure de la phrase correspondant à l’élément donné. Dans les grammaires en constituants ou en structures de phrases, d’une part, les propositions sont divisées en locutions nominales et en locutions verbales et dans chaque phrase, un ou plusieurs nœuds peut correspondre à un élément. L’ensemble des données fournies dans cette édition sont des treebanks en dépendances.

Les ensembles de données individuels sont:
BulTreeBank (bulgare)
Treebank en dépendances danois (danois)
Treebank Alpino (néerlandais)
Corpus TIGER Corpus (allemand)
Treebank Tuba-J/S (japonais)
Floresta Sinta(c)tica (portugais)
Treebank en dépendances slovène, SDT V0.1 (slovène)
Cast3LB (espagnol)
Talbanken05 (suédois)
Treebank turc METU-Sabanci (turc)

Ce corpus est distribué conjointement avec le Linguistic Data Consortium (LDC). La référence catalogue LDC est: https://catalog.ldc.upenn.edu/LDC2015T11.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
0.00 € submit
0.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
0.00 € submit
0.00 € submit
02/12/2015 Downloadable
People who looked at this resource also viewed the following: