CINTIL-DeepBank

View resource name in all available languages

DeepBank CINTIL

368-672-631-502-0

ID:

ELRA-W0062

The CINTIL-DeepBank (Branco et al., 2010) is a corpus of sentences annotated with their full-fledged deep grammatical representations, composed of 10,039 sentences and 110,166 tokens taken from different sources and domains: news (8,861 sentences; 101,430 tokens), and novels (399 sentences; 3,082 tokens). In addition, there are 779 sentences (5,654 tokens) used for regression testing of the computational grammar that supported the annotation of the corpus.
For the creation of this DeepBank we adopted a semi-automatic analysis with a double-blind annotation followed by adjudication. The resulting dataset contains various levels of grammatical information, including morpho-syntactic information, phrase constituency, grammatical functions, and logical forms.
The main motivation behind the creation of this resource was to build a high quality data set with grammatical information that could support the development of high-level processing tools for Portuguese.
For more information see also: Branco, António, Costa, Francisco, João, Silva, Silveira, Sara, Castro, Sérgio, Avelãs, Mariana, Pinto, Clara and Graça, João, 2010, “Developing a Deep Linguistic Databank Supporting a Collection of Treebanks: the CINTIL DeepGramBank”, In Proceedings, LREC2010 – The 7th International Conference on Language Resources and Evaluation, La Valletta, Malta, May 19-21, 2010.

View resource description in French

Le DeepBank CINTIL (Branco et al., 2010) est un corpus de phrases annotées avec leurs représentations grammaticales au niveau le plus profond, composé de 10 039 phrases et 110 166 tokens pris de sources et domaines différents: actualités (8 861 phrases; 101 430 tokens) et nouvelles (399 phrases; 3 082 tokens). En complément, il contient 779 phrases (5 654 tokens) utilisés pour des tests de régression de la grammaire computationnelle qui a servi de base à l’annotation du corpus.
Pour la création de ce DeepBank, nous avons adopté une analyse semi-automatique avec une annotation en double aveugle suivie d’une adjudication. L’ensemble de données en résultant contient différents niveaux d’information, incluant l’information morpho-syntaxique, la constituance en phrases, les fonctions grammaticales et les formes logiques. La motivation principale à la création de cette ressource était de construire un ensemble de données de haute qualité avec une information sémantique qui puisse servir de base au développement d’étiqueteurs de rôles sémantiques automatiques pour le portugais.
Pour plus d’informations, voir aussi: Branco, António, Costa, Francisco, João, Silva, Silveira, Sara, Castro, Sérgio, Avelãs, Mariana, Pinto, Clara et Graça, João, 2010, “Developing a Deep Linguistic Databank Supporting a Collection of Treebanks: the CINTIL DeepGramBank”, In Proceedings, LREC2010 – The 7th International Conference on Language Resources and Evaluation, La Vallette, Malte, 19-21 mai 2010.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
0.00 € submit
3000.00 € submit
Licence: Commercial Use - ELRA VAR
3000.00 € submit
3000.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
0.00 € submit
3000.00 € submit
Licence: Commercial Use - ELRA VAR
3000.00 € submit
3000.00 € submit
05/12/2012 Downloadable
People who looked at this resource also viewed the following: