GLiCom Spanish Wordform list – Regular word-forms + verb-clitic combinations

View resource name in all available languages

Liste de formes de mots GLiCom en espagnol – Formes de mots réguliers + combinaisons verbes-clitiques

529-126-116-826-1

ID:

ELRA-L0095-01

GLiCom Spanish Wordform List v.1 is a computational lexicon of inflected wordforms in Spanish. Each entry has the following information: (i) lemma, (ii) morphosyntactic tag, and (iii) word type. This lexicon can be used in any application for Text Analysis in Spanish, in particular those in need for a lemmatizer, POS tagger, or Named Entity recogniser.
The lexicon is distributed in two sublexicons:
1- word forms
2- verb-clitic combinations

The list of wordforms contains 1,152,242 entries, including (i) regular words (1,144,086), (ii) toponyms and anthroponyms (8,032), (iii) abbreviations and acronyms (775), and (iv) computational terms (124). Each entry consists of: form, lemma, morphosyntactic tag and the word type.

The list of verb-clitic combinations contains 4,283,637 entries, exhaustively covering all formal combinations (including infinitive, gerund and imperative). Note that some clitic combinations may be formally possible although semantically implausible. Each entry consists of: form, lemma of the verb and combination of morphosyntactic tags of the verb and the pronoun(s).

View resource description in French

La liste de formes de mots GLiCom en espagnol v.1 est un lexique computationnel de formes de mots fléchies en espagnol. Chaque entrée détient l’information suivante: (i) lemme, (ii) etiquette morphosyntaxique, et (iii) type de mot. Ce lexique peut être utilisé dans tout type d’applications pour l’analyse de texte en espagnol, en particulier pour l’usage dans un lemmatiseur, un étiqueteur en partie du discours, ou un système de reconnaissance d’entités nommées.
Le lexique est subdivisé en deux sous-lexiques:
1- les formes de mots
2- les combinaisons verbes-clitiques

La liste de formes de mots contient 1,152,242 entrées, dont (i) des mots réguliers (1,144,086), (ii) des toponymes et anthroponymes (8,032), (iii) des abréviations et acronymes (775), et (iv) des termes informatiques (124). Chaque entrée consiste en: la forme, le lemma, l’étiquette morphosyntaxique et le type de mot.

La liste de combinaisons verbes-clitiques contient 4,283,637 entrées, couvrant de manière exhaustive toutes les combinaisons formelles (dont infinitif, gérondif et impératif). Il faut observer que les combinaisons de quelques clitiques peuvent être formellement possibles bien que sémantiquement implausibles. Chaque entrée consiste en: la forme, le lemme du verbe et la combinaison d’étiquettes morphosyntaxiques du verbe et du/des pronom(s).

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
6000.00 € submit
12000.00 € submit
Licence: Commercial Use - ELRA VAR
12000.00 € submit
12000.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
7000.00 € submit
14000.00 € submit
Licence: Commercial Use - ELRA VAR
14000.00 € submit
14000.00 € submit
29/10/2015 Downloadable
People who looked at this resource also viewed the following: