Collins Multilingual database (MLD) - WordBank

View resource name in all available languages

Base de données multilingue de Collins (MLD) - Wordbank

990-814-402-335-7

ID:

ELRA-T0376

The Collins Multilingual database covers Real Life Daily vocabulary. It is composed of a multilingual lexicon in 32 languages (the WordBank) and a multilingual set of sentences in 28 languages (the PhraseBank, distributed separately under reference ELRA-T0377).

The WordBank contains 10,000 words for each language (Arabic, Chinese, Croatian, Czech, Danish, Dutch, American English, British English, Finnish, French, German, Greek, Italian, Japanese, Korean, Norwegian, Polish, Portuguese (Iberian), Portuguese (Brazilian), Russian, Spanish (Iberian), Spanish (Latin American), Swedish, Thai, Turkish, Vietnamese, Hindi, Tamil, Bengali, Malayalam, Romanian, Ukrainian), XML-annotated for part-of-speech, gender, irregular forms and disambiguating information for homographs. An additional dataset of 10,000 headwords is included for 12 languages (Chinese, American and British English, French, German, Italian, Japanese, Korean, Iberian and Brazilian Portuguese, Iberian and Latin American Spanish).

All English headwords contain Cobuild learner’s dictionary style definitions and one or more examples of the word in context.

Lemmatized lists and verb tables are available for English, French, German, Spanish and Italian. Romanization is provided for Chinese, Japanese, Korean and Thai.

The corresponding audio files are available for 26 languages of the 32 languages (thus excluding Hindi, Tamil, Bengali, Malayalam, Romanian and Ukrainian) and are distributed in a package referenced ELRA-S0382.

View resource description in French

La base de données multilingue de Collins (MLD) couvre le vocabulaire de la vie courante. La base de données contient un lexique multilingue en 32 langues (MLD Wordbank) et un jeu de phrases multilingues en 28 langues (MLD PhraseBank, distribué séparément sous la référence ELRA-T0377).

Le WordBank contient 10000 mots par langue (arabe, chinois, croate, tchèque, danois, néerlandais, anglais britannique et américain, finnois, français, allemand, grec, italien, japonais, coréen, norvégien, polonais, portugais ibérique et brésilien, russe, espagnol ibérique et latino-américain, suédois, thaï, vietnamien, hindi, tamoul, bengali, malayalam, roumain, ukrainien), annotés au format XML pour les parties du discours, le genre, les formes irrégulières et avec des éléments de désambiguïsation pour les homographes. Un jeu de données additionnel de 10000 mots est inclus pour 12 des 32 langues : allemand, anglais britannique et américain, chinois, coréen, espagnol ibérique et latino-américain, français, italien, japonais, portugais ibérique et brésilien.

Les entrées en anglais contiennent les définitions du dictionnaire pour apprenants Cobuild, avec un ou plusieurs exemples du mot en contexte.

Des listes de lemmes et des tables de verbes sont fournies pour l’anglais, le français, l’allemand, l’espagnol et l’italien, et une version en forme romanisée est fournie pour les langues suivantes : chinois, japonais, coréen et thaï.

Les fichiers audio correspondants aux mots du Wordbank sont disponibles pour 26 des 32 langues (toutes les langues sauf l’hindi, le tamoul, le bengali, le malayalam, le roumain et l’ukrainien). Ils sont distribués dans le package référencé ELRA-S0382.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
2400.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
3600.00 € submit
12/07/2016
People who looked at this resource also viewed the following: