GlobalPhone Multilingual Model Package

View resource name in all available languages

Ensemble de modèle multilingue GlobalPhone

204-945-263-927-6

ID:

ELRA-S0399

The GlobalPhone Multilingual Model Package contains about 22 hours of transcribed read speech spoken by native speakers in 22 languages. The data are sampled from the GlobalPhone Speech and Text Data available in the ELRA Catalogue, i.e.: Arabic (ELRA-S0192), Bulgarian (ELRA-S0319), Chinese-Mandarin (ELRA-S0193), Chinese-Shanghai (ELRA-S0194), Croatian (ELRA-S0195), Czech (ELRA-S0196), French (ELRA-S0197), German (ELRA-S0198), Hausa (ELRA-S0347), Japanese (ELRA-S0199), Korean (ELRA-S0200), Polish (ELRA-S0320), Portuguese (Brazilian) (ELRA-S0201), Russian (ELRA-S0202), Spanish (Latin America) (ELRA-S0203), Swahili (ELRA-S0375), Swedish (ELRA-S0204), Tamil (ELRA-S0205), Thai (ELRA-S0321), Turkish (ELRA-S0206), Ukrainian (ELRA-S0377), and Vietnamese (ELRA-S0322).

The GlobalPhone Multilingual Model Package covers about 1 hour of transcribed speech from 10 speakers (5 male, 5 female) from each of the above listed 22 languages, i.e. on average about 6 minutes or about 41 utterances per speaker from a total of 220 speakers. The package is designed for various tasks in multilingual speech processing research and development, such as (1) multilingual acoustic modeling, (2) multilingual speech synthesis, (3) automatic dictionary generation in multiple languages, and (4) multilingual speech processing with low resources.

View resource description in French

L’ensemble de modèle multilingue GlobalPhone contient environ 22 heures de parole lue transcrite, prononcée par des locuteurs natifs en 22 langues. Les données sont échantillonnées à partir des données orales et textuelles Globalphone disponibles dans le catalogue ELRA: arabe (ELRA-S0192), bulgare (ELRA-S0319), chinois-mandarin (ELRA-S0193), chinois de Shanghai (ELRA-S0194), croate (ELRA-S0195), tchèque (ELRA-S0196), français (ELRA-S0197), allemand (ELRA-S0198), haoussa (ELRA-S0347), japonais (ELRA-S0199), coréen (ELRA-S0200), polonais (ELRA-S0320), portugais (Brésilien) (ELRA-S0201), russe (ELRA-S0202), espagnol (d’Amérique latine) (ELRA-S0203), swahili (ELRA-S0375), suédois (ELRA-S0204), tamoul (ELRA-S0205), thaï (ELRA-S0321), turc (ELRA-S0206), ukrainien (ELRA-S0377), et vietnamien (ELRA-S0322).

Cet ensemble couvre environ 1 heure de parole transcrite pour 10 locuteurs (5 hommes, 5 femmes), de chacune des 22 langues mentionnées ci-dessus, soit une moyenne d’environ 6 minutes ou 41 occurrences par locuteur pour un total de 220 locuteurs. Il est conçu pour diverses tâches de recherche et développement en traitement de la parole multilingue, telles que (1) la modélisation acoustique multilingue, (2) la synthèse de la parole multilingue, (3) la génération automatique de dictionnaires en plusieurs langues, et (4) le traitement de la parole multilingue à partir d’un faible nombre de ressources.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
1200.00 € submit
6000.00 € submit
Licence: Commercial Use - ELRA VAR
6000.00 € submit
6000.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
1400.00 € submit
7200.00 € submit
Licence: Commercial Use - ELRA VAR
7200.00 € submit
7200.00 € submit
02/10/2018
People who looked at this resource also viewed the following: