GlobalPhone Polish

View resource name in all available languages

GlobalPhone polonais

350-930-795-617-4

ID:

ELRA-S0320

The GlobalPhone corpus developed in collaboration with the Karlsruhe Institute of Technology (KIT) was designed to provide read speech data for the development and evaluation of large continuous speech recognition systems in the most widespread languages of the world, and to provide a uniform, multilingual speech and text database for language independent and language adaptive speech recognition as well as for language identification tasks.

The entire GlobalPhone corpus enables the acquisition of acoustic-phonetic knowledge of the following 22 spoken languages: Arabic (ELRA-S0192), Bulgarian (ELRA-S0319), Chinese-Mandarin (ELRA-S0193), Chinese-Shanghai (ELRA-S0194), Croatian (ELRA-S0195), Czech (ELRA-S0196), French (ELRA-S0197), German (ELRA-S0198), Hausa (ELRA-S0347), Japanese (ELRA-S0199), Korean (ELRA-S0200), Polish (ELRA-S0320), Portuguese (Brazilian) (ELRA-S0201), Russian (ELRA-S0202), Spanish (Latin America) (ELRA-S0203), Swahili (ELRA-S0375), Swedish (ELRA-S0204), Tamil (ELRA-S0205), Thai (ELRA-S0321), Turkish (ELRA-S0206), Ukrainian (ELRA-S0377), and Vietnamese (ELRA-S0322).

In each language about 100 sentences were read from each of the 100 speakers. The read texts were selected from national newspapers available via Internet to provide a large vocabulary. The read articles cover national and international political news as well as economic news. The speech is available in 16bit, 16kHz mono quality, recorded with a close-speaking microphone (Sennheiser 440-6). The transcriptions are internally validated and supplemented by special markers for spontaneous effects like stuttering, false starts, and non-verbal effects like laughing and hesitations. Speaker information like age, gender, occupation, etc. as well as information about the recording setup complement the database. The entire GlobalPhone corpus contains over 450 hours of speech spoken by more than 2100 native adult speakers.

Data is shortened by means of the shorten program written by Tony Robinson. Alternatively, the data could be delivered unshorten.

The Polish part of GlobalPhone was collected from altogether 102 native speakers in Poland, of which 48 speakers were female and 54 speakers were male. The majority of speakers are between 20 and 39 years old, the age distribution ranges from 18 to 65 years. Most of the speakers are non-smokers in good health conditions. Each speaker read on average about 100 utterances from newspaper articles, in total we recorded 10130 utterances. The speech was recorded using a close-talking microphone Sennheiser HM420 in a push-to-talk scenario. All data were recorded at 16kHz and 16bit resolution in PCM format. The data collection took place in small and large rooms, about half of the recordings took place under very quiet noise conditions, the other half with moderate background noise. Information on recording place and environmental noise conditions are provided in a separate speaker session file for each speaker. The text data used for recording mainly came from the news posted in an online edition of a national Polish newspaper Dziennik Polski, (http://www.dziennik.krakow.pl/). We followed the standard GlobalPhone protocols and focused on national and international politics and economics news (see [SCHULTZ 2002]). In sum, 10130 utterances were spoken. The transcriptions are provided in Polish script in UTF-8 encoding and are also mapped to Roman script (Ascii). The Polish data are organized in a training set of 82 speakers, a development set of 10 speakers, and an evaluation set of another 10 speakers.

[Schultz 2002] Tanja Schultz (2002): GlobalPhone: A Multilingual Speech and Text Database developed at Karlsruhe University, Proceedings of the International Conference of Spoken Language Processing, ICSLP 2002, Denver, CO, September 2002.

View resource description in French

Le corpus GlobalPhone, développé avec la collaboration du Karlsruhe Institute of Technology (KIT), a été conçu afin de fournir des données de parole lue pour le développement et l’évaluation de systèmes de reconnaissance de la parole continue à large vocabulaire dans les langues les plus répandues dans le monde, l’objectif étant de fournir une base de données audio et textuelles uniforme et multilingue pour la reconnaissance de la parole indépendante de la langue et adaptable à la langue, ainsi que pour des tâches d’identification de la langue.

Le corpus GlobalPhone complet permet l’acquisition d’une connaissance acoustico-phonétique pour les 22 langues parlées suivantes: allemand (ELRA-S0198), arabe (arabe standard moderne) (ELRA-S0192), bulgare (ELRA-S0319), chinois-mandarin (ELRA-S0193), chinois de Shanghai (ELRA-S0194), coréen (ELRA-S0200), croate (ELRA-S0195), espagnol (d’Amérique latine) (ELRA-S0203), français (ELRA-S0197), haoussa (ELRA-S0347), japonais (ELRA-S0199), polonais (ELRA-S0320), portugais (brésilien) (ELRA-S0201), russe (ELRA-S0202), suédois (ELRA-S0204), swahili (ELRA-S0375), tamoul (ELRA-S0205), thaï (ELRA-S0321), tchèque (ELRA-S0196), turc (ELRA-S0206), ukrainien (ELRA-S0377) et vietnamien (ELRA-S0322).

Dans chaque langue, environ 100 phrases ont été lues par chacun des 100 locuteurs. Les textes lus sont extraits d’articles de journaux nationaux disponibles sur internet afin de fournir un large vocabulaire. Les articles lus couvrent des actualités politiques nationales et internationales, ainsi que des nouvelles économiques. Les données de parole ont été enregistrées en 16 bit, 16 kHz (qualité mono) avec un micro-casque (Sennheiser 440-6). Les transcriptions ont été validées en interne et annotées au moyen de balises spéciales pour marquer les effets spontanés, tels que le bégaiement, les faux démarrages, et les effets non verbaux comme le rire et les hésitations. La base contient également des informations sur les locuteurs, telles que l’âge, le genre, la profession, etc. ainsi que des informations sur la mise en place de l’enregistrement. Le corpus GlobalPhone dans son entier comprend plus de 450 heures de parole enregistrées par plus de 2100 locuteurs adultes natifs.

Les données sont compressées au moyen du programme Shorten écrit par Tony Robinson. Au besoin, les données peuvent être fournies non compressées.

La partie polonaise de GlobalPhone a été collectée en Pologne auprès d’un total de 102 locuteurs natifs (48 femmes, 54 hommes). La majorité des locuteurs ont entre 20 et 39 ans, mais la classe d’âge sur l’ensemble est comprise entre 18 et 65 ans. La plupart des locuteurs sont non fumeurs et en bonnes conditions de santé. Chaque locuteur a lu en moyenne environ 100 occurrences d’articles de journaux, soit 10130 occurrences enregistrées au total. La parole a été enregistrée au moyen d’un micro-casque Sennheiser HM420 en suivant un scénario “push-to-talk”. Toutes les données ont été enregistrées sous une résolution de 16 kHz 16 bit au format PCM. La collecte de données a eu lieu dans des salles de petite et grande taille, sachant que la moitié des enregistrements a eu lieu dans des conditions de bruit de fond très faible, tandis que l’autre moitié s’est faite dans des conditions de bruits de fond modérés. Les informations sur le lieu d’enregistrement et les conditions environnementales de bruit sont fournies dans un fichier de session séparé pour chaque locuteur. Les données textuelles utilisées pour l’enregistrement proviennent principalement d’actualités publiées dans l’édition en ligne du journal national polonais Dziennik Polski (http://www.dziennik.krakow.pl). Les protocoles GlobalPhone standards ont été suivis et traitent des actualités politiques et économiques nationales et internationales (voir [SCHULTZ 2002]). Au total, 10130 occurrences ont été prononcées. Les transcriptions sont fournies en script polonais au codage UTF-8 et sont aussi fournies en script Roman (Ascii). Les données polonaises sont organisées sous la forme d’un ensemble d’entraînement de 82 locuteurs, un ensemble de développement de 10 locuteurs et un ensemble d’évaluation de 10 autres locuteurs.

[Schultz 2002] Tanja Schultz (2002): GlobalPhone: A Multilingual Speech and Text Database developed at Karlsruhe University, Proceedings of the International Conference of Spoken Language Processing, ICSLP 2002, Denver, CO, September 2002.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
600.00 € submit
3000.00 € submit
Licence: Commercial Use - ELRA VAR
3000.00 € submit
3000.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
700.00 € submit
3600.00 € submit
Licence: Commercial Use - ELRA VAR
3600.00 € submit
3600.00 € submit

Special offer:

20/09/2011 Downloadable
People who looked at this resource also viewed the following: