TC-STAR Spanish Baseline Female Speech Database

View resource name in all available languages

Voix de femme de référence TC-STAR espagnol

682-113-241-701-0

ID:

ELRA-S0309

The TC-STAR Spanish Baseline Female Speech Database was created within the scope of the TC-STAR project (IST- FP6-506738) funded by the European Commission.

It contains the recordings of one female Spanish speaker recorded in a noise-reduced room simultaneously through a close talk microphone, a mid distance microphone and a laryngograph signal. It consists of the recordings and annotations of read text material of approximately 10 hours of speech for baseline applications (Text-to-Speech systems). This database is distributed on 10 DVDs. The database complies with the common specifications created in the TC-STAR project.

The annotation of the database includes manual orthographic transcriptions, the automatic segmentation into phonemes and automatic generation of pitch marks. A certain percentage of phonetic segments and pitch marks has been manually checked. A pronunciation lexicon in SAMPA with POS, lemma and phonetic transcription of all the words prompted and spoken is also provided.

Speech samples are stored as sequences of 24-bit 96 kHz with the least significant byte first (“lohi” or Intel format) as (signed) integers. Each prompted utterance is stored in a separate file. Each signal file is accompanied by an ASCII SAM label file which contains the relevant descriptive information.

The TC-STAR Spanish Baseline Male Speech Database is also available via ELRA under reference ELRA-S0310.

View resource description in French

Cette voix de femme de référence TC-STAR espagnol a été créée dans le cadre du projet TC-STAR (IST- FP6-506738) financé par la Commission européenne.

Elle comprend les enregistrements d’un locuteur espagnol femme enregistré de façon simultanée par micro-casque, microphone à distance moyenne et signal larygographique dans une salle à bruit réduit. Elle consiste en des enregistrements et annotations de matériel textuel lu pour environ 10 heures de parole pour des applications de référence (systèmes texte-parole). Cette base de données est distribuée sur 10 DVD. Elle respecte les spécifications communes créées dans le projet TC-STAR.

L’annotation de la base de données inclut les transcriptions orthographiques réalisées manuellement, la segmentation automatique en phonèmes et la génération automatiques des marques de pitch. Un certain pourcentage de segments phonétiques et de marques de pitch a été vérifié manuellement. Un lexique de prononciation en SAMPA avec partie du discours, lemmes et transcription phonétique de tous les mots lus et prononcés est également fourni.

Les fichiers de parole sont stockés en séquences d’échantillons de 24-bit 96 kHz avec l’octet le moins significatif en premier (“lohi” ou format Intel) en entiers (signés). Chaque énoncé est stocké dans un fichier séparé et est accompagné d'un fichier d'étiquetage ASCII SAM.

La voix d’homme de référence TC-STAR espagnol est également disponible via ELRA sous la référence ELRA-S0310.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
7700.00 € submit
12000.00 € submit
Licence: Commercial Use - ELRA VAR
12000.00 € submit
12000.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
10000.00 € submit
15600.00 € submit
Licence: Commercial Use - ELRA VAR
15600.00 € submit
15600.00 € submit

The following list of resources can be obtained as a bundle (combined set of resources):

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
7700.00 € submit
12000.00 € submit
Licence: Commercial Use - ELRA VAR
12000.00 € submit
12000.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
10000.00 € submit
15600.00 € submit
Licence: Commercial Use - ELRA VAR
15600.00 € submit
15600.00 € submit
21/12/2010 Downloadable
People who looked at this resource also viewed the following:
Resources from the same project