Italian TTS Speech Corpus (Appen)

View resource name in all available languages

Corpus de parole italien TTS (Appen)

976-246-706-503-6

ID:

ELRA-S0148

The Italian TTS Speech Corpus contains the recordings of 1 native Italian speaker (male, 50 years old) recorded in a studio over 1 channel (Shure SM15 unidirectional professional head-word condenser microphone). The data collection and transcription were performed by Appen (Australia).
Speech samples are stored as sequences of 16-bit 22.05 kHz PCM in uncompressed WAV files.
The speaker read 3,300 prompted sentences covering all legal triphones and diphones.
The database is provided with orthographic transcriptions in SAMPA, including canonical and alternative pronunciation, and syllable, stress and acoustic events markings. All transcriptions were segmented at the utterance (sentence/command word) level, annotated at the word level and checked manually. A pronunciation lexicon including 7,300 headwords (plus variants) is also available.
This database is aimed to be used within text-to-speech and speech synthesis applications.

View resource description in French

Le corpus de parole italien TTS (text-to-speech) est constitué d’enregistrements fournis par un locuteur de langue maternelle italienne (1 homme de 50 ans) enregistré en studio à travers 1 canal (microphone unidirectionnel Shure SM15). La collecte et la transcription des données ont été réalisées par Appen (Australie).

Les fichiers WAV sont stockés en séquences d'échantillons de 22,05 kHz, 16 bit, PCM et ne sont pas compressés.

Le locuteur a lu, à partir d’énoncés (prompts), 3 300 phrases couvrant la totalité des triphones et diphones obligatoires.

La base de données est fournie avec les transcriptions phonétiques en SAMPA, dont la transcription canonique et prononciations alternatives, ainsi que les marqueurs de syllabe, d’accentuation et d’événements acoustiques. Toutes les transcriptions sont segmentées au niveau de l’occurrence (phrase/mot de commande), annotées au niveau du mot et vérifiées manuellement. Un lexique de prononciation composé de 7 300 mots (plus variantes) est également disponible.

La base de données à pour but d'être utilisée dans des applications « text-to-speech » et de synthèse de la parole.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
2000.00 € submit
9000.00 € submit
Licence: Commercial Use - ELRA VAR
9000.00 € submit
9000.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
3500.00 € submit
11000.00 € submit
Licence: Commercial Use - ELRA VAR
11000.00 € submit
11000.00 € submit
15/07/2003 Downloadable
People who looked at this resource also viewed the following: