TC-STAR English Training Corpora for ASR: Transcriptions of EPPS Speech

View resource name in all available languages

Corpus d’entraînement TC-STAR anglais pour l’ASR: Transcriptions EPPS

521-254-874-619-5

ID:

ELRA-S0249

TC-STAR is a European integrated project focusing on all core technologies for Speech-to-Speech Translation (SST): Automatic Speech Recognition (ASR), Spoken Language Translation (SLT), and Text to Speech Synthesis (TTS).

This corpus consists of transcriptions from 92 hours of EPPS (European Parliament Plenary Sessions) speeches held or interpreted in European English (a mixture of native and non-native English). The recordings (not included in the present package) were obtained from Europe by Satellite (https://ec.europa.eu/avservices/ebs/schedule.cfm) from May 2004 until May 2006. The corpus consists of 63 transcriptions files. The transcription files are stored in Transcriber XML file format.

The speech databases made within the TC-STAR project were validated by SPEX, in the Netherlands, to assess their compliance with the TC-STAR format and content specifications.

For corresponding recordings, see ELRA-S0251.

View resource description in French

TC-STAR est un projet intégré européen dédié à toutes les technologies de base pour la traduction parole-parole (ou SST pour Speech-to-Speech Translation): reconnaissance automatique de la parole (ou ASR pour « Automatic Speech Recognition »), traduction de la langue parlée (ou SLT pour « Spoken Language Translation ») et technologies texte-parole (ou TTS pour « Text-to-Speech »).

Ce corpus comprend les transcriptions de 92 heures de discours réalisés ou interprétés en anglais européen (un mélange d’anglais natif et non natif) durant les sessions plénières du Parlement européen (EPPS). Les enregistrements (non inclus dans le présent package) ont été obtenus via Europe by Satellite (https://ec.europa.eu/avservices/ebs/schedule.cfm) de mai 2004 à mai 2006. Le corpus contient 63 fichiers de transcription. Les fichiers de transcription sont stockés au format de fichier XML Transcriber.

Les bases de données orales produites dans le projet TC-STAR ont été validées par SPEX, Pays-Bas, selon le format et les spécifications de contenu TC-STAR.

Pour les enregistrements correspondants, voir ELRA-S0251.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
4400.00 € submit
6250.00 € submit
Licence: Commercial Use - ELRA VAR
6250.00 € submit
6250.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
5750.00 € submit
8200.00 € submit
Licence: Commercial Use - ELRA VAR
8200.00 € submit
8200.00 € submit

The following list of resources can be obtained as a bundle (combined set of resources):

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
4800.00 € submit
6850.00 € submit
Licence: Commercial Use - ELRA VAR
6850.00 € submit
6850.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
6270.00 € submit
9000.00 € submit
Licence: Commercial Use - ELRA VAR
9000.00 € submit
9000.00 € submit
15/11/2007
People who looked at this resource also viewed the following:
Resources from the same project