British English SpeechDat(II) SDB-2400 – ELRA Catalogue

Last view: 2024-04-18

163 Last view: 2024-04-18

Last update: 2017-10-05

1 Last update: 2017-10-05

British English SpeechDat(II) SDB-2400

View resource name in all available languages

Base de données SpeechDat(II) SDB-2400 de l'anglais britannique

ISLRN: 007-575-120-102-1

ID:

ELRA-S0098

The British English SpeechDat(II) SDB-2400 database is designed for development and assessment of speaker verification and identification systems. It contains the recordings of 120 speakers who uttered 22 items 20 times, and was collected over the fixed and mobile telephone networks in quiet and noisy environments. This database is partitioned into 8 CDs.

Speech samples are stored as sequences of 8-bit 8 kHz A-law. Each prompted utterance is stored in a separate file. Each signal file is accompanied by an ASCII SAM label file which contains the relevant descriptive information.

This speech database was validated by SPEX (the Netherlands) to assess its compliance with the SpeechDat format and content specifications.

Each speaker uttered the following items:

* 1 sequence of 10 isolated digits
* 2 connected digits (1 credit card number -16 digits, 1 PIN code -6 digits)
* 2 spelled words (1 fixed "forename surname", 2 "names/words")
* 1 fixed "forename surname"
* 2 "forename surname" out of a set of 10
* 2 application words
* 10 phonetically rich sentences

The following age distribution has been obtained: 7 speakers are under 16, 41 speakers are between 16 and 30, 33 speakers are between 31 and 45, 32 speakers are between 46 and 60, and the age of 7 speakers is unknown.

A pronunciation lexicon with a phonemic transcription in SAMPA is also included.

View resource description in French

La base de données SpeechDat(II) SDB-2400 de l'anglais britannique a été conçue pour le développement et le contrôle des systèmes d'identification et de vérification du locuteur. Elle contient 22 occurrences pour 120 locuteurs ayant téléphoné 20 fois, enregistrés à travers les réseaux téléphoniques fixes et mobiles britanniques, en environnement calme et bruité. Cette base est répartie sur 8 CD-ROM. Les bases de données SpeechDat(II) ont été réalisées selon les spécifications du projet SpeechDat(II) et validées par SPEX, Pays-Bas.

Les fichiers de parole sont stockés en séquences d'échantillons de 8 bits, 8 kHz, loi-A. Chaque énoncé est stocké dans un fichier séparé et est accompagné d'un fichier d'étiquetage ASCII SAM.

Chaque locuteur a prononcé les éléments suivants :

* 1 séquence de 10 chiffres isolés ;
* 2 chiffres connectés : 1 numéro de carte de crédit (16 chiffres), 1 code confidentiel (6 chiffres) ;
* 2 mots épelés : 1 "prénom nom" fixé, 2 "noms/mots" épelés
* 1 "prénom nom" fixé
* 2 "prénom nom" (à partir d'un ensemble de 10)
* 2 mots de commande
* 10 phrases phonétiquement riches ;

Les classes d'âge sont réparties comme suit : 7 locuteurs de moins de 16 ans, 41 locuteurs entre 16 et 30 ans, 33 locuteurs entre 31 et 45 ans, 32 locuteurs entre 46 et 60 ans et 7 locuteurs d'âge inconnu.

Un lexique de prononciation avec sa transcription phonétique en SAMPA est également fourni.

MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	32000.00 €	39000.00 €
Licence: Commercial Use - ELRA VAR	39000.00 €	39000.00 €

NON MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	39000.00 €	47000.00 €
Licence: Commercial Use - ELRA VAR	47000.00 €	47000.00 €

DistributionAvailability start date 09/02/2001 Contact Person

Valérie Mapelli

audio

Monolingual audio corpusLanguages

English

Linguality

Linguality type: Monolingual

Size

no size available

Classification

Audio genre: Other

Audio FormatsRecording

Source channel: Telephone

Resource Creation

Funding Project

SpeechDat(II)

Funding Type: Eu Funds

Metadata

Created: 05/12/2005

Metadata Language: French, English (fr, en)

Version

Version: 1.0

Last Updated: 02/22/2007

People who looked at this resource also viewed the following:

Resources from the same project