Chinese Kids Speech database (Lower Grade) – ELRA Catalogue

Last view: 2025-11-04

467 Last view: 2025-11-04

Last update: 2025-07-22

2 Last update: 2025-07-22

Chinese Kids Speech database (Lower Grade)

View resource name in all available languages

Base de données audio d'enfants chinois (niveau cours élémentaire)

ISLRN: 369-011-475-593-5

ID:

ELRA-S0496

The Chinese Kids Speech database (Lower Grade) contains the total recordings of 184 Chinese Kids speakers (98 males and 86 females), from 6 to 10 years’ old recorded in quiet rooms using smartphone. This database may be combined with the Chinese Kids Speech database (Upper Grade) also available in the ELRA Catalogue under reference ELRA-S0497.

Number of speakers, utterances, duration and age are as follows :

Number of speakers (Male/Female): 184 (98/86)
Number of utterances (average): 237 utt/spkr
Total number of utterances: 43,667
Age: from 6 to 10
Total hours of data: 87

1,426 sentences were used. Recordings were made through smartphones and audio data stored in .wav files as sequences of 16KHz Mono, 16 bits, Linear PCM.

Database
・Audio data: WAV format, 16KHz, 16bit, mono (recorded with smartphone)
・Transcription data: TSV format(tab-delimited), UTF-8 (without BOM) ), Line ending: LF
・Size: 9.4GB

Age Male Female Total
6 11 6 17
7 11 8 19
8 18 29 47
9 47 36 83
10 11 7 18

Structure of database :
├─ readme.txt
├─ Chinese Kids Speech Database (Lower grade).pdf Description document of the database
├─ transcription(Lower).tsv Transcription
└─ Low/ directory of audio data
└─ (1st/2nd/3rd) directory of version ID
└─(0/1) directory of gender (0: male, 1: female)
└─(audio_file) audio file (WAV format, 16KHz, 16bit, mono)

Field information of “transcription(Lower).tsv” are as follows:
Field number Contents
0 Script ID
1 Speaker ID
2 Audio file name
3 Transcription (in Chinese)

File naming conventions of audio files are as follows:
Field number Contents Description Remarks
0 Script ID Four digits XXXX: four digits
1 Speaker ID Three digits XXX: three digits
2 Age Two digits From 06 to 10
3 Gender 0: male, 1: female
4 Utterance No. Three digits Sequential numbering starting from 001 within each speaker
5 Recording date YYYYMMDDHHMM
6 Recording device name Recording device name Ex. NTH-AN00
7 OS Operating System info of recording device Ex. android-11
8 Duration duration in msec Duration of the actual spoken utterance

Filed separation character is “_”.
For example, if the audio file name is “1318_373_09_1_010_202205041857_NTH-AN00_android-11_5480.wav “, this file has the following meaning:
1318: script ID
373: speaker ID
09: age (nine years old)
1: gender (female)
010: utterance number
202205041857: recording date (May 4, 2022, at 6:57 PM)
NTH-AN00: recording device name
android-11: operating system info of recording device
5480: duration of the actual spoken utterance (5,480 msec)

View resource description in French

La base de données données audio d'enfants chinois contient les enregistrements de 184 locuteurs enfants japonais (98 garçons et 86 filles), âgés de 6 à 10 ans, enregistrés dans des salles calmes en utilisant des smartphones. Cette base de données peut être complétée par la Base de données audio d'enfants japonais (niveau cours moyen et collège) également disponible dans le catalogue ELRA sous la référence ELRA-S0497.

Le nombre de locuteurs, d’occurrences, la durée et l'âge sont les suivants:
Nombre de locuteurs (garçon/fille): 184 (98/86)
Nombre d'occurrences (moyenne): 237 occ./loc
Nombre total d'occurrences: 43,667
Age: de 6 à 10 ans
Nombre total d'heures de données: 87

1426 phrases ont été utilisées. Les enregistrements ont été réalisés via des smartphones et les données audio sont stockées dans des fichiers .wav sous forme de séquences de 16KHz mono, 16 bits, PCM linéaire.

Base de données
・ Données audio: format WAV, 16 KHz, 16 bits, mono (enregistrées avec un smartphone)
・ Données de transcription: format TSV (délimité par des tabulations), UTF-8 (sans BOM), fin de ligne : LF
・ Taille: 9,4 Go

Age Garçons Filles Total
6 11 6 17
7 11 8 19
8 18 29 47
9 47 36 83
10 11 7 18

Structure de la base de données:
├─ readme.txt
├─ Chinese Kids Speech Database (Lower grade).pdf Description document of the database
├─ transcription(Lower).tsv Transcription
└─ Low/ directory of audio data
└─ (1st/2nd/3rd) directory of version ID
└─(0/1) directory of gender (0: male, 1: female)
└─(audio_file) audio file (WAV format, 16KHz, 16bit, mono)

Les informations des champs de “transcription(Lower).tsv” sont les suivantes:
Field number Contenu
0 Identifiant du script
1 Identifiant du locuteur
2 Nom du fichier audio
3 Transcription (en chinois)

Les conventions de nommage des fichiers audio sont les suivantes:
Numéro du champ Contenu Description Remarques
0 Identifiant du script Quatre chiffres XXXX: quatre chiffres
1 Identifiant du locuteur Trois chiffres XXX: trois chiffres
2 Age Deux chiffres De 06 à 10
3 Sexe 0: garçon, 1: fille
4 Numéro d’occurrence Trois chiffres Numérotation séquentielle à partir de 001 pour chaque locuteur
5 Date d’enregistrement YYYYMMDDHHMM
6 Nom de l’outil d’enregistrement Nom de l’outil d’enregistrement Ex. NTH-AN00
7 OS Info sur le système d’exploitation de l’outil d’enregistrement Ex. android-11
8 Durée durée en msec Durée de l’occurrence parlée réelle

Le caractère de séparation est «_».
Par exemple, si le nom du fichier audio est “1318_373_09_1_010_202205041857_NTH-AN00_android-11_5480.wav“, ce fichier a la signification suivante:
1318: identifiant du script
373: identifiant du locuteur
09: âge (neuf ans)
1: sexe (féminin)
010: numéro d’occurrence
202205041857: date d’enregistrement (4 mai 2022 à 18:57)
NTH-AN00: nom de l’outil d’enregistrement
android-11: info sur le système d’exploitation de l’outil d’enregistrement
5480: durée de l’occurrence parlée réelle (5480 msec)

MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	3700.00 €	22000.00 €
Licence: Commercial Use - ELRA VAR	22000.00 €	22000.00 €

NON MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	14700.00 €	22000.00 €
Licence: Commercial Use - ELRA VAR	22000.00 €	22000.00 €

DistributionAvailability start date 18/07/2025 Contact Person

Valérie Mapelli

audio

Monolingual audio corpusLanguages

Chinese

Linguality

Linguality type: Monolingual

Size

87 Hours

Metadata

Created: 07/18/2025

Last Updated: 07/18/2025

Metadata Language: French, English (fr, en)

People who looked at this resource also viewed the following: