IBNC - An Italian Broadcast News Corpus
View resource name in all available languages
Un corpus d'actualités radio-diffusées italiennes (IBNC)
ID:
ELRA-S0093
The Italian Broadcast News Corpus (IBNC) was produced by the ITC-IRST (Italy) through a funding from ELRA in the framework of the European Commission project LRsP&P (Language Resources Production & Packaging - LE4-8335). RAI, the major Italian broadcast company, supplied studio quality recordings of radio news programs sampled from its internal digital archive. The collection consists of 150 programs, for a total time of about 30 hours, issued in 36 different days, between 1992 and 1999. Recordings were supplied by RAI on Digital Audio Tapes (DAT), with 44kHz sampling rate and 16 bit resolution. Each DAT was manually processed to transfer each single program issue into a single file. During this operation, the signal was down-sampled to 16kHz with a resolution of 16 bits, and encoded into the NIST Sphere PCM format. Speech recordings present variations of topic, speaker, acoustic channel, speaking mode, etc. The corpus has been segmented, labelled and transcribed manually using the tool developed by DGA (Délégation Générale pour l'Armement, France) and LDC (Linguistic Data Consortium, USA), called "Transcriber", with conventions similar to those adopted by LDC for the DARPA HUB-4 corpora.The transcription text consists of mixed-case ASCII characters of the ISO-8859-1 extended set. A validation work was carried out by an external validator. It consisted of checking audio files, documentation and transcriptions.
View resource description in
French
Le corpus d'actualités radio-diffusées italiennes (IBNC) a été réalisé par l'ITC-IRST (Italie) dans le cadre du projet européen LRsP&P (Language Resources Production & Packaging - Production et mise au format des ressources linguistiques - LE4-8335) soutenu par la Commission Européenne. La RAI, principale société de télé-radio-diffusion en Italie, a fourni des enregistrements en qualité studio de programmes d'actualités radio-diffusées, extraits d'archives numériques internes.
Cette collection est composée de 150 programmes, d'une durée totale d'environ 30 heures, extraites de 36 jours de diffusion différents entre 1992 et 1999. Les enregistrements ont été fournis par la RAI sous la forme de DAT (Digital Audio Tapes - cassettes audio numériques), échantillonnées à 44 kHz, avec une résolution de 16 bits. Chaque DAT a été traitée manuellement pour transférer chaque édition de programme vers un fichier unique. Au cours de cette opération, le signal a été sous-échantillonné à 16kHz, avec une résolution de 16 bits, et codé au format PCM Sphere NIST.
Les enregistrements de parole varient en termes de thèmes, de locuteurs, de canaux acoustiques, de modes de locution, etc. Le corpus a été segmenté, étiqueté et transcrit manuellement au moyen de l'outil "Transcriber" développé par la DGA (Délégation Générale pour l'Armement, France) et le LDC (Linguistic Data Consortium, Etats-Unis), en suivant des conventions similaires à celles adoptées par le LDC pour les corpus HUB-4 de DARPA. Le texte de transcription utilise le jeu de caractères ASCII étendu, norme ISO-8859-1. Un travail de validation, effectué par un validateur externe, a permis de vérifier la qualité des fichiers audio, de la documentation et des transcriptions.
MEMBER | academic | commercial |
---|---|---|
Licence: Non Commercial Use - ELRA END USER |
5000.00 €
|
15000.00 €
|
NON MEMBER | academic | commercial |
---|---|---|
Licence: Non Commercial Use - ELRA END USER |
8000.00 €
|
25000.00 €
|