ATCO2 Project Data

View resource name in all available languages

Données du projet ATCO2

589-403-577-685-7

ID:

ELRA-S0484

ATCO2 project aims at developing a unique platform allowing to collect, organize and pre-process air-traffic control (voice communication) data from air space. This project has received funding from the Clean Sky 2 Joint Undertaking (JU) under grant agreement No 864702. The JU receives support from the European Union’s Horizon 2020 research and innovation programme and the Clean Sky 2 JU members other than the Union.

The project collected the real-time voice communication between air-traffic controllers and pilots available either directly through publicly accessible radio frequency channels or indirectly from air-navigation service providers (ANSPs). In addition to the voice communication data, contextual information is available in a form of metadata (i.e. surveillance data). The dataset consists of two distinct packages:

- A corpus of ca. 4000 hours (untranscribed) of air-traffic control speech collected across different airports (Sion, Bern, Zurich, etc.) in .wav format for speech recognition. Speaker distribution is 90/10% between males and females and the group contains native and non-native speakers of English.
The raw data, also provided, consists of:
Overall size of the dataset (measured after Voice activity detection)
- 5281 hours (English + non-English)
- 4465 hours (English only)
Overall raw size of audio files (sum of wav file lengths):
- 6225 hours (English + non-English)

- A corpus of ca. 4 hours (transcribed) of air-traffic control speech collected across different airports (Sion, Bern, Zurich, etc.) in .wav format for speech recognition. Speaker distribution is 90/10% between males and females and the group contains native and non-native speakers of English. This corpus has been manually transcribed and automatically annotated with orthographic information in XML format with speaker noise information, SNR values and others. Ca. 1 hour of annotation has followed a human re-checking.

View resource description in French

Le projet ATCO2 a pour but de développer une plateforme unique permettant de collecter, organiser, et pré-traiter des données de contrôle du trafic (communication vocales) de l’espace aérien. Le projet a reçu un financement de l’entreprise commune Clean Sky 2 sous la convention de subvention No. 864702. L’entreprise commune a reçu le soutien du programme d’innovation et de recherche de l’Union Européenne Horizon 2020 et des membres de Clean Sky 2 autres que ceux de l’Union Européenne.

Le projet a collecté les communications vocales en temps réel entre les contrôleurs aériens et les pilotes disponibles soit directement via les fréquences radios publiquement accessibles soit indirectement par l’intermédiaire des prestataires de service de la navigation aérienne (PSNA). En complément des communications vocales, des informations contextuelles sont disponibles sous la forme de métadonnées (ex. données de surveillance radar). L’ensemble de données est composé de deux sous-ensemble distincts :

- Un corpus d’environ 4000 heures (non transcrites) de conversations du trafic aérien collectées entre différents aéroports (Sion, Berne, Zurich, etc.) au format .wav pour la reconnaissance de la parole. La distribution des locuteurs est de 90% d’hommes et 10% de femmes. Le groupe est constitué de locuteurs natifs et non-natifs de l’anglais.
Les données brutes, également fournies, comprennent:
Taille totale des données (mesurées après une détection d’activité vocale)
- 5281 heures (anglais + non anglais)
- 4465 heures (anglais seulement)
Taille totale des fichiers audio brut (somme des longueurs de fichiers wav):
- 6225 heurs (anglaise + non anglais)

- Un corpus d’environ 4 heures (transcrites) de conversations du trafic aérien collectées entre différents aéroports (Sion, Berne, Zurich, etc.) au format .wav pour la reconnaissance de la parole. La répartition des locuteurs est de 90% d’hommes et 10% de femmes. Le groupe est constitué de locuteurs natifs et non-natifs de l’anglais. Le corpus a été transcrit et annoté automatiquement avec des informations orthographiques au format XML, incluant les annotations sur le bruit, les valeurs de ratio signal bruit et d’autres informations. Environ 1 heure d’annotation a également été soumise à une revérification humaine.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
1000.00 € submit
5000.00 € submit
Licence: Commercial Use - ELRA VAR
5000.00 € submit
5000.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
1000.00 € submit
5000.00 € submit
Licence: Commercial Use - ELRA VAR
5000.00 € submit
5000.00 € submit
19/10/2022
People who looked at this resource also viewed the following: