ReSSInt-EMG (Spanish EMG and Speech Database)

View resource name in all available languages

ReSSInt-EMG (Base de données d’enregistrements EMG et parole)

057-914-072-202-4

ID:

ELRA-S0498

ReSSInt-EMG (Spanish EMG and Speech Database) has been generated in the framework of the ReSSInt project (Voice restoration with silent EMG speech interfaces) and its continuation project DeepRestore (Deep learning approaches for speech restoration from face movement biosignals), coordinated research projects funded by the Spanish Ministry of Science and Innovation, aiming to investigate the use of silent speech interfaces to restore communication in people who have been deprived of the ability to speak. Silent speech interfaces (SSIs) are devices designed to capture non-acoustic biological signals produced during the speech production process and utilize them to predict the intended message. While SSIs have traditionally been explored primarily within the realm of speech recognition, specifically Silent-Speech-to-Text applications, the ReSSint project takes a distinctive approach by concentrating on direct speech synthesis techniques. This involves the direct generation of the speech waveform corresponding to the captured biosignals. The non-acoustic biosignals that are used in this work are EMG signals or, more specifically, surface (i.e., non-invasive) EMG (Electromyography). Electromyography is a technique used to measure and record the electrical activity of muscles. When a muscle is active, it produces an electrical signal, called an action potential that can be detected by an electrode placed on the skin over the muscle. Since this project focuses on speech, muscles in the face and the neck are targeted.

The database comprises 22.55 hours of data, recorded by 9 Spanish-native speakers (5 males, 4 females). EMG signals from sensors were located in the speaker’s face and the audio part was recorded in a soundproof recording cubicle with a Neuman microphone. Speech files were recorded in WAV format, 16kHz, 16-bit, Linear PCM (Lo-hi, signed integer), mono (1 channel).

View resource description in French

ReSSInt-EMG (Spanish EMG and Speech Database) a été initiée dans le cadre du projet ReSSInt (Restauration de la voix avec des interfaces vocales EMG silencieuses) et finalisée dans le projet DeepRestore (Approches deep learning pour la restauration de la parole à partir de biosignaux liés aux mouvements du visage), deux projets de recherche coordonnés financés par le ministère espagnol de la Science et de l'Innovation, visant à étudier l'utilisation d'interfaces vocales silencieuses pour restaurer la communication chez les personnes privées de la capacité de parler. Les interfaces vocales silencieuses (SSI) sont des dispositifs conçus pour capturer des signaux biologiques non acoustiques produits au cours du processus de production de la parole et les utiliser pour prédire le message prévu. Alors que les SSI ont traditionnellement été explorés principalement dans le domaine de la reconnaissance vocale, en particulier dans les applications de conversion de la parole silencieuse en texte, le projet ReSSint adopte une approche distinctive en se concentrant sur les techniques de synthèse vocale directe. Cela implique la génération directe de la forme d'onde vocale correspondant aux biosignaux captés. Les signaux biologiques non acoustiques utilisés dans ce travail sont des signaux EMG (électromyographie) ou, plus précisément, des signaux EMG de surface (c'est-à-dire non invasifs). L'électromyographie est une technique utilisée pour mesurer et enregistrer l'activité électrique des muscles. Lorsqu'un muscle est actif, il produit un signal électrique, appelé potentiel d'action, qui peut être détecté par une électrode placée sur la peau au-dessus du muscle. Ce projet s’intéressant à la parole, les muscles du visage et du cou sont ciblés.

La base de données comprend 22,55 heures de données, enregistrées par 9 locuteurs natifs espagnols (5 hommes et 4 femmes). Les signaux EMG provenant des capteurs sont situés sur le visage du locuteur et la partie audio a été enregistrée dans une cabine d’enregistrement insonorisée avec un microphone Neuman. Les fichiers de parole ont été enregistrés au format WAV, 16 kHz, 16 bits, PCM linéaire (Lo-hi, entier signé), mono (1 canal).

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
0.00 € submit
0.00 € submit
Licence: Commercial Use - ELRA VAR
0.00 € submit
0.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
0.00 € submit
0.00 € submit
Licence: Commercial Use - ELRA VAR
0.00 € submit
0.00 € submit
15/12/2025