deL1L2IM corpus

View resource name in all available languages

Corpus deL1L2IM

339-799-085-669-8

ID:

ELRA-W0083

The deL1L2IM corpus, created between May and August 2012 and last updated in August 2014, has been collected within the framework of a PhD project on the development of a learning method implying conversations with an artificial companion. This PhD work is presented as a qualitative investigation of instant messaging dialogues on a long-term basis (four months) between advanced learners of German and German native speakers, chatting about whatever topic they wish.

The dataset is composed of 72 dialogues, each of them having a duration of 20 to 45 minutes. The whole corpus contains ca. 52,000 words and 4,800 messages and has a file size of 0.5 Mb. Nine pairs of participants – i.e. nine learners and four native speakers – were required, with 8 dialogues per pair.

The interactions have undergone linguistic analysis whereby the annotation will be performed only on repair/correction sequences (incomplete learner error annotation). The goal of the project was to create an application for language modelling and to improve learner language applications, tutoring software and dialogue systems.

The corpus is delivered in one written text file (in XML format, customized under TEI P5).

View resource description in French

Le corpus deL1L2IM, créé entre mai et août 2012, avec une dernière mise à jour en août 2014, a été collecté dans le cadre d’un projet de thèse sur le développement d’une méthode d’apprentissage impliquant des conversations avec un compagnon artificiel. Le travail de thèse se présente comme une investigation qualitative sur les dialogues de messagerie instantanée sur une période à long terme (quatre mois) entre des apprenants avancés de l’allemand et des locuteurs natifs allemands, qui ont tchatté sur n’importe quel sujet souhaité.

La base de données est composée de 72 dialogues, chacun ayant une durée de 20 à 45 minutes. Le corpus entier comprend env. 52,000 mots et 4,800 messages, pour une taille de fichier de 0,5 Mo. Neuf paires de participants ont été requises, neuf apprenants et neuf locuteurs natifs, pour réaliser 8 dialogues par paire.

Les interactions ont été soumises à une analyse linguistique où une annotation a été réalisée uniquement sur des séquences de réparation-correction (annotation des erreurs de l’apprenant incomplète). Le but du projet était de permettre la création d’une application pour la modélisation de la langue et d’améliorer les applications d’apprentissage de la langue, d’outils de tutorat et de systèmes de dialogues.

Le corpus est fourni en un fichier texte (au format XML, customisé sous TEI P5).

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
0.00 € submit
0.00 € submit
Licence: Commercial Use - ELRA VAR
0.00 € submit
0.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
0.00 € submit
0.00 € submit
Licence: Commercial Use - ELRA VAR
0.00 € submit
0.00 € submit
20/03/2015 Downloadable
People who looked at this resource also viewed the following: