Parallel Corpora for 6 Indian Languages

View resource name in all available languages

Corpus parallèle pour 6 langues de l’Inde

657-350-757-058-6

ID:

ELRA-W0320

The Parallel Corpora for 6 Indian Languages contains data sets for Bengali (540,000 words – 20,000 parallel sentences), Hindi (1,200,000 words – 37 000 parallel sentences), Malayalam (660,000 words – 29,000 parallel sentences), Tamil (747,000 words – 35,000 parallel sentences), Telugu (951,000 words – 43,000 parallel sentences), and Urdu (1,200,000 words – 33,000 parallel sentences), translated into English. Each data set was created by taking around 100 Indian-language Wikipedia pages and obtaining four independent translations in English of each of the sentences in those documents via non-professional translators hired by crowdsourcing on Amazon Mechanical Turk.

All data sets are provided in plain text format. For each of the 6 Indian language, the directory contains:
- A metadata file which is organized into rows with four columns each. The rows correspond to the original documents that were translated, and the columns denote (1) the (internal) segment ID assigned to the document (2) the document's original title (3) a translation of the title (4) the manual category assignment we assigned to the document.
- The data splits which were constructed by manually assigning the documents to one of eight categories (Technology, Sex, Language and Culture, Religion, Places, People, Events, and Things), and then selecting about 10% of the documents in each category for dev, devtest, and test data (that is, roughly 30% of the data), and the remaining for training data.
- Dictionaries created in a separate Mechanical Turk job.
- Votes files contain the results from a separate Mechanical Turk task wherein new Turkers were asked to vote on which of the four translations of a given sentence was the best. Such information is available for all languages except Malayalam.

View resource description in French

Le corpus parallèle pour 6 langues de l’Inde contient des jeux de données en bengali (540,000 mots – 20,000 phrases parallèles), hindi (1 200 000 mots – 37 000 phrases parallèles), malayalam (660 000 mots – 29 000 phrases parallèles), tamil (747 000 mots – 35 000 phrases parallèles), telugu (951 000 mots – 43 000 phrases parallèles) et urdu (1 200 000 mots – 33 000 phrases parallèles), traduits en anglais. Chaque base de données a été créée en collectant environ 100 pages Wikipedia en dialectes indiens et en obtenant 4 traductions indépendantes de chaque phrase dans ces documents par des traducteurs non professionnels engagés par crowdsourcing via Amazon Mechanical Turk.

Tous les jeux de données sont fournis au format texte. Pour chacune des 6 langues indiennes, le répertoire contient:
- Un fichier de métadonnées. Celui-ci est organisé en lignes de 4 colonnes chacune. Les lignes correspondent aux documents originaux traduits et les colonnes désignent (1) les identifiants des segments assignés aux documents, (2) le titre original du document, (3) une traduction du titre, (4) la catégorie assignée manuellement au document. La répartition des données a été construite en assignant manuellement aux documents une des huit catégories identifiées (technologie, sexualité, langue et culture, religion, lieux, personnes, évènements, et objets).
- Une sélection d’environ 10% de documents dans chaque catégorie a été réalisée pour produire les données dev, devtest, et test (ce qui représente environ 30% des données) et le reste pour les données d’apprentissage.
- Des dictionnaires ont été créés dans une tâche distincte du Mechanical Turk.
- Des fichiers “Votes” fournissent les résultats d’une autre tâche distincte du Mechanical Turk, au cours de laquelle on a demandé à de nouveaux participants de voter pour la meilleure des quatre traductions d’une phrase donnée. Cette information est disponible pour toutes les langues, excepté le malayalam.

MEMBERacademiccommercial
Licence: Attribution, Share Alike - CC-BY-SA-3.0
0.00 € submit
0.00 € submit
NON MEMBERacademiccommercial
Licence: Attribution, Share Alike - CC-BY-SA-3.0
0.00 € submit
0.00 € submit
16/02/2022
People who looked at this resource also viewed the following: