Training and test data for Arabizi detection and transliteration

View resource name in all available languages

Données de test et d’entraînement pour la détection et la translittération de l’arabizi

986-364-744-303-9

ID:

ELRA-W0126

The dataset is composed of two distinct resources:
1) A collection of mixed English and Arabizi text intended to train and test a system for the automatic detection of code-switching in mixed English and Arabizi texts. The training part of the corpus contains: 522 tweets composed of 5,207 tokens (including 3,307 English tokens, 1,203 Arabizi tokens and 697 other tokens). Tokens are manually labelled as English (“e”), Arabizi (“a”), or other (“o”). The testing part contains: 475 tweets containing 3,533 tokens (803 English tokens; 1,965 Arabizi tokens; and 765 other tokens).
2) A set of 3,452 Arabizi tokens manually transliterated into Arabic, and a set of 127 Arabizi tweets containing 1,385 word also manually transliterated into Arabic. This dataset was intended to train and test a system that performs Arabizi to Arabic transliteration.

View resource description in French

Ces données sont composées de deux ressources distinctes :

1) une collection de texte anglais et arabizi mélangés dans le but d’entraîner et de tester un système de détection automatique du changement de langue dans des textes contenant de l’anglais et de l’arabizi. Les données d’entraînement contiennent 522 tweets (5.207 tokens dont 3.3307 tokens en anglais, 1.203 tokens en arabizi et 697 tokens en d’autres langues). Les tokens ont été labelisés manuellement : anglais (« e »), Arabizi (« a ») ou autres (« o »). Les données de test contiennent 475 tweets, soit 3.533 tokens (803 tokens anglais, 1965 tokens arabizi et 765 tokens en d’autres langues).

2) un ensemble de 3.452 tokens en arabizi manuellement translittérés en arabe, et un ensemble de 127 tweets en arabizi (1.385 mots) également translittérés en arabe, dans le but d’entrainer et de tester un système de translittération de l’arabizi vers l’arabe.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
0.00 € submit
500.00 € submit
Licence: Commercial Use - ELRA VAR
500.00 € submit
500.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
0.00 € submit
650.00 € submit
Licence: Commercial Use - ELRA VAR
650.00 € submit
650.00 € submit
06/06/2018 Downloadable
People who looked at this resource also viewed the following: