Normalized Arabic Fragments for Inestimable Stemming (NAFIS)

View resource name in all available languages

Corpus NAFIS (Normalized Arabic Fragments for Inestimable Stemming)

305-450-745-774-1

ID:

ELRA-W0127

Normalized Arabic Fragments for Inestimable Stemming (NAFIS) is an Arabic stemming gold standard corpus composed by a collection of sentences, selected to be representative of Arabic stemming tasks and manually annotated. Indeed, NAFIS is:

Comprehensive: The content of NAFIS can be generalized to the Arabic language as a whole. Within the stemming issue, to be comprehensive the corpus must contain all possible affix combinations. To reflect this purpose, linguists made an inventory of all Arabic affix combinations. An affix is a prefix-suffix couple that can be agglutinated to a specific word type (noun, verb or particle). Arabic affixes consist of 12 atomic prefixes and 11 atomic suffixes. Their combining generates about 94 prefixes and 73 suffixes (we note that we use the terms affix, prefix and suffix instead of clitic, proclitic and enclitic because they are widely used in the literature). For example the prefix “وَال” (and the) is composed with two atomic prefixes “وَ” (the conjunction “and”) and “لا” (the definite article “the”).

Compiled: linguists gathered a set of sentences containing all earlier listed affixes to ensure the comprehensiveness criterion. Compiled sentences belong to various sources (poems, holy Quran, books, and periodics) of diversified kinds (proverb and dictum, article commentary, religious text, literature, historical fiction). For instance, the following sentence "عليكم بالجد فإنه أساس النجاح" is part of the corpus and contains four affixes combination:
1. [-كم]: the empty prefix associated with the suffix pronoun ‘you’,
2. [بال-]: composed with two atomic prefixes ("ب" the preposition 'with' and “ال” the definite article 'the') and the empty suffix,
3. [ه-ف]: composed with the prefix “ف” (the conjunction “then”) and the suffix “ه” (the pronoun “his”)
4. [ال-]: composed with “ال” the definite article 'the' and the empty suffix.

As shown in the extract below, NAFIS is represented according to the TEI standard. Sentences are enclosed within the tag. A sentence is a set of segments representing words . Since a word can have several stemming solutions (), each alternative is included within a
tag, which contains the prefix, base (root and stem) and suffix morphemes. All alternatives are ordered randomly except the first one, which is the suitable solution when taking the sentence context into consideration. The corpus has the following characteristics:
• 37 sentences
• The average length of sentences is 5,05 words, with the longest being 10 words
• Declarative, interrogative, imperative and exclamatory sentences accounted for 37,84%, 32,43%, 16,22% and 13,51% respectively
• 154 tokens with 5,95 solutions as an average number of stemming solutions

View resource description in French

NAFIS (Normalized Arabic Fragments for Inestimable Stemming) est un corpus de référence pour la racinisation en arabe constitué d’une collection de phrases, sélectionnées comme étant représentatives des tâches de racinisation en arabe et manuellement annotées. En effet, NAFIS est:

Exhaustif: Le contenu de NAFIS peut être généralisé à la langue arabe dans son ensemble. Dans le cadre de la racinisation, afin d’être complet, le corpus doit contenir toutes les combinaisons d’affixes possibles. Dans cet objectif, des linguistes ont réalisé un inventaire de toutes les combinaisons d’affixes en arabe. Un affixe est un couple préfixe-suffixe qui peut être agglutiné à un type de mot spécifique (nom, verbe ou particule). Les affixes arabes consistent en 12 préfixes atomiques et 11 suffixes atomiques. Leur combinaison permet de générer environ 94 préfixes et 73 suffixes (il est bon de remarquer que l’on emploie les termes affixe, préfixe et suffixe au lieu de clitique, proclitique et enclitique du fait qu’ils sont largement utilisés dans la littérature). Par exemple, le préfixe “وَال” (“et le/la”) est composé de deux préfiques atomiques “وَ” (la conjunction “et”) et “لا” (l’article défini “le/la”).

Compilé: des linguistes ont rassemblé un ensemble de phrases contenant tous les affixes précédemment listés afin d’assurer le critère d’exhaustivité. Les phrases compilées proviennent de sources variées (poèmes, le Coran, livres et journaux) et de différents types (proverbes et dictons, commentaires d’articles, textes religieux, littérature, fictions historiques). Par exemple, la phrase suivante "عليكم بالجد فإنه أساس النجاح" présente dans le corpus contient la combinaison de quatre affixes:
5. [-كم]: le préfixe vide associé au pronom suffixe “vous”,
6. [بال-]: composé de deux préfixes atomiques ("ب" la préposition “avec” et “ال” l’article défini “le/la”) et le suffixe vide,
7. [ه-ف]: composé du préfixe “ف” (la conjunction “alors”) et le suffixe “ه” (le pronom “son/sa”)
8. [ال-]: composé de “ال” l’article défini “le/la” et le suffixe vide.

NAFIS est représenté sous le standard TEI. Les phrases sont incluses dans la balise . Une phrase est un ensemble de segments représentés par des mots . Puisqu’un mot peut avoir plusieurs solutions de racinisation (), chaque alternative est incluse dans une balise , qui contient le préfixe, la base (racine et radical) et les morphèmes suffixes. Toutes les alternatives sont classées aléatoirement exceptée la première, qui est celle pertinente pour la solution correspondant au contexte de la phrase prise en considération. Le corpus présente les caractéristiques suivantes:
• 37 phrases,
• La longueur moyenne des phrases est de 5,05 mots, la plus longue étant de 10 mots,
• Les phrases déclaratives, interrogatives, impératives et exclamatives correspondent respectivement à 37,84%, 32,43%, 16,22% et 13,51% du corpus,
• Le nombre moyen de solutions de racinisation est de 154 tokens pour 5,95 solutions.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
0.00 € submit
0.00 € submit
Licence: Commercial Use - ELRA VAR
0.00 € submit
0.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
0.00 € submit
0.00 € submit
Licence: Commercial Use - ELRA VAR
0.00 € submit
0.00 € submit
02/10/2018 Downloadable
People who looked at this resource also viewed the following: