Normalized Arabic Fragments for Inestimable Stemming (NAFIS)
View resource name in all available languages
Corpus NAFIS (Normalized Arabic Fragments for Inestimable Stemming)
ID:
ELRA-W0127
Normalized Arabic Fragments for Inestimable Stemming (NAFIS) is an Arabic stemming gold standard corpus composed by a collection of sentences, selected to be representative of Arabic stemming tasks and manually annotated. Indeed, NAFIS is:
Comprehensive: The content of NAFIS can be generalized to the Arabic language as a whole. Within the stemming issue, to be comprehensive the corpus must contain all possible affix combinations. To reflect this purpose, linguists made an inventory of all Arabic affix combinations. An affix is a prefix-suffix couple that can be agglutinated to a specific word type (noun, verb or particle). Arabic affixes consist of 12 atomic prefixes and 11 atomic suffixes. Their combining generates about 94 prefixes and 73 suffixes (we note that we use the terms affix, prefix and suffix instead of clitic, proclitic and enclitic because they are widely used in the literature). For example the prefix “وَال” (and the) is composed with two atomic prefixes “وَ” (the conjunction “and”) and “لا” (the definite article “the”).
Compiled: linguists gathered a set of sentences containing all earlier listed affixes to ensure the comprehensiveness criterion. Compiled sentences belong to various sources (poems, holy Quran, books, and periodics) of diversified kinds (proverb and dictum, article commentary, religious text, literature, historical fiction). For instance, the following sentence "عليكم بالجد فإنه أساس النجاح" is part of the corpus and contains four affixes combination:
1. [-كم]: the empty prefix associated with the suffix pronoun ‘you’,
2. [بال-]: composed with two atomic prefixes ("ب" the preposition 'with' and “ال” the definite article 'the') and the empty suffix,
3. [ه-ف]: composed with the prefix “ف” (the conjunction “then”) and the suffix “ه” (the pronoun “his”)
4. [ال-]: composed with “ال” the definite article 'the' and the empty suffix.
As shown in the extract below, NAFIS is represented according to the TEI standard. Sentences are enclosed within the tag. A sentence is a set of segments representing words . Since a word can have several stemming solutions (), each alternative is included within a
View resource description in
French
NAFIS (Normalized Arabic Fragments for Inestimable Stemming) est un corpus de référence pour la racinisation en arabe constitué d’une collection de phrases, sélectionnées comme étant représentatives des tâches de racinisation en arabe et manuellement annotées. En effet, NAFIS est:
Exhaustif: Le contenu de NAFIS peut être généralisé à la langue arabe dans son ensemble. Dans le cadre de la racinisation, afin d’être complet, le corpus doit contenir toutes les combinaisons d’affixes possibles. Dans cet objectif, des linguistes ont réalisé un inventaire de toutes les combinaisons d’affixes en arabe. Un affixe est un couple préfixe-suffixe qui peut être agglutiné à un type de mot spécifique (nom, verbe ou particule). Les affixes arabes consistent en 12 préfixes atomiques et 11 suffixes atomiques. Leur combinaison permet de générer environ 94 préfixes et 73 suffixes (il est bon de remarquer que l’on emploie les termes affixe, préfixe et suffixe au lieu de clitique, proclitique et enclitique du fait qu’ils sont largement utilisés dans la littérature). Par exemple, le préfixe “وَال” (“et le/la”) est composé de deux préfiques atomiques “وَ” (la conjunction “et”) et “لا” (l’article défini “le/la”).
Compilé: des linguistes ont rassemblé un ensemble de phrases contenant tous les affixes précédemment listés afin d’assurer le critère d’exhaustivité. Les phrases compilées proviennent de sources variées (poèmes, le Coran, livres et journaux) et de différents types (proverbes et dictons, commentaires d’articles, textes religieux, littérature, fictions historiques). Par exemple, la phrase suivante "عليكم بالجد فإنه أساس النجاح" présente dans le corpus contient la combinaison de quatre affixes:
5. [-كم]: le préfixe vide associé au pronom suffixe “vous”,
6. [بال-]: composé de deux préfixes atomiques ("ب" la préposition “avec” et “ال” l’article défini “le/la”) et le suffixe vide,
7. [ه-ف]: composé du préfixe “ف” (la conjunction “alors”) et le suffixe “ه” (le pronom “son/sa”)
8. [ال-]: composé de “ال” l’article défini “le/la” et le suffixe vide.
NAFIS est représenté sous le standard TEI. Les phrases sont incluses dans la balise . Une phrase est un ensemble de segments représentés par des mots . Puisqu’un mot peut avoir plusieurs solutions de racinisation (), chaque alternative est incluse dans une balise
MEMBER | academic | commercial |
---|---|---|
Licence: Non Commercial Use - ELRA END USER |
0.00 €
|
0.00 €
|
Licence: Commercial Use - ELRA VAR |
0.00 €
|
0.00 €
|
NON MEMBER | academic | commercial |
---|---|---|
Licence: Non Commercial Use - ELRA END USER |
0.00 €
|
0.00 €
|
Licence: Commercial Use - ELRA VAR |
0.00 €
|
0.00 €
|