ArabLEX: Database of Foreign Names in Arabic (DAF) 
View resource name in all available languages
ArabLEX: Base de données des noms étrangers en arabe (DAF)
ID:
ELRA-M0106
This database is part of the ArabLEX set of data which consists of the Database of Arabic General Vocabulary (DAG), Database of Arabic Place Names (DAP), Database of Foreign Names in Arabic (DAF) and Database of Arab Names (DAN) available from ELRA under references, respectively, ELRA-L0131, ELRA-M0105, ELRA-M0106 and ELRA-M0107.
With over 226 million forms based on 223,000 lemmas, this full-form database covers non-Arab personal names in both Arabic and English, some Arabic script variants, vocalized or unvocalized formats, as well as inflected and cliticized forms. The precise phonemic transcriptions and full vowel diacritics are designed to enhance Arabic speech technology. Orthographic variants are also extensively covered.
This database is provided with three options: 1) proclitics, 2) phonetic information (CARS) and 3) orthographic variants. Subsets excluding some of the three proposed options may be provided upon demand. CARS is an accurate phonemic transcription. Optionally, phonetic transcriptions, IPA and/or SAMPA, can be provided, fine tuned to a customer's specifications.
Quantity and size: 226,784,907 lines / 32,181 MB (31.4 GB)
File format: flat TSV text files
Samples and a specifications document available upon request.
View resource description in
French
Cette base de données fait partie de l’ensemble de données ArabLEX qui comprend la base de données du vocabulaire général arabe (DAG), la base de données de noms de lieux arabes (DAP), la base de données de noms étrangers en arabe (DAF) et la base de données de noms arabes (DAN) disponibles dans le catalogue ELRA sous les références respectives ELRA-L0131, ELRA-M0105, ELRA-M0106 et ELRA- M0107.
Avec plus de 226 millions de formes basées sur 223 000 lemmes, cette base de données de formes entières arabe-anglais couvre les noms de personnes non arabes à la fois en arabe et en anglais, avec quelques variantes de script arabes, avec des formats vocalisés et non vocalisés, ainsi ques les formes fléchies et les formes avec clitiques. De plus, les transcriptions phonémiques précises et les diacritiques entièrement voyellées sont spécialement conçues pour améliorer les technologies vocales en arabe. Les variantes orthographiques sont également largement couvertes.
La base de données est fournies avec trois options: 1) proclitiques, 2) information phonétique (CARS) et 3) variantes orthographiques. Des sous-ensembles excluant des options parmi les trois proposées peuvent être fournis sur demande. CARS est une transcription phonémique précis. Egalement et de façon optionnelle, les transcriptions phonétiques en IPA et/ou SAMPA peuvent être fournies, en les affinant selon les spécifications du client.
Quantité et taille: 226,784,907 lignes / 32,181 Mo (31.4 Go)
Format de fichier: fichiers textes simples au format TSV
Des échantillons ainsi qu'un document de spécifications peuvent être fournis à la demande.
MEMBER | academic | commercial |
---|---|---|
Licence: Non Commercial Use - ELRA END USER |
9000.00 €
![]() |
27000.00 €
![]() |
Licence: Commercial Use - ELRA VAR |
27000.00 €
![]() |
27000.00 €
![]() |
NON MEMBER | academic | commercial |
---|---|---|
Licence: Non Commercial Use - ELRA END USER |
16000.00 €
![]() |
49000.00 €
![]() |
Licence: Commercial Use - ELRA VAR |
49000.00 €
![]() |
49000.00 €
![]() |
Special offer:
-
Subsets excluding some of the 3 proposed options (proclitics, phonetic information and Arabic orthographic variants) will be provided upon demand and will follow the following discounting schedule: (1) Without proclitics: -15% discount, (2) Without phonetic information: -10% discount, (3) Without Arabic orthographic variants: -10% discount, and (4) Without 2 Options: -25% discount
- ArabLEX: Database of Arabic General Vocabulary (DAG)
- ArabLEX: Database of Arabic Place Names (DAP)
- ArabLEX: Database of Arab Names (DAN)