Arab Full Names Database

View resource name in all available languages

Base de données des noms complets arabes

548-506-480-213-6

ID:

ELRA-L0209

The Arab Full Names Database covers over six million Arab Full Names. Optionally, if heteronyms (same spelling, different pronunciations, like Muhammad and Muhammid) are included, the number of entries is approximately 43.9 million. These are names of real people, not names generated by algorithm. Phonological data such as romanization and optional vowel diacritics, as well as English equivalents, are available. Optionally, the full names can be segmented, making it explicit which component is the surname and which the given name. Note that these are attested Arabic names, not foreign names. Highly useful for security applications such as for the prevention of financial crime including anti-money laundering, improving the accuracy of machine translation, and named-entity recognition.

Quantity and size: 6,203,497 lines / 595 MB

File format: flat TSV text file

View resource description in French

La base de données des noms complets arabes couvre plus de six millions de noms. Facultativement, si on inclut les hétéronymes (même orthographe, prononciations différentes, comme Muhammad et Muhammid), le nombre d’entrées est d’environ 43,9 millions. La base de données comporte des noms de personnes réelles, et non des noms générés par un algorithme. Des données phonologiques telles que la romanisation et les diacritiques de voyelles optionnels, ainsi que les équivalents en anglais, sont disponibles. Il est également possible de segmenter les noms complets, en indiquant explicitement quelle partie est le nom de famille et quelle partie est le prénom. Notez qu’il s’agit de noms arabes attestés, et non de noms étrangers. Cette base est très utile pour les applications de sécurité, telles que la prévention de la criminalité financière (y compris la lutte contre le blanchiment d’argent), l’amélioration de la précision de la traduction automatique et la reconnaissance d’entités nommées.

Quantité et taille : 6 203 497 lignes / 595 Mo

Format de fichier : fichier texte au format TSV plat

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
6000.00 € submit
10000.00 € submit
Licence: Commercial Use - ELRA VAR
12000.00 € submit
20000.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
7500.00 € submit
12500.00 € submit
Licence: Commercial Use - ELRA VAR
15000.00 € submit
25000.00 € submit
02/10/2025
People who looked at this resource also viewed the following: