ArabLEX: Database of Arabic General Vocabulary (DAG)

View resource name in all available languages

ArabLEX: Base de données du vocabulaire général arabe (DAG)




This database is part of the ArabLEX set of data which consists of the Database of Arabic General Vocabulary (DAG), Database of Arabic Place Names (DAP), Database of Foreign Names in Arabic (DAF) and Database of Arab Names (DAN) available from ELRA under references, respectively, ELRA-L0131, ELRA-M0105, ELRA-M0106 and ELRA-M0107.
A comprehensive full-form lexicon of Arabic general vocabulary including all inflected, conjugated and cliticized forms. Each entry is accompanied by a rich set of morphological, grammatical, and phonological attributes. Ideally suited for NLP applications, DAG provides precise phonemic transcriptions and full vowel diacritics designed to enhance Arabic speech technology. Note that proper nouns are in principle excluded since they are included in other ArabLEX modules.

This database is provided with 3 options: 1) proclitics, 2) phonetic information (CARS) and 3) orthographic variants. Subsets excluding some of the 3 proposed options may be provided upon demand. CARS is an accurate phonemic transcription. Optionally, phonetic transcriptions, IPA and/or SAMPA, can be provided, fine tuned to a customer's specifications.

Quantity and size: 87,930,738 lines / 24,399 MB (23.8 GB)

File format: flat TSV text files

Samples and a specifications document available upon request.

View resource description in French

Cette base de données fait partie de l’ensemble de données ArabLEX qui comprend la base de données du vocabulaire général arabe (DAG), la base de données de noms de lieux arabes (DAP), la base de données de noms étrangers en arabe (DAF) et la base de données de noms arabes (DAN) disponibles dans le catalogue ELRA sous les références respectives ELRA-L0131, ELRA-M0105, ELRA-M0106 et ELRA-M0107.
Lexique complet comprenant les formes entières du vocabulaire général arabe, incluant toutes les formes fléchies, conjuguées et les clitiques. Chaque entrée est accompagnée d’un riche ensemble d’informations morphologiques, grammaticales et phonologiques. Idéalement adapté aux applications du TAL, le DAG fournit des transcriptions phonémiques précises et les diacritiques entièrement voyellées conçues pour améliorer les technologies vocales en arabe. Les noms propres sont en principe exclus puisqu’intégrés dans d’autres modules d’ArabLEX.

La base de données est fournies avec 3 options: 1) proclitiques, 2) information phonétique (CARS) et 3) variantes orthographiques. Des sous-ensembles excluant des options parmi les 3 proposées peuvent être fournis sur demande. CARS est une transcription phonémique précis. Egalement et de façon optionnelle, les transcriptions phonétiques en IPA et/ou SAMPA peuvent être fournies, en les affinant selon les spécifications du client.

Quantité et taille: 87,930,738 lignes / 24,399 Mo (23.8 Go)

Format de fichier: fichiers textes simples au format TSV

Des échantillons ainsi qu'un document de spécifications peuvent être fournis à la demande.

Licence: Non Commercial Use - ELRA END USER
22000.00 € submit
66000.00 € submit
Licence: Commercial Use - ELRA VAR
66000.00 € submit
66000.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
42000.00 € submit
125000.00 € submit
Licence: Commercial Use - ELRA VAR
125000.00 € submit
125000.00 € submit

Special offer:

People who looked at this resource also viewed the following: