CELEX Dutch lexical database - Frequency Subset
View resource name in all available languages
CELEX - Base de données lexicale du hollandais - sous-ensemble "fréquence"
ID:
ELRA-L0029-07
The Dutch CELEX data is derived from R.H. Baayen, R. Piepenbrock & L. Gulikers, The CELEX Lexical Database (CD-ROM), Release 2, Dutch Version 3.1, Linguistic Data Consortium, University of Pennsylvania, Philadelphia, PA, 1995.
Apart from orthographic features, the CELEX database comprises representations of the phonological, morphological, syntactic and frequency properties of lemmata. For the Dutch data, frequencies have been disambiguated on the basis of the 42.4m Dutch Instituut voor Nederlandse Lexicologie text corpora.
To make for greater compatibility with other operating systems, the databases have not been tailored to fit any particular database management program. Instead, the information is presented in a series of plain ASCII files, which can be queried with tools such as AWK and ICON. Unique identity numbers allow the linking of information from different files.This database can be divided into different subsets:
· orthography: with or without diacritics, with or without word division positions, alternative spellings, number of letters/syllables;
· phonology: phonetic transcriptions with syllable boundaries or primary and secondary stress markers, consonant-vowel patterns, number of phonemes/syllables, alternative pronunciations, frequency per phonetic syllable within words;
· morphology: division into stems and affixes, flat or hierarchical representations, stems and their inflections;
· syntax: word class, subcategorisations per word class;
· frequency of the entries: disambiguated for homographic lemmata.
View resource description in
French
Les données en hollandais de CELEX sont extraites de la base de données lexicale CELEX (CD-ROM) de R.H. Baayen, R. Piepenbrock & L. Gulikers, seconde édition, version hollandaise 3.1, Linguistic Data Consortium, Université de Pennsylvanie, Philadelphie, PA, 1995.
En-dehors des traits orthographiques, la base de données CELEX comprend des représentations des propriétés phonologiques, morphologiques, syntaxiques et fréquentielles des lemmes. En ce qui concerne les données du hollandais, les fréquences ont été désambigüisées sur la base du corpus de textes de l'Instituut voor Nederlandse Lexicologie.
Afin de permettre une meilleure compatibilité avec d'autres systèmes, les bases ne sont adaptées à aucun système de gestion de base de données spécifique. Au contraire, l'information est présentée dans une série de fichiers textes ASCII, pouvant être interrogés par des outils tels que AWK et ICON. Des numéros d'identification uniques permettent d'accéder et d'établir les relations entre les informations provenant de différents fichiers.
Cette base de données peut être divisée en cinq sous-ensembles selon les niveaux d'informations suivants :
· orthographe: avec ou sans diacritiques, avec ou sans la position de la coupure de mot (césure), option d'orthographe, nombre de lettres/syllabes ;
· phonologie : transcriptions phonétiques avec segmentation des syllabes ou balisage des accents primaires ou secondaires, schémas consonne-voyelle, nombre de phonèmes/syllabes, options de prononciation, fréquence par syllabe phonétique dans les mots ;
· morphologie : division en radical et affixes, représentations à plat ou hiérarchisées, radicaux et leurs flexions ;
· syntaxe : classe de mot, sous-catégorisation par classe de mot ;
· fréquence des entrées : désambigüisation des lemmes homographes.
MEMBER | academic | commercial |
---|---|---|
Licence: Non Commercial Use - ELRA END USER |
12252.07 €
|
12252.07 €
|
Licence: Commercial Use - ELRA VAR |
12252.07 €
|
12252.07 €
|
NON MEMBER | academic | commercial |
---|---|---|
Licence: Non Commercial Use - ELRA END USER |
20420.11 €
|
20420.11 €
|
Licence: Commercial Use - ELRA VAR |
20420.11 €
|
20420.11 €
|