STO SprogTeknologisk Ordbase (Danish Lexicon for NLP/HLT Applications)

View resource name in all available languages

STO SprogTeknologisk Ordbase (Lexique danois pour des applications dédiées aux technologies de la langue)

STO

050-677-531-676-8

ID:

ELRA-L0056

The STO Lexicon is the most comprehensive computational lexicon of Danish comprising approx. 81,530 entry words, and it is well integrated with the European activities in the field of lexicon development building on experience obtained from the PAROLE and SIMPLE projects. The model and descriptive method of the STO lexicon are kept compatible with the architecture and descriptive language of PAROLE/SIMPLE. A number of refinements, adaptations and language-specific extensions to the basic model are implemented in STO.

Lexical coverage and encoded information by category is distributed as follows:

Lexical Category Lemmas
Morphology
only Morphology + Syntax Morphology + Syntax + Semantics
Noun 64,735 47% 41% 12%
Adjective 9,773 32% 55% 13%
Verb 5,775 2% 81% 17%
Adverb 771 81% 0% 0%
Interjection 158 100% 0% 0%
Preposition 80 100% 0% 0%
Conjunction 60 100% 0% 0%
Pronoun 445 100% 0% 0%
Misc.: Determiner, adposition, conjunction, etc. 128 100% 0% 0%
Total 81,524

A part of this vocabulary (i.e. 12,060 lemmas) is selected from 6 domains, as follows:

Domain Nouns Verbs Adjectives Total
IT 1,957 52 66 2,075
Environment 2,055 48 285 2,388
Commerce 1,537 16 57 1,610
Administration 2,435 25 193 2,653
Health 1,603 42 350 1,995
Finance 1,258 24 57 1,339
Total 10,845 207 1,008 12,060

Linguistic coverage / Main information types:
Morphology: PoS, inflectional patterns, agreement features, noun compounding, spelling variants, etc.
Syntax: subcategorisation frames (categorical and functional valency), alternation, diathesis, reflexivity, etc.
Semantics: encoded at three different levels of specificity. The most specific is Level 3, which contains sense distinction, ontological type, argument structure, selectional restrictions, qualia structure, event structure, domain information, etc. Level 2 is a proper subset of Level 3 representing a more lean semantics (without qualia and event structure, etc.) whereas Level 1 concerns information on source domain only.

The resource was validated internally. This lexicon is well suited for NLP/HLT monolingual applications, as lexicon component in taggers, parsers, grammar & spell checkers, summarisation tools, web crawlers, computer-aided language learning, as well as multilingual applications; also possibility for linking to other PAROLE/SIMPLE-compatible resources.

The lexicon is provided with a thorough documentation in English and distributed on CD-ROM.

View resource description in French

Le lexique STO est le lexique computationnel du danois le plus complet avec ses 81 530 mots. Parfaitement adapté aux activités européennes consacrées au développement de lexiques, il est construit sur la base de l’expérience acquise dans les projets PAROLE et SIMPLE. Le modèle et la méthode de description du lexique STO sont compatibles avec l’architecture et le langage de description utilisés dans PAROLE/SIMPLE. Par rapport au modèle de base, un certain nombre d’améliorations, d’adaptations et d’extensions spécifiques du danois ont été ajoutées au lexique STO.

Le tableau ci-dessous présente la couverture lexicale et l’information codée par catégorie :

Catégorie lexicale Lemmes Morphologie uniquement Morphologie + Syntaxe Morphologie + Syntaxe + Sémantique
Nom 64,735 47% 41% 12%
Adjectif 9,773 32% 55% 13%
Verbe 5,775 2% 81% 17%
Adverbe 771 81% 0% 0%
Interjection 158 100% 0% 0%
Préposition 80 100% 0% 0%
Conjonction 60 100% 0% 0%
Pronom 445 100% 0% 0%
Divers : Déterminant, adposition, conjonction, etc. 128 100% 0% 0%
Total 81,524

Une partie de ce vocabulaire (12,060 lemmes) s’applique à 6 domaines distincts, distribués comme suit :

Domaine Noms Verbes Adjectifs Total
Technologies de l’information 1,957 52 66 2,075
Environnement 2,055 48 285 2,388
Commerce 1,537 16 57 1,610
Administration 2,435 25 193 2,653
Santé 1,603 42 350 1,995
Finance 1,258 24 57 1,339
Total 10,845 207 1,008 12,060

Couverture linguistique / Types d’information principaux :
Morphologie : Partie du discours, modèles de flexion, traits d’accord, formation des noms composés, variantes d’épellation, etc.
Syntaxe : cadres de sous-catégorisation (valence catégorielle et fonctionnelle), alternation, diathèse, réflexivité, etc.
Sémantique: codée sous trois niveaux différents de spécificité. Le niveau le plus spécifique est le Niveau 3, qui contient la distinction des sens, le type d’ontologie, la structure de l’argument, les restrictions de sélection, la structure des qualia, la structure de l’événement, l’information sur le domaine, etc. Le niveau 2 est le sous-ensemble du Niveau 3 qui présente une sémantique plus dépouillée (sans qualia ni structure de l’événement, etc.), tandis que le Niveau 1 concerne l’information sur le domaine source uniquement.

La ressource a été validée en interne. Ce lexique, particulièrement adapté aux applications monolingues des technologies de la langue, peut devenir un composant d’étiqueteurs, parseurs, de correcteurs de grammaire et d’orthographe, d’outils de résumé, de navigateurs web, de systèmes d’apprentissage de la langue. Il est également adapté aux applications multilingues, rendant possible la relation avec d’autres ressources compatibles avec le format PAROLE/SIMPLE.

Le lexique est fourni avec une documentation complète en anglais et est distribué sur CD-ROM.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
2000.00 € submit
5000.00 € submit
Licence: Commercial Use - ELRA VAR
21000.00 € submit
21000.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
2500.00 € submit
6250.00 € submit
Licence: Commercial Use - ELRA VAR
26250.00 € submit
26250.00 € submit
01/08/2005 Downloadable
People who looked at this resource also viewed the following: