POLEX Polish Lexicon

View resource name in all available languages

Lexique polonais POLEX

147-211-031-223-4

ID:

ELRA-L0074

The POLEX Polish Lexicon is a morphological dictionary of Polish language. It comprises about 100,000 entries. The POLEX dictionary includes the core Polish vocabulary of general interest. It is based on a precise machine-interpretable formalism (coding system), the same for all categories (classes of speech). The dictionary entries are of the following form:
BASIC_FORM+LIST_OF_STEMS+PARADIGMATIC_CODE+DISTRIBUTION_OF_STEMS

The paradigmatic code (= inflection code) contains full paradigmatical information, in particular all inflection endings are encoded in an unambiguous way. For example the dictionary items for the nouns frajerI and frajerII are as follows:
frajer; frajer, frajerz; N110; 1;1-5,9-13;2:6-8,14
frajer; frajer, frajerz; N110; 1;1-5,8-14;2:6-7

The basic form (frajer) is followed by the list of stems (frajer, frajerz). The following inflection code (N110) describes the complete list of endings for all paradigmatic positions (here from 1 to 14). These endings are: (_,a,owi,a,em,e,e,y,ów,om,ów,ami,ach,y). The distribution of stems associates stems to the paradigmatic positions. E.g., the distribution 1:1-5,8-14;2:6-7 says that all but two positions (singular locative and singular vocative) are associated with the first stem (frajer), whereas the remaining two are associated with the second one (frajerz). Provided the table of endings, generation of all the inflected forms is straightforward (and the same for all words of the POLEX dictionary).

Dictionary files are in basic ASCII format. Specific Polish characters (ą, ę,…, ż, ź) are represented by the corresponding ASCII letters and the single or dubbled (for ź only) tilde ~ (a~, e~,…,z~, z~~). For example, “król” is represented by “kro~l” and “łabądź” by “l~aba~dz~~”.

The resource contains:
- more than 42,000 nouns,
- more than 12,000 verbs,
- more than 15,000 adjectives,
- more than 25,000 participles,
- about 200 pronouns.

A simple lemmatiser (in form of PROLOG prototype) is also included.

View resource description in French

Le lexique polonais POLEX est un dictionnaire morphologique pour la langue polonaise. Il comprend environ 100 000 entrées de vocabulaire général de base du polonais. Il est basé sur un formalisme précis pour l’interprétation par la machine (système de codage), identique pour toutes les catégories (classes de discours). Les entrées du dictionnaire sont présentées sous la forme suivante :
FORM_DE_BASE+LISTE_DE_RADICAUX+CODE_PARADIGMATIQUE+DISTRIBUTION_DES_RADICAUX

Le code paradigmatique (= code de flexion) contient des informations paradigmatiques complètes. En particulier, toutes les fins de flexions sont codées de façon non ambiguë. Par exemple, les entrées dans le dictionnaire pour les noms frajerI et frajerII sont présentées comme suit :
frajer; frajer, frajerz; N110; 1;1-5,9-13;2:6-8,14
frajer; frajer, frajerz; N110; 1;1-5,8-14;2:6-7

La forme de base (frajer) est suivie par sa liste de radicaux (frajer, frajerz). Le code de flexion qui suit (N110) décrit la liste complète des finales pour toutes les positions paradigmatiques (ici de 1 à 14). Ces finales sont : (_,a,owi,a,em,e,e,y,ów,om,ów,ami,ach,y). La distribution des radicaux associe les radicaux à leurs positions paradigmatiques. Par exemple, la distribution 1:1-5,8-14;2:6-7 signifie que toutes les positions exceptées deux (locative singulier et vocative singulier) sont associées au premier radical (frajer), tandis que les deux restantes sont associées au second (frajerz). Grâce à la table des finales qui est fournie, la génération de toutes les formes fléchies est simple (et identique pour tous les mots du dictionnaire POLEX).

Les fichiers du dictionnaire sont au format ASCII de base. Les caractères spécifiques à la langue polonaise (ą, ę,…, ż, ź) sont représentés par les lettres ASCII correspondantes suivies d’un tilde ~ simple (ou double pour ź uniquement) (a~, e~,…,z~, z~~). Par exemple, “król” est représenté par “kro~l” et “łabądź” par “l~aba~dz~~”.

La ressource comprend :
- plus de 42 000 noms,
- plus de 12 000 verbes,
- plus de 15 000 adjectifs,
- plus de 25 000 participes,
- environ 200 pronoms.

Un lemmatiseur simple (sous la forme d’un prototype en PROLOG) est également inclus.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
80.00 € submit
1500.00 € submit
Licence: Commercial Use - ELRA VAR
1500.00 € submit
1500.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
100.00 € submit
3000.00 € submit
Licence: Commercial Use - ELRA VAR
3000.00 € submit
3000.00 € submit

Special offer:

    Special price for students willing to acquire the Language Resource on a personal basis for their research: 40 EURO

23/01/2007 Downloadable
People who looked at this resource also viewed the following: