Nepali Monolingual written corpus

View resource name in all available languages

Corpus écrit monolingue népalais

325-796-965-405-9

ID:

ELRA-W0076

The Nepali Monolingual written corpus is one of the 3 resources that constitute the Nepali National Corpus. The Nepali National Corpus was produced in 2006 in the framework of the project Bhasha Sanchar (“language communication”), also known as Nelralec, for Nepali Language Resources and Localization for Education and Communication; funded by the EU Asia IT&C programme, reference number ASIE/2004/091-777.

The Nepali Monolingual written corpus comprises the core corpus (core sample) and the general corpus.

The core sample (CS) represents the collection of Nepali written texts from 15 different genres with 2000 words each published between 1990 and 1992. It is based on FLOB/FROWN corpora and contains 802,000 words.

The general corpus (GC) consists of written texts collected opportunistically from a wide range of sources such as the internet webs, newspapers, books, publishers and authors. It contains 1,400,000 words. This part of the corpus was intended to allow corpus analyses that depend on a very large corpus.

The written corpus is morphogically-annotated. A part-of-speech (POS) tagset has been produced within the project: the Nelralec Tagset. This is a categorisation system for the manual and automated analysis of morphosyntactic units in Nepali.

View resource description in French

Le corpus écrit monolingue népalais est l’une des 3 ressources qui composent le Corpus National Népalais. Le Corpus National Népalais a été produit en 2006 dans le cadre du projet Bhasha Sanchar (“communication langagière”), également connu sous le nom de Nelralec (Ressources linguistiques népalaises et localisation pour l’éducation et la communication); il a été financé par le programme de l’Union Européenne Asia IT&C, sous la référence ASIE/2004/091-777.

Le corpus écrit monolingue népalais est constitué du corpus fondamental (avec des échantillons centraux) et du corpus général.

Le corpus fondamental représente la collection de texte écrit népalais de 15 genres différents contenant 2000 mots par genre, publiés entre 1990 et 1992. Il est basé sur les corpus FLOB/FROWN et contient 802 000 mots.

Le corpus général comprend des textes écrits collectés de façon opportuniste à partir d’un large panel de sources tels que sites web, journaux, livres, éditeurs et auteurs. Il contient 1 400 000 mots. Cette partie du corpus a pour but de permettre les travaux d’analyse de corpus qui dépendent de corpus de très grande taille.

Le corpus écrit est annoté au niveau morphologique. Un jeu d’étiquettes pour la partie du discours a été produit dans le projet : le jeu d’étiquettes Nelralec. C’est un système de catégorisation pour l’analyse manuelle et automatisée des unités morphosyntaxiques en népalais.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
0.00 € submit
0.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
0.00 € submit
0.00 € submit
15/01/2014 Downloadable
People who looked at this resource also viewed the following:
Resources from the same project