TRAD Pashto Monolingual text Corpus

View resource name in all available languages

Corpus TRAD textes monolingues en pachto

394-903-293-388-0

ID:

ELRA-W0092

This is a monolingual text corpus in Pashto. The corpus contains about 112,000,000 tokens collected from 46 different blogs and websites.

Identified and negotiated or freely available sources have been crawled in 2012, cleaned and XML-formatted.

Pashto is an indo-iranian language spoken by the Pashtun people mainly in Pakistan and Afghanistan.

This corpus was produced by ELDA within the PEA TRAD project supported by the French Ministry of Defence (DGA).

View resource description in French

Il s’agit d’un corpus de textes monolingues en pachto. Ce corpus contient un peu plus de 112 000 000 tokens en Pachto, provenant de 46 sites Internet et blogs différents.

Les données identifiées proviennent de sources libres de droits ou dont les droits ont été négociés. Le contenu a été crawlé en 2012, nettoyé et mis en forme au format XML.

Le pachto (ou pachtou) appartient à la famille des langues indo-iranienne. Il est parlé par les Pachtounes, principalement au Pakistan et en Afghanistan.

Ce corpus a été produit par ELDA dans le cadre du projet PEA TRAD, avec le soutien de la Direction Générale de l'Armement (DGA).

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
1200.00 € submit
3500.00 € submit
Licence: Commercial Use - ELRA VAR
3500.00 € submit
3500.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
2000.00 € submit
5000.00 € submit
Licence: Commercial Use - ELRA VAR
5000.00 € submit
5000.00 € submit
06/04/2016
Resources from the same project