TRAD Pashto Monolingual text Corpus

Corpus TRAD textes monolingues en pachto




This is a monolingual text corpus in Pashto. The corpus contains about 112,000,000 tokens collected from 46 different blogs and websites.

Identified and negotiated or freely available sources have been crawled in 2012, cleaned and XML-formatted.

Pashto is an indo-iranian language spoken by the Pashtun people mainly in Pakistan and Afghanistan.

This corpus was produced by ELDA within the PEA TRAD project supported by the French Ministry of Defence (DGA).

Il s’agit d’un corpus de textes monolingues en pachto. Ce corpus contient un peu plus de 112 000 000 tokens en Pachto, provenant de 46 sites Internet et blogs différents.

Les données identifiées proviennent de sources libres de droits ou dont les droits ont été négociés. Le contenu a été crawlé en 2012, nettoyé et mis en forme au format XML.

Le pachto (ou pachtou) appartient à la famille des langues indo-iranienne. Il est parlé par les Pachtounes, principalement au Pakistan et en Afghanistan.

Ce corpus a été produit par ELDA dans le cadre du projet PEA TRAD, avec le soutien de la Direction Générale de l'Armement (DGA).

