Collection Unitex

Description de la collection

Cette collection regroupe des corpus de documents ISTEX en texte intégral. Ces corpus ont été constitués pour l'évaluation de la détection d'entités nommées par l'outil Unitex-CasSys.

Unitex est un logiciel permettant un traitement automatique de corpus de textes en langue naturelle à l’aide de ressources linguistiques. C'est un logiciel gratuit de licence libre. CasEN est une cascade de reconnaissance des entités nommées ; elle est implantée avec le programme de création de cascades CasSys présent sur la plate-forme Unitex. CasSys est un outil d’exploration et d’annotation de corpus dont le prototype a été créé au Laboratoire d’Informatique de l'Université François Rabelais de Tours.

Le Laboratoire d’Informatique de l’Université François Rabelais de Tours a créé pour ISTEX une cascade en anglais spécifique, destinée à retrouver certaines entités nommées dans le texte intégral des documents ISTEX :

  • noms de personnes <persName>
  • noms de lieux administratifs et géographiques <placeName> <geogName>
  • noms d’organismes <orgName>
  • noms d’organismes financeurs <orgName type="funder">
  • noms d’organismes pourvoyeurs de ressources <orgName type="provider">
  • dates <date>
  • url <ref type="url">
  • pointeurs vers les références bibliographiques <ref type="bibl">
  • références bibliographiques lorsqu’elles apparaissent dans le texte <bibl>

Il a également retravaillé la cascade existante en français pour une meilleure adaptation au contexte ISTEX.

La collection regroupe un corpus en anglais et un corpus en français, annotés manuellement pour les besoins de comparaison avec les annotations données par Unitex.

Liste des corpus
    Powered by Lodex 9.3.8