Un outil de segmentation de courriels imbriqués en courriels individuels et en phrases

Résumé : Nous décrivons le problème de la segmentation de courriels représentant des conversations, c’est-à-dire contenant des courriels cités. Nous présentons un outil, SegDoc, conçu pour segmenter de telles conversations en courriels individuels, puis en extraire les phrases. La méthode consiste à repérer les en-têtes générés par les outils de messagerie, qui marquent les frontières entre les messages. Nous décrivons les difficultés liées au repérage de ces en-têtes, dont la forme et les langues présentent une variété considérable. Une solution fondée sur des heuristiques indépendantes de la langue est proposée et évaluée. La tâche de segmentation en phrases est également décrite et évaluée. SegDoc produit une sortie XML contenant la conversation ainsi segmentée et préparée pour des traitements automatiques subséquents.
Type de document :
Communication dans un congrès
Atelier Fouille des Données Complexes @ EGC-2017 (Extraction et Gestion des Connaissances), Jan 2017, Grenoble, France
Liste complète des métadonnées

http://hal.univ-grenoble-alpes.fr/hal-01430805
Contributeur : Ruslan Kalitvianski <>
Soumis le : mardi 10 janvier 2017 - 11:56:33
Dernière modification le : mardi 7 février 2017 - 11:03:29

Identifiants

  • HAL Id : hal-01430805, version 1

Collections

Citation

Ruslan Kalitvianski, Valérie Bellynck, Christian Boitet. Un outil de segmentation de courriels imbriqués en courriels individuels et en phrases. Atelier Fouille des Données Complexes @ EGC-2017 (Extraction et Gestion des Connaissances), Jan 2017, Grenoble, France. <hal-01430805>

Partager

Métriques

Consultations de la notice

263