Un outil de segmentation de courriels imbriqués en courriels individuels et en phrases

Résumé : Nous décrivons le problème de la segmentation de courriels représentant des conversations, c’est-à-dire contenant des courriels cités. Nous présentons un outil, SegDoc, conçu pour segmenter de telles conversations en courriels individuels, puis en extraire les phrases. La méthode consiste à repérer les en-têtes générés par les outils de messagerie, qui marquent les frontières entre les messages. Nous décrivons les difficultés liées au repérage de ces en-têtes, dont la forme et les langues présentent une variété considérable. Une solution fondée sur des heuristiques indépendantes de la langue est proposée et évaluée. La tâche de segmentation en phrases est également décrite et évaluée. SegDoc produit une sortie XML contenant la conversation ainsi segmentée et préparée pour des traitements automatiques subséquents.
Document type :
Conference papers
Complete list of metadatas

http://hal.univ-grenoble-alpes.fr/hal-01430805
Contributor : Ruslan Kalitvianski <>
Submitted on : Tuesday, January 10, 2017 - 11:56:33 AM
Last modification on : Tuesday, February 12, 2019 - 1:31:18 AM

Identifiers

  • HAL Id : hal-01430805, version 1

Collections

Citation

Ruslan Kalitvianski, Valérie Bellynck, Christian Boitet. Un outil de segmentation de courriels imbriqués en courriels individuels et en phrases. Atelier Fouille des Données Complexes @ EGC-2017 (Extraction et Gestion des Connaissances), Jan 2017, Grenoble, France. ⟨hal-01430805⟩

Share

Metrics

Record views

392