Un outil de segmentation de courriels imbriqués en courriels individuels et en phrases - Université Grenoble Alpes Accéder directement au contenu
Communication Dans Un Congrès Année : 2017

Un outil de segmentation de courriels imbriqués en courriels individuels et en phrases

Résumé

Nous décrivons le problème de la segmentation de courriels représentant des conversations, c’est-à-dire contenant des courriels cités. Nous présentons un outil, SegDoc, conçu pour segmenter de telles conversations en courriels individuels, puis en extraire les phrases. La méthode consiste à repérer les en-têtes générés par les outils de messagerie, qui marquent les frontières entre les messages. Nous décrivons les difficultés liées au repérage de ces en-têtes, dont la forme et les langues présentent une variété considérable. Une solution fondée sur des heuristiques indépendantes de la langue est proposée et évaluée. La tâche de segmentation en phrases est également décrite et évaluée. SegDoc produit une sortie XML contenant la conversation ainsi segmentée et préparée pour des traitements automatiques subséquents.
Fichier non déposé

Dates et versions

hal-01430805 , version 1 (10-01-2017)

Identifiants

  • HAL Id : hal-01430805 , version 1

Citer

Ruslan Kalitvianski, Valérie Bellynck, Christian Boitet. Un outil de segmentation de courriels imbriqués en courriels individuels et en phrases. Atelier Fouille des Données Complexes @ EGC-2017 (Extraction et Gestion des Connaissances), Jan 2017, Grenoble, France. ⟨hal-01430805⟩
190 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More