Chapitre IV.4 - Accès à l’information : apprentissage et recherche
Résumé
L’accès à l’information regroupe l’ensemble des tâches qui permettent d’accéder à l’information contenue dans une collection de documents, que celle-ci soit structurée ou non. Nous nous concentrons, dans ce chapitre, sur les collections non structurées, les collections structurées étant abordées dans le chapitre II.1. Les documents que l’on trouve dans de telles collections sont typiquement du texte, du son, des images et/ou des données. Les principales tâches de l’accès à l’information visent à structurer la collection de documents en regroupant dans une même classe les documents proches les uns des autres, c’est le clustering de documents ; à affecter les documents à des catégories prédéfinies, c’est la catégorisation de documents, et à rechercher des informations dans les documents de la collection à partir de requêtes formulées en langue naturelle, c’est la Recherche d’Information.
Un des piliers des méthodes utilisées pour l’accès à l’information est l’apprentissage automatique, qui apporte des solutions théoriquement bien fondées au clustering et à la catégorisation. Nous nous intéressons donc à ce domaine dans la première partie de ce chapitre, avant de présenter les avancées récentes en Recherche d’Information. Comme nous le verrons dans la seconde partie, l’apprentissage automatique joue aussi un rôle primordial dans le développement des modèles de Recherche d’Information.