Leveraging users’ behavior, intentions and interests for enhancing Exploratory Data Analysis and Data Narration

Veronika Peralta

Résumé

Exploratory Data Analysis (EDA) is an analysis technique used for efficiently extracting knowledge from data even when we do not know exactly what we are looking for. EDA is at the core of Data Narration (DN), the process of narrating data stories supported by data analysis. While much research effort is put in the automation of EDA and DN, users’ behavior, intentions and interests are frequently neglected, leading to fixed not-personalized data reporting and storytelling. This Habilitation thesis is a contribution to the huge task of developing user-centric EDA and therefore intentional DN. We firstly propose techniques for learning users’ analysis behavior from query workloads. We segment large query workloads into explorations, i.e. coherent sequences of queries related to a same information need. We propose classification models to evaluate to what extent a query is focused and contributes to the success of an exploration, a Knowledge Tracing model to assess users’ analysis skills, and a clustering method to group explorations revealing similar analysis patterns, i.e. sharing similar sequences of operations and containing queries of close complexity. Our methods rely on a model of queries and explorations from the prism of users’ skills, based on a large set of features capturing various aspects of a query and its context within the exploration, in particular, query fragments, operations and timing. A similarity measure tailored for explorations allows the discovery of analysis patterns translating users’ behavior. We then turn to user’s interests. We propose a two-level framework for developing interestingness measures, consisting respectively of high-level interestingness aspects, and data-oriented assessment algorithms. Focusing in a particular interestingness aspect (the relevance of a query for the overall analysis intention of the user), we propose an approach for learning user interests in a query workload and recommending relevant queries. We formalize the problem of discovering coherent user interests as a clustering problem, for which a similarity measure is learned to capture whether two queries reflect a same user interest. To leverage the discovered user interests for the purpose of query recommendation, we propose an original interest-based recommender. We eventually consider EDA within the DN process. As apart some general considerations, there is no consensual definition of DN, let alone a model of it, we start by proposing a conceptual model that provides a structured, principled definition of the key concepts of the domain. We then incorporate dynamic aspects and propose a process model that covers the whole DN cycle and accommodates a wide range of practices observed in the field. Both models draw attention to the importance of EDA support and highlight intentional aspects. Finally, this dissertation discusses several research perspectives. This work is undertaken within the framework of 10 PhD theses and 7 research projects.

L'analyse exploratoire des données (AED) est une technique d'analyse utilisée pour extraire efficacement des connaissances à partir de données même lorsque nous ne savons pas exactement ce que nous cherchons. L'AED est au coeur de la narration de données (ND), le processus de narration d'histoires soutenu par l'analyse des données. Alors que de nombreux efforts de recherche sont consacrés à l'automatisation de l'AED et de la ND, le comportement, les intentions et les intérêts des utilisateurs sont souvent négligés, ce qui conduit à des restitutions et des narrations fixes et non personnalisées. Ce mémoire d’habilitation est une contribution à la vaste tâche de développement d'approches d’AED centrés sur l'utilisateur et donc d'une ND intentionnelle. Nous proposons, dans un premier temps, des techniques pour apprendre le comportement d’analyse des utilisateurs à partir de logs de requêtes. Nous segmentons des longs logs en explorations, c'est-à-dire en séquences cohérentes de requêtes liées à un même besoin d'information. Nous proposons des modèles de classification pour évaluer dans quelle mesure une requête est focalisée et contribue au succès d'une exploration, un modèle d’apprentissage (Knowledge Tracing) pour évaluer les compétences d'analyse des utilisateurs, et une méthode de groupement (Clustering) pour regrouper les explorations révélant des patrons d'analyse similaires, c'est-à-dire partageant des séquences d'opérations similaires et contenant des requêtes d’une complexité proche. Nos méthodes s’appuient sur des modèles de requêtes et d’explorations selon le prisme des compétences utilisateurs, basés sur un large ensemble de fonctionnalités, capturant différents aspects d’une requête et de son contexte au sein de l’exploration, notamment les fragments de requêtes, les opérations et la temporalité. Une mesure de similarité adaptée aux explorations permet de découvrir des modèles d’analyse qui traduisent le comportement des utilisateurs. Nous nous tournons ensuite vers les intérêts des utilisateurs. Nous proposons un cadre pour développer des mesures d'intérêt, composé de deux niveaux, à savoir, des aspects d'intérêt de haut niveau, et des algorithmes d'évaluation orientés données. En nous concentrant sur un aspect particulier de l'intérêt (la pertinence d'une requête pour l'intention d'analyse de l'utilisateur), nous proposons une approche pour apprendre les intérêts de l'utilisateur dans un log de requêtes et pour lui recommander des requêtes pertinentes. Nous formalisons le problème de la découverte d’intérêts cohérents comme un problème de clustering, pour lequel une mesure de similarité est apprise. Pour exploiter les intérêts découverts à des fins de recommandation de requêtes, nous proposons un outil de recommandation original basé sur les intérêts. Nous envisageons enfin l'AED dans le processus de ND. Puisque mis à part quelques considérations générales, il n'existe pas de définition consensuelle de ND, encore moins de modèle de celle-ci, nous commençons par proposer un modèle conceptuel qui fournit une définition structurée et fondée des concepts clés du domaine. Nous intégrons ensuite des aspects dynamiques et proposons un modèle de processus qui couvre l'ensemble du cycle de narration et s'adapte à un large éventail de pratiques observées sur le terrain. Les deux modèles soulignent l’importance de supporter l’AED et mettent en évidence les aspects intentionnels. Enfin, ce mémoire aborde plusieurs perspectives de recherche. Ce travail est mené dans le cadre de 10 thèses de doctorat et de 7 projets de recherche.

Leveraging users’ behavior, intentions and interests for enhancing Exploratory Data Analysis and Data Narration

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager