Les descripteurs de données textuelles

Rome et Vatican, Italie - © N. Béchet

Les modèles SelDe et SelDeF

Ces travaux défendent le fait que la syntaxe doit être considérée afin de décrire des données textuelles écrites en langues naturelles. Pour cela, des approches de sélection de descripteurs sont proposés. Le principe est d'extraire les relations syntaxiques d'un corpus et d'utiliser les objets des verbes sémantiquement proches comme descripteurs. Deux modèles de sélection de descripteurs découlent de ses travaux : SelDe et SelDeF.

SelDe se focalise sur l'utilisation des objets communs à deux verbes jugés sémantiquement proche.

SelDeF permet l'utilisation de relations syntaxiques plus évoluées, appelées relations syntaxiques induites, du fait qu'elles ne soient pas initialement présentes dans un corpus mais elles sont en quelque sorte construites à partir de celui-ci. Cependant, ces relations ne sont pas toujours de qualité et doivent être filtrées afin de décrire un corpus. Nous avons ainsi proposé différentes approches de filtrage de relations syntaxiques.

Les descripteurs de données textuelles adaptés aux données complexes

Les modèles SelDe et SelDeF permettent une extraction de descripteurs pertinents en se fondant sur les propriétés syntaxiques de corpus. Cependant, tous les types de corpus ne peuvent pas être utilisés avec SelDe ou SelDeF. Ces derniers nécessite en effet un corpus syntaxiquement "bien formé". Il est alors proposé différentes solutions s'adaptant aux données textuelles dites complexes, telles que des CV, des blogs, des documents résultants de numérisation, etc.

Les descripteurs dans les entrepôts de données

Un entrepôt de données peut être défini comme une collection de données organisées par sujets ou thématiques. Ces bases de données sont principalement utilisées pour améliorer des systèmes d'aide à la décision. Les données contenues dans un entrepôt ont la particularité d'être persistantes (elles sont en lecture seule, donc stables et non modifiables) et temporelles (chaque donnée est datée). Elles sont organisées suivant des axes d'analyses pouvant être l'année, le nombre d'habitants, le type de clientèles, etc.

Ce caractère dimensionnel introduit le fait que ces bases de données sont modélisées par des objets multidimensionnels. Alors, le fait d'agréger les données d'un entrepôt par des fonctions d'agrégations permet de produire en sortie un nouvel objet multidimensionnel. Les paramètres de l'agrégation vont en quelque sorte limiter la vue de l'entrepôt à certaines contraintes, pouvant être un intervalle d'âge, de temps, etc.

Notons cependant que la plupart des méthodes utilisant ou proposant des approches afin de modéliser des entrepôts utilisent des descripteurs statistiques, le plus souvent de type fréquentiels. Mes travaux actuels se focalise sur l'étude précise des descripteurs pouvant être bénéfiques aux entrepôts de données manipulant des données textuelles et les descripteurs des documents.

© Nicolas Béchet 2013. Design by elemis.