L'extraction de patrons par la fouille de données

ports puniques de Carthage, Tunisie - © N. Béchet

Au cours de mon premier post-doctorat au GREYC, mes travaux se sont notamment focalisés sur la découverte de patrons linguistiques, obtenus par des techniques de fouilles de données.
L'idée générale de la méthode est d'extraire d'un corpus un ensemble de motifs séquentiels, qui, après validation par un expert, deviennent des patrons linguistiques.

La mise en place d'un nouvel algorithme d'extraction de motifs

Afin d'utiliser la méthode décrite précédemment, nous avons besoin d'un outil permettant l'extraction de motifs séquentiels d'itemsets fermés et sous contraintes. A notre connaissance, il n'existe pas dans la littérature un algorithme déjà existant permettant de réaliser cette tâche.

Ainsi, je travaille sur la proposition d'un algorithme dont une première implémentation à déjà été réalisée. Ainsi, nous disposons actuellement d'un outil permettant d'extraire des motifs séquentiels d'itemsets fermés, intégrant notamment des contraintes de gap, d'appartenance, de longueur, etc. Ces travaux nourissent également une réflexion sur la notion de représentation condensée en fouille séquentielle.

Application dans le domaine de la biologie médicale et TAL

L'implémentation de l'algorithme d'extraction de motifs a été notamment utilisée dans le cadre de travaux de recherche. Ces travaux sont d'une part la détection d'associations entre gènes et maladies rares et d'autre part la reconnaissance de constituants de qualification en position détachée. Ces deux applications se basent sur l'extraction de patrons linguistiques, qui après validation, vont permettre de découvrir des expressions linguistiques dans des documents textuels.

© Nicolas Béchet 2019. Design by elemis.