I.1 – INTRODUCTION
Le domaine auquel j’ai contribué de façon significative est celui de l’Analyse Combinatoire et Statistique des Données (Combinatorial Data Analysis), pour l’extraction de connaissances et leur gestion. La Classification non supervisée (‘’clustering’’) et celle supervisée en font partie de façon essentielle ; mais aussi, les méthodes de l’Analyse Ordinale des Données dont la Sériation. Un accent très particulier de mon effort a consisté à établir le lien avec les problématiques de l’Apprentissage Automatique (Machine Learning), la Fouille des Données (Data Mining) et la Complexité (problème #SAT). Mon apport se décline selon les volets suivants : ‘’Logique et Formel’’, ‘’Combinatoire et Statistique’’, ‘’Algorithmique et Complexité’’, ‘’Logiciel’’ et ‘’Grands domaines d’application’’.
Relativement au domaine concerné, déjà en 2001 (MIT Review 2001), les experts en prospective du ‘‘Massachussets Institute of Technology’’ expriment qu’il s’agit de l’une des dix technologies émergentes du XXI-ème siècle.
Signalons que ce domaine va de la conception des bases de données volumineuses jusqu’à la prise de décision, moyennant une visualisation adéquate de résultats synthétiques. Les plus récents domaines d’application où nous avons été très impliqués sont la Bioinformatique, l’Imagerie Numérique et le Traitement Automatique des Langues Naturelles. Actuellement (2019) nous nous intéressons à la sériation en Archéologie.
Deux axes animent notre recherche sur les plans formel et méthodologique :
- Le premier concerne le développement d’une notion constructive de similarité probabiliste de vraisemblance du lien (Probabilistic similarity of the likelihood of the link) qui s’adapte de façon très souple quelle que soit la complexité de la structure des données. Elle permet de comparer mutuellement Attributs, Objets ou Catégories ; également, classes formées d’éléments de même nature de ces derniers. À cet égard, je distingue deux principaux types de données. Le premier se met sous la forme d’un système de T de Tarski de la forme : T = < O ; R1, R2, …, Rp > où O est un ensemble d’objets élémentaires et où { R1, R2, …, Rp } est un ensemble de p relations sur O. Le deuxième type se met sous la forme : S = < C ; R1, R2, …, Rp > où C est un ensemble de classes (concepts) et où cette fois-ci, on dispose de la distribution de chacune des relations sur C. Cette notion répond à la philosophie de la théorie de l’information ; mais au niveau des relations observées. Elle peut avoir un caractère symétrique pour refléter la notion d’équivalence ou un caractère dissymétrique pour refléter la notion d’implication. Les derniers travaux méthodologiques menés prennent bien en compte chacun de ces deux aspects. Indépendamment des livres publiés, des articles et des thèses que j’ai dirigées, plus de trente de mes publications concernent la notion fondamentale de SIMILARITÉ.
- Le deuxième axe de recherche concerne l’analyse formelle des structures de classification, l’étude des algorithmes d’obtention de ces structures, la simplification de leurs complexités et la signification des résultats. Ici, au titre de la classification, il faut mentionner le rôle très important joué par une méthodologie de la Classification Ascendante Hiérarchique basée sur l’Analyse de la Vraisemblance des Liens (méthode AVL). D’autres algorithmiques ont également été considérés, reliant la Sériation à la Classification Non Hiérarchique (méthodes des Pôles d’Attraction).
- Deux autres axes sont intimement imbriqués avec les deux précédents : Le premier d’entre eux concerne l’aspect logiciel et le second, correspond à une contribution significative à l’analyse classificatoire des données issues du monde réel et faisant progresser les disciplines scientifiques concernées.
I. 2 – TRAVAUX IMPORTANTS RÉALISÉS
À ce dernier égard, commençons par mentionner le domaine de la Bio-informatique. Une contribution importante a concerné l’analyse de données issues de la Génomique et plus spécifiquement, la classification de séquences protéiques. D’autre part, la Classification Ascendante Hiérarchique (méthode AVL, programme CHAVL) a permis d’organiser et de caractériser des familles particulières de séquences d’ADN qu’on appelle ‘ « les éléments transposables » et cela, à partir de la notion de domaine qui est une suite connexe et identifiable de nucléotides (thèse de Sébastien Tempel).
Signalons également en Traitement Automatique des Langues, le très beau travail de thèse de Mathias Rossignol (voir ci-dessous) sur l’acquisition d’informations lexicales dans des corpus spécialisés, où nos méthodes de classification ont constitué une étape première essentielle et ont contribué de façon décisive à la détermination de classes sémantiques dans le cadre d’une théorie linguistique.
Nous avons également adressé le problème de la segmentation d’images au moyen de la Classification Ascendante Hiérarchique sous une contrainte définie par un graphe de contiguïté. Ces travaux ont été menés avec Kaddour Bachar (ESSCA, Angers) et Gérard Douaire (Agrocampus, Rennes). Deux paramétrages fondamentaux sont à considérer : le critère de fusion des classes et l’algorithmique. Des résultats importants ont été obtenus aussi bien sur le plan théorique qu’expérimental. Ces travaux doivent être poursuivis pour un temps encore.
Revenons à la Bio-informatique mais par rapport à la discrimination de classes de séquences protéiques établies. La recherche d’un langage de discrimination à partir de la théorie des automates (travaux de François Coste et de Goulven Kerbellec) a conduit à l’usage qui s’est avéré fécond d’un indice d’implication statistique que nous avions élaboré.
Nous avons aussi mené des travaux très significatifs d’une part, sur les mesures probabilistes d’intérêt d’une règle d’association et d’autre part, sur l’analyse des structures implicatives. Les chercheurs avec qui ou par rapport à qui nous avons travaillé dans cette thématique sont d’abord Jérôme Azé (alors à l’ Université de Paris Sud) et également, S. Guillaume (Université d’Auvergne), Régis Gras et Pascale Kuntz du LINA (Laboratoire d’Informatique de Nantes, École Polytechnique de l’Université de Nantes).
I.3 – ASPECT LOGICIEL
Nos méthodes ont donné lieu à un développement important de programmes informatiques. Contentons nous de citer au titre de la Classification Ascendante Hiérarchique le programme CHAVL (Classification Hiérarchique par Analyse de la Vraisemblance des Liens) et au titre de la Classification non Hiérarchique, le programme MPATD (Méthode des Pôles d’Attraction Traitant les Distances).
Ces programmes sont écrits selon des normes très rigoureuses établis par Henri Leredde dans le cadre du club Modulad (Club francophone d’analyse des données). Cette facette logicielle (surtout CHAVL ) a été largement diffusée localement et internationalement. Ont contribué à la construction de CHAVL Ph. Peter (Université de Nantes), H. Leredde (Université de Paris Nord), M. Ouali et I.C. Lerman (Université de Rennes 1). Signalons que Ph. Peter, tout en se référant aux travaux de H. Leredde et M. Ouali a été l’acteur principal à partir des années 90. CHAVL est un programme qui a été très utilisé et qui continue de l’être, surtout dans un contexte local (Irisa – Rennes) et régional (Lina – Nantes). La notice d’utilisation a été réactualisée à la faveur de la publication par Springer Nature d’un ouvrage de synthèse (voir ci-après au paragraphe III). Nous avons eu le souci d’une diffusion normalisée ; d’abord au niveau local, ce qui correspond à une installation du programme sur la plateforme de Génopôle Ouest, après un dépôt concrétisé en 2005 à l’APP (Agence de Protection des Programmes). Pour ce qui est de la diffusion internationale, une version ergonomique et simplifiée appelée LLAhclust (Likelihood Linkage Analysis hierarchical clustering) a été réalisée pour inscrire le programme dans un nouvel environnement défini par le logiciel libre R. I. Kojadinovic et Ph. Peter (Université de Nantes) sont les principaux auteurs de cette implémentation. N. Le Meur, B. Tallur et I.C. Lerman (Université de Rennes 1 et IRISA) y ont aussi contribué.
L’expérience acquise a été essentielle pour une intégration dans le projet européen ACGT (Advancing Clinico-Genomic Clinical Trials on Cancer) où le projet SYMBIOSE auquel j’ai appartenu a été très impliqué.