Les motifs séquentiels pour l'étiquetage grammatical

Matmata, Tunisie - © N. Béchet

Dans le cadre de mon second post-doctorat au GREYC, ces travaux font suite à mon intérêt pour l'utilisation et l'implémentation d'algorithmes permettant l'extraction de motifs séquentiels, et au différentes disciplines du TALN comme l'étiquetage grammatical. L'objectif de ces travaux et de montrer d'une part l'intérêt des motifs pour l'étiquetage grammatical, mais également vise à terme à proposer un étiqueteur grammatical efficace du latin.

Fouille séquentiels et POS Tagging ?

Le premier atout de la fouille séquentielle est de permettre la production de règles éditables et compréhensibles par un humain. En effet, les approches à base de règles sont depuis quelques temps délaissées au profit de méthodes stochastiques et statistiques. Cependant, ces approches de type boite noire ne permettent pas d'agir directement sur les modèles d'apprentissage produit, ces derniers n'étant pas éditables ni compréhensibles. De surcroît, notre méthode à base de règles propose une qualité d'étiquetage équivalente aux méthodes stochastiques.

Vers un étiqueteur du latin

Outre l'étiquetage de l'anglais ou du français, nous envisageons d'utiliser notre étiqueteur sur du latin. Cette langue ne bénéficiant pas actuellement d'une qualité d'étiquetage suffisante, l'utilisation de notre outil pourra à terme permettre l'édition simplifiée des règles afin de converger vers un étiquetage automatique optimum.

© Nicolas Béchet 2013. Design by elemis.