TrackMyPrompts (Parcours A)
Développement d’une application graphique pour la détection et le suivi d’objets dans des images/vidéos avec des prompts multimodaux IA
Présentation du projet
Les réseaux de neurones de détection et suivi d’objets sont largement utilisés dans des domaines tels que la vision par ordinateur, la sécurité, la robotique et bien d’autres encore. Ces réseaux sont capables d’identifier, de localiser et de suivre des objets de différentes catégories dans des images ou des vidéos, ouvrant ainsi la voie à de nombreuses applications pratiques. Cependant, la mise en œuvre de ces réseaux de neurones peut être difficile pour les non-experts qui ne possèdent pas de solides connaissances en programmation et en apprentissage automatique. Les bibliothèques populaires telles que PyTorch et Tensorflow offrent des fonctionnalités avancées de l’IA, mais elles nécessitent une compréhension approfondie des concepts sous-jacents et une expertise en codage. Cette barrière technique peut décourager de nombreux utilisateurs potentiels.
L’objectif de ce projet est de créer une application dans un environnement graphique conviviale qui rende l’utilisation d’un réseau de neurones de détection d’objets et de suivi d’objets avec l’aide des prompts (une description textuelle) dans un premier temps. Cette application doit être accessible aux utilisateurs non-experts. Nous voulons offrir une interface intuitive et simplifiée, où les utilisateurs pourraient facilement charger leurs données (images, vidéos), saisir leur prompts, charger un (ou des) réseau(x) de neurones, tester les performances, visualiser et sortir les résultats, sans avoir à écrire de code complexe. Dans un second temps, nous voulons permettre aux utilisateurs de saisir des prompts multimodaux (captation audio qui sera traduite en texte) pour améliorer l’interaction et qualité des détections et des suivis.
Le domaine d’usage sera précisé ultérieurement.
Cahier des charges
- Prise en main de l’environnement de développement Python (Qt) et de l’existant.
-
Faire évoluer une interface permettant de charger des données (images, vidéos), de saisir des prompts, de lancer le détecteur sur cette image, d’afficher et de sauvegarder des détections prédites par le modèle.
-
Proposer une gestion des droits d’accès. Compléter l’environnement pour le chargement de différents types de détecteurs afin de laisser le choix aux utilisateurs finaux. Ils peuvent également ajuster les hyperparamètres liés à chaque modèle et personnaliser le modèle en fonction de leurs besoins spécifiques.
-
Ajouter la saisie et l’interprétation de prompts multimodaux (traduction de sons en texte, caractérisations de mots-clés automatique) pour améliorer l’interaction, la qualité des détections et des suivis.
-
Proposer d’autres fonctionnalisés pour l’interface développée.
-
Fournir la documentation, le guide d’utilisation, le cahier des tests et la démonstration (vidéo)
Contraintes technologiques
La technologie utilisée est basée sur les librairies Python suivantes:
- OpenCV, Pytorch, d’autres librairies Python pour l’IA et le traitement d’images
- PyQt pour l’interface graphique Toutefois, une analyse des besoins et des contraintes techniques sera a mener en vue de déterminer les librairies et les outils à utiliser.
Contact
- Nom: M. Le Lain
- Email: matthieu.le-lain@@univ-ubs.fr