Thèse

Superviseurs: Georges Quénot et Philippe Mulhem
Date de début: 01/11/2010
Date de soutenance: 23/10/2014

Titre : Utilisation du contexte pour l'indexation sémantique des documents image et vidéo.

L'indexation automatisée des documents image fixe et vidéo est un problème difficile en raison de la "distance" existant entre les tableaux de nombres codant ces documents et les concepts avec lesquels on souhaite les annoter (personnes, lieux, événements ou objets, par exemple). Des méthodes existent pour cela mais leurs résultats sont loin d'être satisfaisants en termes de généralité et de précision. Elles fonctionnent pour la plupart par apprentissage supervisé ou semi-supervisé : le système apprend les concepts à reconnaître à partir d'exemples positifs et négatifs ; il "généralise" à partir de ces exemples. Les méthodes existantes utilisent en général un ensemble unique de tels exemples et le considère d'une manière uniforme. Ceci n'est pas optimal car un même concept peut apparaître dans des contextes très divers et son apparence peut être très différente en fonction de ces contextes. Le contexte peut être par exemple : le type d'émission (journal télévisé, fiction, divertissement, publicité, etc.), la date, le lieu, le pays ou la culture de diffusion ou de production, ou encore les modalités présentes ou absentes (cas de documents en noir et blanc et/ou sans son par exemple). Le contexte peut en général être considéré comme un autre concept ou un ensemble d'autres concepts. Les concepts et les relations entre eux peuvent être représentés dans des ontologies. On peut interpréter les relations dans une ontologie comme le fait que les éléments ont des chances de se retrouver ensemble ou non dans une image ou dans un plan vidéo et cette information peut être utilisée pour leur annotation automatique.

Le sujet proposé concerne l'utilisation du contexte pour améliorer la performance des classifieurs. L'idée principale est de considérer, pour chaque concept à reconnaître, un certain nombre de contextes dans lesquels il peut apparaître et d'entraîner un classifieur pour chacun de ces contextes. Lors de la reconnaissance, on utilise le classifieur approprié en fonction du contexte identifié ou une combinaison pondérée (fusion) des résultats de classification si l'on dispose seulement de probabilités de se trouver dans un contexte donné. Une telle approche présente plusieurs difficultés. La première réside dans l'identification du contexte lors de la reconnaissance : dans certains cas, il peut être connu explicitement (dans les métadonnées, par exemple) mais, en général, il s'agit en fait d'un autre concept, lui-même à reconnaître. La seconde difficulté est dans la nécessité de disposer d'un volume total de données d'apprentissage très important pour que, dans chaque contexte, on dispose de suffisamment d'exemples pour entraîner valablement un classifieur. Il y a une complexité liée qui est celle de gérer simultanément le réglage de plusieurs classifieurs pour chaque concept. La troisième difficulté concerne le problème de la fusion des sorties des différents classifieurs dans le cas fréquent, où il y a des incertitudes à propos du contexte effectivement présent lors de la reconnaissance. La mise en œuvre pourra reposer sur l'utilisation de réseaux d'opérateurs (extracteurs de caractéristiques, classifieurs et modules de fusion), sur des ontologies pour gérer les relations entre concepts et sur l'apprentissage actif pour la collecte automatique de données d'entraînement.

Les méthodes développées seront évaluées dans le cadre de campagnes nationales ou internationales comme TRECVID (http://www-nlpir.nist.gov/projects/...). Le travail se fera dans le contexte du programme Quaero (http://www.quaero.org). Celui-ci permettra entre autres choses d'avoir accès à un grand volume de données images et vidéos annotées.