MRIM - Bâtiment B - CLIPS - IMAG - BP 53, 38041 Grenoble Cedex 9
Téléphone : +33 4.76.51.45.15 - Télécopie : +33 4.76.44.66.75
Responsable : Marie-France BRUANDET 
MRIM
Présentation
Thématique
Réalisations
Projets
Annuaire
CLIPS
Accueil
Annuaire
Démonstrations
Publications
Plan d'accès

Notre domaine de recherche est la modélisation formelle des Systèmes de Recherche d'Informations (SRI) multimédia.

Motivation et thématique

La recherche d'informations est un domaine qui existe depuis les années 70 et est très actif comme le montre sa conférence annuelle ACM SIGIR. Nous travaillons sur ce domaine depuis 1980 (date des premières publications dans ce domaine), et Yves Chiaramella a constitué une équipe sur ce thème en 1983.
Notre domaine de recherche est la modélisation formelle des Systèmes de Recherche l'Informations (SRI) multimédia. Un SRI permet de satisfaire les besoins d'informations d'un utilisateur ; en effet, son ro^le principal est de sélectionner les documents les plus pertinents pour son besoin d'information. Son rôle n'est pas de stocker le document ni de répondre à des questions sur le document, ce qui le différencie des SGBD et des SGBC.

Dans de tels systèmes, le besoin de l'utilisateur est exprimé par une requête portant sur le contenu sémantique des documents recherchés. Cela nécessite une modélisation du contenu sémantique des documents (indexation), une représentation des connaissances du domaine, un modèle de requêtes, la définition d'une fonction de correspondance entre la requête et la représentation sémantique du document qui évalue la pertinence des réponses du système.

Le modèle théorique sous-jacent à l'évaluation de la fonction de correspondance, est lié à la notion d'implication logique entre une requête et un document [CC92]. L'incertitude est une notion omniprésente dans cette évaluation, de par l'expression imparfaite du besoin de l'utilisateur et du fait qu'il n'est pas pensable d'exprimer toute la sémantique d'un document ou de décrire exhaustivement un domaine. Notre modélisation s'appuie donc sur des logiques floues. 

Les documents gérés par le SRI sont actuellement multimédia et nécessitent l'étude de nouvelles stratégies d'extraction de contenu sémantique adaptées à chaque média (images, vidéo, son). Le rôle d'un SRI est de satisfaire l'utilisateur tout en restant accessible à tout public, et, à ce titre la qualité de l'interaction avec le système joue un rôle prépondérant dans le résultat final (interface pour la recherche d'information [Jou94], hypermédia [Khe91].

La recherche d'informations multimédia est à l'heure actuelle un aspect peu exploré et le succès de logiciels tels que les hypertextes intégrant des données multimédia, démontre un réel besoin de la part des utilisateurs. Le développement de fonctionnalités de type recherche l'informations est donc important. Il est clair que des études et des réalisations sur ce thème peuvent avoir de considérables impacts pour la recherche et le développement dans le court terme, et pour le développement industriel dans le moyen et le long terme.

Description de la recherche

Pour être capable de manipuler et de retrouver des données multimédia, le SRI doit, d'un point de vue interne, supporter un certain nombre de contraintes liées aux données multimédia et aux utilisations qui en seront faites. Un tel SRI doit intégrer dans ses fonctions de recherche la sémantique propre à chaque média. Par conséquent, la définition d'un SRI adapté aux données multimédia suppose que l'on étudie à la fois comment exprimer la sémantique de ces données et leur stockage efficace [bronero92]. Nous travaillons, depuis une dizaine d'années, sur les traitements de la langue naturelle nécessaires à la manipulation des textes. Depuis quatre ans, nous travaillons sur les images [mechkour92] et nous nous intéressons actuellement à la vidéo [haddad94]; le son sera un média étudié dans l'année qui vient. 
La représentation du contenu sémantique des documents multimédia passe par la définition de langages d'indexation. Un langage d'indexation peut être simplement une liste de mots-clé et peut aller jusqu'à l'expression de termes d'indexation complexes et contrôlés syntaxiquement et sémantiquement. Le choix d'un langage d'indexation est dépendant de quatre critères fondamentaux : le média manipulé, la nature de l'indexation (manuelle ou automatique), la précision attendue du système (du point de vue de ses réponses) et le contexte applicatif. 

Le média manipulé implique un certain niveau de compréhension. Par exemple, la sémantique d'un texte peut être exprimée de faon détaillée, alors que toute autre donnée multimédia ne peut atteindre ce niveau de compréhension sans une aide externe. Un média possède un signal propre (le signal d'un texte est une chai^”ne de caractères, le signal d'une image est une matrice de pixels, ...). Il s'agit d'exprimer la sémantique véhiculée par ce média, et, de fait de réduire la distance existant entre le signal et sa sémantique.

Les processus d'indexation tendent à être automatiques pour, d'une part, éviter les erreurs humaines liées à toute indexation et, surtout accélérer ce processus sur de gros volumes de données. Cependant, l'automatisation totale n'est pas toujours possible selon l'objectif du système : ainsi un système d'images désirant une compréhension profonde [berrut92] doit passer par une indexation semi-automatique . Une aide peut être ajoutée via l'utilisation d'outils externes [cuzin92], [berrut92], mais la validation et la valorisation complète de l'indexation ne peut se faire actuellement que par un intermédiaire humain. 

La précision souhaitée dans les réponses est fondamentale pour le choix du langage d'indexation. Un langage d'indexation à base de mots clés peut suffire pour un système grand public, alors que, par exemple, les médecins radiologues ont besoin d'une grande précision quand ils consultent leurs données médicales. 

Dans un tel contexte et vue la variété des modèles existant dans le domaine, il est indispensable de définir un modèle théorique de recherche d'informations. Nous travaillons dans ce contexte sur un modèle logique de recherche d'informations. En effet, ces modèles logiques ont pour objectif d'appréhender globalement la complexité de la problématique des SRI. En particulier, il s'agit de formaliser la notion de correspondance [chevallet94b] entre un document et une requête de l'utilisateur. Ainsi, il s'agit d'éviter que sa définition et son implantation soient ad hoc à une classe d'applications, et, de ce fait, plus ou moins empiriques. Un autre aspect complémentaire du précédent concerne la valuation de la correspondance [denos94a] qui permet de mesurer la pertinence (ÒrelevanceÓ) entre un besoin d'information et un document multimédia. La nature complexe et diversifiée des données intervenant dans la définition d'une mesure de pertinence motive une réflexion au niveau théorique afin de définir les critères généraux qui doivent être pris en compte. 

La nécessité d'un stockage efficace des données nous a conduits à définir des opérateurs dédiés aux objets complexes permettant d'utiliser un SGBD à objets [mulhem91],[cuzin91],[guillemin93] et d'y intégrer une composante recherche d'informations [mulhem92a],[mulhem94]. Dans un premier temps nous avons défini la correspondance sur les objets complexes que sont les arbres sémantiques de RIME et les graphes conceptuels [mulhem93b].


Intégration des données multimédia dans un SRI

Pour aborder les données multimédia, nous étudions chaque média afin de préciser ses caractéristiques propres et spécifier celles qui sont pertinentes du point de vue de la recherche d'informations. 

Images
L'étude des images s'est concrétisée par la définition d'un modèle de données spécifique aux images [berrut91] permettant d'intégrer les multiples facettes d'une image (structure, sémantique, physique,...) nécessaires à toute application manipulant des images qu'elles soient géographique, médicale ou autres. Le modèle de représentation des images est basé sur la notion de vues multiples d'une image. La modélisation distingue quatre vues: une vue physique, spaciale, symbolique et structurelle. Les trois dernières vues sont combinées sous le concept de vue logique. Associé à ce modèle image, nous avons défini un modèle de recherche d'images [mechkour92] permettant d'intégrer ces différentes facettes des images, donc leur complexité et leur nature multimédia. Un soin particulier a été apporté à la définition de la fonction de correspondance appliquée aux vues logiques. Pour chaque type de vue, nous avons spécifié des opérateurs ; il s'agit essentiellement des fonctions de traitement d'images pour la vue physique et une recherche d'information effective sur la vue logique.(Thèse de Mourad Mechkour, soutenance 95) 
Du point de vue expérimental, nous avons développé une interface d'indexation d'images [berrut95a], et une interrogation d'un corpus de comptes rendus médicaux et d'images médicales. Prenant en compte nos travaux sur les images, un modèle de données décrivant le contenu de l'image est produite à l'aide d'une interface adaptée. Cette interface est dédiée au médecin radiologue et est développée sous X-Window/Motif en C et C++. Les images et leur indexation sont stockées dans le SGBD à objets O2 (travaux de P. Bouchon). 

Textes
Le travail poursuivi sur le texte concerne l'identification et la formalisation des différentes caractéristiques textuelles d'un document ainsi que la facçon dont elles peuvent s'insérer dans le cadre plus général d'un document multimédia [paradis94]. Nous proposons de combiner dans un seul modèle et sous un seul formalisme de représentation interne, les aspects suivants d'un document textuel (travaux de thèse de F.Paradis):

  • la sémantique, ou la modélisation du contenu, qui relève de la linguistique et de la représentation de connaissances. 
  • la structure logique, qui définit la vue <> du document et les liens entre ses diverses composantes, prenant en compte les recommandations TEI (Text Encoding Initiative qui sont des normes conformes au langage SGML) 
  • la structure du discours, qui modélise l'organisation du discours selon les intentions ou les buts qu'il véhicule. Il s'agira ici de faire ressortir les éléments communs et importants des principaux travaux dans ce domaine.

Pour valider cette approche, et pouvoir la tester sur un corpus de taille suffisante nous avons implanté un système de recherche d'informations sur WWW, le système PIF, plus complet du point de vue indexation que Wais, puisqu'il intègre la lemmatisation des termes (un verbe et ses conjugaisons n'apparaissent qu'une seule fois, tout comme un nom ou un adjectif son féminin et son pluriel) et également un thésaurus (WordNet). Les opérateurs booléens ont été étendus (via des pondérations) ce qui a pour effet de réduire le silence lors d'une requête (pourcentage de documents pertinents pour l'utilisateur non retrouvés par le système). 

Vidéo
Nous élaborons une stratégie d'indexation [haddad94] pour les documents vidéo (travaux de thèse de Hassen Haddad). Différentes techniques d'indexation de textes et d'images existent, leur utilisation pour les documents vidéo s'avère insuffisante. En effet, un tel document est complexe car il intègre plusieurs média (son, image, texte,...). Dans un contexte de données vidéos, un utilisateur désire généralement manipuler ou retrouver une vidéo selon différentes facettes : 

  • une facette iconique. La vidéo sera représentée par plusieurs images donnant chacune un point d'entrée intéressant pour la vidéo. En indiquant l'une de ces images, l'utilisateur peut visionner la vidéo à partir de ce point d'entrée. 
  • une facette sémantique. L'utilisateur souhaite voir la vidéo ou une partie de vidéo ou` l'on traite d'un ou plusieurs thèmes donnés. Ce thème est complètement abstrait, et donc non apparent dans les images. 
  • une facette de description des objets d'une image. L'utilisateur désire voir une vidéo à partir d'une image ressemblant à une image ou un graphique donné. 
  • une facette de description externe. L'utilisateur souhaite sélectionner un film sur attributs externes (auteur, lieu, musique,...).

Selon l'application visée certaines de ces facettes peuvent ne pas être nécessaires, ou plus ou moins complexes. Le média vidéo étant au départ une séquence d'images associée à une bande son, les données extraites automatiquement doivent être complétées par d'autres informations pour fournir le niveau d'indexation souhaité (description sémantique d'une image, d'une scène et/ou de la vidéo entière). Il faut définir différentes mesures de similarité : notion de similarité iconique (pour les images) et notion de similarité thématique. 
Nous avons adapté le modèle vectoriel de recherche d'informations aux particularités de la vidéo. Nous exploitons l'analogie existant entre les notions de mots-clés d'un texte et images représentatives d'une scène filmée. Le prototype fournit une indexation iconique. Une première phase de détection de plans fournit un découpage structurel du document vidéo (séquence d'images MPEG) en plans et extrait une première série d'images représentatives. La seconde étape consiste à comparer les plans entre eux pour les regrouper en familles de scènes similaires constituant les termes d'indexation de la vidéo. Elle est alors représentée par des images extraites de chaque famille et constitue sa facette iconique. Ce prototype nous permet de mesurer les performances qualitatives des algorithmes utilisés à toutes les phases stratégiques et d'évaluer les meilleures solutions sur une collection test en vraie grandeur.


Etudes théoriques pour la recherche d'informations

Les différents média sont appréhendés d'un point de vue pragmatique pour définir leurs caractéristiques. Parallèlement, nous étudions un modèle théorique de recherche d'informations permettant de modéliser correctement la fonction de correspondance, noyau de tous ces systèmes, dans le cadre très général d'un document multimédia. La définition d'un modèle théorique : modèle logique (basé sur la logique modale floue, la logique terminologique) [ounis94] permet de préciser de façon formelle les paramètres intervenant dans un processus de recherche d'informations, de définir correctement la correspondance entre un document et une requête de l'utilisateur, la reformulation automatique d'une requête (relevance feedback), ainsi que la mesure de pertinence (relevance) associées aux réponses données par le système [denos94b]. 
Dans le domaine de la recherche d'informations, nous devons expérimenter, et donc définir les passages d'un modèle théorique à un modèle opérationnel. C'est pourquoi, la représentation du contenu sémantique ou langage d'indexation de tous ces média s'appuie sur un formalisme de représentation de connaissances unique. 

Modèle Logique
Nous avons défini un modèle général appelé modèle logique; ce modèle a été appliqué jusqu'à présent sur un seul média, en l'occurrence le texte. Il est donc nécéssaire d'intégrer dans ce modèle, les nouveaux média et leur structuration particulière. A ce titre, nous nous intéressons aux documents structurés et composés de différents média (travaux de thèse de F. Fourel [fourel94]). Nous proposons de définir un modèle logique général pour les documents structurés multimédia. Cela implique:

  • d'examiner avec précision les éléments qui entrent en jeu dans la description sémantique des données de chaque média et de les intégrer dans ce modèle. Un intérêt particulier est accordé à la prise en compte du temps pour les médias vidéo et sonore;
  • d'intégrer la sémantique et la structure des documents, en tenant compte des standards existant (ex: la norme SGML);
  • de repenser la recherche de ces documents en tenant compte de leur structure et de leur sémantique.

Valuation de la pertinence en recherche d'informations
La problématique de la valuation de la pertinence s'apparente dans le domaine des bases de données aux bases de données déductives et floues, qui, à une requête imprécise, associent des réponses approximatives et classées par ordre de pertinence. Les systèmes de recherche d'informations réalisent cette même fonction mais dans un contexte particulier :

  • les données ont des complexités proches du monde réel ;
  • l'utilisateur exprime un besoin d'informations qu'il cherche à satisfaire dans le corpus et attend une réponse qui désigne les documents dans toute leur complexité.

La correspondance entre la requête et les documents n'est pas immédiate; en effet, elle doit prendre en compte la sémantique des données et gérer l'incertitude que cela induit. Il existe de fait une différence entre l'information portée par la requête et celle présente dans le document retrouvé par le système. Il faut donc mesurer cette différence grâce à une fonction de valuation et l'utiliser dans le résultat afin de classer les documents par ordre de pertinence. Au cours du temps, de nombreuses fonctions ont été élaborées de manière ad hoc sans justification théorique.
L'objectif de ce travail est d'intégrer la valuation de la pertinence dans le modèle théorique de recherche d'informations manipulant des objets complexes multimédia. (travaux de thèse de N. Denos)

Passage de la théorie à un modèle opérationnel

Nous avons choisi comme modèle de représentation interne, le modèle des Graphes Conceptuels de Sowa [chevallet92a],[chevallet94a]. Le choix des graphes conceptuels est justifié :

  • par son pouvoir d'expression c'est-à-dire ses capacités à exprimer de la sémantique profonde, des connaissances déductives et pragmatiques;
  • par ses rapport étroits avec la logique du premier ordre;
  • par les extensions possibles. Nous participons aux évolutions de ce formalisme dans le cadre des travaux du GDR PRC Intelligence Artificielle du CNRS.

Nous avons montré la faisabilité d'un SRI basé sur le formalisme des Graphes Conceptuels et le modèle logique. L'expérimentation menée (projet ELEN) [chevallet91],[jarwah92a],[jarwah92b] a mis en évidence les difficultés d'indexation profonde des documents techniques. A partir du modèle théorique basé sur la logique modale floue, nous avons instancié la fonction de correspondance par l'opérateur de projection des graphes conceptuels (travaux de Jean-Pierre Chevallet). Nous avons utilisé cet opérateur pour la recherche de logiciels (projet ELEN) et d'images (projet RIME). Pour toutes ces expérimentations, nous avons réalisé une boîte à outils pour graphe conceptuels (écrite en C++) et effectué son intégration dans un SGBD à objets (le SGBD O2 de O2 Technology) 
Nous continuons nos investigations sur les formalismes d'expression du contenu sémantique. En particulier, nous avons comparé le formalisme des graphes conceptuels à celui des logiques terminologiques. Nous avons proposé une sémantique de type dénotationnel au formalisme des graphes conceptuels de Sowa, en s'inspirant de la sémantique des logiques terminologiques. Ce travail nous a permis de mieux cerner les points communs et les différences de ces deux formalismes, pour argumenter objectivement le choix d'un formalisme (travaux de thèse de I. Ounis [ounis95a] ).

 

 
MRIM

Modélisation et Recherche d'Information Multimédia

Contacter le Webmaster