Jeudi 9 Février 2012
Article paru en novembre 2004
dans CEA Techno(s) n° 73

NewPhenix, ou l'art de trouver une image parmi 500 000

Jusqu'ici, pour trouver une image en ligne parmi des centaines de milliers, il fallait des heures. Grâce au transfert d'une nouvelle technologie du CEA/LIST, la start-up NewPhenix commercialise un module de recherche par similarité permettant une recherche rapide, ciblée et interactive. Il est déjà utilisé par un des leaders de la vente en ligne de contenus visuels.

Peut-on décrire une image rien qu'avec des mots ? Hélas non  C'est ce qui rend si laborieuse la recherche d'images en ligne, sur des sites au choix étendu - des centaines de milliers de visuels - mais aux moteurs de recherche limités. Entrez par exemple "montagne", "soleil", "forêt", et vous verrez affluer des centaines, voire des milliers de propositions  Ceci parce qu'aucun descripteur textuel ne peut être objectif, et que les auteurs des clichés, invités à fournir ces mots-clés, en multiplient le nombre dans l'espoir de mieux vendre leurs travaux !
Pour sortir de cette impasse, le LIST et NewPhenix ont développé des descripteurs qui s'appuient sur des critères objectifs : les couleurs, les textures (répétition de mêmes motifs) et les formes de l'image. Chaque visuel est examiné globalement et localement (découpage en 25 sections) selon ces critères. Les logiciels d'analyse d'images qui en découlent sont capables d'indexer 500 000 images en 30 heures.
L'outil de recherche associé permet ensuite de travailler vite et bien. A l'utilisateur qui saisit "montagne", "soleil", ?forêt", il pro­pose d'abord une trentaine d'images très différentes. L'utilisateur sélectionne celle qui ressemble le plus à ce qu'il cherche ; l'outil lance alors sur l'ensemble de la base une recherche par similarité visuelle, sur ces critères de couleurs, de textures et de formes, et propose les images les plus ressemblantes. Il faut 1 à 2 secondes pour balayer une base de 500 000 images !
"Notre premier client est GraphicObsession, un des leaders européens de la vente de contenus visuels : images libres de droits, illustrations, polices de caractères et séquences vidéo. Dans leur métier, la qualité et la rapidité de recherche sont des atouts majeurs, précise Joël Huberson, directeur général de NewPhenix. Le produit intéresse aussi les agences photo, les agences de presse, les musées, ainsi que les directions de la communication de grands groupes"
Grâce à ses liens étroits avec le CEA/LIST où 20 chercheurs travaillent à plein temps sur ce domaine, NewPhenix négocie un programme commun de R&D et entrevoit déjà les évolutions de son produit. Ainsi, la start-up teste un système d'indexation textuelle semi-automatique, basé sur l'utilisation combinée du module de recherche par similarité et de bibliothèques d'images références pré-indexées par des experts.
Autres voies, sur lesquelles planchent les chercheurs du LIST : des outils d'indexation textuelle plus puissants, multilingues (8 langues), et des outils d'analyse linguistique et sémantique permettant des requêtes en langage naturel. ?La clé de nos technologies, c'est le traitement simultané du texte et de l'image, souligne Christian Fluhr, qui pilote ces recherches au LIST. En intégrant peu à peu l'un et l'autre, nous réaliserons des recherches d'images de plus en plus pertinentes et productives, quelle que soit la taille de la base."




FORME : Malgré leur forme établie et constante, les huit arbustes pyramidaux possèdent une variabilité suffisante de taille et d'inclinaison pour pouvoir être isolés un à un.