Jeudi 9 Février 2012
Article paru en mai 2007
dans CEA Techno(s) n° 85

Xedix : 100 To de données passées au crible en quelques secondes

Avec Xedix, la base de données XML native développée par le CEA, moins d'une seconde suffit pour retrouver un document dans une base de 100 Téraoctets. Une start-up, Xedix Tera Solutions, est en cours de création pour commercialiser ce produit unique. Les applications sont considérables : multimédia, recherche, télécommunications, avionique...

Retrouver, en quelques secondes à peine, une donnée précise parmi un océan d'informations. C'est le pari fou que s'apprêtent à relever les scientifiques du CEA en lançant les essais sur un système de gestion d'informations ultra performant, en production au CEA pour ses besoins propres. XediX -c'est son nom-, est en cours de tests sur une base de données de 100 To.
Une première au monde. "Les archives de l'Institut National de l'Audiovisuel ne représentent que 85 à 90 To de données, illustre Didier Courtaud. De même, si l'on stockait l'ensemble des événements de la vie d'un homme sous forme électronique, cela représenterait 100 Go environ, soit mille fois moins que la capacité totale de XediX." Les essais, réalisés sur des jeux de test standards composés de données réalistes de plusieurs types, devraient confirmer les succès des essais réalisés en 2003 sur un To et en 2005 sur dix To. "Nous pensons obtenir des temps de réponse inférieurs à la seconde pour la plupart des requêtes."
Cette performance est rendue possible grâce à une méthode de stockage et d'indexation des informations ultra-performante. Le système stocke et indexe toutes les données en XML (Extended Markup Language), langage de description indépendant des logiciels de bureautique et de leurs incessantes évolutions. Quant aux fichiers images ou vidéo, ils sont stockés dans la base et répertoriés en XML sous forme de métadonnées décrivant le sujet, la date de tournage, les personnages ou tout autre critère fixé par le gestionnaire de la base.
L'indexation des données est, de plus, ?intelligente". ?Contrairement aux moteurs de recherche classiques, Xedix repère dans quelle balise se trouve la ou les chaînes de caractères que l'on recherche. Il est ainsi possible de préciser la demande en ajoutant autant de critères que nécessaire." L'interrogation de la base peut se faire à partir d'un navigateur classique, ou d'une interface personnalisée et développée dans le langage choisi (java,php ...). Des collaborations dans le cadre du Pôle de Compétitivité System@tic ont d'ores et déjà permis de valider l'outil sur d'autres applications. Une start-up, Xedix Tera Solutions, est en création pour le commercialiser.
Avec de tels atouts, la future jeune pousse est promise à un bel avenir. Déjà, les secteurs de l'archivage et des médiathèques, de l'automobile, des télécommunications, ainsi que les communautés de recherche (projets européens, projets recherche-industrie) et le milieu de l'information scientifique et technique, se sont montrés intéressés par son produit.




XediX est capable de gérer 100 To de données. A titre de comparaison, les archives de l'Institut National de l'Audiovisuel représentent 85 à 90 To.