Passer au contenu

Un logiciel pour unifier les données sur le génome

Avec le DAS (Distributed Annotation System), nouveau système de partage des données génomiques sur Internet, les généticiens disposent enfin d’un accès rapide et sans restriction à toutes les informations disponibles.

Des connaissances éparses et morcelées

Tout est parti de cette interrogation : comment exploiter les résultats des divers groupes de recherche, alors que chacun d’entre eux annote les séquences d’ADN à sa manière, sans concertation ? “Les outils utilisés pour l’analyse, les modèles de données et les méthodes de visualisation étant multiples, il était évident que cette diversité diminuait la valeur de notre travail”, explique Lincoln D. Stein, chercheur en informatique au laboratoire new-yorkais Cold Spring Harbor, à l’origine du projet DAS. Les problèmes rencontrés découlaient du morcellement des connaissances. Au lieu de partager la même source et le même mode d’annotation, les chercheurs devaient consulter tous les sites Internet possédant des informations sur les séquences qui les intéressaient. Ils téléchargeaient donc les données sous différents formats, puis ils les intégraient eux-mêmes de façon manuelle pour déterminer l’état d’avancement des recherches en cours.

Des premières solutions encore incomplètes

Pour résoudre le problème, plusieurs approches ont été proposées. La première visait à centraliser les annotations des chercheurs dans des bases de données. Mais, lorsque des milliers de laboratoires communiquent sans cesse avec les mêmes bases, la congestion des accès est inévitable. La solution a pourtant été retenue par la base de données GenBank. La seconde consistait à privilégier les bases centralisées, dont les données génomiques étaient échangeables au moyen de liens Internet. Telle est la solution mise en place par le système NCBI LinkOut. Mais, si celui-ci se révèle pratique pour la collecte des informations, il ne permet pas d’en harmoniser le traitement.

Un partage du savoir sur le modèle Napster

La troisième approche, proposée par Lincoln D. Stein, a conduit à la création du logiciel DAS (Distributed Annotation System). Celui-ci fonctionne sur le même principe que Napster, un logiciel gratuit, téléchargeable sur Internet, qui permet aux internautes connectés d’échanger les morceaux de musique MP3 disponibles sur leurs disques durs respectifs. Et ce par l’intermédiaire d’un ordinateur central jouant le rôle de serveur. L’immense intérêt du système est que la recherche des adresses des fichiers MP3 n’est pas effectuée par les utilisateurs, mais par le serveur. A partir de ce modèle, Lincoln D. Stein a créé le DAS, un logiciel qui permet aux chercheurs de faire des requêtes spécifiques pour telle ou telle zone de la molécule d’ADN. Le logiciel interroge les serveurs d’annotations pour identifier la zone, définie par un point de départ et une longueur, par un point de départ et un point d’arrivée, ou bien par une série d’éléments composant le début de la séquence. Les résultats sont présentés dans un format graphique standard ou sous forme de feuille de tableur. Peu importe qu’il y ait des contradictions entre les différents résultats. Ils sont tous présentés au chercheur qui les demande et rien n’est fait a priori pour les modifier, ce qui permet de comparer les informations de façon exhaustive.

Vers un outil commun à tous les chercheurs

Désormais, la clé de la réussite du projet réside dans l’adoption par tous du même format standard pour décrire les séquences. “Presque tous les standards existants peuvent convenir, précise Lincoln D. Stein, mais mieux vaut respecter certains impératifs.” Les scientifiques sont en train de les définir. En attendant, plusieurs laboratoires ont d’ores et déjà commencé à utiliser le logiciel : l’université Washington de Saint-Louis, aux Etats-Unis, l’Institut de bio-informatique européen, le laboratoire américain d’Oak Ridge, la société Incyte Genomics… La voie est ouverte.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


David Groison