L’indexation des données brutes de séquençage pour mieux déchiffrer le vivant

vendredi 1 mars 2024

Atmosphère /

Figure 1. Carte de la répartition biogéographique des séquences partageant les k-mers contenus dans la séquence du gène appelé nifH de l’espèce Pseudodesulfovibrio profundus.© Institut Méditerranéen d'Océanologie (MIO)

Les grands projets de séquençage sont fondamentaux pour mieux comprendre le vivant dans différents domaines (santé, agronomie, écologie). Les avancées technologiques ont permis d’atteindre une taille considérable de données brutes de séquençage (lectures de séquences). Le service européen « European Nucleotide Archive » contient actuellement près de 50 Petaoctets de données brutes publiques.

Une équipe de chercheurs du CNRS Terre & Univers, en collaboration avec plusieurs laboratoires de recherche, a utilisé des k-mers (mots de taille k) pour créer une notion de mot dans les données brutes de séquençage. Cette solution d’indexation a ainsi permis d’interroger plusieurs dizaines de téraoctets de données de séquence issues du projet Tara Oceans. Le serveur web public Ocean Read Atlas (ORA), développé pour ce propos, permet d’interroger directement plusieurs jeux de données du consortium Tara Oceans prélevés sur tous les océans du globe. À l’aide d’une ou plusieurs séquences, il est possible d’identifier la présence de séquences similaires sous forme de carte et de graphique interactifs (voir figure 1) dans les stations de prélèvement en fonction de leurs propriétés environnementales (température, salinité, oxygène, etc.).

Auparavant, une requête de 1000 séquences nécessitait plusieurs semaines de calculs sur des supercalculateurs, la réponse est désormais instantanée avec ORA sans compresser la structure des données. Cette étude ouvre ainsi de nouvelles perspectives dans le domaine de la génomique et l’écologie numérique grâce à l’accès et l’exploitation des dizaines de téraoctets de données génétiques. Ce modèle d’indexation de données de séquençage sera utilisé pour les campagnes océanographiques BioSWOT-Med et APERO.

Source : https://www.insu.cnrs.fr/fr/cnrsinfo/lindexation-des-donnees-brutes-de-sequencage-pour-mieux-dechiffrer-le-vivant

Laboratoire CNRS Terre & Univers impliqué :

Institut Méditerranéen d’Océanologie (MIO – PYTHEAS)
Tutelles : CNRS / IRD / Aix-Marseille Université / Université de Toulon

Autres :

Génomique Métabolique (GM)

Tutelles : CNRS / CEA / Université d’Évry Val d’Essonne

Institut de recherche en informatique et systèmes aléatoires (IRISA)

Tutelles : CNRS / Université de Rennes

G5 Sequence Bioinformatics

Tutelles : Institut Pasteur / Université Paris Cité

Téo Lemane, Nolan Lezzoche, Julien Lecubin, Eric Pelletier, Magali Lescot, Rayan Chikhi, and Pierre Peterlongo. Indexing and real-time user-friendly queries in terabyte-sized complex genomic datasets with kmindex and ORA. Nature Computational Science. https://doi.org/10.1038/s43588-024-00596-6

Nos dernières actualités

Règles d’utilisation des images, des vidéos, des textes Web et de la musique de l’OSU (cliquez-ici). Abonnez-vous à la lettre d’information de l’OSU pour ne rien rater de nos actualités !

Magali Lescot, Ingénieure de recherche MIO

Cyrille Blanpain, Responsable du Service Informatique de l’OSU Pythéas

L’indexation des données brutes de séquençage pour mieux déchiffrer le vivant

Nos dernières actualités

L’âge du carbone des sols corrigé pour estimer sa vraie dynamique

Une approche concertée pour l’accès durable aux infrastructures de recherche européennes

BIOLUMOPS : des planeurs sous-marins pour cartographier la bioluminescence en Méditerranée

Comment les émissions des véhicules à essence se transforment en particules respirables

Le grille-pain, les particules atmosphériques et un nombre qui donne le tournis

Laboratoires impliqués

Pour en savoir plus

Nos dernières actualités

L’âge du carbone des sols corrigé pour estimer sa vraie dynamique

Une approche concertée pour l’accès durable aux infrastructures de recherche européennes

BIOLUMOPS : des planeurs sous-marins pour cartographier la bioluminescence en Méditerranée

Comment les émissions des véhicules à essence se transforment en particules respirables

Le grille-pain, les particules atmosphériques et un nombre qui donne le tournis

Contacts