Au-delà de la séquence : la feuille de route du biologiste pour l’analyse des données épigénomiques
par Amin Noorani
Naviguer dans les données épigénomiques peut s’avérer difficile pour les biologistes sans formation en informatique. Cet article simplifie la transition entre les données brutes et les résultats exploitables, en éclairant chaque étape, du contrôle qualité à la visualisation.
Au-delà de la séquence : la feuille de route du biologiste pour l’analyse des données épigénomiques
Dans le monde dynamique de la biologie moléculaire, les données épigénomiques représentent un puissant prisme permettant d’observer la régulation génique au-delà de la séquence d’ADN primaire.1 Pour les biologistes dépourvus de formation informatique poussée, la transition entre les fichiers de séquençage bruts et les analyses biologiquement pertinentes peut sembler inaccessible. Cet article propose un guide complet pour l’analyse des données épigénomiques, en détaillant les étapes essentielles du contrôle qualité à la visualisation. En comprenant ces analyses, les scientifiques de paillasse peuvent extraire un sens plus profond de leurs expériences et contribuer plus efficacement à notre compréhension de l’accessibilité de la chromatine, des modifications des histones et des profils de méthylation de l’ADN qui façonnent l’identité et la fonction cellulaire.
Introduction : Comprendre les formats de données épigénomiques
Les expériences épigénomiques génèrent d’importants volumes de données de séquençage qui capturent l’architecture régulatrice du génome. Avant de plonger dans l’analyse, il est essentiel de comprendre les formats de fichiers que vous allez rencontrer :
- Fichiers FASTQ : Ils contiennent les lectures brutes de séquençage avec des scores de qualité pour chaque base. Ils sont volumineux (10 à 50 Go par échantillon) et comprennent quatre lignes par séquence : un entête avec l’identifiant de la séquence, la séquence nucléotidique, une ligne de séparation, les scores de qualité sous forme de charactères ASCII. Ces fichiers requièrent beaucoup d’espace de stockage et sont souvent compressés avec gzip pour gagner de la place. Ils contiennent toutes les données délivrées par le séquenceur, sans aucun filtre ou information de mapping.
- Fichiers BAM : Après l’alignement sur un génome de référence, les données sont converties au format BAM, qui indique la position de chaque lecture séquencée. Les fichiers BAM sont la version binaire des fichiers SAM (Sequence Alignment Map) et ont généralement une taille comprise entre 5 et 20 Go par échantillon. Ils contiennent des informations détaillées sur l’alignement de chaque lecture sur le génome, telles que la position chromosomique, la qualité d’alignement (mapping quality), les mésappariements (mismatches), ainsi que les informations sur les lectures appariées (paired-end). Les fichiers BAM sont indexés (générant un fichier .bai associé) afin de permettre un accès rapide à des régions spécifiques du génome, sans avoir à charger l’intégralité du fichier en mémoire.
- Fichiers BED : Ces fichiers texte simplifiés contiennent des coordonnées génomiques et sont couramment utilisés pour représenter des régions d’intérêt, telles que des pics ou des sites de liaison. Les fichiers BED sont beaucoup plus légers (souvent de l’ordre de quelques mégaoctets) et comportent au minimum trois colonnes : le chromosome, la position de début et la position de fin. Ils peuvent également inclure des colonnes supplémentaires optionnelles, fournissant des informations telles que des noms, des scores ou l’orientation du brin. Leur simplicité en fait un format idéal pour l’échange de données entre différents outils et pour l’annotation génomique.
- Fichiers bigWig : Ce sont des fichiers binaires compressés et indexés qui représentent des données continues le long du génome, telles que la profondeur de couverture ou l’intensité d’un signal. Les fichiers BigWig permettent de stocker efficacement des valeurs numériques associées à des intervalles génomiques, avec une taille généralement comprise entre 50 Mo et plusieurs Go selon la taille du génome et la résolution des données. Contrairement aux fichiers BED qui décrivent des régions discrètes, les fichiers BigWig représentent des signaux continus, ce qui les rend particulièrement adaptés à la visualisation de la couverture, des scores de conservation ou de l’intensité d’un signal. Grâce à leur structure indexée, les navigateurs génomiques peuvent charger rapidement uniquement les portions nécessaires à l’affichage, ce qui les rend bien plus efficaces que l’utilisation directe des données d’alignement brutes.
Informatique haute performance : compétences essentielles pour la Big data
L’analyse des données épigénomiques nécessite des ressources informatiques bien supérieures à celles d’un ordinateur portable standard. Voici ce qu’il faut savoir :
- Compétences de base en ligne de commande : Il est nécessaire de savoir naviguer dans les dossiers, gérer les fichiers et exécuter des programmes via des commandes du terminal. Pas besoin de mémoriser toutes les commandes, comprendre la structure de base et savoir comment consulter la documentation d’aide est suffisant.
- Systèmes de soumission de tâches : La plupart des instituts de recherche utilisent des gestionnaires de ressources comme SLURM ou SGE. Apprendre quelques commandes types pour soumettre des jobs et vérifier leur statut vous sera très utile.
- Transfert de données : Savoir transférer des fichiers entre votre ordinateur et les clusters informatiques avec des outils comme scp est essentiel.
- Allocation de ressources : Comprendre comment demander la mémoire et le nombre de processeurs adaptés permet d’éviter les échecs de tâches et d’utiliser efficacement les ressources partagées.
Vous n’avez pas besoin d’être un expert en informatique ; de nombreux bioinformaticiens ont commencé en tant que chercheurs en laboratoire. Concentrez-vous d’abord sur l’apprentissage des bases nécessaires pour naviguer dans l’environnement informatique et utiliser des outils établis, puis progressez progressivement à partir de là.
Contrôle de la qualité : assurer des résultats fiables
Tout comme on ne ferait pas confiance à une expérience avec des réactifs contaminés, il ne faut pas commencer une analyse sans vérifier la qualité des données :
- FastQC analyse vos données de séquençage brutes et génère des rapports mettant en évidence des problèmes potentiels, tels que la contamination par des adaptateurs ou une mauvaise qualité de séquençage. C’est comparable à une validation avant l’expérience.
- MultiQC agrège les rapports de plusieurs échantillons, ce qui vous permet de comparer facilement les métriques de qualité à travers toute votre expérience — comme examiner tous vos réplicats biologiques simultanément.
- Principaux indicateurs à surveiller : les scores de qualité des bases (idéalement > 30), les niveaux de duplication des séquences (une duplication excessive peut indiquer un biais PCR), et la distribution de la teneur en GC (qui devrait suivre une distribution normale pour la plupart des génomes).
Examiner ces paramètres avant de continuer l’analyse permet de sauver du temps et prévient la formulation de conclusion sur des données corrompues.
Alignement Mapper les lectures sur le génome
L’alignement est le processus permettant de déterminer l’origine de vos lectures de séquençage dans le génome de référence :
- BWA2 et Bowtie23 sont couramment utilisés pour les données ChIP-seq et ATAC-seq. Ils sont optimisés pour des lectures courtes et fonctionnent bien pour la plupart des applications épigénomiques.
- STAR4 est performant pour l’alignement de données RNA-seq et particulièrement utile pour travailler sur des transcriptomes.
- Kallisto5 et Salmon6: ces outils, appelés pseudo-aligners, estiment rapidement l’abondance des transcrits en associant les lectures à leurs origines potentielles sans effectuer un alignement complet sur le génome. Ces méthodes sont très efficaces sur le plan computationnel, idéales pour des analyses rapides ou des projets avec des ressources limitées.
- Génomes de référence : hg38 (humain) et mm10 (souris) sont les références standard actuelles. Utiliser des versions plus anciennes peut compliquer la comparaison avec des jeux de données publiés
Considérez l’alignement comme le fait d’associer des observations expérimentales à leur contexte précis, un peu comme identifier la partie exacte d’une voie de signalisation avec laquelle votre protéine interagit.
Détection de pics (Peak Calling) : Identifier les régions d’intérêt
Les algorithmes de peak calling permettent d’identifier les régions génomiques où le signal (comme les modifications d’histones ou la liaison de facteurs de transcription) se distingue nettement du bruit de fond :
- MACS27 est un outil polyvalent qui fonctionne bien pour la majorité des expériences ChIP-seq et ATAC-seq. Il modélise dynamiquement le bruit de fond et prend en compte les biais locaux.
- SEACR8 est optimisé pour les expériences CUT&RUN et CUT&Tag, qui présentent un bruit de fond très faible.
- GoPeaks9 est similaire à SEACR, mais offre de meilleures performances pour les marques épigénétiques larges (broad marks) et pour les nouvelles méthodes comme CUT&RUN et CUT&Tag.
- Homer10 propose des fonctionnalités supplémentaires, telles que la recherche de motifs (motif discovery), intégrée à la détection de pics.
Le choix du logiciel de peak calling doit être adapté au type d’expérience, tout comme on choisit des anticorps différents pour un Western blot ou une immunoprécipitation.
Pipelines : des flux de travail standardisés pour plus de cohérence
Les pipelines établis regroupent plusieurs outils dans des flux de travail standardisés, garantissant la reproductibilité. Il suffit généralement d’apporter les fichiers FASTQ des échantillons, des contrôles et un génome de référence :
- Les pipelines ChIP-seq et ATAC-seq d’ENCODE11 suivent des critères de qualité rigoureux et constitue la référence dans le domaine.
- nf-core12 propose des pipelines basés sur Nextflow pour divers protocoles épigénomiques, compatibles avec différents environnements de calcul et nécessitant peu de configuration.
- HiC-Pro13 est spécifiquement conçu pour l’analyse des données de capture de conformation chromosomique (Hi-C), en extrayant les fréquences d’interaction entre loci génomiques.
Utiliser des pipelines approuvés revient à suivre des protocoles optimisés par les meilleurs laboratoires : cela intègre les bonnes pratiques du domaine et vous évite de repartir de zéro.
Analyse en aval : des pics aux interprétations biologiques
Une fois les régions d’intérêt identifiées, l’étape suivante consiste à interpréter leur signification biologique :
- DiffBind14 (package R) est spécialisé dans l’analyse de liaison différentielle entre conditions expérimentales. Il permet d’identifier les régions dont l’occupation varie selon les groupes.
- GREAT15 (outil web) associe les pics aux gènes cibles potentiels et fournit une analyse d’enrichissement fonctionnel via une interface intuitive en ligne.
- ChIPseeker16 (package R) annote les pics par rapport aux éléments génomiques (promoteurs, exons, introns), ce qui aide à identifier des schémas de distribution dans les régions de liaison.
- HOMER (outil en ligne de commande) permet l’analyse d’enrichissement en motifs, afin d’identifier les sites de liaison de facteurs de transcription au sein des pics.
- Les outils d’analyse de voies biologiques tels que Enrichr17 (outil en ligne), DAVID (outil en ligne), ou g:Profiler (outil ne ligne/package R) permettent de relier vos résultats épigénomiques à des processus biologiques ou à des voies de signalisation.
Cette étape transforme des coordonnées génomiques brutes en hypothèses biologiques testables — comme l’identification des partenaires d’interaction d’une protéine éclaire sa fonction cellulaire.
Visualisation : donner du sens à vos données
La visualisation permet de transformer des données complexes en informations interprétables :
- IGV (Integrative Genomics Viewer)18 vous permet d’examiner localement des régions génomiques spécifiques sur votre ordinateur, avec un zoom possible sur les gènes d’intérêt.
- Le navigateur UCSC Genome Browser19 propose une visualisation en ligne, avec la possibilité d’intégrer des jeux de données publics et des annotations génomiques.
- deepTools20 génère des cartes de chaleur (heatmaps) et des profils moyens pour résumer les motifs observés à travers plusieurs régions génomiques ou échantillons.
Une bonne visualisation est essentielle à la fois pour l’analyse et la communication des résultats — tout comme une figure bien conçue permet de comprendre rapidement des résultats expérimentaux complexes.
Conclusion : des données à la découverte
L’analyse des données épigénomiques ne nécessite pas de devenir un expert en bioinformatique. En comprenant les étapes fondamentales — contrôle qualité, alignement, détection de pics, visualisation et analyse en aval — les biologistes de paillasse peuvent interpréter leurs résultats avec confiance et collaborer efficacement avec les spécialistes en analyse computationnelle. À l’image d’une nouvelle technique expérimentale, la maîtrise de ces outils informatiques demande de la pratique, mais elle renforce considérablement votre capacité à extraire du sens biologique à partir de jeux de données complexes. Les compétences présentées dans ce guide constituent une base solide pour explorer les régulations qui gouvernent l’expression génique et l’identité cellulaire.
References:
- CAZALY, E. et al. Making Sense of the Epigenome Using Data Integration Approaches. Frontiers in Pharmacology, v. 10, 2019-February-19 2019. ISSN 1663-9812. Disponível em: <https://www.frontiersin.org/journals/pharmacology/articles/10.3389/fphar.2019.00126>
- LI, H.; DURBIN, R. Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics, v. 25, n. 14, p. 1754-60, Jul 15 2009. ISSN 1367-4803 (Print) .
- LANGMEAD, B.; SALZBERG, S. L. Fast gapped-read alignment with Bowtie 2. Nat Methods, v. 9, n. 4, p. 357-9, Mar 04 2012. ISSN 1548-7105. Disponível em: < https://www.ncbi.nlm.nih.gov/pubmed/22388286 >.
- DOBIN, A. et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics, v. 29, n. 1, p. 15-21, Jan 01 2013. ISSN 1367-4811. Disponível em: < https://www.ncbi.nlm.nih.gov/pubmed/23104886 >.
- BRAY, N. L. et al. Near-optimal probabilistic RNA-seq quantification. Nat Biotechnol, v. 34, n. 5, p. 525-7, May 2016. ISSN 1546-1696. Disponível em: < https://www.ncbi.nlm.nih.gov/pubmed/27043002 >.
- PATRO, R. et al. Salmon provides fast and bias-aware quantification of transcript expression. Nat Methods, v. 14, n. 4, p. 417-419, Apr 2017. ISSN 1548-7105. Disponível em: < https://www.ncbi.nlm.nih.gov/pubmed/28263959 >.
- ZHANG, Y. et al. Model-based analysis of ChIP-Seq (MACS). Genome Biol, v. 9, n. 9, p. R137, 2008. ISSN 1474-760X. Disponível em: < https://www.ncbi.nlm.nih.gov/pubmed/18798982 >.
- MEERS, M. P.; TENENBAUM, D.; HENIKOFF, S. Peak calling by Sparse Enrichment Analysis for CUT&RUN chromatin profiling. Epigenetics Chromatin, v. 12, n. 1, p. 42, Jul 12 2019. ISSN 1756-8935. Disponível em: < https://www.ncbi.nlm.nih.gov/pubmed/31300027 >.
- YASHAR, W. M. et al. GoPeaks: histone modification peak calling for CUT&Tag. Genome Biology, v. 23, n. 1, p. 144, 2022/07/04 2022. ISSN 1474-760X. Disponível em: < https://doi.org/10.1186/s13059-022-02707-w >.
- HEINZ, S. et al. Simple Combinations of Lineage-Determining Transcription Factors Prime cis-Regulatory Elements Required for Macrophage and B Cell Identities. Molecular Cell, v. 38, n. 4, p. 576-589, 2010/05/28/ 2010. ISSN 1097-2765. Disponível em: < https://www.sciencedirect.com/science/article/pii/S1097276510003667 >.
- HITZ, B. C. et al. The ENCODE Uniform Analysis Pipelines. bioRxiv, Apr 6 2023. ISSN 2692-8205.
- EWELS, P. A. et al. The nf-core framework for community-curated bioinformatics pipelines. Nature Biotechnology, v. 38, n. 3, p. 276-278, 2020/03/01 2020. ISSN 1546-1696. Disponível em: < https://doi.org/10.1038/s41587-020-0439-x >.
- SERVANT, N. et al. HiC-Pro: an optimized and flexible pipeline for Hi-C data processing. Genome Biology, v. 16, n. 1, p. 259, 2015/12/01 2015. ISSN 1474-760X. Disponível em: < https://doi.org/10.1186/s13059-015-0831-x >.
- ROSS-INNES, C. S. et al. Differential oestrogen receptor binding is associated with clinical outcome in breast cancer. Nature, v. 481, n. 7381, p. 389-93, Jan 04 2012. ISSN 1476-4687. Disponível em: < https://www.ncbi.nlm.nih.gov/pubmed/22217937 >.
- MCLEAN, C. Y. et al. GREAT improves functional interpretation of cis-regulatory regions. Nat Biotechnol, v. 28, n. 5, p. 495-501, May 2010. ISSN 1087-0156 (Print)
- YU, G.; WANG, L.-G.; HE, Q.-Y. ChIPseeker: an R/Bioconductor package for ChIP peak annotation, comparison and visualization. Bioinformatics, v. 31, n. 14, p. 2382-2383, 2015. ISSN 1367-4803. Disponível em: < https://doi.org/10.1093/bioinformatics/btv145 >
- KULESHOV, M. V. et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research, v. 44, n. W1, p. W90-W97, 2016. ISSN 0305-1048. Disponível em: < https://doi.org/10.1093/nar/gkw377 >. Acesso em: 2/25/2025.
- ROBINSON, J. T. et al. Integrative genomics viewer. In: (Ed.). Nat Biotechnol. United States, v.29, 2011. p.24-6. ISBN 1546-1696 (Electronic)
- KAROLCHIK, D.; HINRICHS, A. S.; KENT, W. J. The UCSC Genome Browser. Curr Protoc Bioinformatics, v. Chapter 1, p. Unit1.4, Dec 2009. ISSN 1934-3396 (Print)
- RAMÍREZ, F. et al. deepTools2: a next generation web server for deep-sequencing data analysis. Nucleic Acids Research, v. 44, n. W1, p. W160-W165, 2016. ISSN 0305-1048. Disponível em: < https://doi.org/10.1093/nar/gkw257 >. Acesso em: 2/25/2025.
Learn more:
- “Epigenomics Data Analysis: from Bulk to Single Cell” - Click Here
- “Intro to ChIPseq using HPC” – Click Here
- “best practices for the analysis of high-throughput sequencing data from gene expression (RNA-seq) studies” – Click Here