Informations

4DGenome ou une autre base de données complète des interactions de la chromatine

4DGenome ou une autre base de données complète des interactions de la chromatine


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Je recherche la source la plus complète d'interactions de la chromatine pour prendre en charge les cibles d'amélioration (données telles que Hi-C, ChIA-PET, IM-PET, 5C, 4C, 3C, etc.) et ma question selon qui pourrait être divisée en deux parties suivantes :

  1. Sur la page http://epigenie.com/epigenetic-tools-and-databases/ j'ai trouvé des liens vers deux bases de données, mais la référence à 4D Genome ne fonctionne pas. Est-ce que quelqu'un sait si cette base de données http://4dgenome.int-med.uiowa.edu a été déplacée ailleurs ou si elle est uniquement disponible en interne pour la communauté U Iowa ? (Je demande un accès probablement exclusif, car sur la page du laboratoire de Tan http://www.healthcare.uiowa.edu/labs/tan/software.html seul le 4DGenome a la partie de fin du lien int-med.uiowa.edu (probablement ce int-med pour la médecine interne/générale ou peut-être dans le sens de l'accès interne/intranet), alors que tous les autres services comme IM-PET ont leur lien à partir de http://www.healthcare.uiowa.edu/labs/tan/.

  2. Peut-être connaissez-vous une base de données encore meilleure pour les interactions de la chromatine couvrant autant que possible les lignées cellulaires/types de tissus pour l'assemblage GRCh38 ou tout autre dont les coordonnées pourraient être facilement converties, par ex. par liftOver? J'ai besoin de données uniquement pour l'homme et la souris, mais je serais également reconnaissant pour les données uniquement humaines.

Merci d'avance pour votre réponse.


Ce problème a finalement été résolu avec l'aide du prof. Kai Tan. Il est arrivé que son laboratoire ait été transféré de l'Université de l'Iowa à l'Hôpital pour enfants de Philadelphie, tout comme ce service. Maintenant, le lien de travail est : http://4dgenome.research.chop.edu


Recherche en ligne sur l'Iowa

Les amplificateurs de transcription représentent la base principale de l'expression différentielle des gènes. Ces éléments régulent la spécificité, le développement et l'évolution du type cellulaire, de nombreuses maladies humaines résultant d'une activité d'amplificateur altérée. À ce jour, une lacune clé dans nos connaissances est de savoir comment les amplificateurs sélectionnent des promoteurs spécifiques pour l'activation.

Pour combler cette lacune, dans cette thèse, j'ai d'abord développé une Méthode Intégrée de Prédiction des Cibles Enhancer (IM-PET). En tirant parti d'abondantes données « omiques », j'ai conçu et caractérisé plusieurs caractéristiques génomiques pour distinguer les véritables paires amplificateur-promoteur (EP) des paires sans interaction. J'ai intégré ces caractéristiques dans un prédicteur probabiliste des interactions EP. De multiples expériences de validation ont démontré une amélioration significative par rapport aux approches de pointe. Des analyses systématiques des interactions EP à travers douze types de cellules humaines révèlent des caractéristiques globales des interactions EP.

Deuxièmement, nous avons utilisé un modèle d'infection virale bien établi pour cartographier les changements dynamiques des amplificateurs et des super-amplificateurs au cours des réponses des lymphocytes T CD8+. Notre analyse a illustré la complexité et la dynamique de l'interactome EP sous-jacent au cours de la différenciation cellulaire. Profitant des interactions EP prédites, nous avons construit des réseaux de régulation transcriptionnelle spécifiques au stade, ce qui est essentiel pour comprendre le mécanisme de régulation au cours de la différenciation des cellules T CD8+.

Troisièmement, les progrès récents dans les technologies de cartographie pour les interactions de la chromatine ont conduit à une augmentation rapide de ce type de données d'interaction. Cependant, il manque un dépositaire complet pour les interactions de la chromatine identifiées par toutes les technologies majeures. Pour résoudre ce problème, nous avons développé la base de données 4DGenome grâce à une curation complète de la littérature des interactions dérivées expérimentalement. Nous prévoyons qu'un large éventail d'enquêtes bénéficieront de cette base de données soigneusement organisée.

Résumé public

Les activateurs de transcription sont sans doute la classe la plus importante d'éléments régulateurs non codants dans notre génome. Ces éléments régulent la spécificité, le développement et l'évolution du type cellulaire, de nombreuses maladies humaines résultant d'une activité d'amplificateur altérée. À ce jour, une lacune clé dans nos connaissances est de savoir comment les amplificateurs sélectionnent des promoteurs spécifiques pour l'activation.

Pour combler cette lacune, j'ai d'abord développé une méthode intégrée pour prédire les cibles d'amélioration (IM-PET), un outil d'intégration de données pour identifier les paires EP. En capitalisant sur la richesse des données ENCODE disponibles, j'ai conçu plusieurs caractéristiques génomiques et les ai intégrées de manière probabiliste pour faire des prédictions robustes des paires EP. J'ai appliqué l'algorithme IM-PET pour générer un catalogue complet de l'interactome EP sur plusieurs types de cellules humaines et révélé les caractéristiques globales des interactions EP.

Deuxièmement, j'ai appliqué nos outils pour explorer les interactomes EP de trois étapes au cours de la différenciation des cellules CD8 + T. L'analyse a illustré la complexité et la dynamique de l'interactome EP sous-jacent au cours de la différenciation cellulaire. Profitant des interactions EP prédites, nous avons construit les réseaux de régulation transcriptionnelle, ce qui est essentiel pour comprendre le mécanisme de régulation au cours de la différenciation des cellules CD8 + T.

Enfin, j'ai développé le 4DGénome base de données, un référentiel général pour les interactions de la chromatine. Un dépôt complet pour les interactions de la chromatine aidera à l'annotation des paires EP et facilitera l'étude des relations structure/fonction du génome.

Mots clés

résumé public, cellule CD8 T, interaction chromatine, biologie computationnelle, base de données, activateur, régulation transcriptionnelle


4DGenome ou une autre base de données complète des interactions de la chromatine - Biologie

Une collection (mise à jour en permanence) de références aux données Hi-C. Données Hi-C à prédominance humaine/souris, avec réplicats. S'il vous plaît, contribuez et contactez-nous! Voir les notes MDmisc pour d'autres notes relatives à la programmation et à la génomique.

3DIV - base de données de 315 ensembles de données Hi-C traités uniformément, 80 types de cellules/tissus humains. Visualisation centrée sur les appâts (SNP rsID, nom du gène, coordonnées hg19) des interactions à longue portée dans le contexte des signaux épigénomiques (histone, activateurs), résultats numériques. Pipeline BWA-MEM personnalisé, Bias, effet de distance supprimé. Les coordonnées des interactions significatives, avec des annotations, sont disponibles en téléchargement (FTP), http://kobic.kr/3div/download

  • Yang, Dongchan, Insu Jang, Jinhyuk Choi, Min-Seo Kim, Andrew J Lee, Hyunwoong Kim, Junghyun Eom, Dongsup Kim, Inkyung Jung et Byungwook Lee. « 3DIV : une visionneuse et une base de données d'interactions 3D-génome. » Nucleic Acids Research 46, no. D1 (4 janvier 2018)

Ressource chorogénome : données traitées (Hi-C, ChIP-seq) pour la drosophile, la souris, l'humain, http://chorogenome.ie-freiburg.mpg.de/

  • Ramírez, Fidel, Vivek Bhardwaj, Laura Arrigoni, Kin Chung Lam, Björn A. Grüning, José Villaveces, Bianca Habermann, Asifa Akhtar et Thomas Manke. "Les TAD haute résolution révèlent les séquences d'ADN sous-jacentes à l'organisation du génome chez les mouches." Nature Communications 9, non. 1 (décembre 2018).

GITAR : Un outil Open Source pour l'analyse et la visualisation des données Hi-C - Comprend une grande collection de données traitées standardisées de 4D Nucleome. 20 jeux de données hg38 et 2 mm10 normalisés par la méthode Yaffe-Tanay, téléchargeables, incluent l'indice de directionnalité, les états HMM, les résultats de l'analyse TAD. Formats texte et HDF5. https://www.genomegitar.org/processed-data.html

4DGenome - Interactions significatives en 3D, issues de différentes sources de la littérature

Toutes les données HiC publiées par le groupe Lieberman-Aiden. Liens vers le stockage Amazon et les études GEO. http://aidenlab.org/data.html

Vian, Laura, Aleksandra Pękowska, Suhas S.P. Rao, Kyong-Rim Kieffer-Kwon, Seolkyoung Jung, Laura Baranello, Su-Chen Huang, et al. "L'impact énergétique et physiologique de l'extrusion de cohésine." Cellule 173, non. 5 (mai 2018) - Rayures architecturales, créées par un chargement important de cohésine près des ancrages CTCF, avec l'aide de Nipbl et Rad21. Peu de chevauchement entre les cellules B et les CES. Les rayures architecturales sont des sites de rupture de l'ADN TOP2beta induisant des tumeurs. L'ATP est requis pour l'extrusion de la boucle, la translocation de la cohésine, mais pas pour la maintenance. La réplication de la transcription n'est pas importante pour l'extrusion de la boucle. Algorithme Zebra pour la détection des rayures architecturales, l'analyse d'images, les mathématiques dans les méthodes. Cellules lymphoblastoïdes humaines, CES de souris, cellules B de souris activées au LPS, cellules de lymphome B CH12, de type sauvage, traitées à l'hydroxyurée (bloque la réplication de l'ADN), flavopiridol (bloque la transcription, l'élongation PolII), oligomycine (bloque l'ATP). De nombreux autres types de données (par exemple, ChIP-seq, ATAC-seq) GSE82144, GSE98119

Lieberman-Aiden, Erez, Nynke L. van Berkum, Louise Williams, Maxim Imakaev, Tobias Ragoczy, Agnes Telling, Ido Amit, et al. "Une cartographie complète des interactions à longue distance révèle les principes de repliement du génome humain." Science (New York, N.Y.) 326, no. 5950 (9 octobre 2009) Cellules Gm12878, K562. Enzymes HindIII, Ncol. Deux-trois répétitions. GSE18199

Rao, Suhas S.P., Miriam H. Huntley, Neva C. Durand, Elena K. Stamenova, Ivan D. Bochkov, James T. Robinson, Adrian L. Sanborn, et al. "Une carte 3D du génome humain à la résolution en kilobases révèle les principes du bouclage de la chromatine." Cellule 159, non. 7 (18 décembre 2014) - Cellules humaines Gm12878, K562, IMR90, NHEC, HeLa, Cellules de souris CH12. Différentes enzymes de digestion (HindIII, NcoI, Mbol, DpnII), différentes dilutions. Jusqu'à 35 répétitions biologiques pour Gm12878. GSE63525, Tableau supplémentaire S1. Méta-données Hi-C

Sanborn, Adrian L., Suhas S.P. Rao, Su-Chen Huang, Neva C. Durand, Miriam H. Huntley, Andrew I. Jewett, Ivan D. Bochkov, et al. "L'extrusion de chromatine explique les principales caractéristiques de la formation de boucles et de domaines dans les génomes de type sauvage et modifiés." Actes de l'Académie nationale des sciences des États-Unis d'Amérique 112, no. 47 (24 novembre 2015). HAP1, dérivé d'une lignée cellulaire de leucémie myéloïde chronique. Répliques. GSE74072

Rao, Suhas S.P., Su-Chen Huang, Brian Glenn St Hilaire, Jesse M. Engreitz, Elizabeth M. Perez, Kyong-Rim Kieffer-Kwon, Adrian L. Sanborn, et al. « La perte de Cohesin élimine tous les domaines de boucle. » Cellule 171, non. 2 (2017) - Cellules de carcinome colorectal humain HCT-116. Timecourse, réplique dans différentes conditions. GSE104334

Données de plusieurs études, en un seul endroit, au format .cool : ftp://cooler.csail.mit.edu/coolers

Convertissez vers n'importe quel autre format avec le refroidisseur https://cooler.readthedocs.io/

Épuisement du facteur de charge de cohésine Nipbl. Trois conditions : foie de souris de type sauvage, contrôle tamoxifène et deltaNipbl. Les TAD disparaissent, les compartiments A/B sont renforcés, effet non spécifique minime sur l'expression des gènes. La disparition des TAD révèle un niveau d'organisation de la chromatine plus fin, mieux associé au paysage épigénétique. Les TAD et les compartiments sont des types indépendants d'organisation chromosomique, mais qui se chevauchent. Idées : Exclure les bacs à faible couverture en utilisant la procédure MAD-max (Méthodes). Compartimentation globale. Lavaburst - Détection TAD utilisant la méthode Filippova. Données et visualisation captives Hi-C, H3K4me3, H3K27ac, CTCF, Rad21, Smc3 ChIP-seq et RNA-seq, GEO GSE93431

  • Schwarzer, Wibke, Nezar Abdennur, Anton Goloborodko, Aleksandra Pekowska, Geoffrey Fudenberg, Yann Loe-Mie, Nuno A. Fonseca, et al. "Deux modes indépendants d'organisation de la chromatine révélés par l'élimination de la cohésine." Nature, (02 2017)

Matrices d'interaction de chromatine brutes et normalisées et TAD définis avec DomainCaller. ES de souris, cortex, ES humain, fibroblastes IMR90. Deux répétitions par condition. Adhésion GEO : GSE35156, GSE43070

Variabilité 3D entre 20 humains, lignées cellulaires lymphoblastoïdes, associée à la variation de l'expression des gènes, modifications des histones, liaison au facteur de transcription. La variation génétique (SNP) est associée à la force de la boucle, à l'isolation des contacts, à la directionnalité, à la densité des contacts locaux, aux SNP dans les sites de liaison CTCF - QTL pour ceux-ci. Approche WASP pour traiter les biais de mappage allélique, normalisation HiCNorm pour supprimer GC, mappabilité, biais de longueur de fragment, normalisation quantile BNBC à travers les échantillons. Données de 40 ko, détection des compartiments A/B (PC1), indice de directivité (DI), score d'isolation (INS), régions en interaction fréquente (score FIRE). Variabilité détectée à l'aide de la fonction limma:eBayes. IWH pour la correction de tests multiples. Calcul de puissance pour la détection QTL dans les données Hi-C. Données et code : fichiers Hi-C BAM, matrices, résultats QTL complets, régions variables 3D, SNP sur http://renlab.sdsc.edu/renlab_website/download/iqtl/, http://renlab.sdsc.edu/iQTL /

  • Gorkin, David U., Yunjiang Qiu, Ming Hu, Kipper Fletez-Brant, Tristin Liu, Anthony D. Schmitt, Amina Noor, et al. "La variation de séquence d'ADN commune influence la conformation tridimensionnelle du génome humain." Préimpression. Génomique, 30 mars 2019.

Cellules humaines normales, cerveau (cortex préfrontal dorsolatéral, hippocampe), surrénales, vessie, poumon, ovaire, pancréas, etc. 21 lignées cellulaires humaines et tissus primaires. Quelques répliques. GSE87112. Utilisé dans le papier HiCDB

  • Schmitt, Anthony D., Ming Hu, Inkyung Jung, Zheng Xu, Yunjiang Qiu, Catherine L. Tan, Yun Li et al. "Un recueil de cartes de contact de la chromatine révèle des régions spatialement actives dans le génome humain." Cell Reports 17, non. 8 (novembre 2016)

Dixon, Jesse R., Siddarth Selvaraj, Feng Yue, Audrey Kim, Yan Li, Yin Shen, Ming Hu, Jun S. Liu et Bing Ren. "Domaines topologiques dans les génomes de mammifères identifiés par l'analyse des interactions de la chromatine." Nature 485, non. 7398 (11 avril 2012)

Jin, Fulai, Yan Li, Jesse R. Dixon, Siddarth Selvaraj, Zhen Ye, Ah Young Lee, Chia-An Yen, Anthony D. Schmitt, Celso A. Espinoza et Bing Ren. "Une carte haute résolution de l'interactome tridimensionnel de la chromatine dans les cellules humaines." Nature 503, no. 7475 (14 novembre 2013)

    - Détails des 50 jeux de données Hi-C sur le cancer, références à GEO et 4DNucleome. - Coordonnées (hg38) des grandes SV détectées dans chaque échantillon. - Coordonnées génomiques des neoloops détectées dans chaque échantillon. - Liste des gènes impliqués dans neoloop identifiés dans chaque échantillon. - Liste des événements de détournement d'amplificateurs annotés dans 11 lignées cellulaires cancéreuses : A549, K562, LNCaP, MCF7, T47D, HepG2, SK-MEL-5, NCI-H460, PANC-1, HT-1080 et C4-2B.

Navigateur de génome 3D - Ensembles de données classiques pour l'identification des TAD/boucles, fournis sous forme de matrices brutes et normalisées, coordonnées génomiques des TAD/boucles, outils pour diverses analyses de données 3C.

Iyyanki, Tejaswi. « Paysage épigénomique associé au sous-type et structure du génome 3D dans le cancer de la vessie », Biologie du génome, 15 avril 2021 - Génomique 3D du cancer de la vessie. 4 lignées cellulaires cancéreuses (luminale : RT4 et SW780 basale : SCABER et HT1376), 5 patients. H3K27ac ChIP-seq, RNA-seq (DESeq2), ATAC-seq (TCGA), données Hi-C (Arima, hg19). Peakachu pour la prédiction de boucle, CNV avec HiNT et Hi-Cbreakfinder.

    - des données téléchargeables à partir d'articles de capture de conformation chromosomique clés. - liste alphabétique des logiciels Hi-C.

Les modifications du génome 3D sont associées aux CNV dans les cellules de myélome multiple (RPMI-8226 trt- et tétraploïde, U266 presque diploïde). Le nombre de TAD augmente de

20% compartiment interrupteur. La normalisation ICE rend mieux compte des CNV que HiCNorm. Les points d'arrêt CNV chevauchent les limites TAD. Résolution de 40 Ko, répliques. Code, Hi-C, WGS, données RNA-seq GSE87585

  • Wu, Pengze, Tingting Li, Ruifeng Li, Lumeng Jia, Ping Zhu, Yifang Liu, Qing Chen, Daiwei Tang, Yuezhou Yu et Cheng Li. "Le génome 3D du myélome multiple révèle une désorganisation spatiale du génome associée aux variations du nombre de copies." Nature Communications 8, no. 1 (décembre 2017)

Cibles du gène BRCA régulées par les SNP - Capture-C des interactions de la chromatine centrées sur les variants causaux et les promoteurs des gènes causaux (Variant- et Promoter Capture Hi-C) dans six cancers épithéliaux mammaires humains (B80T5, MCF10A) et du sein (MCF7, T47D, lignées cellulaires MDAMB231, Hs578T). Fragments HindIII, CHiCAGO et Peaky pour les appels d'interaction significatifs. L'ACP sur les interactions sépare les types cellulaires, interactions significatives enrichies en éléments épigénomiques. 651 gènes cibles à 139 signaux de risque de cancer du sein indépendants. Tableau 1 - gènes cibles prioritaires. Données Hi-C de capture traitées par HiCUP (hg19), code, tableaux supplémentaires, tableaux S11 - 651 gènes cibles,

  • Beesley, Jonathan, Haran Sivakumaran, Mahdi Moradi Marjaneh, Luize G. Lima, Kristine M. Hillman, Susanne Kaufmann, Natasha Tuano, et al. « Cartographie de l'interactome de la chromatine à 139 signaux de risque de cancer du sein indépendants ». Biologie du génome 21, no. 1 (décembre 2020)

Les curtaxines affectent le génome 3D par intercalation de l'ADN mais sans induire de dommages à l'ADN, compromettent les interactions amplificateur-promoteur, suppriment l'expression des oncogènes, y compris les gènes de la famille MYC, régulent à la baisse les gènes de survie, perturbent partiellement les frontières TAD, diminuent les interactions à courte portée, le niveau de ségrégation spatiale de les compartiments A/B, épuise le CTCF mais pas les autres facteurs. Hi-C dans les cellules de fibrosarcome HT1080. Données : ChIP-seq Hi-C et CTCF en double GSE122463, expression génique dans les cellules MM1.S et HeLa S3 GSE117611, H3K27ac GSE117409, transcription d'ARN naissant GSE107633

  • Kantidze, Omar L., Artem V. Luzhin, Ekaterina V. Nizovtseva, Alfiya Safina, Maria E. Valieva, Arkadiy K. Golov, Artem K. Velichko, et al. « L'organisation du génome spatial ciblé par les curaxines, médicaments anticancéreux. » Nature Communications 10, no. 1 (décembre 2019).

Génomique 3D du glioblastome. Répliquer les échantillons de trois patients. Données Hi-C à résolution inférieure à 5 Ko, intégration avec ChIP et RNA-seq. Données : Six réplicats Hi-C, EGAS00001003493, ChIP-seq GSE121601, données RNA-seq EGAS00001003700. Données traitées

  • Johnston, Michael J., Ana Nikolic, Nicoletta Ninkovic, Paul Guilhamon, Florence M.G. Cavalli, Steven Seaman, Franz J. Zemp, et al. "La génomique structurelle à haute résolution révèle de nouvelles vulnérabilités thérapeutiques dans le glioblastome." Recherche sur le génome 29, no. 8 (août 2019)

Dix ensembles de données Hi-C non répliqués. Deux lignées cellulaires lymphoblastoïdes humaines avec translocations chromosomiques connues (FY1199 et DD1618), lignée cellulaire de souris transformée (EKLF), six tumeurs cérébrales humaines : cinq glioblastomes (GB176, GB180, GB182, GB183 et GB238) et un astrocytome anaplasique (AA86), un contrôle de lignée cellulaire humaine normale (GM07017). GSE81879

Harewood, Louise, Kamal Kishore, Matthew D. Eldridge, Steven Wingett, Danita Pearson, Stefan Schoenfelder, V. Peter Collins et Peter Fraser. « Hi-C comme outil de détection et de caractérisation précises des réarrangements chromosomiques et de la variation du nombre de copies dans les tumeurs humaines. » Biologie du génome 18, no. 1 (décembre 2017).

Cancer de la prostate, normal. Cellules épithéliales de la prostate RWPE1 transfectées avec l'oncogène GFP ou ERG. Deux répétitions biologiques et jusqu'à quatre répétitions techniques. GSE37752

  • Rickman, David S., T. David Soong, Benjamin Moss, Juan Miguel Mosquera, Jan Dlabal, Stéphane Terry, Theresa Y. MacDonald, et al. « Altérations médiées par l'oncogène dans la conformation de la chromatine. » Actes de l'Académie nationale des sciences des États-Unis d'Amérique 109, no. 23 (5 juin 2012)

Taberlay, Phillippa C., Joanna Achinger-Kawecka, Aaron T.L. Lun, Fabian A. Buske, Kenneth Sabir, Cathryn M. Gould, Elena Zotenko, et al. « La désorganisation tridimensionnelle du génome du cancer coïncide avec des altérations génétiques et épigénétiques à long terme. » Recherche sur le génome 26, no. 6 (juin 2016)

Cancer, Hi-C normal. Cellules épithéliales de la prostate, PC3, LNCaP. Deux-trois répétitions. GSE73785

Cancer du sein. Cellules épithéliales (MCF-10A) et du cancer du sein (MCF-7). Comparaison de la tumeur par rapport à la normale, comparaison de réplicats. Deux répétitions pour chacun. GSE66733. Les données ont été réanalysées dans Fritz, Andrew J., Prachi N. Ghule, Joseph R. Boyd, Coralee E. Tye, Natalie A. Page, Deli Hong, David J. Shirley, et al. «Organisation de la chromatine intranucléaire et d'ordre supérieur du groupe de gènes majeurs des histones dans le cancer du sein.» Journal of Cellular Physiology 233, no. 2 (février 2018) GSE98552

Cancer du sein. Lignée cellulaire T47D-MTLV. Réponse 3D à la progestérone, analyse intégrative, effet des enzymes coupantes. Hi-C aux points de temps 0h et 1h, avec différentes enzymes. RNA-seq et ChIP-Seq disponibles. Pas de répliques. GSE53463

Cancer du sein. Lignée cellulaire MCF-7. Réponse 3D aux œstrogènes, évolution temporelle (0, 0,5h, 1h, 4h, 24h), comparaison de réplicats. GSE51687

  • Tordini, Fabio, Marco Aldinucci, Luciano Milanesi, Pietro Liò et Ivan Merelli. "La conformation du génome en tant qu'intégrateur de données multi-omiques : l'exemple de la propagation des dommages dans le cancer." Frontiers in Genetics 7 (15 novembre 2016).
  • Boucles ChIA-PET et expression génique dans 24 types de cellules humaines. RAD21, H3K27ac, ARN-seq. 28% des boucles sont variables, distinguent les cellules par tissu d'origine, plus courtes, dépourvues de gènes d'entretien, coïncident avec différents états de la chromatine. Les gènes qui ont plus d'interactions sont épuisés dans les fonctions d'entretien et enrichis en variantes pathogènes. Le matériel supplémentaire a les coordonnées hg19 des pics RAD21, des boucles de chromatine médiées par la cohésine de type Pan-cell, des pics H3K27ac, etc.
    • Grubert, Fabian, Rohith Srivas, Damek V Spacek, Maya Kasowski, Mariana Ruiz-Velasco, Nasa Sinnott-Armstrong, Peyton Greenside, et al. « Paysage des boucles de chromatine médiées par la cohésine dans le génome humain. » Nature 583, non. 7818 (juillet 2020)

    Requête de recherche pour tout type de données Hi-C, par exemple, le cerveau humain Hi-C

    Won, Hyejung, Luis de la Torre-Ubieta, Jason L. Stein, Neelroop N. Parikshak, Jerry Huang, Carli K. Opland, Michael J. Gandal, et al. "La conformation chromosomique élucide les relations réglementaires dans le développement du cerveau humain." Nature, (27 octobre 2016) - Deux régions du cerveau : la plaque corticale et sous-corticale (CP), constituée principalement de neurones post-mitotiques et la zone germinale (GZ), contenant principalement des progéniteurs neuraux actifs sur le plan mitotique. Trois répétitions par condition. GEO GSE77565. Accès contrôlé.

    Bonev, Boyan, Netta Mendelson Cohen, Quentin Szabo, Lauriane Fritsch, Giorgio L. Papadopoulos, Yaniv Lubling, Xiaole Xu, et al. « Recâblage du génome 3D à plusieurs échelles pendant le développement neuronal de la souris. » Cellule, (octobre 2017)

    • Données : https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE96107. Quatre répétitions HiC dans chaque condition. Cellules souches embryonnaires de souris (ES), progéniteurs neuraux (NPC) et neurones corticaux (CN), populations purifiées de NPC et de CN du néocortex (ncx_NPC, ncx_CN). RNA-seq et ChIP-seq répliqués (H3K4me3, H4K9me3, H3K27ac, H3K36me3).
    • [Bonev-Cavalli_mmc1.xlsx] - Tableau S1. Statistiques récapitulatives pour les ensembles de données, http://www.cell.com/cms/attachment/2111760282/2083800642/mmc1.xlsx

    Fraser, J., C. Ferrai, A. M. Chiariello, M. Schueler, T. Rito, G. Laudanno, M. Barbieri, et al. "Le pliage hiérarchique et la réorganisation des chromosomes sont liés à des changements transcriptionnels dans la différenciation cellulaire." Biologie des systèmes moléculaires, (23 décembre 2015)

      - les cellules souches embryonnaires de souris (ESC), les cellules progénitrices neuronales (NPC) et les neurones. Deux ensembles de données par type cellulaire, digérés à l'aide des enzymes HindIII et NcoI. Coordonnées génomiques des TAD identifiées à partir des ensembles de données NcoI

    Les bibliothèques 5C générées dans Beagan et al. dans des cellules ES de souris pluripotentes et des cellules progénitrices neurales multipotentes ont été téléchargées à partir des numéros d'accès GEO GSM1974095, GSM1974096, GSM1974099 et GSM1974100 (Beagan et al. 2016). GEO GSE68582

    Haarhuis, Judith H.I., Robin H. van der Weide, Vincent A. Blomen, J. Omar Yáñez-Cuna, Mario Amendola, Marjon S. van Ruiten, Peter H.L. Krijger, et al. "Le facteur de libération de Cohesin WAPL restreint l'extension de la boucle de chromatine." Cell, (mai 2017) - WAPL, antagoniste de la cohésine, facteur de libération d'ADN, limite la longueur de la boucle et empêche la boucle entre les sites CTCF mal orientés. Avec le complexe SCC2/SCC4, WAPL favorise l'assemblage correct des structures chromosomiques. WAPL WT et KO Hi-C, RNA-seq, ChIP-seq pour CTCF et SMC1. Aussi, SCC4 KO et combiné SCC4-WAPL KO Hi-C. Rôle potentiel de WAPL dans la condensation chromosomique de la mitose. Outils : traitement HiC-Pro, HICCUPS, HiCseq, DI, SomaticSniper pour l'appel de variantes. Données (Hi-C au format BED appairé personnalisé) : GEO GSE95015

    Grubert, Fabian, Judith B. Zaugg, Maya Kasowski, Oana Ursu, Damek V. Spacek, Alicia R. Martin, Peyton Greenside, et al. "Le contrôle génétique des états de la chromatine chez l'homme implique des interactions chromosomiques locales et distales." Cell, (août 2015) - sept réplicats Hi-C sur la lignée cellulaire Gm12878, GEO GSE62742

    Naumova, Natalia, Maxim Imakaev, Geoffrey Fudenberg, Ye Zhan, Bryan R. Lajoie, Leonid A. Mirny et Job Dekker. "Organisation du chromosome mitotique." Science (New York, N.Y.), (22 novembre 2013) - E-MTAB-1948 - Étude de capture de conformation chromosomique 5C et Hi-C sur des chromosomes en métaphase de lignées cellulaires humaines HeLa, HFF1 et K562 tout au long du cycle cellulaire. Deux répliques biologiques et deux techniques. ArrayExpress E-MTAB-1948

    Jessica Zuin et al., "Cohesin and CTCF Differentially Affect Chromatin Architecture and Gene Expression in Human Cells", Actes de la National Academy of Sciences des États-Unis d'Amérique, (21 janvier 2014) - CTCF et cohésine (protéine RAD21) sont enrichis en frontières TAD. Expériences d'épuisement. Effet différent sur les interactions inter et intradomaines. La perte de cohésion entraîne la perte des interactions locales, mais les TAD sont restés. La perte de CTCF entraîne à la fois une perte d'interactions locales et une augmentation des interactions inter-domaines. Différents changements dans l'expression des gènes. Les structures TAD restent en grande partie intactes. Données : Hi-C, RNA-seq, RAD21 ChIP-seq pour le contrôle et RAD21 et CTCF épuisés dans les hépatocytes HEK293. Deux répétitions dans chaque condition. GEO GSE44267

    Protocole tagHi-C pour le Hi-C basé sur la tagmentation à faible entrée. Appliqué à l'hématopoïèse de souris 10 principaux types de cellules sanguines. Changements dans les compartiments et la configuration Rabl définissant la condensation de la chromatine. Les domaines d'association gène-corps sont une propriété générale des gènes hautement exprimés. Les boucles spatiales de la chromatine relient les SNP de GWAS aux gènes candidats du phénotype sanguin. HiC-Pro à l'extracteur de jus. GEO GSE142216 - RNA-seq, réplicats, GEO GSE152918 - données tagHi-C, réplicats, fichiers .hic combinés

    Données Hi-C à noyau unique (scHi-C) de 88 cellules de drosophile BG3. 2 à 5 millions de lectures appariées par cellule, résolution de 10 Ko. Pipeline ORBITA pour éliminer l'effet de la commutation de matrice d'ADN polymérase Phi29. Compartiments de chromatine env. D'une taille de 1 Mo, les TAD conservés non hiérarchiques peuvent être détectés. Beaucoup de biologie, intégration avec d'autres données omiques. Données brutes et traitées au format .cool au GEO GSE131811

    • Ulianov, Sergey V., Vlada V. Zakharova, Aleksandra A. Galitsyna, Pavel I. Kos, Kirill E. Polovnikov, Ilya M. Flyamer, Elena A. Mikhaleva, et al. "Ordre et stochasticité dans le pliage des génomes individuels de drosophile." Nature Communications 12, no. 1 (décembre 2021)

    TADs chez la drosophile, Hi-C et RNA-seq dans quatre lignées cellulaires d'origines diverses. dCTCF, SMC3 et Su(Hw) sont faiblement enrichis aux frontières TAD. La transcription et la chromatine active (H3K27ac, H3K4me1, H3K4me3, H3K36me3, H4K16ac) sont associées aux frontières TAD. Aussi, BEAF-32 et CP190. TAD hiérarchiques. Les gènes de ménage ont tendance à se trouver près des frontières TAD et dans les régions inter-TAD. Prédiction des limites de TAD par régression, modélisation pour associer des TAD à des bandes, étude de la hiérarchie. Utilisation intensive de l'appelant Armatus TAD. RNA-seq et données Hi-C répliquées, haute corrélation, fusionnées à une résolution de 20 kb. GEO GSE69013

    • Ulianov, Sergey V., Ekaterina E. Khrameeva, Alexey A. Gavrilov, Ilya M. Flyamer, Pavel Kos, Elena A. Mikhaleva, Aleksey A. Penin, et al. "La chromatine active et la transcription jouent un rôle clé dans le partitionnement des chromosomes en domaines d'association topologique." Recherche sur le génome 26, no. 1 (janvier 2016)

    Réorganisation 3D de la chromatine au cours de différents types de sénescence cellulaire, réplicative (RS) et induite par l'oncogène (OIS au fil du temps). Loci d'hétérochromatine associée à la sénescence (SAHF), formés à l'aide de DNMT1 via la régulation de l'expression de MMGA2. WI38 fibroblastes primaires. OIS - gagner en contacts à longue portée. Analyse diffHiC, régions différentielles enrichies en H3K9me3. TADkit pour la modélisation 3D, la visualisation. Données (réplicats Hi-C, différentes conditions, évolution dans le temps, H3K4me3/H3K9me3/H3K27ac ChIP-seq, RNA-seq) GEO GSE130306

    • Sati, Satish, Boyan Bonev, Quentin Szabo, Daniel Jost, Paul Bensadoun, François Serra, Vincent Loubiere, et al. « Recâblage du génome 4D pendant la sénescence induite par l'oncogène et réplicative. » Cellule moléculaire, mars 2020

    Différences sexuelles du chromosome X chez la drosophile. Le chromosome X mâle a une double régulation à la hausse de l'expression des gènes, davantage d'interactions à moyen/long terme, des limites plus faibles marquées par BEAF-32, CP190, Chromator et CLAMP, un cofacteur complexe de compensation de dose. Moins de pente négative dans la décroissance des interactions dépendant de la distance, moins d'interactions avec les meilleurs scores en cluster (plus d'aléatoire), structure plus ouverte dans l'ensemble. Différentiateur de score local (score LSD) pour appeler les limites TAD différentielles de manière indépendante de CNV - plus de limites non correspondantes que les autosomes,

    35% des frontières qui disparaissent. L'enrichissement des marques épigénomiques a identifié une association limite plus forte avec la liaison MSL (complexe létal spécifique aux mâles) et CLAMP. Beaucoup d'autres observations expérimentales. hiclib, traitement du hoquet. Implémentation R de l'analyse TAD différentielle LSD, données Hi-C au format bedGraph GEO GSE94115, Tweet

    • Pal, Koustav, Mattia Forcato, Daniel Jost, Thomas Sexton, Cédric Vaillant, Elisa Salviato, Emilia Maria Cristina Mazza, Enrico Lugli, Giacomo Cavalli et Francesco Ferrari. "Différences globales de conformation de la chromatine dans le chromosome X compensé par le dosage de la drosophile." Communications Nature, (décembre 2019)

    Comparaison Hi-C TAD entre les cellules prostatiques normales (RWPE1) et deux cellules cancéreuses de la prostate (C42B, 22Rv1). Les TAD (appelés TopDom) deviennent plus petits dans le cancer, changent d'état épigénétique. Le promoteur FOXA1 a plus d'ancres de boucle dans le cancer. Le locus du récepteur aux androgènes (AR) a une structure de la chromatine modifiée autour de lui (Figure 6). Investigation de boucle appelée avec Fit-HiC, motifs (NOMe-seq) enrichis en activateurs associés à la boucle différents entre normaux et cancéreux. Visualisation HiTC. Figure 1a, Figure supplémentaire 3, 5 - exemples/coordonnées de changements de limite/longueur de TAD.

    Données Pour les lignées cellulaires RWPE1, C42B, 22Rv1 : GEO GSE118629. In situ Hi-C, MboI à 4 couteaux, répliqués, matrices creuses textuelles à une résolution de 10 ko et 40 ko, brutes et normalisées ICE, hg19. H3K9me3, H3K27me3, H3K36me3, ARN-seq.

    Données supplémentaires : Données 2 - Coordonnées et annotations du TAD Données 3 - Gènes exprimés de manière différentielle dans les TAD plus petits Données 4 - Modifications de l'expression des gènes dans les TAD changeant d'état épigénomique gènes différentiellement exprimés Données 8 - gènes cibles des amplificateurs liés à FOXA1 Données 9 - gènes surexprimés avec plus de boucles amplificateur-promoteur

    • Rhie, Suhn Kyong, Andrew A. Perez, Fides D. Lay, Shannon Schreiner, Jiani Shi, Jenevieve Polin et Peggy J. Farnham. "Une carte épigénomique 3D haute résolution révèle des informations sur la création du transcriptome du cancer de la prostate." Communications Nature, (décembre 2019)

    Méthylation de l'ADN liée à la génomique 3D. La méthylation dirige l'organisation 3D dépendante de la PRC des CES de souris. L'hypométhylation dans les CSE de souris conduites à la pluripotence naïve dans deux inhibiteurs (2i) est accompagnée d'une redistribution de la marque polycomb H3K27me3 et d'une décompaction de la chromatine. Focus sur HoxC, HoxD loci. Données Hi-C traitées avec un distillateur et d'autres outils liés à la fraîcheur. RNA-seq, H3K37me3 ChIPseq de souris ESC cultivées dans des conditions de sérum et 2i. Données Hi-C dans les répliques GEO GSE124342

    • McLaughlin, Katy, Ilya M. Flyamer, John P. Thomson, Heidi K. Mjoseng, Ruchi Shukla, Iain Williamson, Graeme R. Grimes, et al. "La méthylation de l'ADN dirige la réorganisation du génome 3D dépendante de Polycomb dans la pluripotence naïve." Cell Reports 29, no. 7 (novembre 2019)

    L'inhibition de la transcription de l'ARN affecte de manière minime les TAD, affaiblit les limites des TAD. K562, inhibition de la RNAse avant/après réticulation (bXL/aXL), traitement à l'actinomycine D (arrêt transcriptionnel complet). Traitement à l'aide de cword, résolution 40kb. Données avec réplicats de chaque condition, GEO GSE114337

    Comparaison de la structure 3D de cellules souches puripotentes induites par l'homme et le chimpanzé. Les interactions par paires d'ordre inférieur sont relativement conservées, mais les interactions d'ordre supérieur, telles que les TAD, diffèrent. HiCUP et HOMER pour le traitement des données Hi-C à une résolution de 10 Ko. normalisation du loess cyclique, limma pour une définition d'interaction significative, pointe de flèche sur les TADs de détection combinés répliqués. Association des interactions différentielles de la chromatine avec l'expression des gènes. PyGenomeTracks pour la visualisation. Code de workflow, données Hi-C traitées (4 iPSC humains et 4 chimpanzés) GEO GSE122520

    • Eres, Ittai E., Kaixuan Luo, Chiaowen Joyce Hsiao, Lauren E. Blake et Yoav Gilad. "La réorganisation de la structure du génome 3D peut contribuer à l'évolution de la réglementation des gènes chez les primates." PLOS Genetics 15, no. 7 (19 juillet 2019)

    Bibliothèques HiC in situ dans des réplicats biologiques (n = 2) pour plusieurs types de cellules hématopoïétiques (200 millions de lectures par réplicat) en mettant l'accent sur la lignée cellulaire B chez la souris. Les auteurs étudient le rôle du facteur de transcription Pax5 dans son rôle de supervision dans l'organisation de l'architecture 3D du génome tout au long de la différenciation des cellules B. Les données brutes sont disponibles via GEO GSE99151

    • Timothy M. Johanson, Aaron T. L. Lun, Hannah D. Coughlan, Tania Tan, Gordon K. Smyth, Stephen L. Nutt et amp Rhys S. Allan. "La supervision médiée par le facteur de transcription de l'architecture globale du génome maintient l'identité des cellules B." Immunologie de la nature, (2018)

    La boucle d'ADN change au cours du développement des macrophages (développement des monocytes THP-1 en macrophages sous 72h de traitement PMA). Hi-C in situ (lectures pbn, résolution 10kb), RNA-seq, ATAC-seq, CTCF et H3K27ac ChIP-seq. Formation de multi-hubs au niveau des gènes clés des macrophages. Les boucles différentielles (dynamiques, détectées par DESeq2) sont enrichies pour AP-1, plus enrichies en H3K27ac, contrairement aux boucles statiques. Association entre le H3K27ac local et le niveau de transcription avec des éléments d'ADN distaux avec un H3K27ac élevé. Très peu de gènes et signal H3K27ac plus faible dans les boucles perdues, plus de gènes et signal H3K27ac dans les boucles gagnées. Les changements de pli dans le signal H3K27ac sont en corrélation positive avec la boucle de l'ADN. Enrichissements d'ontologies génétiques spécifiques au développement des macrophages. Analyse du réseau pour l'identification des hubs d'activation multi-boucles et multi-amplificateurs. GEO GSE96800 ChIP-seq, ATAC-seq, RNA-seq, Deux échantillons Hi-C, THP-1 PMA-traité et non traité, SRA PRJNA385337.

      :
      • Tableau S1. Boucles d'ADN dans des cellules THP-1 non traitées, 16067. Texte, coordonnées génomiques hg19, colonnes : anchor1_chrom anchor1_start anchor1_end anchor2_chrom anchor2_start anchor2_end sample -log10(P) anchor1_strand anchor2_strand
      • Tableau S2 . Boucles d'ADN dans des cellules THP-1 traitées au PMA, 16335.
      • Tableau S3. Boucles différentielles

      Vara, Covadonga, Andreu Paytuví-Gallart, Yasmina Cuartero, François Le Dily, Francisca Garcia, Judit Salvà-Castro, Laura Gómez-H, et al. "La structure génomique tridimensionnelle et l'occupation de la cohésine sont en corrélation avec l'activité transcriptionnelle au cours de la spermatogenèse." Cell Reports, (juillet 2019) - Modifications de la structure 3D au cours de la spermatogenèse chez la souris. Hi-C, RNA-seq, CTCF/REC8/RAD21L ChIP-seq. Description de la biologie de chaque stade (Fibroblastes, spermatogonies, leptonema/zygonema, pachynema/diplonema, spermatides rondes, spermatozoïdes), et analyse compartiment A/B et TAD (TADbit, score d'isolation), données normalisées avec ICE. Intégration avec expression différentielle. Modifications de la distribution du CTCF et des cohésines (REC8 et RAD21L). Outils clés : BBDuk (BBMap), TADbit, HiCExplorer, HiCRep, DeepTools. Données (pas de réplicats) GEO GSE132054

      Paulsen, Jonas, Tharvesh M. Liyakat Ali, Maxim Nekrasov, Erwan Delbarre, Marie-Odile Baudement, Sebastian Kurscheid, David Tremethick et Philippe Collas. "Les interactions à longue distance entre les domaines associant topologiquement forment le génome à quatre dimensions au cours de la différenciation." Nature Genetics, 22 avril 2019 - Les interactions TAD-TAD à longue portée forment des cliques (>3 TAD en interaction) sont enrichies en compartiments B et en LAD, régulant négativement l'expression des gènes. Représentation graphique des interactions TAD. Quantification de la signification statistique des interactions entre les TAD. Les limites TAD sont conservées. Les cliques TAD sont dynamiques. Test de permutation préservant les distances. Armatus pour la détection TAD. hiclib pour le traitement des données, Juicebox pour la visualisation. Données : Différenciation au cours du temps ou cellules souches adipeuses humaines (jours 0, 1 et 3). Hi-C (deux réplicats), Lamin B1 ChIP-seq, H3K9me3. GEO GSE109924. Également utilisé la différenciation ES de souris (Bonev 2017), la reprogrammation des cellules B de souris (Stadhouders 2018), scHi-C (Nagano 2017)

      Du, Zhenhai, Hui Zheng, Bo Huang, Rui Ma, Jingyi Wu, Xianglin Zhang, Jing He et al. "Reprogrammation allélique de l'architecture de la chromatine 3D au cours du développement précoce des mammifères." Nature, (12 2017) - Cours du temps de développement Hi-C. Développement précoce de la souris. technologie Hi-C à faible entrée (sisHi-C). Les TAD sont initialement absents, puis sont progressivement apparus. Cartographie HiCPro, corrélation de Pearson sur matrices basse résolution, résolution d'allèles. Données : GEO GSE82185

      Hug, Clemens B., Alexis G. Grimaldi, Kai Kruse et Juan M. Vaquerizas. "L'architecture de la chromatine émerge lors de l'activation du génome zygotique indépendamment de la transcription." Cell, (06 2017) - TAD apparaissant lors de l'activation du génome zygotique, indépendamment de la transcription. Les frontières TAD sont enrichies en gènes de ménage, colocalisées en 3D. Drosophile. Score d'isolation pour la détection des limites. Analyse de chevauchement des limites TAD. Matrices Hi-C traitées à une résolution de 5 Ko (réplicats fusionnés, format .cool) et limites TAD au cycle nucléaire 12, 13, 14 et 3-4 heures après la fécondation

      Ke, Yuwen, Yanan Xu, Xuepeng Chen, Songjie Feng, Zhenbo Liu, Yaoyu Sun, Xuelong Yao, et al. "Structures de chromatine 3D des gamètes matures et reprogrammation structurelle au cours de l'embryogenèse des mammifères." Cell, (13 juillet 2017) - Changements dans le temps 3D au cours du développement de l'embryon, de zygotiques (pas de TAD, de nombreuses interactions à longue distance) à 2, 4, 8 cellules, blastocystes et embryons matures E7.5 (TAD établis après plusieurs cycles de réplication de l'ADN).Compartiments A/B associés à des CpG non/méthylés, respectivement. PC1, indice de directivité, score d'isolation pour définir les compartiments et les TAD, ces métriques augmentent en amplitude/force au cours de la maturation. Enrichissement en CTCF, SMC1, H3K4me3, H3K27ac, H3K9ac, H3K4me1, appauvrissement en H3K9me3, H3K36me3, H3K27me3. La force du compartiment est plus faible dans les génomes maternels que paternels. Covariance pour chaque gène par rapport au score limite au cours du temps. L'intensité relative du TAD change. Données Hi-C et RNA-seq à différents stades, certains réplicats

      SIPs, promoteurs super-interactifs dans cinq types de cellules hématopoïétiques (érythrocyte, macrophage/monophage, mégacaryocyte, cellules T CD4 naïves, neutrophiles). Réanalyse des données Hi-C de capture de promoteur de Javierre et al., « Lignes spécifiques à l'architecture du génome relie les amplificateurs et les variantes de maladies non codantes pour cibler les promoteurs de gènes ». étudier. Canalisation CHiCAGO. Les régions d'interaction avec les promoteurs (PIR) interagissant avec les SIP sont plus enrichies en pics ATAC-seq spécifiques au type de cellule, variantes GWAS pour les types de cellules pertinents. Les gènes associés au SIP sont plus exprimés dans les cellules pertinentes. Certains SIP sont partagés entre les lignées cellulaires. Super-SIP.

        - SIP et gènes spécifiques au type de cellule. - SIP spécifiques au type de cellule et variantes GWAS
  • Lagler, Taylor M., Yuchen Yang, Yuriko Harigaya, Vijay G. Sankaran, Ming Hu, Alexander P. Reiner, Laura M. Raffield, Jia Wen et Yun Li. "Les promoteurs super interactifs donnent un aperçu des réseaux de réglementation spécifiques aux types de cellules dans les types de cellules de la lignée sanguine." Préimpression. Génétique, 16 mars 2021.
  • Cartes à l'échelle du génome reliant les variantes de la maladie aux gènes. Modèle d'activité par contact (ABC). 72 maladies et traits complexes (non spécifiques, non psychiatriques), reliant 5046 signaux GWAS finement cartographiés à 2249 gènes. 577 gènes influencent plusieurs phénotypes. Près de la moitié des activateurs régulent plusieurs gènes.Tableau S7 - Résumé des maladies et des traits.Tableau S9 - Prédictions ABC-Max pour 72 maladies et traits complexes.

    • Nasser, Joseph, Drew T Bergman, Charles P Fulco, Philine Guckelberger, Benjamin R Doughty, Tejal A Patwardhan, Thouis R Jones, et al. « Les cartes à l'échelle du génome de la réglementation des amplificateurs connectent les variantes de risque aux gènes de la maladie », bioRxiv, 03 septembre 2020.

    Prédictions des promoteurs-amplificateurs dans 131 types de cellules et tissus à l'aide du modèle d'activité par contact (ABC), basé sur l'état de la chromatine (ATAC-seq) et le repliement 3D (consensus Hi-C). Le modèle ABC suppose que l'effet quantitatif d'un élément sur un gène doit dépendre de sa force en tant qu'activateur (Activité) pondéré par la fréquence à laquelle il entre en contact 3D avec le promoteur du gène (Contact), et que la contribution relative d'un élément sur un l'expression du gène (telle qu'évaluée par la diminution proportionnelle de l'expression après l'inhibition de CRISPR) devrait dépendre de l'effet de cet élément divisé par l'effet total de tous les éléments. Surclasse les méthodes basées sur la distance, basées uniquement sur la 3D, les approches d'apprentissage automatique. Prédictions de l'amplificateur-promoteur pour GM12878, K562, foie, LNCAP, mESCs, cellules NCCIT, plus sur la page Engreitz Lab. Dépôt GitHub broadinstitute/ABC-Enhancer-Gene-Prediction.


    Construction et contenu

    Principes utilisés pour l'évaluation de la qualité

    LOGIQA est basé sur les principes appliqués par le générateur NGS-QC pour calculer les descripteurs de qualité [6], en particulier, cela implique l'évaluation de plusieurs échantillonnages aléatoires sur des lectures d'interaction à longue portée pour déduire des scores de qualité numériques locaux et globaux (Fig. 1). En fait, l'hypothèse de travail est que dans des conditions idéales, les cartes d'interaction de la chromatine reconstruites à partir d'un sous-ensemble des balises appariées (PET) mappées devraient présenter les mêmes motifs que ceux observés dans la carte d'origine. De toute évidence, plusieurs facteurs peuvent conduire à un écart par rapport à cette situation optimale. L'un d'entre eux est la profondeur de séquençage. En effet, des profondeurs de séquençage inférieures à un « point de saturation », comme décrit précédemment pour les tests de séquençage ChIP[7], entraîneront une diminution de la précision des modèles d'interaction de la chromatine. Il est important de noter que l'application de ce concept aux tests d'interaction de la chromatine à longue distance fournit une relation directe entre la profondeur de séquençage et la confiance dans la prédiction des interactions de la chromatine. Cette confiance est ici appelée la qualité de l'ensemble de données à l'étude.

    Principes utilisés pour l'évaluation de la qualité. Les marqueurs appariés (PET) totaux mappés sont d'abord classés en événements intra-chromosomiques et inter-chromosomiques. Pour l'évaluation de la qualité, seules les TEP intra-chromosomiques couvrant des distances génomiques supérieures à 10 kb - appelées ici TEP filtrées - sont prises en compte. Le sous-échantillonnage aléatoire génère des sous-ensembles PET correspondant à 90, 70 et 50 % des PETs filtrés d'origine et le nombre de PETs dans des fenêtres génomiques de 5 ou 25 Ko est quantifié. En comparant chacun des comptages PET/fenêtre dans les différents sous-ensembles aléatoires avec celui observé sur l'ensemble de données d'origine, la fraction des comptages PET récupérés (recPETs) après sous-échantillonnage aléatoire et la dispersion des valeurs théoriquement attendues sont calculées. Notez que les valeurs attendues correspondent à une diminution du nombre de comptages de TEP par fenêtre qui est proportionnelle au sous-échantillonnage aléatoire (par exemple, recPETs/fenêtre = 50 % lorsque 50 % des TEP filtrés sont sous-échantillonnés aléatoirement). En évaluant la fraction de fenêtres génomiques avec des dispersions de comptage recPET inférieures à un intervalle de confiance défini (valeur par défaut 10 %), des descripteurs de qualité globale tels que les indicateurs de qualité de densité et de similarité (denQCi et simQCi respectivement), ainsi que le QCscore global sont calculés. Dans l'ensemble, ces descripteurs de qualité reflètent les fractions des interactions de la chromatine à longue distance observées (>10 kb), qui sont considérées comme reproductibles. En haut du panneau : une carte d'interaction de la chromatine dérivée d'un test HiC est représentée dans le contexte des comptages PET observés (échelle de la carte thermique). En bas : Après traitement des données LOGIQA, la carte d'interaction de la chromatine affiche la dispersion inférée des comptages de PET (en pourcentage de l'échelle de la carte thermique). Notamment, le panneau du bas récapitule les contacts génomiques observés sur le panneau du haut, mais en plus il fournit des informations supplémentaires concernant leur reproductibilité sur les multiples tests de sous-échantillonnage aléatoires réalisés lors de l'évaluation de la qualité.

    Techniquement, nous avons d'abord sélectionné des TEP uniques (hors lectures « clonales » potentielles générées par PCR), qui participent à des interactions intra-chromosomiques de plus de 10 kb. Nous avons ainsi exclu les TEP résultant d'interactions à courte portée de la chromatine, qui dominent les interactomes de la chromatine (formant la diagonale dans les cartes d'interaction) et biaiseraient l'évaluation de la qualité en raison de leur surreprésentation. En effet, la suppression des PETs couvrant >10 ko ou >25 ko a conduit à une corrélation directe entre les quantités de PETs par ensemble de données et leurs QCscores associés (Fichier supplémentaire 1 : Figure S1A). Cela était également en corrélation avec une qualité visuelle et une visibilité améliorées des domaines d'association topologique (TAD) dans les cartes d'interaction de la chromatine (Fichier supplémentaire 1 : Figure S1B). Ensuite, nous avons établi des sous-ensembles TEP d'interaction échantillonnés au hasard pour des fractions définies de la population d'origine (90 %, 70 %, 50 % décrits ci-après comme s90, s70 ou s50). Après un échantillonnage aléatoire, des cartes d'interactions intra-chromosomiques ont été reconstruites en évaluant le nombre de numérations PET dans des cases de 5 ou 25 kb. Ces deux fenêtres analytiques permettent une évaluation de la qualité à deux résolutions différentes et facilitent la comparaison de différents types d'ensembles de données.

    Enfin, les scores de qualité globaux et locaux ont été calculés en comparant les dénombrements de TEP récupérés par bac de 5 kb ou 25 kb après échantillonnage aléatoire avec ceux observés dans l'ensemble de données d'origine (Fig. 2a).

    Évaluer les descripteurs de qualité sur des tests d'interaction génomique à longue distance. une Nuage de points illustrant la fraction des comptes de PET récupérés après sous-échantillonnage aléatoire (axe Y) par rapport aux comptes de PET originaux dans des fenêtres génomiques de 5 kb (axe des X). Notez que les fenêtres génomiques avec des comptes de PET élevés contiennent des niveaux de PET proches de la valeur attendue en revanche, plus les comptes de PET sont bas, plus l'écart par rapport à ce niveau théoriquement attendu est élevé. b Nuages ​​de points de récupération évalués à partir d'ensembles de données avec des niveaux de comptage PET croissants (de 100 à 500 millions). Notez que nous avons généré ces ensembles de données par sous-échantillonnage aléatoire d'un grand métafichier (>600 millions de lectures). c QCscores calculés à partir d'ensembles de données présentant des niveaux de comptage TEP croissants (de 100 à 500 millions). Les QCscores illustrés, calculés à partir de cinq répliques indépendantes, présentent des coefficients de variation inférieurs à 3 % (voir Fichier supplémentaire 1 : Figure S2). Affichages locaux illustrant les interactions de la chromatine (chromosome 6, mm9) évaluées dans le contexte des niveaux de dispersion du comptage PET (pourcentage) par fenêtre génomique (5 ko) par rapport aux niveaux de récupération attendus. Notez que les interactions génomiques à courte portée (diagonale) montrent les niveaux de dispersion les plus bas

    Calcul d'indicateurs de qualité locaux et globaux

    Techniquement, l'évaluation de la qualité est effectuée en calculant d'abord les comptes de PET récupérés après un échantillonnage aléatoire comme suit :

    samPETcounts correspondent aux comptages de TEP évalués après échantillonnage aléatoire et oPETcomptes correspondent à ceux récupérés avec l'ensemble de données d'origine. Ensuite, il est utilisé pour calculer la différence entre les comptages de PET récupérés observés après échantillonnage aléatoire par rapport à celui idéalement attendu (samd qui équivaut à la densité d'échantillonnage aléatoire (90 %, 70 % ou 50 %) :

    La dispersion du nombre de PET récupérés (δPETcounts) par fenêtre génomique est appelée indicateur de CQ local, de sorte que chaque région génomique évaluée (fenêtre 5 kb ou 25 kb) peut être exprimée par cette lecture quantitative évaluée pour une analyse de sous-ensemble d'échantillonnage aléatoire donnée. Il est important de noter que la représentation des cartes d'interaction du génome dans le contexte des dispersions de comptage PET (PETcounts) transforme l'affichage en une échelle uniforme pour comparer les ensembles de données générés à des niveaux de séquençage TEP variables (par exemple, dispersion du nombre de TEP : 5 à 50 %).

    Enfin, alors que PETcounts les cartes d'interaction fournissent un affichage visuel de la qualité associée à une région génomique donnée, elles ne permettent pas d'évaluer la qualité de l'ensemble de données. Par conséquent, nous avons défini les descripteurs de qualité globale suivants :

    Indicateurs de qualité de la densité (denQCi)

    La fraction de régions génomiques (fenêtre 5 ko ou 25 ko) dans les ensembles de données échantillonnés aléatoirement présentant PETcounts inférieur à un seuil défini qui dans le cadre de cette étude a été fixé à 10 %. Plus précisément, LOGIQA présente les valeurs denQCi calculées pour des échantillonnages aléatoires à 90 %, 70 % et 50 % (respectivement denQC.90, denQC.70 et denQC.50).

    Indicateurs de qualité de similarité (simQCi)

    Le rapport entre deux denQCis est utilisé pour évaluer leur degré de similarité. Plus précisément, LOGIQA présente les valeurs simQCi calculées pour denQC.90 et denQC.70 par rapport à denQC.50 (simQC.90/50 et simQC.70/50 respectivement).

    Noter que denQCi vise à quantifier la proportion de régions génomiques qui fluctue à moins de 10 % pour un échantillonnage aléatoire donné. En fait, un échantillonnage aléatoire s90 présente généralement moins de variation par rapport à l'ensemble de données d'origine, tandis que le sous-ensemble s50 aura l'écart le plus élevé. Les simQCi mesure la différence relative entre les indicateurs denQC calculés dans différentes conditions de sous-échantillonnage aléatoire. Par exemple, simQC.90/50 compare le denQC à 90 % à celui calculé à 50 % de sous-échantillonnage. Dans une situation idéale (saturation de la lecture de l'interactome), la fraction des interactions génomiques affectées par l'échantillonnage aléatoire est identique à 90 % et 50 % et donnerait un simQC = 1. Alors qu'aucun des ensembles de données évalués n'est à saturation, plus cet indicateur est à 1, plus la différence des indicateurs denQC entre les deux sous-échantillonnages aléatoires est faible et plus la qualité de l'ensemble de données est élevée.

    Intuitivement, les ensembles de données de haute qualité contiennent généralement une grande quantité de régions génomiques qui sont « robustes » au sous-échantillonnage aléatoire de 50 % le plus sévère (c'est-à-dire qu'ils afficheront des niveaux élevés de denQC.50). diverses conditions de sous-échantillonnage aléatoires (c'est-à-dire que leurs simQC.90/50 et simQC.s70/50 seront proches de 1). Pour intégrer ces deux aspects sur un même affichage, nous avons défini un QCscore, qui résume les métriques précédentes (denQCi et simQCi) en un seul descripteur de qualité selon la formule suivante :

    Les QCscore fournit une lecture de qualité, dans laquelle l'influence à la fois du denQC.50 et du simQCis calculé pour s90 par rapport à s50 (simQC.90/50) et s70 par rapport à s50 (simQC.70/s50) sont représentées.

    Scores de qualité calculés pour une variété de tests d'interaction de la chromatine à longue distance

    En raison de son principe universel, LOGIQA permet de calculer des scores de qualité pour les ensembles de données d'interaction de la chromatine générés à partir de diverses techniques. En effet, LOGIQA héberge actuellement des scores QC pour >250 HiC publiquement disponibles (y compris plusieurs variantes du protocole d'origine, comme in situ ou capture HiC), mais aussi plusieurs jeux de données ChIA-PET (>50) et 4C-seq (>900).


    Matériaux et méthodes

    Génération d'ensembles de données CircRNA

    Les données brutes d'ARN-Seq ont été obtenues à partir d'une étude précédente (Li et al., 2018b). Les lectures brutes générées par le logiciel de contrôle Illumina HiSeq ont été évaluées à l'aide de FastQC (Andrews, 2010). Les échantillons avec une mauvaise qualité de séquence ont été rejetés. Les lectures de séquences ont été mappées sur le génome hg38 à l'aide de STAR (Dobin et al., 2013). Les lectures de jonction de fusion ont été analysées à l'aide de CIRCexplorer2 et les lectures de jonction de rétro-épissage capturées ont ensuite été annotées avec des fichiers d'annotation UCSC (Zhang et al., 2016). Pour des détections supplémentaires, les lectures de séquences ont été mappées sur le génome hg38 à l'aide de l'outil d'alignement Burrows-Wheeler (Li et Durbin, 2009), les circRNAs ont été identifiés à l'aide de CIRI (Gao et al., 2015). L'annotation des gènes a été réalisée à l'aide de org.Hs.eg.db (Carlson, 2017). Une liste de circRNAs communs aux HAEC de contrôle et stimulés par LPC a été générée à l'aide de la fonction RECHERCHEV dans Microsoft Excel. Pour filtrer les circRNAs significativement modifiés, les ratios de contrôle aux nombres de lectures de circRNA stimulés par LPC ont été calculés et les logarithmes de base 2 pris de ces ratios. La moyenne et l'écart type des valeurs du logarithme ont été calculés à l'aide de MATLAB et utilisés pour générer un intervalle de confiance à 95 % (moyenne & x00B1 2 & x2217 SD). À l'aide de données d'expression d'ARNm obtenues précédemment (Li et al., 2018b), un intervalle de confiance de changement de facteur d'ARNm a été calculé de la même manière à l'aide des dix gènes de ménage : C1orf43, CHMP2A, GAPDH, EMC7, GPI, PSMB2, PSMB4, RAB7A, SNRPD3 et VPS29 et il a été utilisé pour séparer les circARN par le changement d'expression de l'ARNm correspondant.

    Comparaison des séquences d'intron flanquantes

    Les données circRNA générées comprenaient les coordonnées d'intron flanquant un script Python a été utilisé pour analyser ces coordonnées et les alimenter dans une requête de ligne de commande NIH NCBI BLAST + (blastn -max_hsps 1 -outfmt � pident e-Value bitscore”) comparant les séquences des séquences d'introns flanquants 3′ et 5′ en utilisant des copies locales des séquences chromosomiques 1 de l'assemblage primaire du génome humain hg38 (Camacho et al., 2009). Cela a renvoyé le pourcentage d'identité, la valeur attendue (nombre de correspondances de force égale attendue par hasard) et les valeurs de bitscore (score normalisé pour la force de correspondance) pour chaque paire d'introns adjacents. Ceux-ci ont ensuite été exportés vers un fichier texte et importés dans une feuille de calcul Microsoft Excel pour la tabulation. Les valeurs de bitscore ont ensuite été utilisées pour l'analyse statistique (décrite ci-dessous sous 𠇊nalyse statistique”).

    Faire correspondre les circRNAs aux entrées de la base de données

    La longueur génomique de chaque circRNA significativement modifié a été calculée en soustrayant sa coordonnée de départ génomique de sa coordonnée de fin génomique. Un script MATLAB a ensuite été utilisé pour trouver des ARN circ avec une longueur et un locus de gène correspondants à partir d'une copie locale de la base de données circRNAdb et pour exporter tous les résultats vers une feuille de calcul Microsoft Excel (Schliebs et al., 1996 Chen et al., 2016). Notamment, les coordonnées génomiques dans circRNAdb ont été données par rapport à l'ancienne annotation génomique humaine hg37. Une copie locale de l'annotation génomique hg37 a donc été obtenue pour comparaison 2 . Ensuite, les requêtes NIH NCBI BLAST+ entre les coordonnées hg38 d'origine et les coordonnées CircRNAdb hg37 (blastn -max_hsps 1 -outfmt � pident”) ont été effectuées à l'aide d'un script MATLAB (Schliebs et al., 1996 Camacho et al., 2009), en prenant seule la meilleure correspondance unique pour chaque paire de séquences, dont les valeurs de pourcentage d'identité ont confirmé l'alignement des séquences pour toutes les correspondances de longueur trouvées. CircInteractome utilise également l'annotation du génome humain hg37, mais un ensemble différent de correspondances d'identifiants dans CircInteractome a été déterminé à la main en raison d'ensembles de données téléchargeables incomplets.

    Analyse des interactions à longue distance

    Une liste complète des sites d'interaction de la chromatine à longue distance dans le génome humain a été obtenue à partir de la base de données 4DGenome 3 sous forme de fichier texte tabulé (Teng et al., 2015). L'utilitaire de ligne de commande grep a été utilisé pour filtrer les entrées détectées à l'aide de la méthodologie Hi-C et impliquant au moins un gène lié au circRNA. Les données filtrées résultantes ont été importées dans Microsoft Excel et les distances d'interaction brutes calculées en tant que différences entre les coordonnées de départ des gènes. Un script AWK a été utilisé pour déterminer si le gène lié au circRNA était en aval ou en amont de son partenaire dans chaque paire d'interaction et pour ajouter cette information au fichier de données. Les signes des valeurs de distance ont ensuite été mis à jour, avec des entrées en aval désignées comme positives et des valeurs en amont désignées comme négatives, à l'aide d'un script Python. Ces valeurs de distance mises à jour ont été séparées dans les mêmes six groupes que leurs gènes correspondants liés au circRNA et utilisées dans des tests de Kolmogorov à deux échantillons par paires (décrits plus loin sous « Analyse statistique »). Les distributions de distance pour tous les circARN régulés à la hausse et à la baisse ont été comparées par groupes dans l'ensemble ainsi que par uniquement les circARN régulés à la hausse et à la baisse avec une expression d'ARNm correspondante augmentée, inchangée ou diminuée, respectivement.

    Caractérisation des séquences de cadres de lecture ouverts

    Les séquences peptidiques du cadre de lecture ouvert (ORF) et les données du site d'entrée ribosomique interne (IRES) ont été obtenues pour identifier les circARN significativement modifiés à partir de circRNAdb (Chen et al., 2016). Un script MATLAB a été utilisé pour appeler les alignements de peptides NIH NCBI BLAST+ à distance pour toutes les séquences ORF par rapport à la base de données de séquences de protéines non redondantes NCBI (nr 4 ) (Schliebs et al., 1996 Camacho et al., 2009), limité aux entrées pour Homo sapiens (blastp -db nr -remote -entrez_query “Homo sapiens [Organisme]” -max_target_seqs 1 -outfmt � sacc pident e-Valeur”).Cela a renvoyé l'adhésion du sujet, le pourcentage d'identité et la valeur attendue de la meilleure correspondance de base de données, qui a ensuite été exportée avec le nom du gène et l'ID circRNAdb vers une feuille de calcul Microsoft Excel. Les accessions obtenues ont été recherchées individuellement et manuellement dans la base de données de protéines NCBI 5 pour déterminer si elles correspondaient à des transcrits d'ARNm canoniques du même locus de gène que le circRNA correspondant. Une version modifiée du script MATLAB de comparaison hg38/hg37 a également été utilisée pour exécuter des recherches NIH NCBI BLAST+ pour la séquence consensus Kozak gccRccAUGG dans les séquences génomiques de tous les circRNAs significativement modifiés (Kozak, 1987 Schliebs et al., 1996 Camacho et al., 2009 ).

    Analyse de la voie

    Le logiciel QIAGEN Ingenuity Pathway Analysis (IPA), qui construit des réseaux causals prédits en amont et en aval pour les ensembles de données d'entrée à partir d'une base de documentation de recherche organisée, a été utilisé pour élucider les voies potentielles en aval des miARN épongés (Krämer et al., 2014). Des listes de miARN ont été saisies dans l'IPA et passées à travers le filtre cible de miARN pour générer une liste de cibles d'ARNm potentielles. La liste des gènes cibles de l'ARNm a ensuite été soumise à une analyse de base IPA. Toutes les voies en aval canoniques renvoyées dans la sortie résultante ont été exportées dans une feuille de calcul Microsoft Excel. Les dix principales voies ont été extraites pour un examen qualitatif plus approfondi.

    Génération de figures graphiques

    Pour les diagrammes de Venn à trois groupes, des listes de gènes ont été saisies dans un générateur de diagrammes de Venn en ligne (6 Evolutionary Genomics, Ghent University, Gand, Belgique) (Draw Venn Diagram). Cet outil a été utilisé pour produire à la fois des diagrammes et des listes de gènes superposés entre les groupes. Pour les diagrammes de Venn à six groupes, les listes de gènes ont été saisies dans l'outil en ligne InteractiVenn 7 pour générer des diagrammes (Heberle et al., 2015), tandis que l'outil de l'Université de Gand ci-dessus a de nouveau été utilisé pour produire des listes de gènes superposés entre les groupes (Draw Venn Diagram ). Les graphiques explicatifs et conceptuels ont été produits à l'aide de Microsoft Paint.

    Analyses statistiques

    Des statistiques sommaires descriptives ont été rapportées par groupe. Les données ont été vérifiées pour l'hypothèse de normalité et, si elles ne sont pas normalement distribuées, elles ont ensuite été transformées à l'aide de diverses fonctions telles que le log10 et la racine cubique pour trouver la transformation optimale pour les données de distribution de la distance d'interaction à longue distance de la chromatine sous-jacente. Les fonctions de densité de distance d'interaction à longue portée de la chromatine ont ensuite été estimées et tracées par groupe sous la transformation optimale en utilisant l'approche de densité de noyau non paramétrique avec une fonction de poids normale (Jones et al., 1996 Hollander et Wolfe, 1999 Silverman, 2018). Des comparaisons par paires de la distance médiane d'interaction à longue distance de la chromatine entre les six groupes ont été effectuées avec de multiples ajustements de comparaison en utilisant la méthode Dwass, Steel et Critchlow-Fligner basée sur le test de Wilcoxon pour les données en aval et en amont séparément (Douglas et Michael, 1991 Conover, 1999 Hollander et Wolfe, 1999 Shalabh, 2011). Des comparaisons par paires entre les groupes pour la distribution de la distance d'interaction à longue portée de la chromatine, le décalage de l'emplacement de la distance médiane et l'échelle de distribution de la distance ont été mises en œuvre à l'aide du test à deux échantillons de Kolmogorov–Smirnov, de la méthode d'estimation de Hodges–Lehmann et du test de Fligner-Policello et du test d'Ansari-Bradley , respectivement, à nouveau pour les données en aval et en amont séparément (Lehmann, 1963 Douglas et Michael, 1991 Conover, 1999 Hollander et Wolfe, 1999 Shalabh, 2011). La version 9.4 de SAS a été utilisée pour effectuer ces analyses et générer des graphiques de fonction de densité pour les données de distance d'interaction à longue portée de la chromatine.

    Pour le reste des données, des tests ANOVA à facteur unique et des tests Kruskal–Wallis non paramétriques ont été effectués pour toutes les analyses multi-groupes à l'aide du complément Real Statistics Resource Pack pour Microsoft Excel 8 (Zaiontz, 2013). Pour les intervalles de confiance, MATLAB a été utilisé pour calculer les écarts moyens et types pour les ensembles de données (Schliebs et al., 1996). Les probabilités des rapports de régulation à la hausse sur la régulation à la baisse ont été calculées en additionnant les coefficients binomiaux et en divisant par la puissance appropriée de 2 dans MATLAB (Schliebs et al., 1996), comme indiqué par la formule p = ∑ i = nu ( iu ) 2 u , où vous est le nombre total de gènes considérés et m est le grand nombre de gènes régulés à la hausse ou à la baisse.


    Raisonnement

    Les facteurs de transcription et leurs interactions tridimensionnelles sont cruciaux pour la régulation des gènes [1, 2]. De nombreux sites de liaison de facteurs de transcription distaux ont été identifiés par des expériences sur la chromatine à l'échelle du génome, tels que la puce d'immunoprécipitation de la chromatine (ChIP) [3], l'étiquette d'extrémité couplée à la puce (PET) [4] et ChIP-Seq [5], mais il n'est pas clair lesquels de ces sites de liaison au facteur de transcription distaux sont réels et fonctionnels dans la régulation des gènes, et lesquels sont des « places de stationnement » non fonctionnelles. Il a été démontré que les interactions tridimensionnelles de la chromatine rapprochent spatialement les sites de liaison des facteurs de transcription distaux des promoteurs de gènes [6], mais l'analyse globale des interactions tridimensionnelles de la chromatine a été limitée par le manque de techniques pour une résolution élevée et complète. analyse du génome.

    Récemment, nous avons développé un de novo, méthode à haut débit, Analyse d'interaction de la chromatine avec séquençage de balises appariés (ChIA-PET), pour caractériser les structures tridimensionnelles des interactions de la chromatine à longue portée dans le noyau [7-9], ce qui permet d'identifier la transcription sites de liaison impliqués dans les interactions à longue distance à l'échelle du génome. Les principales caractéristiques de l'analyse ChIA-PET (Figure 1a) sont que les nœuds d'interaction de la chromatine réticulés liés par des facteurs protéiques sont enrichis par ChIP, et les éléments d'ADN distants attachés ensemble à une distance spatiale étroite dans ces nœuds d'interaction de la chromatine sont connectés par ligature de proximité avec des lieurs d'ADN oligonucléotidiques. Nous avons conçu des séquences de liaison qui contiennent non seulement MmeI sites de restriction pour l'extraction PET, mais incluent également des codes-barres nucléotidiques spécifiques pour évaluer le niveau de bruit dans les données ChIA-PET provenant de la ligature aléatoire. Sur MmeI digestion, la construction PET résultante contient une étiquette de tête de 20 pb, une séquence de liaison de 38 pb et une étiquette de queue de 20 pb, qui est le modèle pour le séquençage d'extrémités appariées de prochaine génération, par exemple, le séquençage d'extrémités appariées Illumina des deux se termine dans des directions opposées (figure 1b). Chacune des lectures de séquençage appariées découvre la séquence d'étiquette de 20 nucléotides et la séquence de 16 nucléotides de la séquence de liaison attachée, y compris les codes-barres nucléotidiques. Lorsque les TEP sont mappées sur les séquences génomiques de référence correspondantes, la distance génomique entre les deux étiquettes cartographiées révélera si une TEP est dérivée d'un produit d'auto-ligature d'un seul fragment d'ADN (courte distance génomique) ou d'un produit d'inter-ligature de deux Fragments d'ADN (longue distance génomique ou interchromosomique) (Figure 1c). Les fragments de ChIP qui se chevauchent inférés par les séquences PET révéleront de véritables sites de liaison et des interactions de chromatine à longue portée liés par de tels facteurs protéiques, tandis que les singletons reflètent principalement le bruit de fond aléatoire (figure 1d).

    Schéma de l'analyse ChIA-PET. (une) Le protocole expérimental ChIA-PET, qui comprend la préparation de la chromatine, la ChIP, la ligature du linker, la ligature de proximité, MmeI digestion de restriction et séquençage de l'ADN. (b) Les constructions ChIA-PET préparées pour l'analyse de séquençage. Chaque construction PET implique une paire de balises (20 pb chacune) et un lieur (38 pb) entre les paires de balises. Ce lieur de pleine longueur est dérivé de la ligature de deux demi-lieurs, A ou B, chacun avec un nucléotide de code-barres unique (CG pour demi-lieur A et AT pour demi-lieur B). Les nucléotides du code-barres sont surlignés en lettres rouges. Les lieurs avec des codes-barres AB sont considérés comme des produits de ligature de proximité chimériques non spécifiques. (c) Cartographie des tags de séquences TEP pour référencer le génome. Les catégories « TEP d'auto-ligature » ​​et « PET d'inter-ligature » ​​ont été attribuées. (ré) Regroupement de séquences TEP qui se chevauchent dans les mêmes régions génomiques pour identifier des sites de liaison de protéines enrichis en chevauchant des « TEP d'auto-ligature » et des interactions de chromatine à longue distance en chevauchant des « TEP d'inter-ligature ».

    L'approche ChIA-PET est très efficace pour générer de grands volumes de données de séquences PET pour les interactions de la chromatine à longue distance avec différents facteurs protéiques dans des génomes complexes. Étant donné que la détection des interactions de la chromatine à longue distance implique des niveaux élevés de bruit de fond en raison de la complexité des structures de la chromatine dans l'espace nucléaire et de la nature de la ligature de proximité [7, 8], une analyse significative nécessite un pipeline complet et efficace. Les immenses défis dans la mise en place d'un pipeline efficace pour traiter l'énorme masse de données de séquences ChIA-PET comprennent : niveau de bruit dans les données comment identifier authentique sites de liaison et interactions de la chromatine comment organiser les ensembles de données et comment visualiser efficacement les interactions de la chromatine à longue portée identifiées par l'analyse ChIA-PET. Bon nombre des défis bioinformatiques rencontrés dans l'analyse ChIA-PET sont sans précédent.

    En développant les algorithmes d'analyse de données ChIA-PET, nous avons assemblé un ensemble de solutions bioinformatiques sophistiquées appelées « outil ChIA-PET » pour traiter, analyser, visualiser et gérer les données ChIA-PET rapidement, avec précision et automatiquement. Dans ce rapport, nous décrivons la conception et la mise en œuvre de l'outil ChIA-PET et démontrons son efficience et son efficacité en traitant et en analysant un ensemble de données de bibliothèque ChIA-PET du récepteur d'œstrogène α (ERα) de la lignée cellulaire MCF-7.


    Les références

    Buenrostro JD, Wu B, Litzenburger UM, Ruff D, Gonzales ML, Snyder MP, et al. L'accessibilité de la chromatine unicellulaire révèle des principes de variation régulatrice. La nature. 2015523 : 486–90.

    Cusanovich DA, Daza R, Adey A, Pliner HA, Christiansen L, Gunderson KL, et al. Profilage cellulaire unique multiplex de l'accessibilité de la chromatine par indexation cellulaire combinatoire. Science. 2015348 : 910-4.

    Lake BB, Chen S, Sos BC, Fan J, Kaeser GE, Yung YC, et al. Analyse unicellulaire intégrative des états transcriptionnels et épigénétiques dans le cerveau humain adulte. Nat Biotechnol. 201836:70-80.

    Chen X, Miragaia RJ, Natarajan KN, Teichmann SA. Une méthode rapide et robuste pour le profilage d'accessibilité de la chromatine à cellule unique. Nat Commun. 20189:5345.

    Lareau CA, Duarte FM, Chew JG, Kartha VK, Burkett ZD, Kohlway AS, et al. Indexation combinatoire basée sur les gouttelettes pour l'accessibilité à la chromatine unicellulaire à grande échelle. Nat Biotechnol. 201937 : 916–24.

    Cusanovich DA, Hill AJ, Aghamirzaie D, Daza RM, Pliner HA, Berletch JB, et al. Un atlas unicellulaire de l'accessibilité de la chromatine de mammifère in vivo. Cellule. 2018174 : 1309–24. e18.

    Preissl S, Fang R, Huang H, Zhao Y, Raviram R, Gorkin DU, et al. L'analyse d'un seul noyau de la chromatine accessible dans le cerveau antérieur de la souris en développement révèle une régulation transcriptionnelle spécifique au type de cellule. Nat Neurosci. 201821:432-9.

    Corces MR, Buenrostro JD, Wu B, Greenside PG, Chan SM, Koenig JL, et al. L'accessibilité de la chromatine spécifique à la lignée et unicellulaire représente l'évolution de l'hématopoïèse humaine et de la leucémie. Nat Genet. 201648:1193-203.

    Buenrostro JD, Corces MR, Lareau CA, Wu B, Schep AN, Aryee MJ, et al. L'analyse monocellulaire intégrée cartographie le paysage réglementaire continu de la différenciation hématopoïétique humaine. Cellule. 2018173 : 1535–48. e16.

    Satpathy AT, Saligrama N, Buenrostro JD, Wei Y, Wu B, Rubin AJ, et al. ATAC-seq indexé sur les transcriptions pour un profil immunitaire de précision. Nat Med. 201824 : 580-90.

    Schep AN, Wu B, Buenrostro JD, Greenleaf WJ. chromVAR : déduction de l'accessibilité associée au facteur de transcription à partir de données épigénomiques unicellulaires. Méthodes Nat. 201714:975-8.

    Ji Z, Zhou W, Ji H. Analyse des données du régulome à cellule unique par SCRAT. Bioinformatique. 201733:2930-2.

    Urrutia E, Chen L, Zhou H, Jiang Y. Destin : boîte à outils pour l'analyse unicellulaire de l'accessibilité de la chromatine. Bioinformatique [Internet]. 2019 Disponible sur : https://doi.org/10.1093/bioinformatics/btz141.

    Zamanighomi M, Lin Z, Daley T, Chen X, Duren Z, Schep A, et al. Regroupement non supervisé et classification épigénétique de cellules individuelles. Nat Commun. 20189:2410.

    Bravo González-Blas C, Minnoye L, Papasokrati D, Aibar S, Hulselmans G, Christiaens V, et al. cisTopic : modélisation de sujets cis-régulateurs sur des données ATAC-seq unicellulaires. Méthodes Nat. 201916:397-400.

    Baker SM, Rogerson C, Hayes A, Sharrocks AD, Rattray M. Classification des cellules avec Scasat, un outil d'analyse ATAC-seq à cellule unique. Acides nucléiques Res. 201947 : e10.

    Sinnamon JR, Torkenczy KA, Linhoff MW, Vitak SA, Mulqueen RM, Pliner HA, et al. Le paysage accessible de la chromatine de l'hippocampe murin à une résolution unicellulaire. Génome Res. 201929:857–69.

    Fang R, Preissl S, Hou X, Lucero J, Wang X. Le regroupement rapide et précis d'épigénomes unicellulaires révèle des éléments cis-régulateurs dans des types de cellules rares. bioRxiv [Internet]. biorxiv.org 2019 Disponible sur : https://www.biorxiv.org/content/10.1101/615179v2.abstract.

    Zhang Y, Liu T, Meyer CA, Eeckhoute J, Johnson DS, Bernstein BE, et al. Analyse basée sur un modèle de ChIP-Seq (MACS). Génome Biol. 20089 : R137.

    Packer JS, Zhu Q, Huynh C, Sivaramakrishnan P, Preston E, Dueck H, et al. Un atlas moléculaire résolu en lignée de C. elegans embryogenèse à résolution unicellulaire. Science. 2019365(6459).

    Li H, Durbin R. Alignement de lecture courte rapide et précis avec la transformée de Burrows-Wheeler. Bioinformatique Narnia. 200925 : 1754–60.

    Langmead B, Trapnell C, Pop M, Salzberg SL. Alignement ultrarapide et efficace en mémoire de courtes séquences d'ADN sur le génome humain. Génome Biol. 200910 : R25.

    Langmead B, Salzberg SL. Alignement rapide à lecture espacée avec Bowtie 2. Méthodes Nat. 20129:357-9.

    Hatem A, Bozdağ D, Toland AE, Çatalyürek ÜV. Analyse comparative des outils de cartographie de séquences courtes. BMC Bioinformatique. 201314:184.

    Guo Y, Mahony S, Gifford DK. La découverte d'événements de liaison à l'échelle du génome à haute résolution et la découverte de motifs révèlent les contraintes de liaison spatiale des facteurs de transcription. PLoS Comput Biol. 20128 : e1002638.

    Thomas R, Thomas S, Holloway AK, Pollard KS. Des fonctionnalités qui définissent les meilleurs algorithmes d'appel de pointe ChIP-seq. Bref Bioinform. 201718 : 441-50.

    Stuart T, Butler A, Hoffman P, Hafemeister C, Papalexi E, Mauck WM 3rd, et al. Intégration complète des données monocellulaires. Cellule. 2019177:1888-902. e21.

    Otto C, Stadler PF, Hoffmann S. Manque d'alignements ? Le mappeur de séquençage nouvelle génération segemehl revisité. Bioinformatique. 201430 : 1837–43.

    McInnes L, Healy J, Melville J. UMAP : Uniform Manifold Approximation and Projection for Dimension Reduction [Internet]. arXiv [stat.ML]. 2018. Disponible sur : http://arxiv.org/abs/1802.03426.

    Baek S, Goldstein I, Hager GL. L'empreinte génomique bivariée détecte les changements dans l'activité des facteurs de transcription. Rép. cellulaire 201719 : 1710–22.

    Li Z, Schulz MH, Look T, Begemann M, Zenke M, Costa IG. Identification des sites de liaison des facteurs de transcription en utilisant ATAC-seq. Génome Biol. 201920:45.

    Korsunsky I, Fan J, Slowikowski K, Zhang F, Wei K, Baglaenko Y, et al. Intégration rapide, sensible et précise des données de cellule unique avec Harmony [Internet]. Disponible sur : https://doi.org/10.1101/461954.

    Pliner HA, Packer JS, McFaline-Figueroa JL, Cusanovich DA, Daza RM, Aghamirzaie D, et al. Cicéron prédit les interactions de l'ADN cis-régulatrices à partir des données d'accessibilité de la chromatine unicellulaire. Cellule Mol. 201871:858–71.e8.

    Satpathy AT, Granja JM, Yost KE, Qi Y, Meschi F, McDermott GP, et al. Paysages de chromatine unicellulaire massivement parallèles du développement des cellules immunitaires humaines et de l'épuisement des cellules T intratumorales. Nat Biotechnol. 201937 : 925–36.

    Amemiya HM, Kundaje A, Boyle AP. La liste noire ENCODE : identification des régions problématiques du génome. Sci Rep. 20199:9354.

    Zhu YP, Thomas GD, Hedrick CC. 2014 Conférence du prix Jeffrey M. Hoeg : contrôle transcriptionnel du développement des monocytes. Arterioscler Thromb Vasc Biol. 201636 : 1722–33.

    Nechanitzky R, Akbas D, Scherer S, Györy I, Hoyler T, Ramamoorthy S, et al. Le facteur de transcription EBF1 est essentiel pour le maintien de l'identité des cellules B et la prévention des destins alternatifs dans les cellules engagées. Nat Immunol. 201314 : 867–75.

    Yu Y, Wang J, Khaled W, Burke S, Li P, Chen X, et al. Bcl11a est essentiel pour le développement lymphoïde et régule négativement p53. J Exp Med. 2012209 : 2467-83.

    Kurotaki D, Sasaki H, Tamura T. Contrôle transcriptionnel du développement des monocytes et des macrophages. Int Immunol. 201729:97-107.

    Halene S, Gaines P, Sun H, Zibello T, Lin S, Khanna-Gupta A, et al. C/EBPepsilon dirige la détermination de la lignée granulocytaire vs monocytaire et confère la fonction chimiotactique via Hlx. Exp Hématol. 201038 : 90-103.

    Schinnerling K, García-González P, Aguillon JC. Profilage de l'expression génique de cellules dendritiques dérivées de monocytes humains - recherche de régulateurs moléculaires de la tolérogénicité [internet]. Immunol avant. 2015 Disponible sur : https://doi.org/10.3389/fimmu.2015.00528.

    Bolger AM, Lohse M, Usadel B. Trimmomatic : un trimmer flexible pour les données de séquence Illumina. Bioinformatique. 201430:2114-20.

    Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, et al. Le format d'alignement/carte de séquence et SAMtools. Bioinformatique. 200925 : 2078–9.

    Lun ATL, Riesenfeld S, Andrews T, Dao TP, Gomes T, participants au 1er jamboree de l'atlas des cellules humaines, et al. EmptyDrops : distinguer les cellules des gouttelettes vides dans les données de séquençage d'ARN unicellulaire à base de gouttelettes. Génome Biol. 201920:63.

    Love MI, Huber W, Anders S. Estimation modérée du changement de pli et de la dispersion pour les données RNA-seq avec DESeq2. Génome Biol. 201415:550.

    Ramírez F, Ryan DP, Grüning B, Bhardwaj V, Kilpert F, Richter AS, et al. deepTools2 : un serveur Web de nouvelle génération pour l'analyse de données de séquençage en profondeur. Acides nucléiques Res. 201644 : W160-5.

    Chen H, Lareau C, Andreani T, Vinyard ME, Garcia SP, Clement K, et al. Évaluation des méthodes de calcul pour l'analyse des données ATAC-seq unicellulaires. Génome Biol. 201920:241.

    Yu W, Uzun Y, Zhu Q, Chen C, Tan K. scATAC-pro : un plan de travail complet pour les données de séquençage de l'accessibilité de la chromatine unicellulaire. Code source Référentiel GitHub 2020, https://github.com/tanlabcode/scATAC-pro.

    Yu W, Uzun Y, Zhu Q, Chen C, Tan K scATAC-pro : un plan de travail complet pour les données de séquençage de l'accessibilité de la chromatine unicellulaire Code source Zenodo Repository 2020, DOI : https://doi.org/10.5281/zenodo.3696036 .

    Yu W, Uzun Y, Zhu Q, Chen C, Tan K. scATAC-pro : un plan de travail complet pour les données de séquençage de l'accessibilité de la chromatine unicellulaire. Code d'analyse et référentiel de données Github 2020, https://github.com/tanlabcode/scATAC-pro_paper.

    Yu W, Uzun Y, Zhu Q, Chen C, Tan K scATAC-pro : un plan de travail complet pour les données de séquençage de l'accessibilité de la chromatine unicellulaire. Code d'analyse et référentiel de données Zenodo 2020, DOI : https://doi.org/10.5281/zenodo .3732194.


    Bases de données épigénétiques :

      : Encyclopédie des éléments de l'ADN. Également disponible sur l'ENSEMBL et le navigateur de génome UCSC. : Le NIH Roadmap Epigenomics Mapping Consortium propose des cartes des modifications des histones, de l'accessibilité de la chromatine, de la méthylation de l'ADN et de l'expression de l'ARNm dans des centaines de types de cellules et de tissus humains. : L'International Human Epigenome Consortium (IHEC) propose des épigénomes de référence pertinents pour la santé et la maladie. Affichez, recherchez et téléchargez toutes les données. : Stocker et travailler avec les données génomiques et épigénomiques d'un certain nombre de consortiums internationaux. : Pour les fans de navigateur de génome UCSC. : Un navigateur Web qui propose des pistes de projets ENCODE et Roadmap Epigenomics.

    Chromatine :

      : Une base de données des interactions de la chromatine à travers cinq espèces. Comprend les données de 3C, 4C, 5C, ChIA-PET, Hi-C, Capture-C et IM-PET.
    • SGC Epigenetic Chemical Probes : une liste de sondes chimiques qui inhibent ou antagonisent les protéines impliquées dans la signalisation épigénétique. Elles sont mises à la disposition de la communauté des chercheurs sans restriction d'utilisation.

    Méthylation de l'ADN :

      : Une base de connaissances sur les études d'association à l'échelle de l'épigénome. : Base de données de séquençage du génome entier au bisulfite (WGBS) pour de nombreux tissus, conditions pathologiques et espèces différents. : Des centaines de méthylomes d'organismes bien étudiés.

    ARN non codant :

      : Séquences de miARN publiées. : Une base de données de toutes sortes d'ARN non codants (sauf ARNt et ARNr) pour 16 espèces. : Lier la séquence au trait, découvrez ce que les polymorphismes de votre microARN peuvent faire. : Données circRNA publiques et scripts Python personnalisés pour la découverte de circRNA dans vos propres données RNA-seq (ribominus).

    Vous avez un outil ou une base de données que vous creusez ? Faites-le nous savoir pour que nous puissions le partager dans l'esprit de la science ouverte !

    Restez informé grâce à notre mise à jour bimensuelle livrée dans votre boîte de réception.


    Résultats

    L'analyse Hi-C était basée sur 91,9 millions de paires de lecture qui ont réussi le traitement et le filtrage de qualité dans HOMER. Une enquête à l'échelle du génome des aberrations structurelles est présentée dans la figure 2. Cette carte thermique représente le rapport des fréquences d'interaction observées et les fréquences attendues sur la base d'un modèle de fond. Les translocations sont indiquées par des fréquences d'interactions interchromosomiques plus élevées que prévu (couleur rouge). En conséquence, les fréquences d'interaction intrachromosomique des chromosomes impliqués dans la translocation sont diminuées (couleur bleue). Le dégradé de couleur indique l'orientation du point de rupture, c'est-à-dire que les intensités d'interaction diminuent avec la distance par rapport aux points de rupture chromosomiques. Au total, nous avons identifié 22 translocations, à partir desquelles nous avons pu cartographier avec précision 32 points de rupture en un seul fragment HindIII (le tableau 1 note que seuls 32 des 34 points de rupture répertoriés dans le tableau 1 ont été pris en compte pour l'analyse suivante comme dans deux cas points d'arrêt mappés sur le même fragment HindIII). Une comparaison des données Hi-C avec les données de séquençage du génome entier générées par un laboratoire différent utilisant un lot différent de cellules Se-Ax (33, 34) a révélé un chevauchement de 25 points de rupture. Ceux-ci ont été mis en évidence dans le tableau 1. Une comparaison des points de rupture de translocation avec les données CGH de la matrice générées dans une étude précédente par notre laboratoire avec une résolution de 񾄀 kb (30) a révélé que 11 de ces points de rupture non identifiés par le séquençage du génome entier étaient flanqué de suppressions (m = 7) ou des duplications (m = 4). D'autres points de rupture de translocation identifiés uniquement par analyse Hi-C étaient à proximité immédiate d'autres translocations, suggérant la présence d'un réarrangement complexe (t1/t10 t7/t8 t8/t15 et t13/t14). Cependant, il faut souligner que les points de rupture non chevauchants peuvent également être dus à des mutations privées apparaissant lors de la culture de cellules Se-Ax dans différents laboratoires sur une période plus longue ou à d'autres raisons techniques, en particulier des différences de résolution.

    Figure 2. Fréquences d'interaction à l'échelle du génome dans Se-Ax. Des fréquences d'interaction normalisées supérieures et inférieures à celles attendues sont affichées avec une résolution de 2,5 Mb en rouge et en bleu, respectivement. Les nombres de chromosomes sont indiqués en haut et à droite avec des informations sur les pertes de nombre de copies d'ADN (rouge) et les gains (vert) détectés par hybridation génomique comparative sur puce. Les translocations sont caractérisées par des interactions interchromosomiques plus élevées que prévu, tandis que leurs interactions intrachromosomiques correspondantes sont diminuées. Une vue plus détaillée des chromosomes sélectionnés est fournie à la figure 3.

    Tableau 1. Points d'arrêt de translocation (hg19).

    À titre d'exemple de la complexité des aberrations chromosomiques, un zoom avant illustrant les interactions interchromosomiques pour les chromosomes 2, 6 et 11 est présenté à la figure 3. De plus, les délétions et duplications chromosomiques identifiées par l'analyse arrayCGH de Se-Ax sont indiquées dans les deux cartes thermiques. .

    figure 3. Carte thermique des fréquences d'interaction interchromosomique normalisées entre les chromosomes 2 et 6 et les chromosomes 2 et 11. Deux cartes thermiques sont présentées, qui démontrent la présence d'une translocation t(26) (gauche) et t(211) (droite), respectivement. Les deux chromosomes dérivés conduisent à des fréquences d'interaction interchromosomique plus élevées que prévu, qui sont indiquées par le gradient de couleur rouge. Les altérations de l'état du nombre de copies d'ADN détectées par l'hybridation génomique comparative sur puce sont indiquées par la coloration des idéogrammes chromosomiques (délétion rouge =, gain vert =). Alors que le point de rupture de la translocation réciproque t(211) est facilement identifiable [1], l'identification de t(26) [2] est compliquée par des délétions supplémentaires du chromosome 2 [3] et du chromosome 6 [4] et une inversion du chromosome 2 [5]. L'orientation des réarrangements chromosomiques peut être déduite du gradient de couleur [les intensités d'interaction (c'est-à-dire la couleur rouge) diminuent avec la distance des points de rupture chromosomiques].

    Des suppressions adjacentes aux points de rupture de transclocation ont été rencontrées 12 fois (sur 32 points de rupture Figure 4). Le tracé Circos illustré à la figure 5 montre des translocations enchaînées avec des points de rupture partagés entre plusieurs chromosomes sur l'exemple des chromosomes 5, 8 et 10.

    Figure 4. Suppressions adjacentes aux points de rupture de translocation identifiés dans Se-Ax. Les rapports log2 lissés du nombre de copies d'ADN dans un intervalle de 2 Mb entourant les points de rupture de translocation sont indiqués pour Se-Ax (ligne rouge). Les nombres de copies d'ADN de lignées cellulaires supplémentaires pour les mêmes intervalles sont affichés à des fins de comparaison (voir l'encadré pour la légende des couleurs).

    Figure 5. Circos plot visualisant les translocations enchaînées entre les chromosomes 5, 8 et 10. Dans ce Circos plot, les chromosomes sont alignés radialement. Les arcs à l'intérieur de ce cercle indiquent d'importantes interactions interchromosomiques et intrachromosomiques à longue distance. Suivant la numérotation donnée dans le petit encart à gauche : (1) interactions interchromosomiques significatives (lignes bleues FDR π.001), interactions intrachromosomiques significatives à longue distance (lignes grises 㸥 Mb, FDR π.001) et translocations comme indiqué dans le tableau 1 (lignes noires) (2) idéogrammes chromosomiques alignés radialement (3) nombre d'interactions significatives par tranche de 50 kb (toutes les distances d'interaction max = 10) (4) état du nombre de copies d'ADN en rouge (suppression) et vert (gain) tel que détecté par hybridation génomique comparative sur puce.

    Afin d'évaluer l'impact de la proximité spatiale des chromosomes sur l'émergence des translocations, nous avons passé au crible des ensembles de données Hi-C publics pour les interactions entre les intervalles chromosomiques affectés par les translocations dans Se-Ax. Nous n'avons pas réussi à obtenir d'indices sur des probabilités d'interaction plus élevées entre les régions englobant les régions de translocation, ni dans les données de la lignée cellulaire lymphoblastoïde GM12878, que nous avons traitées de la même manière que les données Se-Ax, ni dans les ensembles de données de la base de données 4DGenome. L'analyse de permutation a révélé une surreprésentation significative des fragments HindIII associés aux points de rupture de translocation dans les gènes (p = 0,00208, 100 000 permutations). Pour l'un des gènes de fusion possibles (AIG1/GOSR1), les transcrits ont été identifiés dans les données RNA-Seq publiées correspondantes (33).


    Introduction

    Chez les eucaryotes, l'ADN est densément emballé dans une structure d'ordre supérieur appelée chromatine. Cela a un impact profond sur les processus qui agissent sur l'ADN, tels que la réplication ou l'expression des gènes (Campos et Reinberg, 2009 Narlikar et al., 2002). Les cellules contiennent donc divers complexes protéiques qui régulent la structure de la chromatine. L'unité de base de la chromatine est un nucléosome, formé de 147 paires de bases d'ADN enroulées autour d'un octamère de deux copies des histones H2A, H2B, H3 et H4 (Richmond et Davey, 2003). Les régulateurs de la chromatine comprennent les remodeleurs de nucléosomes, les chaperons d'histones et les complexes modificateurs d'histones (Narlikar et al., 2002). Les complexes de remodelage des nucléosomes glissent ou expulsent les nucléosomes et sont également impliqués dans le dépôt d'histones et de leurs variantes. Les complexes modificateurs d'histones modifient de manière covalente les queues d'histones avec des marques différentes. En plus d'influencer le renouvellement des nucléosomes et de modifier les propriétés physiques telles que la condensation de la chromatine, des modifications spécifiques servent également de sites de reconnaissance pour d'autres protéines. Ces effecteurs régulent davantage la structure de la chromatine ou facilitent le processus d'expression génique lui-même (Campos et Reinberg, 2009).

    Un modèle élégant a été proposé pour expliquer les conséquences des modifications de la chromatine (Strahl et Allis, 2000). Dans l'hypothèse du code histone, différentes combinaisons de modifications forment un code qui est lu par d'autres protéines pour influencer les événements en aval. Bien que l'emplacement de nombreuses marques d'histones soit en corrélation avec des états d'expression particuliers, des preuves rigoureuses des relations causales sont souvent manquantes (Rando et Chang, 2009). De plus, la découverte qu'une même modification d'histone peut être liée à différents effecteurs, chacun médiatisant différents événements en aval, remet également en question l'existence d'un code strictement rigide (Berger, 2007). Les conséquences des modifications des histones sont actuellement expliquées par la liaison dépendante du contexte des complexes effecteurs (Campos et Reinberg, 2009 Lee et al., 2010). La nature de ce contexte commence seulement à être étudiée. Comme pour l'hypothèse du code histone elle-même, les propositions concernant la liaison dépendante du contexte sont principalement basées sur des études de gènes individuels. L'un des objectifs de cette étude est donc de déterminer dans quelle mesure la dépendance au contexte ou un code s'applique aux différentes interactions de la chromatine lorsqu'elles sont dosées sur l'ensemble d'un génome.

    Une question connexe est de savoir comment les différentes interactions de la chromatine fonctionnent ensemble. L'architecture générale des voies d'interaction de la chromatine et comment cela peut varier pour différents gènes, est encore inexplorée. Pour comprendre les effets des différents états de la chromatine, de nombreuses études se concentrent sur la liaison des protéines effectrices. Bien que cela soit crucial pour comprendre le mécanisme, cela peut conduire à ignorer la question de savoir si un événement de liaison a d'autres conséquences en aval, par exemple sur l'expression des gènes. Un deuxième objectif de cette étude est donc d'étudier les interactions telles qu'elles se manifestent par leurs conséquences en aval sur l'expression des gènes.

    L'analyse de l'expression à l'échelle du génome a déjà été appliquée pour étudier le rôle de nombreux régulateurs individuels. L'utilisation de différentes plates-formes de puces à ADN, de différents antécédents génétiques et de différentes conditions de croissance dans ces études précédentes, confond les analyses comparatives appropriées. Ici, nous analysons l'interaction entre l'expression des gènes et la chromatine en déterminant les profils d'expression pour perturber la majorité des mécanismes de régulation de la chromatine dans Saccharomyces cerevisiae dans des conditions identiques. Ceci a été réalisé par le profilage de l'expression par microréseau à ADN de 165 souches de levure, chacune portant une mutation dans un facteur de chromatine différent. Les résultats montrent un degré de spécificité remarquable, également pour les mutants, ce qui entraîne une perte de marques d'histones généralisées. Les données sont analysées à trois niveaux de complexité : analyse des profils individuels pour déterminer les rôles cellulaires, analyse des complexes protéiques pour examiner les relations des sous-unités et analyse des relations entre les complexes pour étudier l'architecture des voies d'interaction. Le résultat est un premier réseau d'interactions de la chromatine basé sur les fonctions. Le réseau révèle que les régulateurs individuels de la chromatine sont presque tous fonctionnellement connectés les uns aux autres et forment des voies qui se ramifient et s'interconnectent à différents niveaux. L'étude montre comment les éléments du code histone et la liaison dépendante du contexte de la chromatine se superposent pour former des voies d'interaction de la chromatine. L'élimination des facteurs individuels de la chromatine a des effets beaucoup plus spécifiques et restreints sur l'expression des gènes que ce qui est prédit par l'emplacement. Cela suggère la présence de mécanismes géniques supplémentaires qui vont au-delà de la liaison dépendante du contexte pour atteindre la spécificité. Le réseau et les données sous-jacentes fournissent donc un cadre pour étudier comment les régulateurs de la chromatine agissant à l'échelle mondiale facilitent des réponses spécifiques.


    Informations sur l'auteur

    Affiliations

    Programme de bioinformatique et de génomique, Pennsylvania State University, University Park, State College, PA, 16802, États-Unis

    Yanli Wang, Fan Song, Bo Zhang et Feng Yue

    Département de biochimie et de biologie moléculaire, Collège de médecine, État de Pennsylvanie Hershey, Hershey, PA, 17033, États-Unis

    Lijun Zhang, Jie Xu et Feng Yue

    Département d'informatique et des sciences de l'information, Université de Pennsylvanie, Philadelphie, PA, 19104, États-Unis

    Département de génétique, The Edison Family Center for Genome Sciences and Systems Biology, Washington University School of Medicine, St. Louis, MO, 63108, États-Unis

    Daofeng Li, Mayank N. K. Choudhary et Ting Wang

    Département de génétique, Université de Caroline du Nord, Chapel Hill, Caroline du Nord, 27599, États-Unis

    Département de biostatistique, Université de Caroline du Nord, Chapel Hill, Caroline du Nord, 27599, États-Unis

    Département d'informatique, Université de Caroline du Nord, Chapel Hill, Caroline du Nord, 27599, États-Unis

    Département des sciences quantitatives de la santé, Lerner Research Institute, Cleveland Clinic Foundation, Cleveland, OH, 44195, États-Unis

    Center for Computational Biology and Bioinformatics, Huck Institutes of the Life Sciences, The Pennsylvania State University, University Park, State College, PA, 16802, États-Unis


    Voir la vidéo: Histones (Novembre 2022).