Informations

Les données d'expression du gène TCGA sont manquantes et correspondent à la normale

Les données d'expression du gène TCGA sont manquantes et correspondent à la normale


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

J'essaie d'utiliser le portail de données TCGA pour obtenir des données d'expression génique pour les tissus cancéreux, mais je ne suis pas sûr de ce que signifie « Tumor correspondait à la normale ».

Je ne sais pas si les valeurs sont déjà comparées à un tissu témoin (non cancéreux) ou s'il existe un autre échantillon qui donne les valeurs des tissus sains. En supposant que ce soit ce dernier, je ne vois ces échantillons nulle part.

Ceci est une capture d'écran de mon filtre

http://www.clipular.com/c/5452873408184320.png">


Ces valeurs ne sont pas déjà normalisées par rapport aux témoins tissulaires normaux. Qu'une tumeur soit marquée comme tumeur avec correspondance normale ne signifie pas que toutes les plates-formes utilisées par le TCGA (expression, CNV, protéine et méthylation) ont des tissus normaux disponibles - dans la plupart des cas, les tumeurs avec correspondance normale sont annotées ainsi parce que la mutation appelant a été réalisée en utilisant des comparaisons tumeur vs normale.

Si vous recherchez des contrôles de tissus normaux pour votre type de plate-forme (RPPA dans votre capture d'écran), vous les trouverez étiquetés NT ou N. Si vous n'en voyez aucun étiqueté avec ces descriptions, cela signifie que les échantillons de tissus normaux n'ont pas été traités. en utilisant cette plate-forme.

Le TCGA ne fait pas beaucoup d'analyses de tissus normaux pour autre chose que l'appel à la mutation, car le projet se concentre sur la classification des tumeurs en sous-groupes à l'aide d'approches non supervisées, principalement, et donc toutes les comparaisons qui sont largement utilisées sont tumeur contre tumeur après affectation aux sous-types.


Le projet TCGA a collecté des tumeurs primaires et des valeurs normales appariées par patient et par indication de cancer et a dressé le profil de ces échantillons par exome (WXS) et le profilage du génome (WGS) d'un sous-ensemble d'entre eux. Dans ces cas, la tumeur primaire est un tissu prélevé sur la tumeur primaire et la normale correspondante est généralement un échantillon de sang, mais pourrait provenir d'un écouvillon buccal ou d'une autre source. Comme vous pouvez l'imaginer, il serait moins logique en termes d'expression de doser un contrôle apparié qui dérive d'un autre type de tissu tel que le sang.

Pour les données d'expression, la majorité des données proviennent du profilage basé sur l'ARN-Seq et le tableau des données de la tumeur primaire, et dans certains cas où le tissu normal adjacent a été collecté et soumis, le TCGA a également profilé ces échantillons. C'est probablement ce que vous voyez avec votre filtre TN, et généralement pourquoi vous avez du mal à trouver des quantités équivalentes de normales appariées par rapport aux échantillons de tumeur primaire pour les projets d'expression.

Soit dit en passant, l'entreprise pour laquelle je travaille a récemment lancé un portail de données génomiques gratuit pour la communauté de la recherche appelé GeenPool Reference. Dans le cadre de celui-ci, nous avons déposé tous les TCGA RNA-Seq. Les données ainsi que toutes les métadonnées cliniques associées sont facilement disponibles pour la navigation et l'exploration de données. Vous pourrez facilement déterminer la quantité d'échantillons et leurs paires correspondantes. Si vous êtes intéressé, vous pouvez jeter un œil aux projets de données disponibles dans GenePool Reference ici : http://www.stationxinc.com/reference-library

~Sandeep


Sélection d'échantillons de tissus normaux de référence précis pour la recherche sur le cancer à l'aide d'une approche d'apprentissage en profondeur

Des échantillons de tissus normaux sont souvent utilisés comme contrôle pour comprendre les mécanismes de la maladie, cependant, la collecte de tissus normaux appariés de patients est difficile dans de nombreux cas. Dans la recherche sur le cancer, par exemple, les ressources ouvertes sur le cancer telles que TCGA et TARGET ne fournissent pas d'échantillons de tissus appariés pour chaque cancer ou sous-type de cancer. Le récent projet GTEx a profilé des échantillons d'individus sains, fournissant une excellente ressource pour ce domaine, mais la faisabilité d'utiliser des échantillons GTEx comme référence reste sans réponse.

Méthodes

Nous analysons les données RNA-Seq traitées à partir du même pipeline de calcul et évaluons systématiquement GTEx comme une ressource de référence potentielle. Nous utilisons les cancers qui ont des tissus normaux adjacents dans TCGA comme référence pour l'évaluation. Pour corréler les échantillons tumoraux et les échantillons normaux, nous explorons les gènes les plus variés, les caractéristiques réduites de l'analyse en composantes principales et les caractéristiques codées d'un réseau de neurones auto-encodeur. Nous évaluons d'abord si ces méthodes peuvent identifier le tissu d'origine correct de GTEx pour un cancer donné, puis cherchons à déterminer si les signatures d'expression de la maladie sont cohérentes entre celles dérivées de TCGA et de GTEx.

Résultats

Parmi 32 cancers TCGA, 18 cancers ont moins de 10 échantillons de tissus normaux adjacents appariés. Parmi les trois méthodes, l'autoencodeur a donné les meilleurs résultats pour prédire le tissu d'origine, avec 12 des 14 cancers correctement prédits. La raison de la classification erronée de deux cancers est qu'aucun des échantillons normaux de GTEx n'est bien corrélé avec des échantillons de tumeur dans ces cancers. Cela suggère que GTEx a des tissus appariés pour la majorité des cancers, mais pas tous. Lors de l'utilisation de l'autoencodeur pour sélectionner les échantillons normaux appropriés pour la création de la signature de la maladie, nous avons constaté que les signatures de la maladie dérivées d'échantillons normaux sélectionnés via un autoencodeur de GTEx sont cohérentes avec celles dérivées d'échantillons adjacents de TCGA dans de nombreux cas. Fait intéressant, le choix des 50 échantillons les plus corrélés, quel que soit le type de tissu, a donné des résultats raisonnablement bons, voire meilleurs, dans certains cancers.

Conclusion

Nos résultats démontrent que les échantillons de GTEx peuvent servir d'échantillons normaux de référence pour les cancers, en particulier ceux qui n'ont pas d'échantillons de tissus adjacents disponibles. Une approche basée sur l'apprentissage en profondeur promet de sélectionner des échantillons normaux appropriés.


Introduction

Les gènes de contrôle interne ou les gènes d'entretien sont importants pour obtenir des données fiables et reproductibles à partir d'études d'expression génique dans le cancer (Eisenberg & Levanon, 2013). Les gènes de contrôle interne doivent être exprimés de manière abondante et uniforme dans les tissus tumoraux et normaux et dans différentes conditions expérimentales (Janssens et al., 2004). Les cancers de la région de la tête et du cou sont le sixième cancer le plus fréquent dans le monde avec une incidence de 550 000 cas par an (Ferlay et al., 2010). Des études antérieures soutiennent le manque d'uniformité d'expression sur les gènes de contrôle interne sur la base de conditions expérimentales (De Jonge et al., 2007 Greer et al., 2010). Bien qu'il existe des rapports antérieurs décrivant les gènes de référence ou de contrôle interne dans les études d'expression génique du carcinome épidermoïde de la tête et du cou (Lallemant et al., 2009), l'utilisation de données à haut débit comme les puces à ADN et l'ARN-seq des tumeurs et leurs tissus normaux appariés suite à une confirmation d'expression dans un ensemble indépendant d'échantillons sont rares dans la littérature. De plus, il est crucial que l'expression des gènes de contrôle interne reste inchangée dans des conditions temporelles, spatiales et expérimentales qui prennent en compte les gènes avec une large gamme dynamique d'expression. Par conséquent, revisiter la validité de gènes largement utilisés comme ACTB, TUBB, et GAPDH est nécessaire ainsi que la découverte d'un ensemble minimal de gènes de contrôle interne dans les études d'expression génique HNSCC qui utilisent les données d'expression de cohortes de patients de différentes géographies (Krishnan et al., 2015, 2016) et de grands consortiums comme TCGA (The Cancer Genome Atlas Network, 2015).

Dans la présente étude, nous avons analysé les données d'expression génique HNSCC provenant de trois sources dans la maison données sur les puces à ADN (Krishnan et al., 2015, 2016) (m = 21), données TCGA RNA-seq (The Cancer Genome Atlas Network, 2015) (m = 42) et des données quantitatives de PCR en temps réel (qPCR) sur des gènes individuels des études précédemment publiées (Bär, Bär & Lehmann, 2009 Eisenberg & Levanon, 2013 Lallemant et al., 2009 Martin, 2016 Vandesompele et al., 2002) pour proposer un ensemble de gènes (ensemble de découverte) qui sont exprimés de manière stable et robuste avec le moins de variance à travers les paires tumeur:normale. Nous avons ensuite validé l'expression de l'ensemble de découverte dans des paires tumorales:normales supplémentaires (m = 14) en utilisant qPCR et obtenu un ensemble minimal de deux gènes de ménage en comparant et en classant leur expression lors de la validation.


Résultats

Une carte des virus tumoraux dans 19 cancers humains

Nous avons utilisé deux approches complémentaires pour détecter et quantifier l'expression de virus connus et nouveaux dans les tumeurs (Fig. 1a, Méthodes). En bref, les bibliothèques d'ARN-seq ont été filtrées du contenu humain et les séquences restantes ont été sélectionnées pour rechercher des correspondances avec la collection complète de génomes viraux RefSeq (m= 3 590 hors bactériophages). L'ARNm viral a été quantifié en calculant la fraction de lectures virales (FVR), présentée en parties par million (p.p.m.) de la taille totale de la bibliothèque. Pour permettre la détection des souches manquantes et des nouveaux virus, nous de novo des lectures non humaines assemblées en segments contigus (contigs) qui ont été annotés tout en permettant une forte divergence de séquence. Sur cette base, nous avons ajouté des génomes viraux supplémentaires, tels que des types de papillome manquants dans RefSeq et deux nouveaux génomes assemblés (tableau supplémentaire S1 et figure supplémentaire S1), pour permettre la quantification comme décrit ci-dessus. Les cas avec une couverture de lecture génomique virale restreinte de manière non naturelle, probablement en raison de traces d'ADN recombinant, ont été exclus (Méthodes).

(une) Pipeline d'analyse. Les lectures non humaines ont été associées à une base de données de 3 590 génomes viraux RefSeq, qui a été complétée par 12 génomes supplémentaires connus et 2 nouveaux génomes partiels détectés par de novo assemblage de lectures virales. (b) Inclut les types de cancer et les statistiques. Les graphiques à barres montrent la fraction de tumeurs avec une forte expression virale (>10 pm lectures virales dans la bibliothèque) ainsi que des détections plus faibles (2-10 pm). (c) Nombres relatifs de tumeurs positives pour les principales catégories de virus, avec des détections fortes et faibles indiquées séparément.

Nous avons appliqué notre pipeline à des bibliothèques d'ARN-seq de 19 cancers, englobant un total de 4 433 tumeurs et 404 témoins de tissus normaux qui ont chacun été séquencés à une profondeur moyenne de 151 millions de lectures (Fig. 1b bibliothèque supplémentaire et informations d'échantillon dans le tableau supplémentaire S2) . Nous avons identifié 178 tumeurs avec FVR (expression virale) >2 pm, mais avons constaté que la plupart des cas positifs avaient des niveaux considérablement plus élevés (en moyenne 168 et jusqu'à 854 pm, les résultats complets sont disponibles dans les données supplémentaires 1). Comme on pouvait s'y attendre, CESC et LIHC ont montré la plus forte proportion de tumeurs virales positives (96,6 % et 32,4 %, respectivement, >2 h), suivis du carcinome épidermoïde de la tête et du cou (HNSC, 14,8 % Fig. 1b). De novo L'assemblage a révélé le VPH dans 15/18 tumeurs CESC qui étaient à l'origine négatives, démontrant une grande sensibilité pour la détection des virus manquants et nouveaux. Comparaison avec le statut HPV tel que déterminé par in situ l'hybridation en HNSC a montré que 8/8 échantillons positifs et 44/44 échantillons négatifs ont été correctement classés par notre pipeline.

Les virus tumoraux connus HPV et HBV constituaient la grande majorité des signaux forts >10 pm. (90,5 % fig. 1c). En revanche, les matchs de 14 h à 22 h. étaient souvent dus aux HHV qui sont connus pour infecter et rester latents dans les lymphocytes (47,6 %). Beaucoup de ces détections pourraient être attribuées au cytomégalovirus (CMV/HHV5) et à l'EBV dans l'adénocarcinome du côlon (COAD), probablement en raison d'une infiltration lymphocytaire (Fig. 2a). L'infiltration de lymphocytes T pourrait aussi probablement expliquer un cas de VIH1 à faible FVR dans un adénocarcinome rectal (READ). Nous concluons que les virus qui participent activement à la formation et à l'entretien des tumeurs présentent souvent, mais pas toujours, des valeurs FVR >10 pm.

(une) Niveaux d'expression dérivés de l'ARN-seq pour 28 virus (axe vertical) détectés à >2 p.p.m des lectures totales de la bibliothèque dans au moins une tumeur, à travers 178 tumeurs virales positives provenant de 19 types de cancer (axe horizontal). Les virus identifiés uniquement en raison de la similarité de séquence avec des souches apparentées n'ont pas été inclus. (b) En plus de l'expression des gènes viraux, l'intégration virale génomique peut avoir des conséquences fonctionnelles. Une grande partie des tumeurs positives identifiées dans une portait des intégrations virales (rangée du haut), comme en témoignent les transcrits de fusion hôte-virus dans l'ARN-seq. Certains gènes ont montré une intégration récurrente dans plusieurs tumeurs (six rangées du bas). Les intégrations ont été distribuées de manière quasi-aléatoire à travers le génome (tracé des chromosomes du bas) avec certains loci préférés. Des gènes sélectionnés sont indiqués pour les cytobandes avec des intégrations récurrentes (nombre de tumeurs entre parenthèses). n/a, aucune donnée appariée disponible.

Surtout, nous notons une absence d'expression virale pertinente dans plusieurs cancers par ailleurs soumis à des spéculations régulières sur une forte étiologie virale, y compris l'EBV dans le carcinome invasif du sein et le CMV dans le glioblastome multiforme 11,12. La profondeur du séquençage profond dans ces échantillons nous a permis d'estimer en toute sécurité les limites supérieures de l'expression virale : dans les pires cas de tumeurs, le CMV était exprimé à <0,05 pm. dans le glioblastome multiforme et l'EBV à <0,09 pm dans le carcinome invasif du sein (P=0,01, distribution binomiale). Ces résultats, combinés à de grands échantillons (167 et 810 tumeurs, respectivement), militent fortement contre l'étiologie virale, bien qu'une implication rare ne puisse être exclue.

Prévalence du papillomavirus à travers les cancers

Les occurrences globales du VPH concordaient étroitement avec les connaissances actuelles : le CESC a montré une association de 96,6 % avec le VPH, similaire aux grandes enquêtes récentes 13 (Fig. 2a). Aucun autre virus n'a été trouvé dans CESC, ce qui confirme que les détections étaient hautement spécifiques. Douze types de VPH, tous décrits précédemment comme associés, ont été trouvés dans 84 tumeurs cervicales positives, les VPH16 et VPH18 étant vraisemblablement prédominants (65,5 % et 13,1 % des cas positifs, respectivement). HNSC a montré 14,1% d'association HPV, avec 83,7% et 14,0% de tumeurs positives attribuées à HPV16 et HPV33, respectivement, ce qui est sensiblement différent de CESC et compatible avec des données antérieures 14 . Des associations moins fréquentes mais précédemment observées comprenaient le VPH6b et les types à haut risque dans le carcinome urothélial de la vessie (BLCA), et le VPH16 dans le carcinome épidermoïde pulmonaire (LUSC) et le carcinome endoméroïde utérin (UCEC). Le VPH montrait généralement une expression importante, avec des valeurs FVR allant jusqu'à 848 p.p.m. (>140.000 lectures) mais plus généralement entre 100 et 200 heures. gamme (Fig. 3a).

Les histogrammes montrent les niveaux d'expression virale (FVR) pour 138 HPV-positifs (une) et 12 positifs pour le VHB (b) tumeurs à 100 h. intervalles.

Il y a eu une controverse concernant les associations entre le VPH et le cancer colorectal, avec une prévalence allant de 0 à 83% dans différentes études 15,16. La contamination a été suggérée comme cause possible de faux positifs 16 . Nous avons observé une faible expression (2 à 6,5 pm) de HPV18 dans 5 cas (1,9 %) de COAD/READ, qui est passé à 12 cas (4,5 %) avec l'inclusion de l'expression de 13 à 14 heures. plage (Données supplémentaires 1). Les profils d'expression des gènes viraux dans ces échantillons étaient différents des tumeurs connues induites par le VPH, avec une expression cohérente de E1 plus indicatif d'une réplication active (Fig. supplémentaire S2). Nous n'avons pas détecté de HPV18 dans d'autres tumeurs en dehors de CESC, ce qui plaide contre la contamination. Le VPH18 est l'un des rares types de VPH à tropisme glandulaire 17 et pourrait éventuellement infecter les adénocarcinomes colorectaux. Nous concluons que les rapports antérieurs de HPV18 dans les tumeurs colorectales sont probablement corrects. Cependant, la prévalence peut avoir été surestimée, et les modèles et niveaux d'expression vont à l'encontre d'une contribution à la cancérogenèse.

En dehors des échantillons de foie normaux appariés avec le VHB attendu (discuté ci-dessous), seuls 2/404 témoins de tissus normaux se sont révélés positifs dans cette étude, tous deux avec le papillomavirus (Fig. 2a) : une biopsie mammaire avec de faibles niveaux (3,1 ppm) d'un virus de la verrue , HPV2, qui a exprimé des gènes précoces et tardifs indiquant une production active de particules virales, et un échantillon de rein normal avec HPV18 (12,9 ppm), avec une expression de gène viral similaire à HPV dans COAD/READ compatible avec une infection virale productive (Fig. . S2) mais aussi avec des preuves de fusion hôte-virus (Fig. 2b, les fusions sont discutées ci-dessous). Ces cas suggèrent de nouveaux tropismes pour le VPH, mais des travaux supplémentaires sont nécessaires.

Prévalence du virus de l'hépatite

Comme prévu, le VHB a été détecté dans le cancer hépatocellulaire (Fig. 2a) : 11/34 (32,3%) des tumeurs LIHC ont exprimé le VHB jusqu'à 854 heures, mais plus généralement entre 2 et 100 heures. gamme (Fig. 3b). Dans les cas positifs, nous avons systématiquement détecté le VHB chez des témoins hépatiques normaux appariés (5/5). Une seule tumeur a exprimé le VHC mais à de faibles niveaux (0,8 pm Données supplémentaires 1), probablement expliqué par la nature non polyadénylée du génome du VHC 18 . Aucun autre virus n'a été détecté dans le LIHC. L'inflammation/cirrhose est un promoteur majeur de l'oncogenèse induite par le VHB, mais l'expression du gène viral X (HBx) contribue également 19 . Régulièrement, HBx était le gène viral principalement exprimé (Fig. supplémentaire S3).

En plus du LIHC, nous avons trouvé une seule tumeur primaire de carcinome rénal à cellules claires (KIRC) avec une expression modérée (28,9 ppm) du génotype C du VHB commun (Fig. 2a, tableau supplémentaire S3). Cependant, bien que les gènes viraux aient été exprimés de manière similaire aux tumeurs LIHC positives pour le VHB (Fig. supplémentaire S3) et que le profil d'ARNm de la tumeur soit similaire à celui d'autres échantillons KIRC, une analyse plus approfondie a révélé une induction faible mais cohérente de gènes marqueurs LIHC dans cet échantillon (Fig. S4). Cela soutient qu'une contamination de bas grade par l'ARN LIHC pourrait expliquer cette détection.

Occurrences rares et nouvelles séquences virales

Le polyomavirus BK (BKV) infecte les reins et les voies urinaires, et a été impliqué comme virus tumoral humain en raison de son grand antigène tumoral oncogène (Étiqueter) gène. Il existe des rapports contrastés de BKV dans le cancer de la vessie, allant d'une fréquence élevée à l'absence d'association ou à l'absence de Étiqueter expression 20 . Nous avons détecté le BKV abondamment exprimé (318 p.p.m.) dans 1/96 tumeurs BLCA, avec une expression prédominante de grandes Étiqueter (Fig. supplémentaire S5) ainsi que des preuves de fusion hôte-virus (Fig. 2b, les fusions sont discutées ci-dessous). Cela donne un soutien supplémentaire pour un rôle étiologique du BKV dans de rares cas de cancer de la vessie.

HHV1, qui provoque normalement des lésions d'herpès mucoépithélial 21, a été détecté à un FVR élevé (338 p.p.m.) dans une seule tumeur HNSC (Fig. 2a). Le HHV1 n'a pas été décrit dans les tumeurs, bien que des titres élevés d'anticorps HHV1 aient été observés chez des patients atteints de HNSC 22 . Un ARNm élevé de HHV1 dans cette tumeur pourrait refléter un virus réactivé infectant l'épithélium adjacent plutôt que le tissu tumoral.

Les entérovirus provoquent une gamme de maladies, y compris la gastro-entérite. De novo L'assemblage dans COAD a détecté un nouvel entérovirus, révélé par une analyse détaillée comme étant un recombinant des souches Coxsackievirus A19 et A22 (Fig. supplémentaire S1).La présence du virus dans le tissu tumoral est soutenue par un FVR élevé (67,0 ppm) et le vaste tropisme des virus Coxsackie 21 .

Bien que notre analyse impliquait une correspondance impartiale avec 3 065 génomes viraux non humains, seuls quelques résultats impliquaient des virus peu susceptibles d'infecter les humains (7/4 837 échantillons, figure 2a). Une tumeur COAD a montré une forte expression (456 pm) du rétrovirus murin de type C, également détectée à de faibles niveaux (3,1 et 3,8 pm) dans une autre tumeur COAD et une biopsie rénale normale. Le rétrovirus murin de type C présente une forte similitude avec le XMRV, qui a été associé à tort à la maladie en raison de la contamination par des lignées cellulaires murines communes 23 . De novo L'assemblage a détecté un nouveau virus de type mosaïque (Fig. supplémentaire S1) dans le COAD, et des traces de virus de la mosaïque de la tomate (3,6 ppm) ont été trouvées dans une tumeur de carcinome endométroïde utérin. Ces virus, et deux autres détections non humaines (Fig. 2a), sont peu susceptibles d'être des agents pathogènes oncogènes, suggérant une contamination ou une exposition environnementale au site tumoral.

Analyse des fusions hôte-virus

On pense que les intégrations génomiques du VPH se produisent à la suite de l'instabilité chromosomique induite par l'oncogène du VPH, et des intégrations dans ou à proximité de gènes tumoraux connus ont été décrites, parfois en conjonction avec un changement local du nombre de copies et une expression altérée des gènes ciblés 24,25,26 . Les intégrations associées à l'activité génique altérée sont tout aussi importantes dans l'oncogenèse induite par le VHB 8 . Nous avons utilisé une procédure rigoureuse pour détecter les intégrations, comme en témoignent les transcrits de fusion hôte-virus dans RNA-seq, en ne considérant que les points de rupture pris en charge par plusieurs paires de partenaires de séquençage discordantes où les lectures humaines sont regroupées dans une région limitée (méthodes). Nous avons validé notre méthodologie à l'aide des données de séquençage du génome entier de neuf tumeurs HNSC HPV-positives et avons constaté que huit des neuf intégrations dérivées de l'ARN-seq étaient prises en charge par des paires de partenaires discordantes dans les bibliothèques de séquençage du génome entier (tableau supplémentaire S4).

Confirmant les données précédentes 25, nous avons observé une fréquence d'intégration élevée pour HPV18 (100 %) et une fréquence plus faible pour HPV16 (58,5% Fig. 2b, données supplémentaires 2). De même, confirmatoire, la plupart des tumeurs HBV-positives et des témoins de tissus normaux avaient une intégration virale 8 (76,5%) et tous les cas de HHV manquaient d'intégration (Fig. 2b). Les intégrations du VPH et du VHB étaient répandues dans tout le génome, avec quelques points chauds d'intégration récurrente (Fig. 2b). Une analyse plus poussée dans HNSC a révélé que la distribution positionnelle n'était pas aléatoire avec une forte préférence pour l'intégration près des points de rupture du nombre de copies d'ADN. Une grande partie des clusters d'intégration (41,8%) colocalisés (<10 kb, proche de la résolution de mappage du nombre de copies) avec une limite de segment, soutenant que les intégrations pourraient avoir un effet généralisé sur l'instabilité génomique locale dans HNSC (Fig. 4, P<1e−8, test de randomisation).

Cent dix clusters d'intégration HPV (31 intégrations uniques) ont été comparés aux points d'arrêt du nombre de copies déterminés à l'aide de données de puces à ADN Affymetrix SNP6 segmentées de TCGA. La distance au point de rupture le plus proche a été calculée pour chaque cluster, et la distribution observée a été testée pour la colocalisation non aléatoire en comparant avec un modèle d'intégration aléatoire uniforme (P<1e−8 basé sur 1e−8 randomisations 100 montrées). Les clusters d'intégration (41,8 %) étaient à moins de 10 ko, alors que l'attente aléatoire était de <0,5 %. Dix kilobases sont proches de la résolution de cartographie SNP6 (espacement moyen des ensembles de sondes

Il est à noter que sur six gènes avec des intégrations récurrentes, tous étaient des gènes de cancer connus ou des cibles récurrentes précédemment décrites (les sites de fusion détaillés de la figure 2b sont présentés dans le tableau supplémentaire S5). Les MYC sur le chromosome 8q24.21 est un site connu d'intégration fréquente du VPH dans CESC 24 , et nous avons systématiquement observé sept tumeurs avec des points de rupture dans le PVT1 et LOC727677/RP11-382A18.1 longs ARN non codants (lncRNAs), en aval et en amont de MYC, respectivement. Même si ERBB2/HER2 contribution au cancer du col de l'utérus a été controversée, il est connu que la protéine HPV16 E6 peut stabiliser ErbB2 (réf. 27). HPV16, mais pas HPV18, intégré dans ERBB2 dans deux tumeurs CESC, soutenant que le VPH pourrait avoir un double rôle dans l'activation et la stabilisation de ERBB2 dans un sous-ensemble d'échantillons. Des intégrations répétées du VPH (quatre tumeurs) ont été observées dans le RAD51 paralogue RAD51B (RAD51L1/REC2) sur le chromosome 14q24.1, dans un cas en cadre avec le VPH E6 gène (Fig. supplémentaire S6). 14q24 est une région fragile connue et un site d'intégration faiblement préféré 26 , mais une intégration récurrente spécifiquement dans RAD51B n'a pas été décrit. L'inhibition de la protéine du rétinoblastome (RB) augmente l'apoptose induite par RAD51B et les deux protéines interagissent 28 , suggérant que l'inactivation de RAD51B par l'intégration du VPH pourrait agir en synergie avec le VPH E7 gène, qui inactive RB. De même, 13q22 est un site fragile 26 faiblement préféré où nous avons observé une fréquence d'intégration relativement élevée (six tumeurs), spécifiquement en 13q22.1 près de la LINC00393 lncARN (Fig. 2b). Les résultats du LIHC ont confirmé les fusions récurrentes du VHB avec MLL4 et FN1 dans les tumeurs et le foie normal adjacent, respectivement 8, dont deux se sont avérés être dans le cadre (Fig. supplémentaire S6).

Nous avons ensuite étudié la relation entre l'expression et l'intégration des gènes récurrents en comparant les tumeurs avec et sans intégration. La plupart des gènes ont montré une expression moyenne altérée, bien qu'il y ait eu des exceptions pour les tumeurs individuelles. De deux tumeurs à forte ERBB2 l'induction transcriptionnelle dans CESC, on avait l'intégration de HPV dans ce gène (Fig. 5a). Les PVT1 et LOC727677 les lncRNAs, dans le MYC région, avait une expression significativement plus élevée dans les tumeurs avec intégration. RAD51B ont montré une réduction faible et non significative des tumeurs avec l'intégration du VPH. Conforme aux données précédentes 8 , MLL4 a été fortement induite dans les échantillons LIHC avec intégration du VHB, alors que FN1 n'était pas significativement modifié (Fig. 5b). Bien que les échantillons de contrôle normaux soient limités dans le TCGA, nous avons identifié neuf cas d'intégration de gènes avec une intégration manquante normale correspondante disponible (Fig. supplémentaire S7). Cinq des neuf cas ont montré une forte induction (plus de quatre fois) dans la tumeur par rapport au témoin normal, y compris MLL4 (6,0 fois). Nos résultats soutiennent que l'activité des gènes tumoraux peut être altérée par des insertions virales, et désigner ERBB2 et RAD51B comme cibles fonctionnelles.

(une) Niveaux d'expression de ERBB2 (m=2), PVT1 (m=3), LOC727677 (m=3) et RAD51B (m= 3) étaient typiquement altérés dans les tumeurs CESC avec intégration du VPH, comme en témoigne la fusion hôte-virus. P-les valeurs ont été calculées à l'aide de la méthode de Student t-test. (b) Semblable à une, mais pour les échantillons LIHC avec et sans intégration du VHB dans MLL4 (m=3) et FN1 (m=2). Dans les boîtes à moustaches, la marque centrale est la médiane et les bords de la boîte sont les 25e et 75e centiles.

Coadaptation entre l'expression de l'ARNm du virus et de l'hôte

Notre carte complète des virus et des tumeurs a fourni d'autres opportunités d'étudier l'interaction entre les virus et l'expression de l'ARNm de l'hôte, à la fois au sein et entre les types de tumeurs. Le génome du VPH contient les oncogènes viraux E6 et E7 qui inactivent respectivement p53 et RB, ainsi que E5 qui peuvent également favoriser la cancérogenèse 29 . Des études de puces à ADN 30,31,32 ont précédemment révélé que les tumeurs HPV-positives contre HPV-négatives expriment des ensembles différentiels de facteurs de transcription et de régulateurs du cycle cellulaire (par exemple, les cyclines E/B contre D/A, respectivement), et que la transcription les différences semblent être en grande partie des conséquences directes de l'action oncogène du VPH. Les 42/262 tumeurs HPV-positives/négatives HNSC incluses dans notre enquête ont permis une configuration plus puissante pour étudier les changements d'ARNm induits par le HPV, avec l'avantage supplémentaire de mesures précises à partir de RNA-seq profonds (en moyenne 175 M lectures par échantillon).

Cinq cent quatre-vingt-dix-sept gènes de l'hôte étaient au moins quatre fois induits ou réprimés sur la base du rapport de leurs niveaux d'expression médians dans les tumeurs HPV-positives par rapport aux tumeurs HNSC HPV-négatives (q<0.05, taux de fausses découvertes basé sur t-test Fig. 6a, données supplémentaires 3). 1 897 autres gènes ont été altérés au-delà du double (q<0.05), montrant que le VPH a un impact plus étendu sur l'expression des gènes de l'hôte que décrit précédemment. CDKN2A/P16-INK4A, largement utilisé comme marqueur de substitution pour l'infection à HPV en raison de son induction lors de l'inactivation de RB par E7 (réf. 33), était parmi les gènes les plus fortement induits (10,6 fois). Plusieurs autres régulateurs du cycle cellulaire et oncogènes ont montré une induction importante, y compris CDKN2C et MYB (Fig. 6a). Bien que l'analyse d'enrichissement de l'ensemble de gènes (GSEA) 34 ait révélé des chevauchements très significatifs avec des études antérieures 30,31, la plupart des gènes n'avaient pas été précédemment associés au statut HPV. Cela comprenait MYCN (4,3 fois induite), normalement non liée à la progression de HNSC mais donc potentiellement importante dans l'oncogenèse induite par le VPH.

(une) Cinq cent quatre-vingt-dix-sept gènes de l'hôte ont été associés au statut HPV dans les HNSC, à un taux de fausses découvertes (q)<0.05 et avec un log absolu2 rapport d'expression médian >2. Les gènes du cancer connus dans le Recensement des gènes du cancer 47 sont indiqués. Le code couleur indique le journal2-les taux d'ARNm transformés par rapport à la médiane globale. (b) Analyse PCA des profils d'expression d'ARNm tumoral dans CESC, HNSC et BLCA. Bien qu'il y ait eu des différences d'expression systématiques entre les types de cancer, les tumeurs HPV positives se sont regroupées quel que soit le type. (c) Les tumeurs CESC HPV-positives ont été subdivisées en fonction de leurs profils d'expression génique virale : E7-, E6/E7- et E4/E5/E7-les sous-ensembles de tumeurs exprimant ont été testés pour l'expression différentielle des gènes de l'hôte par rapport aux échantillons restants. Cent vingt gènes de l'hôte ont été exprimés de manière différentielle dans le E6/E7 sous-ensemble, en utilisant les critères décrits ci-dessus. () Validation du E6/E7 Signature. La plupart des 120 gènes ont été systématiquement induits/réprimés dans E6/E7 comparé à E7 également en considérant uniquement les tumeurs HPV16 (rouge) ou HPV18 (vert) positives. De plus, la plupart des gènes de la signature ont montré des changements d'expression cohérents dans HNSC E6/E7 comparé à E6 tumeurs (bleu). E6*, tronqué et probablement non fonctionnel E6 cadre de lecture ouvert.

Pour déterminer si le VPH provoque des effets similaires dans différents types de cancer, nous avons effectué une analyse en composantes principales des profils d'ARNm des tumeurs CESC, HNSC et BLCA. Fait intéressant, bien que chaque type de tumeur soit normalement associé à une signature d'expression distincte, le statut d'infection au VPH a eu un impact encore plus important sur le transcriptome, car les tumeurs positives ont tendance à se regrouper quel que soit le type (Fig. 6b). Cela a été confirmé par des corrélations par paires : les tumeurs HNSC HPV-positives étaient en moyenne plus similaires aux tumeurs HPV positives CESC que les tumeurs HPV-négatives HNSC (Pearson’s r= 0,054 et 0,041, respectivement) les comparaisons restantes ont donné des résultats analogues. Cela prolonge une observation antérieure selon laquelle de nombreux changements associés au VPH sont partagés entre HNSC et CESC 31 . Il est cohérent avec les effets transcriptionnels répandus induits par le VPH décrits ci-dessus, et remarquable compte tenu des diverses origines tissulaires de ces tumeurs.

Ayant conclu que le VPH a un impact considérable sur la transcription de l'hôte, nous avons cherché à déterminer si les modes différentiels d'expression et d'intégration des gènes viraux étaient associés à des réponses distinctes de l'hôte. La plupart des tumeurs HPV-positives exprimées E7, conforme à l'expression précédente et aux données fonctionnelles pointant vers E7 comme l'oncogène HPV le plus puissant 35 , mais également tronqué E6 formes (E6*) qui peuvent manquer d'activité E6 complète (Fig. supplémentaire S8, données supplémentaires 4). Les oncogènes HPV restants ont montré une diversité inter-tumorale considérable. Nous avons constaté que les tumeurs CESC HPV-positives fournissaient un échantillon approprié pour étudier l'hétérogénéité de l'expression virale et avons identifié trois sous-ensembles principaux en fonction des niveaux relatifs : les tumeurs exprimant principalement E7, E6/E7 ou E4/E5/E7 (Fig. 6c). E4/E5 sont généralement perdus au cours de l'intégration génomique 29, et la fréquence de fusion/intégration était par conséquent faible dans le E4/E5/E7 fixé alors qu'il est proche de 100 % dans les autres groupes (Fig. 6c).

Nous avons ensuite testé les sous-ensembles pour l'expression différentielle des ARNm de l'hôte par rapport aux échantillons restants. Aucun gène hôte n'a pu être associé au E7 ou la E4/E5/E7 ensembles (q<0.05), montrant que ni l'intégration génomique ni E4/E5 L'expression a un fort impact sur l'expression de l'hôte. Cependant, 69 et 51 gènes de l'hôte ont été induits ou réprimés au moins quatre fois, respectivement, dans le E6/E7 sous-ensemble (q<0.05 Fig. 6c, données supplémentaires 5). La plupart des gènes de cette signature ont été systématiquement induits/réprimés dans E6/E7 comparé à E6 échantillons basés sur des échantillons HPV16 ou HPV18 seuls ainsi que dans un type de cancer indépendant (HNSC Fig. 6d), ce qui les confirme comme fortement associés à E6-exprimant les tumeurs. L'analyse GSEA a révélé une expression réduite des gènes liés à la différenciation de l'épithélium, au développement de l'épiderme et à des marqueurs précédemment définis de tumeurs de la tête et du cou bien différenciées (q=9,3e−10, 7,3e−6 et 1,6e−3, respectivement, taux de fausses découvertes basé sur un test hypergéométrique) 36 . p53 exerce sa fonction suppressive de tumeur non seulement par l'arrêt du cycle cellulaire et l'apoptose, mais aussi en limitant la dédifférenciation des cellules matures 37 . L'association de l'expression complète de E6 avec une signature d'hôte dédifférenciée pourrait ainsi être médiée par son action inhibitrice canonique sur p53. Bien que le VPH soit connu pour induire des modifications de l'ARNm de l'hôte, notre analyse montre que la réponse détaillée de l'hôte diffère entre les tumeurs en raison de l'expression différentielle des oncogènes viraux.


Résultats

Identification et validation des gènes différentiellement exprimés (DEG)

Dans cette étude, nous avons sélectionné des échantillons de tumeurs d'un sous-type de tumeur commun et homogène de grade T2 (T2a ou T2c) et un score de Gleason de 7 (3+4) et comparé les différences d'expression génique entre les CP qui se sont développés chez les hommes jeunes (≤ 45 ans) et chez les hommes plus âgés (71� ans). Les caractéristiques cliniques de 49 patients et de leurs tumeurs sont présentées dans le tableau 1 .

Tableau 1

Total (N = 49)Ancien (N = 25)Jeune (N = 24)
Années d'âge) 71�38�
N (%)N (%)N (%)
Stade de la pathologie
T2a14 (29)6 (24)8 (33)
T2c35 (71)19 (76)16 (67)
Somme de Gleason
7 (3+4)49 (100)25 (100)24 (100)
Gamme PSA1.9�.42.1�.21.9�.4
Groupe PSA *
< = 10.033 (67)19 (76)14 (58)
㸐.016 (33)6 (24)10 (42)
Race/ethnicité
Blancs43 (88)22 (88)21 (88)
afro-américains2 (4)1 (4)1 (4)
Hispaniques2 (4)1 (4)1 (4)
Asiatiques2 (4)1 (4)1 (4)

* pas de différence significative de PSA entre les échantillons des deux cohortes (test exact de Fisher, p = 0,23)

Les données d'expression génique ont été générées à l'aide des puces à puces Illumina Human Whole-Genome DASL (annealing, sélection, extension et ligature médiées par l'ADNc) (détails dans Matériels et méthodes). Après avoir supprimé les effets de lot de la date de traitement à l'aide de la fonction Combat dans le package sva (S1 Fig), nous avons effectué trois comparaisons liées à l'âge à l'aide de limma (modèles linéaires pour les détails de l'analyse des données de microarray dans Matériels et méthodes) et identifié les gènes différentiellement exprimés (DEG) avec un facteur de changement absolu (|FC|) supérieur à 1,5 et un taux de fausses découvertes (FDR) inférieur à 0,25 dans chaque comparaison. Nous avons d'abord comparé les différences d'expression des gènes normaux de la tumeur entre les cohortes jeunes (apparition précoce) et les cohortes plus âgées (apparition tardive) en utilisant le contraste d'interaction âge:tissu [(young.tumor − young.normal) − (old .tumor − old.normal)] in limma. Nous avons identifié 183 DEGs, ce contraste pouvant identifier les gènes répondant au développement tumoral (changements d'expression de normal à tumoral) différemment dans la cohorte jeune par rapport à l'ancienne cohorte (différence tumeur-normale dépendante de l'âge) (fichier S1). Nous avons ensuite comparé l'expression différentielle des gènes entre les tissus normaux des groupes jeunes et âgés en utilisant le contraste old.normal versus young.normal. Nous avons identifié 198 DEG Les DEG à partir de ce contraste peuvent refléter des changements d'expression qui se produisent normalement avec le vieillissement (fichier S1). Parmi ces DEG, il y avait 61 gènes qui se chevauchaient entre les deux comparaisons. Enfin, dans le contraste jeune.tumeur versus vieille.tumeur, nous avons identifié cinq DEG (ZIC2, ZIC5, ZNF439, USP54, et C2) ce contraste peut refléter des différences dans les propriétés tumorales intrinsèques entre les tumeurs des deux cohortes d'âge. ZIC2, ZIC5, et C2 chevauchement dans la différence tumeur-normale liée à l'âge et les comparaisons tumeur-tumeur liées à l'âge.

Sur la base de l'importance de leur fonction génique et de leurs modèles d'expression (représentant respectivement les figures 1a, 1b et 1c), nous avons sélectionné trois gènes (MMP7, COL2A1, et SERPINB11) pour valider les résultats du dosage DASL. Il y avait une corrélation significative (r = -0,81, S2 Fig) entre les valeurs d'expression DASL et Delta_Ct (Ct gène cible – Ct gène de référence) des valeurs de l'analyse qRT-PCR. Nous avons observé une surexpression de l'ERG dans les échantillons tumoraux par rapport aux échantillons normaux. Pour tester si la surexpression était due à des fusions TMPRSS2:ERG, nous avons effectué une RT-PCR spécifique à l'allèle pour 49 échantillons de tissus normaux à tumeurs appariés. Sur la base de la variation de taille des produits PCR, plus de huit types de variants de fusion ont été observés (S3 Fig). Des variantes de fusion, correspondant à une surexpression de l'ERG dans les données DASL, ont été détectées dans 8 des 25 échantillons tumoraux (32 %) de la cohorte plus âgée et 15 des 24 échantillons tumoraux (67 %) de la cohorte précoce. Aucun variant de fusion n'a été détecté dans les échantillons normaux.

L'axe horizontal est le type de tissu et l'axe vertical est l'expression génique moyenne. Pour chaque modèle d'interaction, la tendance des changements d'expression des tissus normaux aux tissus tumoraux pour les cohortes les plus âgées (ligne pointillée) et les jeunes (ligne continue) a été tracée. Il y avait une expression significativement accrue dans le tissu tumoral par rapport au tissu normal correspondant dans la cohorte jeune avec un changement d'expression insignifiant dans la cohorte plus âgée (graphique a), tandis que dans le graphique b, les deux cohortes ont montré une expression croissante de la normale à la tumeur avec le plus grand changement dans la jeune cohorte. Dans la parcelle c, la cohorte jeune avait une diminution significative de l'expression dans les tumeurs par rapport au tissu normal, avec un changement insignifiant dans la cohorte plus âgée, tandis que dans la parcelle d, il y avait une diminution significative de l'expression dans la cohorte jeune et une augmentation significative dans la cohorte plus âgée.

Caractérisation des DEG répondant différemment au développement tumoral dans les deux cohortes

Nous nous sommes concentrés sur la caractérisation des 183 DEG (FDR < 0,25 et |FC| > 1,5) identifiés à partir du contraste d'interaction âge:tissu. Sur ces 183 DEG, 121 gènes étaient régulés à la hausse et 62 étaient régulés à la baisse dans la cohorte jeune par rapport à la cohorte plus âgée (fichier S1).Nous avons observé quatre types de base de modèles d'interaction âge:tissu ayant des effets inverses ou croisés (Fig. 1). Pour chaque modèle d'interaction, la direction ou l'ampleur du changement d'expression des échantillons tumoraux aux échantillons normaux différait entre les deux cohortes, indiquant que l'âge modifiait les changements d'expression génique entre les échantillons tumoraux et normaux. Par exemple, les interactions de type a (figure 1a) et de type b (figure 1b) étaient caractérisées par des augmentations significatives de l'expression des gènes dans la tumeur par rapport au tissu normal dans la cohorte jeune et des changements d'expression non significatifs ou peu significatifs dans la cohorte plus âgée. En revanche, les interactions de type c (figure 1c) et de type d (figure 1d) étaient caractérisées par des diminutions significatives de l'expression des gènes dans la tumeur par rapport au tissu normal dans la cohorte jeune et des changements d'expression non significatifs dans la cohorte plus âgée (type c) ou des augmentations significatives de l'expression des gènes dans les tumeurs de la cohorte plus âgée (type d).

Les cinq premiers résultats de l'analyse de la voie de l'ingéniosité (IPA) basés sur les valeurs p pour les 121 DEG régulés à la hausse sont résumés dans le tableau 2 (fichier S1). Tous les principaux résultats de l'IPA, y compris les principales voies enrichies dans ces DEG, les principaux régulateurs activés déduits de ces DEG et la principale implication de ces DEG dans la maladie, se rapportent à la fonction cellulaire dans les réponses inflammatoires et immunitaires. Soixante-dix des 121 DEG sont impliqués dans l'inflammation et les voies immunitaires (fichier S1), dont 5 gènes de la famille du complément, 12 gènes d'antigène de surface des cellules immunitaires, 6 gènes de chimiokine, 2 gènes de récepteur d'interleukine, 2 gènes de groupe de cellules tueuses naturelles , et 3 gènes de remodelage de la matrice extracellulaire. De plus, 57 des 70 DEG inflammatoires et immuno-dépendants ont démontré des modèles d'interaction âge:tissu de type a (41 gènes) ou de type b (16 gènes) avec une expression significativement accrue dans la tumeur par rapport au tissu normal dans la cohorte jeune et des changements non significatifs dans la cohorte plus âgée. Fait intéressant, sur les 61 DEG qui se chevauchaient entre ces 183 gènes et les DEG du contraste old.normal versus young.normal, 38 sont des gènes liés au système immunitaire, et le modèle était soit de type a (29 gènes) soit de type b (9 gènes ). Ces résultats combinés suggèrent une réponse inflammatoire et immunitaire significativement plus prononcée au développement tumoral dans les cancers de la prostate à début précoce que dans les cancers de la prostate à début tardif. Les résultats de l'IPA pour les 62 DEG régulés à la baisse dans la cohorte jeune sont résumés dans le tableau S1 21 des 62 gènes regroupés en voies métaboliques. Vingt des 21 gènes liés au métabolisme (tableau S2) présentaient des modèles d'interaction âge:tissu de type c (10 gènes) ou de type d (10 gènes) (figure 1), caractérisés par une expression réduite dans la cohorte jeune par rapport à la cohorte plus âgée.

Tableau 2

Principaux chemins canoniquesvaleur pChevauchement *
Développement des cellules B1.90E-0817.6% (6/34)
Signalisation iCOS-iCOSL dans les cellules T Helper1.22E-077.1% (8/113)
Signalisation CD28 dans les cellules T auxiliaires2.35E-076.5% (8/123)
Signalisation de l'immunodéficience primaire2.67E-0711.5% (6/52)
Apoptose des lymphocytes T induite par le calcium1.35E-068.8% (6/68)
Principaux régulateurs en amontScore z d'activationActivation prévue
TGFB12.97Activé
IL12.75Activé
NFkB (complexe)2.52Activé
ETS12.43Activé
IL62.28Activé
Principales maladies et troublesplage de valeurs pNombre de gènes
Réaction inflammatoire1.55E-04𠄲.61E-1861
Maladie immunologique1.50E-04𠄴.41E-1856
Troubles du tissu conjonctif1.06E-04𠄳.66E-1539
Maladie inflammatoire1.42E-04𠄳.66E-1544
Troubles squelettiques et musculaires7.80E-05𠄳.66E-1535

*Chevauchement : gènes partagés entre 121 DEG et gènes dans une voie canonique.

Nous avons classé les cinq premiers ensembles de gènes régulés à la hausse de l'analyse d'enrichissement des ensembles de gènes (GSEA) de tous les 20 261 gènes d'ARNm classés par valeurs t générées à partir de l'âge: contraste d'interaction tissulaire dans limma (tableau 3). Plus des deux tiers des cinq ensembles de gènes ou voies régulés à la hausse des trois ensembles de données GSEA se rapportent aux fonctions cellulaires dans les réponses inflammatoires et immunitaires, conformément aux prédictions de l'IPA. La voie CTLA4 était la voie régulée à la hausse la plus significativement chez les jeunes par rapport à la cohorte plus âgée dans la GSEA des ensembles de données de la voie BioCarta. Le modèle d'expression génique de quatre DEG (CTLA4, CD3D, CD86, et LCK) dans la voie CTLA4 pour quatre sous - groupes d' échantillons classés selon l' âge et l' état tissulaire est illustré à la figure 2 . Les quatre DEG ont démontré le modèle d'interaction âge:tissu de type b (expression significativement accrue dans la tumeur par rapport aux échantillons normaux dans la cohorte jeune et changements d'expression non significatifs entre la tumeur et les échantillons normaux dans la cohorte plus âgée). Les ensembles de gènes régulés à la baisse de la GSEA classés en fonction du score d'enrichissement normalisé (NES) sont répertoriés dans le tableau S3. la cohorte plus âgée.

Tableau 3

Principaux ensembles de gènes ou voies classés par score d'enrichissement normalisé (NES) * Taille * NDAValeur q du FDR
BIOCARTA_CTLA4_PATHWAY162.230.00
BIOCARTA_TOB1_PATHWAY152.070.00
BIOCARTA_CSK_PATHWAY172.040.01
BIOCARTA_G1_PATHWAY231.970.01
BIOCARTA_STATHMIN_PATHWAY151.870.02
KEGG_SYSTEMIC_LUPUS_ERYTHEMATOSUS942.680.00
KEGG_INTESTINAL_IMMUNE_NETWORK_IGA_PRODUCTION332.510.00
KEGG_GRAFT_VERSUS_HOST_DISEASE272.460.00
KEGG_COMPLEMENT_AND_COAGULATION_CASCADES452.380.00
KEGG_PRIMARY_IMMUNODÉFICIENCE292.350.00
REACTOME_IMMUNOREGULATORY_INTERACTIONS_BETWEEN_ A_LYMPHOID_AND_A_NON_LYMPHOID_CELL502.620.00
REACTOME_GENERATION_SECOND_MESSENGER_MOLECULES232.480.00
REACTOME_RNA_POL_I_PROMOTER_OPENING452.340.00
REACTOME_PHOSPHORYLATION_CD3_AND_TCR_ZETA_CHAINS152.320.00
REACTOME_EXTRACELLULAR_MATRIX_ORGANIZATION692.320.00

*les caractères gras sont des ensembles ou des voies de gènes liés au système immunitaire Taille : le nombre de gènes dans chaque ensemble de gènes.

Les quatre DEG démontrent le modèle d'interaction âge:tissu de type b avec une expression significativement accrue dans la tumeur par rapport aux échantillons normaux dans la cohorte jeune et des changements d'expression insignifiants entre les échantillons tumoraux et normaux dans la cohorte plus âgée. Les patients présentant une récidive biochimique sont représentés en rose dans les échantillons tumoraux correspondants.

Identification des miARN différentiellement exprimés (DEmiRs) et prédiction de leur régulation sur l'expression des DEGs

En utilisant le contraste d'interaction âge:tissu dans limma pour analyser les données d'expression des miARN, nous avons identifié un DEmiR (has-miR-146b-3p) avec FDR < 0,05 et |FC| > 2.0 et 27 DEmiR avec FDR < 0.25 et |FC| > 1.5 (Fichier S1). À partir du contraste tumoral de la cohorte jeune par rapport à la cohorte plus âgée, nous avons identifié un DEmiR (has-miR-4461) avec FDR < 0,05 et |FC| > 1.5 et un DEmiR supplémentaire (has-miR-200a-5p) avec FDR < 0.25 et |FC| > 1.5.

Étant donné que nous disposions de données d'expression de miARN et d'ARNm pour chaque tumeur et d'un échantillon normal apparié, nous avons effectué un test global d'association entre l'expression de miARN et ses gènes cibles et déterminé la contribution du gène cible individuel à l'association miARN-ARNm. Basé sur in-silico prédiction de cible et un test d'association globale, 22 des 27 DEmiR ont montré des associations d'expression significatives avec les DEG cibles (DEG du contraste d'interaction âge:tissu), allant de 1 DEG cible à 57 DEG cibles (fichier S1). Sur les 22 DEmiR, Hsa-miR146b-5p a démontré la valeur p la plus significative parmi le test global des associations DEmiR-DEG. L'expression de Hsa-miR-146b-5p avait une corrélation positive significative (corrélation de Pearson r > 0,4 et FDR < 0,01) avec quatre DEG cibles dans l'inflammation et les voies immunitaires (CCR5, CCR7, CXCR4, CD3G). De plus, la régulation à la baisse de 7 des 22 DEmiR était significativement associée à une expression accrue de 19 DEG cibles dans les voies inflammatoires et immunitaires.

Valeurs aberrantes de l'expression des gènes dans les échantillons de tumeurs

Des variants rares peuvent avoir des effets importants sur l'expression des gènes, entraînant des valeurs aberrantes d'expression dans ces gènes dans un sous-type de maladie [7]. Étant donné que le test t conventionnel et l'ANOVA ne détectent pas les valeurs aberrantes d'expression rare qui ne modifient pas significativement la moyenne au sein d'un groupe, nous avons utilisé la méthode d'analyse du profil des valeurs aberrantes du cancer (COPA) [8] pour détecter les valeurs aberrantes. Nous avons constaté que 79 des 20 261 gènes présentaient une surexpression marquée (valeurs aberrantes) dans certains échantillons de tumeurs (fichier S1), y compris 3 gènes du cancer de la prostate précédemment signalés (ERG, ETV1, et SPINK1) [9]. La surexpression de SPINK1 était inversement corrélée à la surexpression d'ERG, sauf dans un échantillon où les deux étaient surexprimés (fichier S1). L'IPA a été utilisée pour déterminer si les 79 gènes avec des valeurs aberrantes d'expression partageaient une voie ou un processus biologique commun (tableau S4). Fait intéressant, les cinq principales voies canoniques de l'IPA ont identifié cinq gènes (IDO1, TDO2, ALOX15, DEFA5 et DEFA6) impliqués dans les réponses inflammatoires et immunitaires. valeurs d'expression DASL pour DEFA5 et DEFA6 étaient fortement corrélées (corrélation de Pearson r = 0,72). Les modèles d'expression des gènes pour IDO1, TDO2, ALOX15 et DEFA6 dans quatre types d'échantillons, classés par statut de tissu et d'âge, sont illustrés à la figure 3 . L'analyse RNAseq de 11 échantillons de tumeurs a validé les valeurs aberrantes d'expression DASL observées dans ces gènes (S4 Fig).

Les patients présentant une récidive biochimique sont représentés en rose dans les échantillons tumoraux correspondants.

Pour chaque gène, les valeurs aberrantes étaient plus fréquentes dans la cohorte jeune que dans la cohorte plus âgée. Mettre en commun le JE FAIS, TDO2, ALOX15, et DEFA6 données et en utilisant un test d'association basé sur les voies, nous avons trouvé significativement plus d'échantillons avec des valeurs aberrantes d'expression dans la cohorte jeune que dans la cohorte plus âgée [12 des 24 jeunes patients (50 %) par rapport à 5 des 25 patients plus âgés (20 %), Fisher& #x02019s test exact, valeur p = 0,038].

Nous avons également examiné ces quatre gènes dans les données RNAseq du Cancer Genome Atlas (TCGA) pour les 24 patients (50 ans) et 24 patients (70 ans 201378) (S5 et S6 Tableaux S5 Fig). Les niveaux d'expression entre DEFA5 et DEFA6 étaient également fortement corrélées (corrélation de Pearson de 0,82). Pour TDO2, ALOX15, et DEFA6, les profils d'expression périphériques étaient similaires entre les données de puces à ADN DASL et les données TCGA RNAseq. Cependant, l'expression aberrante de IDO1 dans TCGA n'était pas apparent jusqu'à ce que nous ayons inclus des échantillons supplémentaires de TCGA. En effectuant le même test d'association basé sur les voies dans les données TCGA pour les quatre gènes, nous avons trouvé significativement plus d'échantillons avec des valeurs aberrantes d'expression dans le groupe des jeunes TCGA que dans le groupe des plus âgés (valeur p exacte de 0,008) de Fisher 24 jeunes patients (62,5%) comparés à 5 des 24 patients plus âgés (20,8%) présentaient au moins une valeur aberrante d'expression parmi les quatre gènes. Ces résultats sont cohérents avec nos données DASL.

Caractérisation des DEG reflétant la différence de propriétés tumorales entre les deux cohortes

L'analyse de cluster hiérarchique des échantillons tumoraux et normaux a été réalisée en utilisant les valeurs d'expression des 98 DEG avec une valeur P non ajustée < 0,01 et |FC| > 1.3 identifié à partir du contraste limma de la jeune.tumeur par rapport à l'ancienne.tumeur. Quarante-six des 49 échantillons normaux regroupés en un seul groupe avec une valeur de support bootstrap de 97 % (S6 Fig) . Lors du regroupement des 49 échantillons de tumeurs, les 98 DEG ont formé deux grands groupes verticaux, étiquetés comme le groupe de gènes 1 (51 gènes) et le groupe de gènes 2 (47 gènes) (S7 Fig). co-régulation des gènes dans le groupe de gènes 1 et co-régulation à la baisse des gènes dans le groupe de gènes 2. Le cluster “late-onset tumor” avait une tendance opposée dans l'expression. Un modèle de cluster similaire selon l'âge a été observé dans les données TCGA RNAseq.

À partir de l'IPA de 98 DEG, 24 DEG ont été impliqués dans la construction de la morphologie tumorale, dont 9 gènes liés au remodelage de la matrice extracellulaire (ECM), 3 dans les voies des récepteurs des cytokines, 3 dans la signalisation de la voie Wnt, 1 gène de protéase, 1 gène d'adhésion cellulaire et 1 pro-oncogène (Fichier S1). Neuf des 24 gènes se trouvaient dans les grappes du groupe de gènes 1 et 15 dans le groupe de gènes 2. Par conséquent, cette tendance opposée des modèles de co-expression caractérisant les grappes d'échantillons tumoraux spécifiques à l'âge peut refléter une différence dans la pathologie tumorale entre précoce et tardive. tumeurs d'apparition. Les modèles d'expression génique des données DASL sont illustrés dans les figures S8a et S8b. Les modèles d'expression génique pour les données TCGA RNAseq sont illustrés dans les figures S8c et S8d. ARG2 dans le groupe de gènes 1 et Wnt5A dans le groupe de gènes 2 à titre d'exemples, ces données n'indiquent aucune différence d'expression significative entre les échantillons normaux des deux cohortes. Cependant, la tendance inverse de l'expression entre les échantillons tumoraux des deux cohortes a été observée pour les deux groupes de gènes co-exprimés.

Nous avons étudié l'association du modèle d'expression génique des 98 DEG avec les sous-types moléculaires de cancer de la prostate ERG-fusion positive (ERG+), fusion non ERG ETS positive (non-ERG ETS+), surexpression de SPINK1 (SPINK1+), et triple négatif (ERG − / non-ERG ETS - /SPINK1 - ) [9,10]. Les sous-types de tumeurs pour les 49 échantillons de tumeurs ont été attribués sur la base des données d'expression DASL de ERG, ETS, et SPINK1 (Fichier S1). Nous avons ensuite effectué une analyse de cluster hiérarchique supervisée (S10 Fig). Cet ensemble de gènes s'est regroupé avec les gènes des sous-types de la prostate dans le groupe de gènes I (côté droit de l'image) a montré une surexpression dans le sous-type de tumeur ERG + et une expression régulée à la baisse dans le sous-type de tumeur SPINK + et le sous-type de tumeur triple négatif alors que les gènes du groupe de gènes II ont montré modèle d'expression opposé.

Des données postopératoires sur l'antigène prostatique spécifique (PSA) étaient disponibles pour 46 des 49 patients. Sur les 46 patients, 7 ont eu une récidive biochimique (définie comme un PSA ≥ 0,2 ng/mL avec des tests successifs de PSA ≥ 0,2 ng/mL). Cinq patients appartenaient à la cohorte jeune et deux à la cohorte plus âgée. Surexpression de IDO1 et CTLA4 étaient significativement associés à une récidive biochimique chez les cinq jeunes patients. L'expression de CTLA4 pour les 24 échantillons de tumeurs à début précoce avait un schéma de distribution bimodale avec une expression log2 moyenne de 7,2 (8 échantillons de tumeurs) et 6,3 (16 échantillons de tumeurs) dans les groupes de mode haut et bas, respectivement (Fig 2) tous les cinq jeunes les patients présentant une récidive biochimique appartenaient au groupe à mode élevé (p < 0,002, test exact de Fisher’s). De même, les trois jeunes patients présentant une surexpression aberrante du gène IDO1 ont présenté une récidive biochimique (p < 0,005, test exact de Fisher) (Fig 3).


MATÉRIAUX ET MÉTHODES

Implémentations

Le site GEPIA est accessible gratuitement à tous les utilisateurs. Il est construit par les bibliothèques HTML5 et JavaScript, y compris jQuery (http://jquery.com), Bootstrap (http://getbootstrap.com/) pour l'interface utilisateur côté client. Le traitement des données côté serveur et interactif est réalisé par des scripts PHP (version 7.0.13). Le site Web ajuste automatiquement l'apparence en fonction des différents navigateurs et appareils, allant des ordinateurs de bureau aux tablettes et aux téléphones intelligents. Il n'y a aucune exigence de connexion pour accéder aux fonctionnalités de GEPIA.

Pour résoudre le déséquilibre entre la tumeur et les données normales qui peuvent entraîner une inefficacité dans diverses analyses différentielles, nous téléchargeons les données d'expression des gènes TCGA et GTEx qui sont recalculées à partir des données brutes RNA-Seq par le projet UCSC Xena sur la base d'un pipeline uniforme ( Figure 1). Nous consultons des experts médicaux pour déterminer le groupe d'échantillons le plus approprié pour les comparaisons tumeur-normal. Les jeux de données sont stockés dans une base de données relationnelle MySQL (version 5.7.17).

Schéma décrivant le traitement et l'affichage des données pour l'outil de visualisation GEPIA.


Le cancer de l'ovaire est l'une des principales causes de décès chez les femmes dans le monde. Elle est souvent diagnostiquée à un stade tardif en raison de symptômes non spécifiques (Allemani et al., 2015). Le cancer épithélial de l'ovaire (EOC) comprend principalement les carcinomes séreux, mucineux, endométrioïdes, à cellules claires, indifférenciés et d'autres types histologiques. Le cystadénocarcinome séreux de l'ovaire (CSO) est le cancer de l'appareil reproducteur féminin le plus mortel. On estime que 150 000 femmes meurent chaque année de cette maladie et 230 000 reçoivent un diagnostic de cancer de l'ovaire chaque année (Siegel, Miller & Jemal, 2016). Le cystadénocarcinome séreux de l'ovaire occupe environ 90 % de tous les cancers de l'ovaire (Cancer Genome Atlas Research Network, 2011). La survie à 5 ans des patients de stade I est supérieure à 90 %. Aux stades III à IV, moins de 20 %. Le traitement standard comprend une chirurgie cytoréductrice avec une chimiothérapie combinée de première intention. Des études ont montré que 25 % des patientes atteintes d'un cancer de l'ovaire présentent une résistance primaire aux schémas de chimiothérapie, 80 % des patientes peuvent développer une résistance secondaire pendant la chimiothérapie (Zhang et al., 2019). Avec le développement de la technologie, des biomarqueurs diagnostiques et une thérapie ciblée ont été appliqués dans de nombreux types de cancers, y compris les COU. Des biomarqueurs efficaces et précis pour le diagnostic, la prédiction des résultats et le traitement personnalisé sont nécessaires de toute urgence.

Le Cancer Genome Atlas (TCGA) a été créé pour découvrir des anomalies génomiques dans le cancer de grandes cohortes dans le monde entier afin d'étudier le mécanisme de la tumorigenèse et du développement. Le cystadénocarcinome séreux de l'ovaire a été divisé en quatre sous-types : différencié, immunoréactif, mésenchymateux et prolifératif dans la base de données TCGA, selon leurs profils d'expression génique. Les patients atteints de SOE présentent la prévalence la plus élevée de BRCA mutations parmi tous les types pathologiques de cancer de l'ovaire qui sont en corrélation avec la progression et le pronostic de l'EOC (Pan & Xie, 2017).

Le microenvironnement tumoral joue un rôle important dans la genèse et la progression tumorale, qui contient des cellules immunitaires, des cellules mésenchymateuses, des cellules endothéliales, des médiateurs inflammatoires et des molécules de matrice extracellulaire (Hanahan & Weinberg, 2000). Les cellules stromales fournissent des signaux de croissance des cellules tumorales, des métabolites intermédiaires et fournissent un environnement approprié à la progression tumorale ainsi qu'aux métastases (Yuan et al., 2016). Un algorithme appelé ESTIMATE (Estimation des cellules stromales et immunitaires dans les tissus tumoraux malins à l'aide de données d'expression) calcule les scores immunitaires et stromales pour prédire l'infiltration de cellules non tumorales, en analysant la signature d'expression génique spécifique des cellules immunitaires et stromales, a été développé pour analyser la pureté tumorale et les caractéristiques immunitaires dans la base de données TCGA dans plusieurs types de cancers (Alonso et al., 2017 Priedigkeit et al., 2017 Yoshihara et al., 2013).

Dans cette étude, nous utilisons l'algorithme ESTIMATE pour identifier les gènes clés chez les patients atteints d'OSC en analysant les profils d'expression TCGA et les données cliniques. D'autres analyses bioinformatiques ont été effectuées pour déterminer l'association de ces gènes avec le pronostic du cancer de l'ovaire.


Résumé

Le réseau de recherche Cancer Genome Atlas (TCGA) a rendu public une vaste collection de phénotypes cliniques et moléculaires de plus de 10 000 patients atteints de tumeurs dans 33 types de tumeurs différents.En utilisant cette cohorte, TCGA a publié plus de 20 articles sur les marqueurs détaillant les altérations génomiques et épigénomiques associées à ces types de tumeurs. Bien que de nombreuses découvertes importantes aient été faites par le réseau de recherche de TCGA, il existe encore des possibilités de mettre en œuvre de nouvelles méthodes, élucidant ainsi de nouvelles voies biologiques et de nouveaux marqueurs de diagnostic. Cependant, l'extraction des données TCGA présente plusieurs défis bioinformatiques, tels que la récupération et l'intégration de données avec des données cliniques et d'autres types de données moléculaires (par exemple, la méthylation de l'ARN et de l'ADN). Nous avons développé un package R/Bioconductor appelé TCGAbiolinks pour relever ces défis et proposer des solutions bioinformatiques en utilisant un flux de travail guidé pour permettre aux utilisateurs d'interroger, de télécharger et d'effectuer des analyses intégratives des données TCGA. Nous avons combiné des méthodes informatiques et statistiques dans le pipeline et incorporé des méthodologies développées dans des études de marqueurs TCGA précédentes et dans notre propre groupe. En utilisant quatre types de tumeurs TCGA différents (rein, cerveau, sein et côlon) comme exemples, nous fournissons des études de cas pour illustrer des exemples de reproductibilité, d'analyse intégrative et d'utilisation de différents packages de bioconducteurs pour faire avancer et accélérer de nouvelles découvertes.


L'intégration des données d'expression génique identifie les gènes et les voies clés du cancer colorectal

Le cancer colorectal (CCR) est l'une des tumeurs malignes les plus courantes et la cause la plus répandue de décès par cancer dans le monde. Dans cette étude, nous avons analysé les profils d'expression génique des patients atteints de CCR dans le but de mieux comprendre le mécanisme moléculaire et les gènes clés du CCR. Quatre profils d'expression génique, notamment GSE9348, GSE41328, GSE41657 et GSE113513, ont été téléchargés à partir de la base de données GEO. Les données ont été traitées à l'aide du langage de programmation R, dans lequel 319 gènes communs exprimés de manière différentielle, dont 94 régulés à la hausse et 225 régulés à la baisse ont été identifiés. Les analyses d'enrichissement de l'ontologie génique (GO) et de l'Encyclopédie de Kyoto sur la voie des gènes et des génomes (KEGG) ont été menées pour trouver les voies enrichies les plus significatives dans le CRC. Sur la base de l'analyse des voies GO et KEGG, les voies dérégulées les plus importantes étaient la régulation de la prolifération cellulaire, le transport du biocarbonate, les voies de signalisation Wnt et IL-17 et le métabolisme de l'azote. Le réseau d'interaction protéine-protéine (PPI) des DEG a été construit à l'aide du logiciel Cytoscape et les gènes hub, notamment MYC, CXCL1, CD44, MMP1 et CXCL12, ont été identifiés comme les gènes hub les plus critiques. La présente étude améliore notre compréhension des mécanismes moléculaires du CCR, qui pourraient potentiellement être appliqués dans les stratégies de traitement du CCR en tant que cibles moléculaires et biomarqueurs de diagnostic.

Ceci est un aperçu du contenu de l'abonnement, accessible via votre institution.


Matériaux et méthodes

Collecte et définition d'une liste de gènes EE

Nous avons utilisé deux excellentes revues récentes [2, 3], ainsi qu'une recherche documentaire supplémentaire, pour rassembler les gènes jouant un rôle dans la formation de l'épigénome. Plus précisément, nous avons rassemblé des gènes codant pour des enzymes de modification et de remodelage de la chromatine, des gènes impliqués dans les voies de déméthylation de l'ADNm et/ou de l'ADN, des gènes impliqués dans la modification des histones et des gènes impliqués dans le positionnement des nucléosomes. Un total de 212 gènes de modification de la chromatine/EE, y compris tous les principaux auteurs, lecteurs, gommes et éditeurs de l'épigénome, provenant de plus de 20 familles de gènes ont été collectés (tableau S1 dans le fichier supplémentaire 1). Tout au long de ce manuscrit, nous nous référons à cette classe de 212 gènes généralement en tant qu'enzymes épigénétiques (EE). Parmi les familles de gènes représentées figuraient les ADN (cytosine-5-)-méthyltransférases (DNMT), les protéines de liaison méthyl-CpG (MBD), les isocitrate déshydrogénases (IDH), les méthylcytosine dioxygénases à translocation dix à onze (TET), le doigt de zinc et le domaine BTB. contenant des (ZBTB), des histones désacétylases (HDAC), des histones acétyltransférases (HAT), des méthyltransférases spécifiques de la lysine (K) (KMT), des protéines arginine N-méthyltransférases (PRMT), des déméthylases spécifiques de la lysine (K) (KDM) et de l'hélicase du chromodomaine Protéines de liaison à l'ADN (CHD) (voir le tableau S1 dans le fichier supplémentaire 1 pour une liste complète).

Données d'expression du gène TCGA

Les données d'expression de RNA-SeqV2 niveau 3, quantifiées en RSEM (RNA-Seq by expectation-maximization) ont été téléchargées à partir de TCGA. Nous avons téléchargé les données pour dix types de cancer qui avaient profilé un nombre suffisant d'échantillons de cancer à la fois au niveau de l'ARN-Seq et de l'ADNm (tableau S2 dans le fichier supplémentaire 1). Cela comprenait le carcinome invasif du sein (BRCA) [32], le cancer de la vessie (BLCA) [26], l'adénocarcinome du côlon (COAD) [24], le carcinome épidermoïde de la tête et du cou (HNSC) [23], le carcinome rénal du rein (KIRC) [ 29], le carcinome hépatocellulaire du foie (LIHC) [31], l'adénocarcinome pulmonaire (LUAD) [25], le carcinome épidermoïde pulmonaire (LUSC) [27], le carcinome thyroïdien (THCA) [28] et le carcinome de l'endomètre du corps utérin (UCEC) [ 30]. Les données RNA-Seq de niveau 3 ont été traitées comme suit : (i) les entrées de valeur zéro ont été remplacées par la valeur positive minimale de l'ensemble de données (ii) les valeurs d'expression ont ensuite été transformées de manière logarithmique (base 2) afin de régulariser les données. La variabilité inter-échantillons et la qualité des données ont été évaluées à l'aide de décompositions en valeurs singulières (SVD) [73] en vérifiant que la composante supérieure de la variation était corrélée avec le statut normal/cancer. Avant d'appliquer le SVD, les valeurs d'expression transformées en log ont d'abord été centrées de sorte que chaque gène ait un zéro moyen dans tous les échantillons. Le nombre de composantes significatives de la variation a ensuite été déduit en utilisant la théorie des matrices aléatoires [74]. Les composantes significatives de la variation ont été corrélées aux facteurs phénotypiques et techniques pour évaluer les contributions relatives des variables biologiques et techniques à la variabilité des données et représentées dans un P carte thermique des valeurs entre les composants et les facteurs.

Données DNAm TCGA

Pour les dix types de cancer mentionnés ci-dessus, les données DNAm générées avec la puce Illumina Infinium HumanMethylation450 BeadChip [75] ont été téléchargées à partir du portail de données TCGA. Le niveau de méthylation pour chaque sonde a été obtenu en tant que valeur bêta, qui a été calculée à partir de l'intensité des allèles méthylés (M) et non méthylés (U) : bêta=Max(M,0)/[Max(M,0)+Max( U,0)+100]. Le bêta varie de 0 (non méthylé) à 1 (entièrement méthylé). Les sondes avec des données manquantes (c'est-à-dire les NA) dans plus de 70 % des échantillons ont été supprimées. Le reste des sondes avec NA a été imputé en utilisant la procédure d'imputation des k-plus proches voisins (knn) [76]. Par la suite, le BMIQ a été utilisé pour corriger le biais de la sonde de type II [77]. Les données de chaque type de cancer ont ensuite été soumises à la même analyse de contrôle de qualité SVD, que celle effectuée pour l'expression des gènes.

Données ADNm du cancer du sein Erlangen Illumina 450k

Les données Illumina 450k DNAm pour 30 échantillons normaux (provenant de femmes en bonne santé), 21 échantillons normaux adjacents à des cancers du sein et 165 échantillons de cancer du sein ont été collectés dans le cadre de l'étude bavaroise sur les cas et les contrôles de cancer du sein 2. Le comité d'éthique de la faculté de médecine, Friedrich- L'Université Alexander a approuvé l'étude (réf. n° 4514) et tous les patients ont donné leur consentement éclairé par écrit. L'étude a été réalisée conformément à la Déclaration d'Helsinki. Les données sont disponibles dans le Gene Expression Omnibus (numéro d'accès GSE69914). Les fichiers de données brutes ont été traités à l'aide des progiciels minfi, impute et BMIQ/ChAMP Bioconductor.

Expression différentielle méta-analyse TCGA des gènes EE à travers le cancer

Pour chaque ensemble de données d'expression TCGA, nous avons utilisé des tests t modérés [78] pour évaluer l'expression différentielle d'environ 20 000 gènes entre le tissu cancéreux normal et correspondant, y compris les 212 gènes EE. Nous notons que nous avons utilisé tous les échantillons de cancer et pas seulement ceux avec des tissus normaux appariés. Compte tenu de la méta-analyse qui a suivi, nous avons utilisé des valeurs nominales détendues P des seuils de valeur de 0,05 pour déclarer une signification statistique dans chaque ensemble de données TCGA. Nous avons compté le nombre de gènes EE qui présentaient une expression différentielle significative et cohérente (c'est-à-dire la même directionnalité) sur au moins huit des dix types de cancer/tissu. Pour évaluer la signification statistique globale de ces dénombrements, nous avons également estimé les proportions de tous les gènes du génome humain présentant une surexpression et une sous-expression significatives dans chaque ensemble de données TCGA, obtenant ainsi des probabilités « nulles » de surexpression (régulation positive, p vous) et la sous-expression (régulée négativement, p ). Nous avons observé que ces probabilités ne variaient pas beaucoup entre les types de cancer (tableau S3 dans le fichier supplémentaire 1). Par conséquent, nous avons ensuite estimé une probabilité nulle moyenne pour un gène donné d'être significativement régulé à la hausse ou à la baisse dans le cancer par rapport au tissu normal en prenant la moyenne des probabilités correspondantes pour tous les types de cancer. Ces estimations de probabilité nulle moyenne étaient ( >_uapprox 0.32 ) et ( >_denviron 0,34 ) . Nous avons ensuite estimé la probabilité nulle qu'un gène donné soit significativement régulé à la hausse (régulé à la baisse) dans au moins huit des dix types de cancer, en utilisant la formule binomiale :

Cela a donné des valeurs de p(nUP 8) 0,003 et p(nDN 8) 0,004. Enfin, étant donné un pool de 212 gènes aléatoires, nous pouvons estimer le nombre attendu qui serait significativement régulé à la hausse (régulé à la baisse) dans au moins huit des dix types de cancer. Ceci est donné par une distribution binomiale B(n,p) avec (n = 212, p = 0,003) dans le cas d'une régulation à la hausse, et (n = 212, p = 0,004) pour le cas d'une régulation à la baisse. On trouve que E[nUP 8] 0,54(±0,73) et E[nDN ≥ 8] ≈ 0,89 (± 0,94), c'est-à-dire qu'effectivement, nous nous attendrions à ce que seulement 1 des 212 gènes soit expliqué par le hasard. Enfin, en utilisant la distribution binomiale, nous pouvons estimer la signification statistique des nombres observés de gènes EE significatifs et systématiquement surexprimés et sous-exprimés. Les nombres observés étaient 35 gènes EE régulés à la hausse et 27 EE régulés à la baisse, ce qui ne peut pas être expliqué par le hasard (P = 2e-53 pour le cas régulé à la hausse, P = 9e-33 pour le cas régulé à la baisse).

Construction des indices d'instabilité épigénétique : HyperZ et HypoZ

Afin de déterminer si l'expression aberrante des EE dans un cancer donné est associée à des changements dans le méthylome de l'ADN de ce cancer, nous avons d'abord calculé des «indices d'instabilité épigénétique» reflétant les écarts absolus de l'ADNm dans un échantillon de cancer donné, évalués par rapport à la normale. échantillons du même type de tissu. Nous avons décidé de construire deux de ces indices, appelés HyperZ et HypoZ, pour rendre compte des mécanismes potentiellement distincts à l'origine de l'hyperméthylation et de l'hypométhylation de l'ADN cancéreux. Les indices ont été construits comme suit : tous les CpG du génome ont été classés en différentes classes régionales, selon qu'ils appartiennent respectivement aux régions de haute mer, CGI ou littoral/plateau [79]. Tous les sites CpG au sein d'une classe régionale ont ensuite été regroupés en clusters régionaux en utilisant la fonction boundedClusterMaker de la chasseur de bosses Package BioC avec une largeur de cluster maximale de 1500 pb et un écart maximal de 500 pb entre deux CpG voisins [80]. Le niveau de méthylation pour chaque cluster régional a été défini comme la valeur bêta moyenne des CpG au sein de ce cluster. Pour un cluster/région donné, étiqueté r, dans un échantillon tumoral donné s, nous avons ensuite calculé un score Z, Z rs, reflétant l'écart d'absolution dans l'ADNm de cette région dans l'échantillon de cancer donné par rapport à tous les échantillons normaux du même type de tissu. Concrètement, laissez ?? r (N) et ?? r (N) désignent la moyenne et l'écart type du niveau DNAm du cluster régional r sur tous les échantillons de tissus normaux. Puis Z rs a été défini comme ( _=frac<eta_-_r^<(N)>>> ) . Étant donné que les grappes régionales correspondant aux CGI du promoteur sont généralement non méthylées dans les tissus normaux, nous ne considérons que les grappes pour lesquelles le score Z dans un échantillon de cancer donné est positif. De même, pour les clusters régionaux de haute mer, qui sont généralement méthylés dans le tissu normal, nous ne considérons que les clusters dans un échantillon de cancer donné pour lesquels le score Z est négatif, bien que nous imposions la positivité pour garantir que l'écart absolu est pris en compte. Plus précisément, l'indice HyperZ pour un échantillon de cancer donné s a été obtenu comme :

où la somme porte sur toutes les grappes CGI du promoteur et où H(z) désigne la fonction Heaviside : H(z) = 1 si z > 0, H(z) = 0 si z ≤ 0. Ainsi, seules les régions pour lesquelles le score Z est positif contribuent à l'indice, et la positivité de l'indice est garantie par définition. De même, l'indice HypoZ pour un échantillon de cancer donné a été estimé comme suit :

où la somme est maintenant sur tous les clusters régionaux de haute mer. Le terme impliquant la fonction Heaviside garantit que seules les régions avec des scores négatifs, c'est-à-dire l'hypométhylation de l'état méthylé, contribuent. Prendre la valeur absolue des scores Z assure ainsi que l'indice est toujours positif.

Les indices HyperZ et HypoZ peuvent être considérés comme des indices d'« instabilité épigénétique » dans le sens où ils mesurent les niveaux globaux de déviation absolue de l'ADNm dans un échantillon de cancer donné par rapport à une référence normale. L'indice HyperZ se limite aux promoteurs CGI et mesure donc le niveau global d'hyperméthylation du cancer de ces régions, tandis que l'indice HypoZ reflète le niveau absolu global d'hypométhylation du cancer dans les régions de haute mer.

Dans ce manuscrit, nous utilisons également une définition alternative des indices HyperZ et HypoZ, où la moyenne est calculée uniquement sur les régions génomiques, r, pour laquelle le score Z, Z rs, est significatif (P < 0.05). Cette définition des indices n'utilise donc que des régions significatives. La méta-analyse de corrélation entre l'ARN-Seq des gènes EE et les indices HyperZ/HypoZ décrits ci-dessous a été réalisée en utilisant cette dernière définition des indices, puisque pour cette définition, les indices HyperZ/HypoZ étaient moins bien corrélés donc, les deux indices contiennent informations moins redondantes ou plus complémentaires.

Méta-analyse de corrélation de l'expression du gène EE et des indices d'instabilité épigénétique

L'analyse de corrélation de Pearson a été utilisée pour évaluer si l'expression des EE est corrélée avec l'indice HypoZ et HyperZ à partir d'échantillons de tumeurs appariés. Il est essentiel de souligner ici que ces corrélations ont été calculées uniquement sur des échantillons de tumeurs avec des données RNA-Seq et DNAm appariées. Les coefficients de corrélation de Pearson ont été transformés en statistiques Z de Fisher ( Z=0,5 log frac<1+PCC> <1-PCC>) à partir desquelles P les valeurs ont ensuite été dérivées. Non corrigé P les valeurs <0,05 ont été jugées statistiquement significatives. Une fois de plus, le seuil relâché a été utilisé en raison de la méta-analyse ultérieure qui réévaluerait les niveaux de signification statistique pour tous les types de cancer ensemble. Pour évaluer la signification statistique dans la méta-analyse, nous avons calculé pour chaque ensemble de données TCGA la fraction de gènes (de tous les gènes avec des données RNA-Seq) présentant des corrélations positives et négatives significatives avec les indices HyperZ et HypoZ. Cela a donné quatre fractions/probabilités pour chaque ensemble de données TCGA, correspondant à des corrélations positives avec HyperZ, des corrélations négatives avec HyperZ, des corrélations positives avec HypoZ et des corrélations négatives avec HypoZ. À partir de ces fractions, nous avons ensuite calculé une probabilité globale en faisant la moyenne des probabilités correspondantes sur tous les types de cancer. Notons ces probabilités moyennes comme suit : ( >_ ) pour la probabilité moyenne qu'un gène aléatoire soit positivement corrélé avec l'index HyperZ ( >_ ) pour la probabilité moyenne qu'un gène aléatoire soit négativement corrélé avec l'index HyperZ ( >_ ) pour le cas de corrélations positives avec HypoZ et ( >_

) pour le cas des corrélations négatives avec HypoZ. Les estimations spécifiques pour ces probabilités moyennes étaient ( >_environ 0,12, >_environ 0,16 ) et ( >_
environ 0,25 ) . Nous avons ensuite estimé la probabilité nulle qu'un gène donné soit significativement corrélé positivement (négativement) avec HyperZ dans au moins six des dix types de cancer, et de même pour HypoZ, en utilisant les formules binomiales :

Cela a donné des valeurs de p(nUU ≥ 6) ≈ 0.0004, p(nDU ≥ 6) ≈ 0.02, p(nUD 6) 0,002 et p(JJ 6) 0,02. Enfin, étant donné un pool de 212 gènes aléatoires, nous pouvons estimer le nombre attendu qui serait significativement corrélé (anti-corrélé) avec HyperZ ou HypoZ dans au moins six des dix types de cancer. Ceci est donné par une distribution binomiale B(n,p) avec n = 212 et avec p donné par l'une des quatre probabilités données ci-dessus. On trouve que E[nUU 6] 0,54(±0,73) et E[nDN ≥ 8] ≈ 0,89 (± 0,94), c'est-à-dire qu'effectivement, nous nous attendrions à ce que seulement 1 des 212 gènes soit expliqué par le hasard. Enfin, en utilisant la distribution binomiale, nous pouvons estimer la signification statistique des nombres observés de gènes EE significatifs et systématiquement surexprimés et sous-exprimés. Les nombres observés étaient 35 gènes EE régulés à la hausse et 27 gènes EE régulés à la baisse, ce qui ne peut pas être expliqué par le hasard (P = 2e-53 pour le cas régulé à la hausse, P = 9e-33 pour le cas régulé à la baisse).

Méta-analyse de modélisation de réseau causal des gènes EE

La méta-analyse d'expression différentielle et la méta-analyse d'expression d'ARNm-HyperZ/HypoZ ont conduit à 18 gènes EE, montrant une expression différentielle cohérente et des modèles corrélatifs à travers les types de cancer. Ces 18 gènes EE ont ensuite été soumis à une analyse de modélisation de réseau causal afin d'évaluer si les corrélations de l'expression de l'ARNm de ces gènes avec les indices HyperZ/HypoZ sont susceptibles d'être un effet direct, ou si au contraire elles sont susceptibles d'être médiées par d'autres facteurs (autres gènes EE ou niveaux d'ADNm promoteur des gènes EE). Ainsi, le problème peut être résolu en adoptant une méthode statistique qui permet de « faire taire » ou de supprimer les corrélations qui sont susceptibles d'être indirectes. Pour cela, nous avons utilisé le cadre des corrélations partielles/régressions linéaires multivariées [46]. Plus précisément, nous avons effectué deux analyses distinctes, l'une centrée sur les gènes EE individuels et l'autre incluant les 18 gènes EE du modèle. Dans la première approche, nous avons estimé les corrélations partielles entre HyperZ/HypoZ et le niveau d'expression de chaque gène EE en utilisant le niveau d'ADNm du promoteur du gène EE comme covariable. Cela nous a permis d'évaluer si la corrélation entre HyperZ/HypoZ et l'expression du gène EE est indépendante du niveau de promoteur DNAm du gène EE. Dans la deuxième approche, nous avons utilisé toutes les 17 autres expressions du gène EE ainsi que les 18 niveaux d'ADNm du promoteur comme covariables, lors de l'estimation de la corrélation partielle entre l'expression d'un gène EE donné avec l'index HyperZ ou HypoZ.Cela nous a permis d'évaluer si la corrélation de l'expression d'un gène EE avec HyperZ/HypoZ est non seulement indépendante de son niveau d'ADNm promoteur, mais également indépendante des niveaux d'expression (et d'ADNm promoteur) des 17 autres gènes EE.

L'application de cette procédure dans chaque type de cancer a conduit à un réseau de corrélation partielle. Nous avons ensuite construit un réseau de consensus sur les dix types de cancer, avec des arêtes définissant des corrélations partielles significatives et cohérentes présentes dans au moins six des dix types de cancer.

Corrélation des loci génomiques avec l'expression du gène EE

Pour évaluer si les mêmes loci génomiques sont affectés par un gène EE donné, indépendamment du type de cancer, nous avons adopté une approche de corrélation à l'échelle du génome. Plus précisément, nous avons calculé les corrélations de Pearson entre le niveau d'ADNm d'une région/groupe donné et le niveau d'expression du gène EE, en utilisant uniquement des échantillons de cancer pour estimer la corrélation. Dans le cas des corrélations avec HyperZ, nous n'avons considéré que les régions/clusters associés à CGI. Dans le cas des corrélations avec HypoZ, nous n'avons considéré que les régions/amas de haute mer. Les corrélations de Pearson ont été transformées en statistiques Z de Fisher. Corrélation de rang de Spearman et P les valeurs du classement obtenues pour chaque type de cancer ont été utilisées pour évaluer la cohérence des classements entre les types de cancer.


Voir la vidéo: Eric Zemmour, Conseil dÉtat et Présidentielle au défi de la vérité. France Soir 26 octobre 2021 (Janvier 2023).