Informations

Appeler des modifications dans les données Exome

Appeler des modifications dans les données Exome


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Quelles sont les principales différences techniques entre l'appel précis des mutations ponctuelles somatiques et la variation du nombre de copies (CNV) dans les données de l'exome ? Remarque : auriez-vous besoin d'autres données -omiques pour déduire avec précision la CNV (les données exome ne suffisent pas) ?


Les données d'Exome peuvent être utilisées pour déterminer à la fois les mutations ponctuelles somatiques et les variations du nombre de copies. L'élément limitant du pouvoir de détection pour les deux est le nombre de lectures (combien de lectures par gène).

Données Exome : Les données Exome utilisent une référence (pour un trio, ce serait les parents ; pour le cancer, ce serait un échantillon normal apparié à partir de sang ou de tissu non invasif) afin de déterminer si un certain point est muté ou non. Le séquençage de nouvelle génération est sujet aux erreurs de séquençage, il est donc essentiel d'avoir un nombre de lectures suffisamment élevé pour appeler correctement une mutation somatique. Même ainsi, des problèmes avec des sites très répétitifs peuvent rendre cela difficile.

L'utilisation des données exome pour le nombre de copies se produit beaucoup de nos jours. Le nombre de lectures est utilisé comme indicateur du nombre de copies existantes, et le solde des allèles sur un gène donné vous indique s'il y a eu une perte d'hétérozygotie. Bien sûr, avec les données exome, vous n'obtenez pas de véritables données génomiques. Mais il y a suffisamment de couverture en utilisant l'exome pour capter les grands événements.

Données CNV : L'analyse du nombre de copies est maintenant classiquement effectuée à l'aide d'une matrice SNP (polymorphisme nucléotidique unique) à haute densité. Ceux-ci sont conçus pour être bialléliques et se déclinent en deux types. Il y a d'abord les SNP de numéro de copie, qui sont conçus pour donner les meilleures informations sur le numéro de copie. Ensuite, il y a les SNP de génotypage, qui renseignent sur la perte d'hétérozygotie. Souvent, les données de la matrice SNP sont de meilleure qualité, mais cela est déterminé par votre plate-forme. Les plates-formes plus récentes ont une couverture extrêmement élevée du génome et peuvent vous permettre de vraiment repérer les changements focaux.

Ces puces, basées sur les recommandations du fabricant, ne sont pas destinées à être utilisées pour l'appel de mutation somatique.


En ce qui concerne les pipelines bioinformatiques, vous pouvez utiliser des outils similaires pour chacun. Par exemple, le package Aroma dans R a des pipelines pour les données de tableau Exome et SNP. GISTIC 2.0 de Broad peut être utilisé pour trouver les changements de numéro de copie focale.

Un mot d'avertissement : il est toujours préférable de valider ce que vous trouvez sur une plate-forme avec une autre. J'ai récemment travaillé sur un article qui utilisait à la fois le séquençage d'Exome et les données de la matrice SNP pour déterminer le nombre de copies. En utilisant GISTIC, il n'y avait pas de pics focaux correspondants. Les grandes tendances chromosomiques étaient les mêmes, et c'est ce que le groupe a rapporté.


Une analyse à l'échelle de l'exome des altérations bi-alléliques identifie un phénotype de Lynch dans The Cancer Genome Atlas

Fond: Les variantes germinales de susceptibilité au cancer nécessitent généralement une altération somatique de l'allèle restant pour conduire l'oncogenèse et, dans certains cas, les profils de mutation tumorale. On ne sait pas si des altérations bi-alléliques combinées de la lignée germinale et somatique sont universellement requises pour que la variation de la lignée germinale influence le profil mutationnel de la tumeur. Ici, nous avons effectué une analyse à l'échelle de l'exome de la fréquence et de l'effet fonctionnel des altérations bi-alléliques dans The Cancer Genome Atlas (TCGA).

Méthodes : Nous avons intégré des données de variante de lignée germinale, de mutation somatique, de méthylation somatique et de perte du nombre de copies somatiques de 7790 individus de TCGA pour identifier les altérations bi-alléliques de la lignée germinale et somatique dans tous les gènes codants. Nous avons utilisé des modèles linéaires pour tester l'association entre les altérations mono- et bi-alléliques et l'instabilité des microsatellites somatiques (MSI) et les signatures mutationnelles somatiques.

Résultats: Nous avons découvert un enrichissement significatif des altérations bi-alléliques dans les gènes de réparation des mésappariements (MMR) et identifié six porteurs bi-alléliques avec un MSI élevé, compatible avec le syndrome de Lynch. En revanche, nous trouvons peu de preuves d'un effet de la variation de la lignée germinale mono-allélique sur le MSI. En utilisant la charge MSI et le statut d'altération bi-allélique, nous reclassons deux variantes d'importance inconnue dans MSH6 comme potentiellement pathogènes pour le syndrome de Lynch. En élargissant notre analyse du MSI à un ensemble de 127 gènes de réparation des dommages à l'ADN (DDR), nous avons identifié une nouvelle association entre la méthylation de la SHPRH et la charge MSI.

Conclusion : Nous constatons que les altérations bi-alléliques sont peu fréquentes dans le TCGA mais surviennent le plus souvent dans les gènes BRCA1/2 et MMR. Nos résultats soutiennent l'idée qu'une altération bi-allélique est nécessaire pour que la variation de la lignée germinale influence le profil mutationnel de la tumeur. Dans l'ensemble, nous démontrons que l'intégration des altérations germinales, somatiques et épigénétiques fournit une nouvelle compréhension des profils mutationnels somatiques.

Mots clés: Génomique du cancer Lignée germinale du cancer Prédisposition au cancer Syndrome de Lynch Instabilité des microsatellites Signatures mutationnelles TCGA.

Déclaration de conflit d'intérêts

Approbation éthique et consentement à participer

Toutes les données des patients ont été obtenues via dbGaP (dbGaP Study Accession phs000178.v9.p8, projet n° 8072). Cette étude était une analyse rétrospective des données existantes sur les patients à accès contrôlé de TCGA, par conséquent, le consentement du patient n'était pas requis.

Consentement à la publication
Intérêts concurrents

Les auteurs déclarent ne pas avoir d'intérêts concurrents.

Note de l'éditeur

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Les figures

Fréquence germinale et somatique…

Fréquence des altérations germinales et somatiques dans les voies liées au cancer. uneb Cirque…

Caractéristiques génétiques et cliniques de…

Caractéristiques génétiques et cliniques des individus MSI-H. une Graphique CoMut affichant la lignée germinale, somatique,…

Identification et caractérisation des potentiels…

Identification et caractérisation des variantes potentiellement pathogènes du syndrome de Lynch. une Flux d'analyse : 212…

Altérations germinales, somatiques et épigénétiques…

Altérations germinales, somatiques et épigénétiques qui influencent la charge somatique de MSI. unec…

Syndromes de prédisposition au cancer dans TCGA.…

Syndromes de prédisposition au cancer dans TCGA. une Âge du diagnostic de la lignée germinale ROR : altération somatique…


Fond

Les moteurs de la croissance, de la progression et des métastases tumorales sont souvent le résultat d'altérations du dosage et/ou de la structure des gènes dues à des altérations du nombre de copies (CNA). Dans le cancer du sein, des perturbations courantes de zones génomiques spécifiques sont connues pour entraîner des altérations oncogènes [1]. Des recherches antérieures ont identifié des facteurs clés d'une manière spécifique au sous-type qui sont un résultat direct des CNA plutôt que des mutations ponctuelles somatiques. Ces altérations génomiques acquises peuvent favoriser l'activation d'oncogènes ou l'inactivation de suppresseurs de tumeurs dans les cellules cancéreuses [2]. La détection par CNA a également précédemment identifié des cibles thérapeutiques dans plusieurs types de cancer [3-6]. L'importance clinique de mesurer avec précision les CNA est essentielle pour comprendre la progression biologique du cancer.

Les efforts précédents pour identifier les CNA dans les tumeurs utilisaient des technologies basées sur des puces à ADN, telles que l'hybridation génomique comparative des puces (aCGH) et les puces de génotypage du polymorphisme nucléotidique simple (SNP). Actuellement, les approches de séquençage de nouvelle génération permettent une étude complète de toutes les variations génomiques dans un échantillon. De plus, le séquençage de l'exome entier (WES) est un outil populaire pour les projets de génomique du cancer car il implique une réduction de la complexité analytique et du fardeau financier par rapport au séquençage du génome entier (WGS). Grâce aux efforts de grands consortiums de séquençage, tels que le projet The Cancer Genome Atlas (TCGA) [7], les données WES pour des milliers de tumeurs couvrant une multitude de types de cancer sont actuellement disponibles. L'exploitation de ces technologies pour identifier avec précision les CNA dans les échantillons de tumeurs offre une puissante opportunité pour des recherches supplémentaires utilisant ces données.

Des défis techniques importants dans la détection des CNA à partir des plates-formes de séquençage limitent actuellement l'utilisation des données WES pour une caractérisation précise du nombre de copies d'ADN. Les erreurs dans le génome humain de référence, les séquences répétitives, le polymorphisme et les biais procéduraux lors du séquençage de nouvelle génération compliquent actuellement l'appel du numéro de copie [8]. Pour les données WES en particulier, la segmentation précise du nombre de copies est encore compliquée par l'efficacité de capture non uniforme des exons entre deux échantillons. Deux approches généralisées pour détecter les CNA de WES comprennent : la dépendance à la profondeur de couverture des régions cibles, ignorant ainsi une grande partie du génome [9–13] et utilisant des lectures hors cible uniformément distribuées [14], ignorant ainsi le signal nécessaire pour des analyses sophistiquées telles que l'estimation du nombre entier de copies, la pureté de l'échantillon et la clonalité. Pour résoudre ces problèmes, nous avons développé une méthode qui exploite les informations provenant à la fois des régions cibles et non cibles.

Les algorithmes publiés précédemment ont tenté de relever les défis de la détection des CNA de WES, mais à notre connaissance, aucun n'a fourni de solution complète avec la capacité supplémentaire de réduire le coût élevé actuel de l'exigence de normales appariées. Nous avons développé SynthEx, un outil qui s'adapte aux différents protocoles des différents protocoles de séquençage de nouvelle génération, pour détecter les CNA. SynthEx utilise une stratégie « synthétique-normale » pour corriger le biais spécifique à l'échantillon dans les régions cibles en raison de la variation pré-analytique entre les paires appariées tumeur-normale. Par conséquent, au lieu d'exiger un échantillon apparié tumeur-normale de chaque sujet, une normale synthétique est utilisée qui imite le biais technique de la tumeur à doser. En utilisant les CNA publiés par TCGA d'Affymetrix SNP 6.0 comme « gold standard », nous avons comparé les performances de SynthEx aux méthodes de détection WES CNA populaires [9, 11, 15], en utilisant le carcinome du sein TCGA comme ensemble d'entraînement et le carcinome de la tête et du cou TCGA comme ensemble de test. Ici, nous fournissons un nouvel outil d'appel de numéro de copie utilisant les données WES avec une précision et une exactitude améliorées qui ne nécessitent pas d'échantillons normaux appariés.


Résultats

Le paysage mutationnel du carcinome hépatocellulaire

Nous avons analysé 42 paires de tumeurs normales de CHC pour identifier des mutations fréquentes et à haute fréquence allélique. Nous avons séquencé les génomes entiers et les transcriptomes de 12 patients, et les exomes de 30 patients supplémentaires. Nous avons identifié 49 mutations non silencieuses par patient (valeur médiane du tableau S1 dans le fichier supplémentaire 1 figure S1A dans le fichier supplémentaire 2) à partir des 12 génomes entiers, et 54 mutations somatiques non silencieuses par patient (valeur médiane du tableau S2 dans le fichier supplémentaire 1 figure S2 dans le fichier supplémentaire 2) des 30 exomes. L'un des patients avait un taux de mutation inhabituellement élevé (Figure S2 dans le fichier supplémentaire 2), avec >99% des mutations ponctuelles de type C > T (tableau S2 dans le fichier supplémentaire 1). Le mécanisme d'un taux de mutation aussi élevé chez ce patient particulier n'est pas clair, mais un tel schéma de mutation C > T est cohérent avec la mutagenèse médiée par APOBEC3B observée dans d'autres types de cancers [10], [11].

Nous avons trouvé des mutations non silencieuses fréquentes dans TP53, CTNNB1, AXIN1, LAMA2, ZFPM2 et TAF1L (Figure 1A). Nous nous sommes concentrés sur les mutations identifiées à des fréquences alléliques élevées (figure 1B), car elles sont susceptibles d'être fonctionnelles. Des mutations fréquentes dans TP53, CTNNB1 et AXIN1 ont été rapportés précédemment dans le CHC, et ceux-ci se produisent chez 13 des 42 patients (Figure 1A). De plus, nous avons trouvé des mutations dans IDH1 au codon 132 (2/42 cas Figure 2A), un hotspot de mutations dans le glioblastome et le cholangiocarcinome intrahépatique [9], élargissant ainsi les indications de IDH1 mutations. Mutations au codon 132 dans IDH1 ont montré qu'ils inhibaient principalement l'activité catalytique de IDH1, qui fonctionne normalement pour catalyser la décarboxylation oxydative de l'isocitrate en -cétoglutarate, et contribue à la tumorigenèse en induisant la voie HIF-1 [12]. Fait intéressant, un autre patient portait une mutation non-sens dans IDH2, qui est également fréquemment muté dans le cancer et a un effet similaire à IDH1. Un troisième membre de la famille IDH, IDH3A, qui code pour la sous-unité alpha de l'IDH3, portait une mutation non-synonyme (tableau S2 dans le fichier supplémentaire 1), bien que sa signification ne soit pas claire. De plus, nous avons trouvé des mutations dans le suppresseur de tumeur BAP1[13] chez deux patients (Figure 2B). BAP1 est une deubiquitylase associée à des complexes protéiques régulant des voies cellulaires clés, notamment le cycle cellulaire, la différenciation cellulaire, la mort cellulaire, la gluconéogenèse et la réponse aux dommages de l'ADN [14]. Un patient portait une délétion conduisant à un décalage du cadre de lecture, ainsi qu'une autre mutation non-synonyme. Le deuxième patient avait une mutation D184V, une position importante pour l'activité catalytique, basée sur la similarité de séquence avec le résidu D176 de UCHL1 [15]. Alors que des mutations somatiques fréquentes de BAP1 ont été trouvées dans le mésothéliome, le mélanome de l'uvée et la réponse au mélanome cutané [14], nous rapportons la première découverte de mutation de BAP1 dans le CHC. Une autre mutation notable était une mutation E545K dans PIK3CA (tableau S2 dans le fichier supplémentaire 1), qui est une mutation du point chaud dans le domaine hélicoïdal conduisant à une activation constitutive [16],[17]. Plusieurs autres mutations précédemment signalées dans le cancer ont été trouvées en tant que cas uniques (tableau S2 dans le fichier supplémentaire 1).

Résumé des aberrations génomiques dans le carcinome hépatocellulaire. (UNE) Des gènes sélectionnés qui ont des mutations ponctuelles multiples à une fréquence allélique élevée ou des variations structurelles sont affichés. Certains gènes de recensement des gènes du cancer qui ont montré des mutations à haute fréquence allélique et des intégrations virales hautement clonales sont également présentés. Le statut d'infection par le VHB était connu pour les 12 échantillons de séquençage du génome entier. Pour ces échantillons, le statut d'infection par le VHB est indiqué par un signe plus s'il est infecté et un signe moins si aucune infection n'a été détectée. (B) Profils de fréquence allélique de gènes fréquemment mutés à travers des génomes entiers et des exomes. Pour chaque allèle mutant trouvé dans l'étude, le centile de sa fréquence allélique (calculé pour chaque échantillon séparément) est indiqué sur l'axe des y. Les barres rouges indiquent la valeur médiane de la fréquence allélique percentile. Les points bleus représentent les mutations choisies, où la valeur médiane du centile était supérieure à 0,5, tandis que les points gris montrent des exemples de gènes qui avaient des valeurs médianes inférieures à 0,5 et ont été rejetés.

mutations dans IDH1 , BAP1 et CTNNB1 . (UNE) IDH1 est muté chez deux patients au hotspot R132. (B) BAP1 mutation chez deux patients. Le patient 3885 a une mutation D184V, un site important pour l'activité enzymatique de la peptidase (par homologie). L'autre patient (9113) porte deux mutations, dont une mutation ponctuelle, R237C, et une délétion par décalage du cadre de lecture en position 354. (C) Une suppression dans le cadre dans CTNNB1 chez le patient 30147. La délétion s'étend sur 121 acides aminés près de l'amino-terminal. Cette région est impliquée dans la dégradation de la -caténine et est fréquemment mutée dans le cancer, comme le montre le regroupement de mutations dans cette région dans la base de données COSMIC. Chaque case verte est une instance de mutation dans COSMIC. Des mutations uniques qui se chevauchent ont été empilées.

Des aberrations dans les membres de la voie de signalisation Wnt seraient fréquentes dans le CHC [6]. Outre les mutations ponctuelles dans CTNNB1 et AXIN1, nous avons également trouvé des délétions partielles dans ces gènes. Les CTNNB1 la suppression s'étend sur les exons 3 et 4 (Figure S3A, B dans le fichier supplémentaire 2, tableau S5 dans le fichier supplémentaire 1). Cette suppression dans le cadre supprime l'extrémité aminée de la -caténine, une région fortement mutée dans plusieurs cancers (figure 2C). Étant donné que l'extrémité amino est impliquée dans la dégradation de la -caténine, la délétion entraîne probablement sa stabilisation. Nous avons signalé précédemment un AXIN1 délétion [3] qui comprend les trois derniers exons du gène et aboutit à une fusion avec LUC7L (Tableau S6 dans le fichier supplémentaire 1), entraînant probablement une perte fonctionnelle.

Intégration du virus de l'hépatite B dans le génome humain

L'intégration du VHB est un autre mécanisme pour influencer l'expression et la fonction des gènes dans le CHC. Le VHB peut s'intégrer de manière aléatoire dans le génome des hépatocytes infectés [3],[4],[18],[19]. Intégrations récurrentes du VHB à proximité de gènes liés au cancer comme TERT[4] indiquent que le VHB peut jouer un rôle causal dans le CHC. À partir des génomes entiers des patients infectés par le VHB, nous avons identifié 146 sites d'intégration du VHB (tableau S3 dans le fichier supplémentaire 1), et à partir de leurs transcriptomes, nous avons identifié 545 transcrits chimériques (tableau S4 dans le fichier supplémentaire 1). Le nombre de sites d'intégration par patient variait de 2 à 28 sites dans les échantillons tumoraux et de 0 à 19 sites dans les échantillons adjacents à la tumeur. L'expansion clonale des hépatocytes contenant le VHB était spécifique aux tumeurs (figure 3A), car les tumeurs présentaient des quantités élevées d'ADN chimérique humain-viral par rapport aux échantillons adjacents à la tumeur. Nous avons trouvé des intégrations près de trois cibles d'intégration récurrentes connues [4] : deux dans le promoteur de TERT, un en amont de CCNE1 (Figure S4 dans le fichier supplémentaire 2) et un autre dans le troisième exon de MLL4[3]. Ces intégrations se produisent à une fréquence clonale élevée (tableau S3 dans le fichier supplémentaire 1). L'intégration HBV près de CCNE1 corrélée à une instabilité génomique étendue dans cette région, avec au moins trois inversions et une translocation interchromosomique vers le chromosome 7 (Figure S4 dans le fichier supplémentaire 2). Curieusement, aucun des points d'arrêt n'a perturbé le CCNE1 séquence codante. D'autres sites d'intégration très clonaux ont été cartographiés à proximité TNFSF4 et AGPAT6, en plus de ANGPT1 et CASP12 comme indiqué précédemment [3].

Intégration du virus de l'hépatite B et transcription chimérique dans le carcinome hépatocellulaire. (UNE) Les intégrations virales dans 12 échantillons séquencés du génome entier ont été déterminées sur la base de lectures chimériques humaines-virales. Les lectures chimériques chevauchantes ou proches (à moins de 500 pb) ont été regroupées et le gène le plus proche de la jonction humain-viral de chaque groupe a été déterminé. Dans le graphique, chaque point représente un cluster de lecture chimérique, et l'axe des y représente le nombre total de lectures chimériques par cluster par gigabase de bases humaines cartographiées pour cet échantillon. La jonction humaine est représentée sur l'axe des x. Pour chaque échantillon, le cluster avec le plus grand nombre de lectures chimériques est marqué avec le gène le plus proche. (B) Deux points chauds pour les points d'arrêt viraux dans les transcrits chimériques viraux-humains. Les lectures d'ARN chimérique humain-viral ont été regroupées en fonction du voisinage proche (jusqu'à 500 pb). Le nuage de points montre la cartographie des clusters sur le génome viral (axe des y) par rapport au génome humain linéarisé (axe des x). La taille des points est proportionnelle au nombre de lectures appartenant au cluster. L'histogramme en ordonnée représente la fréquence des chimères observées le long du génome viral. Deux points chauds sont observables. La jonction virale la plus fréquente est la région à l'extrémité 3' du X gène. Un deuxième point chaud, moins fréquent, est observé au S gène. (C) Les transcrits chimériques montrent un enrichissement pour l'origine du promoteur viral et l'exclusion de l'exon humain. Des histogrammes représentant les comptes de lecture d'ARN-Seq chimérique sont présentés. Les lectures chimériques ont été classées en aval, lorsque le brin positif viral était en 3' de la séquence humaine, ou en amont, lorsque le brin positif viral était en 5' de la séquence humaine (conformément à la transcription dirigée par le promoteur viral). Ils ont en outre été classés pour l'inclusion ou l'exclusion de la séquence d'exons humains. Un enrichissement spécifique des transcrits chimériques peut être observé lorsque la séquence virale est en amont du point de rupture, et les exons humains sont exclus.

Transcription médiée par le virus de l'hépatite B à partir de promoteurs viraux

Outre l'intégration virale du VHB au niveau de l'ADN, nous avons également effectué une analyse complète des données RNA-Seq disponibles pour identifier les transcrits de fusion entre le VHB et les séquences humaines. Un grand nombre de ces transcrits chimériques ont été identifiés (tableau S4 dans le fichier supplémentaire 1). Les transcrits chimériques ont été fusionnés de manière préférentielle à deux points de rupture dans le génome viral : un près de l'extrémité 3' du X gène et l'autre dans le S gène (Figure 3B Figure S5A, B dans le fichier supplémentaire 2). Les transcrits chimériques humains-viraux peuvent inclure la séquence virale en amont ou en aval du point de rupture. Le premier, qui est cohérent avec l'initiation de la transcription à partir d'un promoteur viral, est enrichi dans la chimère (figure 3C). Si la transcription chimérique était initiée à partir d'un promoteur humain, nous nous attendrions à voir un enrichissement pour l'inclusion d'exons humains dans la chimère, cependant, ce n'était pas le cas (figure 3C). La plus grande proéminence du point de rupture à l'extrémité 3' de la X Le gène était probablement dû à la linéarisation (et à l'intégration consécutive) de l'ADN viral au site DR1, qui avait été précédemment identifié comme un point chaud de fusion pour l'ARN chimérique humain-VHB [3],[18]. Il a été démontré que l'HBx pleine longueur a un potentiel oncogène [20]. Fait intéressant, la troncature de l'AgHBs peut conférer un avantage par rapport à la surveillance immunitaire [21] et les délétions pré-S sont associées au développement du CHC [22].

Multiples modes d'activation de TERT

Le gène de la télomérase TERT est régulée positivement dans plusieurs cancers [23]. Ici, nous avons observé deux modes de perturbation de TERT: intégrations virales dans le promoteur de TERT chez deux patients (Figure 4, patients H166 et H219), et des translocations chez deux autres patients (Figure 4, patients 30996 et 30374). Dans les quatre cas, les points d'arrêt n'ont pas perturbé les exons et TERT a été exprimé dans la tumeur (figure 4) mais pas dans le tissu normal apparié (données non présentées). Chez le patient H219, les lectures chimériques montrent la fusion entre l'UTR 5' de TERT L'ARNm et la séquence virale étaient évidents (tableau S4 dans le fichier supplémentaire 1), suggérant un rôle direct du VHB dans l'activation TERT expression. Cependant, on note qu'il y a eu une transcription bidirectionnelle au niveau de cette insertion, et une transcription dans le sens de la TERT gène était le moins répandu des deux transcrits résultant de l'insertion. Chez le patient H166, preuve d'une fusion entre la séquence virale et une région en amont de la TERT site de début de transcription a été trouvé, mais aucune preuve directe d'une fusion entre TERT L'ARNm et l'ARNm viral ont été trouvés. Chez le patient 30996, TERT a été transloqué dans une région du chromosome 5 qui a à son tour montré des réarrangements étendus à la manière d'une chromothripsie (Figure S6 dans le fichier supplémentaire 2). Enfin, chez le patient 30374, la région promotrice de TERT a été impliqué dans une translocation interchromosomique vers une région en amont de RXRA sur le chromosome 9 (tableau S5 dans le fichier supplémentaire 1), entraînant probablement une mauvaise régulation de TERT. TERT n'était pas exprimé dans les échantillons non tumoraux chez trois de ces quatre patients, tandis que les données RNA-Seq n'étaient pas disponibles pour le quatrième patient (30996).

Plusieurs modes de TERT Activation. Intégration virale et variations structurelles au TERT locus dans des échantillons de tumeur de quatre patients. Le patient 30996 a une inversion intra-chromosomique soutenue par 132 lectures de séquençage du génome entier (ligne pointillée rouge). Le patient 30374 a une translocation interchromosomique vers le chromosome 9 appuyée par 27 lectures (bloc violet). Les jonctions d'intégration virale sont représentées par des triangles rouges et des lignes grises verticales (patients H166 et H219). RNASeq.T : couverture RNA-Seq dans l'échantillon tumoral. La couverture est sur une échelle linéaire chez les patients 30996 et 30374, et sur une échelle log2 chez les patients H166 et H219. CNV : rapport du nombre de copies de l'échantillon tumoral par rapport à l'échantillon non tumoral (échelle log2).

LAMA2 est fréquemment muté dans le carcinome hépatocellulaire

Nous avons constaté qu'environ 14 % des échantillons analysés (6/42) présentaient des mutations non silencieuses dans LAMA2 (Figure 1A, tableaux S1 et S2 dans le fichier supplémentaire 1), un membre de la famille des gènes de la laminine. Les fréquences alléliques relativement élevées de ces mutations suggèrent une apparition précoce au cours du développement tumoral (figure 1B). Bien que la cooccurrence de LAMA2 mutations et CTNNB1/AXIN1 mutations est faible, l'exclusivité apparente n'est pas significative (Fisher exact P-valeur = 0,3848). Pour comprendre la prévalence de LAMA2 mutations, nous avons examiné les données d'autres études et avons constaté qu'environ 6 % (5/88) des échantillons de l'étude Asia Cancer Research Group [4] et environ 5 % (5/104) des échantillons dans le foie de Riken cohorte de cancer de l'International Cancer Genome Consortium avait également LAMA2 mutations. La prévalence des mutations variera probablement entre les différentes cohortes de patients, en partie en raison de la grande hétérogénéité observée dans le CHC. Nous avons également constaté que LAMA2 est fréquemment muté dans d'autres cancers, y compris l'adénocarcinome pulmonaire (11 %), le carcinome épidermoïde pulmonaire (13 %), le carcinome endométrioïde du corps utérin (13 %) et le carcinome épidermoïde de la tête et du cou (10 %) (source de données : The Cancer Atlas du génome).

Le caractère non focal de LAMA2 des mutations dans le cancer du foie (Figure S7 dans le fichier supplémentaire 2) suggèrent qu'il joue un rôle de suppresseur de tumeur. En conséquence, la régulation à la baisse de LAMA2 l'expression était liée à la progression tumorale dans d'autres types de tumeurs comme le carcinome épidermoïde du larynx [24] et le cancer du sein [25]. Nous avons examiné un panel complet de tissus tumoraux pour le profilage de l'expression et avons trouvé une régulation négative de LAMA2 à travers plusieurs types de cancer, plus particulièrement dans le cancer de l'ovaire, du poumon et colorectal (Figure 5A). De plus, nous avons examiné plusieurs lignées cellulaires cancéreuses et constaté qu'une diminution de LAMA2 l'expression s'accompagnait d'une augmentation de la méthylation de l'ADN à proximité du site de démarrage de la transcription (figures S8 et S9 dans le fichier supplémentaire 2). De plus, nous avons observé une diminution significative de LAMA2 expression dans une large cohorte de patients atteints de CHC non traités avec des données cliniques de l'Université de Hong Kong [26] (Figure 5B). La méthylation de l'ADN du promoteur, la régulation négative dans plusieurs types de cancer et les mutations dans un certain nombre d'indications cancéreuses soutiennent un rôle de suppresseur de tumeur pour ce gène.

LAMA2 est associée au résultat clinique dans le carcinome hépatocellulaire. (UNE) Profil d'expression basé sur des puces à ADN LAMA2 sur un panel de tissus cancéreux et humains normaux (Gene Logic, Gaithersburg, MD, USA). Les nombres en haut sont -log10 P-valeurs pour un bilatéral t-test comparant les valeurs d'expression entre les échantillons normaux (vert) et cancéreux (rouge) du même tissu. (B) Profil d'expression basé sur des puces à ADN LAMA2 chez 300 patients atteints de CHC de l'Université de Hong Kong (données de la série Gene Expression Omnibus GSE25097). Le nombre en haut est le -log10 P-valeur pour un recto-verso t-test comparant les valeurs d'expression entre les échantillons non tumoraux (bleu) et cancéreux (rouge). (C) Courbes de Kaplan-Meier pour la survie des LAMA2-faible contre LAMA2-patients HCC élevés d'une cohorte de 228 patients HCC de l'Université de Hong Kong. Les patients avec un faible LAMA2 L'expression montre une survie globale plus faible (panneau de gauche) et une survie sans maladie (panneau de droite) par le test du log-rank (P-valeurs de 0,024 et 0,026, respectivement). HR : rapport de risque entre LAMA-haut et LAMA-faibles échantillons.

Pour tester si une carence en laminine pouvait avoir un impact sur les résultats cliniques des patients atteints de CHC, nous avons examiné les données de survie des patients de la cohorte de patients atteints de CHC de l'Université de Hong Kong (228 échantillons de CHC avec des données de survie). Nous avons constaté que les patients ayant un faible LAMA2 le niveau d'expression a montré des résultats de survie significativement pires (Figure 5C P-valeur = 0,024, test du log-rank). La taille de l'effet était plus importante lors de la stratification des patients en quartiles supérieur et inférieur au lieu de la stratification basée sur la médiane (figure S10 dans le fichier supplémentaire 2). Parmi les 5 LAMA membres de la famille, seulement LAMA2 a montré une relation significative avec les résultats cliniques. De plus, les patients à faible LAMA2 étaient 30% plus susceptibles d'avoir une récidive tumorale (rapport de cotes = 1,7, P = 0,034, test du Khi deux). Ainsi, LAMA2 les tumeurs à faible expression semblent représenter un sous-type plus agressif de CHC. Fait intéressant, par rapport aux tumeurs de type sauvage LAMA2, tumeurs avec LAMA2 les mutations ont montré des caractéristiques histopathologiques de tumeurs peu différenciées, avec des atypies cellulaires et nucléaires substantielles et un stroma modéré à abondant intercalé entre les cellules (Figure 6). Pour comprendre le mécanisme moléculaire sous-jacent de telles différences dans les résultats cliniques, nous avons comparé les LAMA2-faible avec le LAMA2-des tumeurs élevées et ont trouvé un enrichissement frappant pour la régulation à la hausse des gènes du cycle cellulaire (Figure S11 dans le fichier supplémentaire 2). Une tendance similaire a également été observée dans les cancers du sein, colorectal et du poumon (figure S11 dans le fichier supplémentaire 2). Par conséquent, la LAMA2-les échantillons déficients représentent un sous-groupe de carcinomes hépatocellulaires hautement récurrents et prolifératifs, et LAMA2- la stratification basée sur l'analyse semble s'appliquer également à d'autres types de cancer.

Morphologie des carcinomes hépatocellulaires avec LAMA2 mutations. Coupes colorées à l'hématoxyline et à l'éosine (H&E) de HCC avec LAMA2 La mutation (panneaux supérieurs, 9193, 3206A7 009) montre des hépatocytes néoplasiques peu différenciés avec un pléomorphisme cellulaire et nucléaire, des figures mitotiques (flèche) et un stroma modéré à abondant (astérisques). Coupes de HCC colorées au H&E avec du type sauvage LAMA2 ont généralement une morphologie cellulaire néoplasique plus uniforme et bien différenciée (panneaux inférieurs). La barre d'échelle est de 20 m.


Discussion

Il est difficile de comprendre comment une mutation initiatrice du cancer influence l'évolution génomique en aval des études humaines en raison de l'absence de données sur les tumeurs avant qu'elles ne deviennent cliniquement manifestes, du grand nombre de mutations passagères, des mutations concomitantes causées par des anomalies chromosomiques franches et une grande hétérogénéité tumorale . Les études chez la souris offrent un fond génétique plus uniforme et défini et la possibilité d'établir une séquence temporelle de changements génétiques, y compris dans ce cas l'introduction d'une mutation prédisposante qui a été activée au cours du développement.

Nous avons examiné l'évolution génomique des tumeurs de souris par séquençage de l'exome entier et RNA-seq. Étant donné que le nombre de mutations exoniques dans chaque tumeur était modeste, des facteurs génétiques ont pu être discernés en fonction des mutations récurrentes ainsi que de l'impact de celles-ci sur la fonction des gènes. Les gènes les plus fréquemment mutés Sous1, Trp53, et Tead2 présentaient des mutations de perte de fonction, et des délétions focales récurrentes dans d'autres nouveaux gènes ont été détectées. De nombreux gènes mutés et supprimés sont également altérés chez les patients humains, soutenant les rôles de suppresseur de tumeur. Ces découvertes sont en accord avec des démonstrations élégantes d'événements somatiquement acquis conduisant à l'évolution du cancer du poumon de la souris [92, 93]. Traditionnellement, les phénotypes de souris ont été uniquement attribués aux événements initiateurs, mais étant donné que des événements somatiquement acquis se produisent dans les GEMM, ces paysages mutationnels doivent être pris en compte dans la modélisation préclinique du gliome de souris et les efforts thérapeutiques.

Compte tenu de leur complexité génomique, les transcriptomes de ces tumeurs murines présentaient de nombreux changements par rapport aux tissus normaux. Amplification récurrente de EGFRvIII a été observée, suggérant une forte sélection pour une expression accrue, compatible avec les gliomes humains où même une amplification extrachromosomique de EGFRvIII a été rapporté [16, 17]. Même si EGFR des mutations sont présentes dans plusieurs sous-ensembles de GBM (basés sur des profils transcriptionnels), nos tumeurs les plus fortement enrichies pour la signature GBM mésenchymateuse humaine (un sous-type plus sensible au traitement agressif) [44], probablement parce que les moteurs coopératifs spécifiques acquis dans ce modèle se produisent également dans le sous-ensemble humain (y compris Nf1, Pten, et Trp53) [44].

En utilisant le conditionnel piggyBac mutagenèse insertionnelle, il y avait une tendance à l'augmentation des GBM, bien que la réduction attendue de la survie des souris [50] n'ait pas été observée. Ceci peut s'expliquer par l'instabilité chromosomique marquée (qui EGFR peut conduire [59]) observée en l'absence de transposition fournissant un réservoir adéquat de mutations supplémentaires pour faciliter l'oncogenèse. À l'appui de cela, la différence évidente de ploïdie observée dans les tumeurs des deux cohortes, similaire aux résultats avec La belle au bois dormant dans l'ostéosarcome [48]. Une différence dans le spectre des mutations était également apparente : en l'absence de transposition, les gènes les plus fréquemment mutés comprenaient des gènes cancéreux connus, tels que Trp53. Ces données impliquent piggyBac remplace le besoin d'instabilité génomique pour fournir des altérations moléculaires secondaires pour conduire la progression tumorale.

Transposon studies complement human oncogenomic studies by pinpointing driver alterations hidden in large chromosomal aberrations of human cancer genomes and helping us prioritize key genes among the many alterations observed. Analysis of the CIS provided strong evidence for many known and novel genetic drivers collaborating with EGFRvIII. Multiple lines of evidence support this conclusion. First, the observation of integration sites in the same (CIS) genes in a significant fraction of the 96 tumors provides strong statistical evidence for selection of these events as putative driver mutations. Second, the position of these integrations with respect to the gene body and consequence on expression, consistently disrupting or activating gene expression, such as disruption of Nf1 et Spred1. Third, RNA-seq data support the integration pattern because the transposon is designed to affect gene expression—transcripts were observed emanating from transposons splicing into Rad51b, as were transcripts from the gene splicing into the acceptor sites encoded by the transposon thereby disrupting gene expression such as Cdkn2a, Nf1, Pten, Sox6, Sox5, Spred1, Qki, et Ust. Fourth, the overlap of genes identified with mutations/focal deletions by exome sequencing and mutated by piggyBac cross-validates their biological selection—including Cdkn2a, Esr1, et Myo10 (focal deletions) and Nf1, Prex2, et Dgkb (recurrent mutations). Finally, the correlation with human genetic data is compelling, not only for the known genes but also for genes like SPRED1, TCF12, et SOX6. The conserved role of these genes in both species validates the similarity and therefore relevance of the mouse model to human disease.

Relatively few activating insertions were detected with RNA-seq: this may reflect that glioma driver landscapes are dominated by tumor suppressors, but also be partly due to the biology of the transposon with gene disruption being a more likely event than activation. Although these mutations occurred in the context of mutant EGFR (implying genetic cooperation), this does not preclude these being drivers in other contexts without EGFR, as exemplified by Pten et Nf1 also causing multiple glioma types with other drivers [94]. Future work will help provide mechanistic insight into the roles of the novel putative drivers identified here.

In this study, EGFRvIII initiated gliomas in mice after long latency. Previous studies reported EGFRvIII caused brain tumors with short latency, only in the presence of predisposing tumor suppressor loss, such as Cdkn2a et Pten [12, 21, 95], or with Nras G12D et Trp53 loss [96]. These differences may be due to the longer observation times here (allowing for accumulation of secondary mutations we identified by sequencing and piggyBac) and/or the nes-cre driver which also targets neurogenic niches such as the SVZ. The cell-of-origin (COO) of EGFRvIII-glioma was not the focus of this study but warrants further investigation. The COO of gliomas is unknown, yet evidence suggests that neural stem cells, oligodendrocyte precursors, and astrocytes can all act as the COO [97, 98].

A species differences between the mouse and human tumors is that most gliomas in this model were histologically low-grade, whereas in humans the majority with EGFRvIII mutations are histologically GBM. However, recent work on human samples demonstrates histologically low-grade appearing, IDH1-wildtype astrocytomas with EGFR amplification likely represent early GBMs with corresponding molecular features and poor prognosis [15, 99] also, extrachromosomal EGFR driver mutations and amplifications are frequently detected in both human LGGs and GBMs [16]. Caution must thus be applied in histologically classifying these tumors in the absence of microvascular proliferation or necrosis. EGFRvIII is heterogeneously expressed in human GBMs, although the mutation has been detected throughout human GBMs suggesting it is an early event in some cases [18], and similarly is a clonal initiating event in these mouse tumors. The strength of the models here are molecular features recapitulating human EGFR-mutant gliomas, including the matched transcriptomic signatures and cooperative mutations.

It has been suggested EGFRvIII expression may induce senescence in the absence of tumor suppressor losses [21]. Although it is possible EGFRvIII led to transformation of rare cells with pre-existing tumor suppressor losses, multi-region transposon analysis revealed few clonal mutations making this possibility unlikely here. The genomic instability observed in the mouse tumors may be explained at least partially by oncogene-induced replicative stress, with the high frequency of Cdkn2a et Trp53 mutations indicating strong selection for mechanisms to bypass oncogene-induced senescence in early gliomagenesis.

Few human genomic studies have been conducted for spinal tumors [26]. Although the frequency and nature of EGFR alterations (particularly extrachromosomal ones) in these tumors remains to be determined in larger studies, EGFR amplification and expression has been detected in a subset of human spinal tumors—leptomeningeal-disseminated pediatric spinal LGGs [24]. Clearly, not all tumor subsets can be recapitulated by one model, but this tumor subset shares a similar histology and unique location (leptomeningeal) as tumors from our mice. The mice have EGFRvIII as the driver, but these tumors could conceivably be generated by other mechanisms for increased EGFR signaling including alternative EGFR mutations, amplification, and/or overexpression. In patients, germline NF1-loss predisposes to spinal glioma [100] and a study of spinal gliomas detected frequent CDKN2A deletion and loss of heterozygosity at 10q23 (containing PTEN) [101]. Here, mice with conditional mutant EGFR et Pten loss exhibited accelerated spinal tumor development, confirming a key role of Pten in spinal gliomagenesis. This may have therapeutic implications—targeting Pten signaling, such as with PI3K inhibitors, may be warranted in spinal gliomas, although precise mechanisms of Pten loss driving spinal gliomagenesis must be explored [102].

Previous studies using the Sleeping Beauty transposon yielded common integration sites from gliomas [103,104,105,106], despite the incidence of tumors in some being low. Given piggyBac has different integration preferences and less local hopping (aiding genome-wide mutagenesis) compared with Sleeping Beauty [107,108,109], our work complements these studies. The model used here has the additional advantages of conditional rather than whole-body transposition (limiting tumor generation outside the CNS), being an autochthonous screen, and having a strong initiating mutation to drive complete penetrance of gliomas, increasing the power for detection of CIS driver genes.

Given the poor morbidity and mortality of glioma (particularly GBM) patients, additional therapies are needed. A key finding of this study is that many of the mutated glioma genes are druggable or predicted to be so. Several drugs suppressed growth even in wild-type EGFR human cell lines, supporting the idea that the drivers identified can act independently of EGFR trop. Many of the glioma genes are putative tumor suppressors, which may be more challenging to target than oncogenes. However, tumor suppressors (and their downstream pathways) are increasingly regarded as potentially powerful therapeutic targets [110], particularly if a definite structure such as a pocket can be identified, as exemplified by molecules blocking the interaction of p53 with MDM2 thus increasing wild-type p53 [111].

Our novel models of gliomas will provide further opportunities for insights into their pathogenesis and therapeutic development. This is the first study to employ piggyBac mutagenesis in vivo in gliomas. The functional genomic datasets presented here will help decipher whole-genome sequencing studies of brain and spinal gliomas. Genome-wide piggyBac autochthonous screening in immunocompetent mice with high incidences of gliomas can feasibly be applied to explore resistance mechanisms to therapies. The finding of extensive cooperative mutations in mutant EGFR gliomas that can influence prognosis and drug treatment response highlights the importance of integrated genomic diagnosis for developing rational, personalized polytherapy strategies in patients to improve survival.


Discussion

The reporting of findings of potential oncological relevance from NGS is rapidly expanding into the clinical area [1,2,3]. In this work, we aimed to present the efficiency and utility of our approach to analyze whole-exome sequencing data of individual gliomas and produce clinically interpretable reports of individual cancer genomes. The approach attempts sequential filtration of various layers of genetic information to assist in clinical decision-making.

It is established that individual tumors may harbor clinically relevant alterations which are not observed frequently in tumors of the same cancer type [49]. In our approach, alterations are prioritized from “highly likely” to “less likely” to be clinically relevant. This is done by sequentially filtering for (1) glioma-related alterations followed by (2) cancer-related alterations followed by (3) alterations in selected gene sets. Through sequential filtering, NOTATES greatly reduces the number of variants to be reported while still retaining the most clinically relevant variants as well as other variants of potential significance.

The clinical interpretation of germline variants in cancer is challenging. The sequential reporting of germline variants in NOTATES allows the clinician to identify any clinically relevant variants. The “ACMG Incidental Findings” section allows the identification of incidental variants, followed by “Variants in Cancer Gene Census Genes” and “Variants in Cancer Predisposition Genes” allowing the identification of cancer-related variants. “Variants in DNA Damage Repair Genes” specifically lists germline variants in DNA damage repair genes, which are important in gliomas because numerous studies have provided evidence that DNA repair deficiency was a central theme in gliomagenesis, a finding also reported in our previous study [50, 51]. Most reported germline variants were not included in ClinVar. As previously reported, the prevalence of “pathogenic” / “likely-pathogenic” germline variants in the ACMG Secondary Findings v2.0 list was low [52] whereas the prevalence of such variants in the cancer-related subsections were relatively higher (among variants with clinical significance annotation in ClinVar).

For somatic SNV/indels, the subsection “Variants in Established Glioma Genes” contains the most likely glioma-specific drivers. Overall, a third of the somatic SNVs reported were in this subsection per tumor. The two following subsections contain somatic variants in CGC genes, pointing to possible oncogenic alterations that are not tumor-type-specific. Hotspot alterations were infrequent but a third of the reported variants per tumor were alterations in CGC genes. The median VAF of the glioma-specific alterations (reported under “Variants in Established Glioma Genes”) was relatively higher than that of alterations reported in the other subsections, emphasizing the importance of this subsection.

For assessing SCNAs, both broad (cytoband-level) and gene-level SCNA events are reported. The most commonly observed (observed in > 25%) chromosomal or arm-level copy-number alterations were chr7 amplification, chr22q deletion, and chr10 deletion, frequently observed alterations in gliomas [53,54,55]. When filtered for SCNAs reported in the TCGA-pan glioma study (presented under “Established SCNAs in Glioma”), each tumor contained a median of 7 such gene-level SCNAs. The most common (observed in > 25%) such SCNA events were CDK6 amplification, MET amplification, BRAF amplification, EZH2 amplification, PTEN deletion, CDKN2A deletion, CDKN2B deletion, EGFR amplification.

TMB and the predicted MSI status, which are both predictive biomarkers for systemic cancer immunotherapy [56,57,58], are included in the report as well. Rather than only providing a hard cut-off value, we provide a plot and a table summarizing the TMB status of all reported gliomas, which enables the clinician to evaluate the TMB status in the relevant context. The TMB distribution of this glioma cohort was similar to those of the TCGA glioma cohorts. As expected, the median TMB value for recurrent tumors was higher than the primary tumors. The TMB values of different glioma molecular subsets were also different. Along with TMB, we also predict MSI status and possible POLE deficiency. As previously reported, the incidence of MSI in diffuse gliomas was low[59,60,61].

Because NOTATES allows the identification of specific genetic alterations indicating differing clinical outcomes in gliomas, the findings in the NOTATES report reflect the severity of the tumor. For example, if a mutation in IDH1/IDH2 is detected, this indicates a better prognosis [62, 63], whereas H3-K27M or G34 mutations imply worse disease outcome [64, 65]. Similarly, IDH-wild-type gliomas with EGFR amplifications and/or chromosome 7 amplifications and chromosome 10 loss can be molecularly defined as GBM, conferring worse prognosis [66, 67]. In addition to specific genetic alterations, NOTATES calculates TMB and evaluates the presence of MSI, further aiding the clinical assessment because these are both predictive biomarkers for systemic cancer immunotherapy [56,57,58].

It is important to emphasize that all findings presented in the NOTATES report complement each other. For example, a high TMB, predicted MSI, somatic variants in mismatch repair genes and mismatch repair deficiency-related mutational signatures will all support highly likely mismatch repair deficiency in a tumor, indicating a higher chance of response to immunotherapy.

Identification of clinically relevant findings from the vast amount of data produced by WES is a substantial challenge [49, 68]. In this work, we aimed to propose a solution to this issue by presenting our approach for reporting of genomic findings from WES data of individual gliomas. Using curated resources, NOTATES investigates and presents various forms of findings of potential clinical importance: germline short variants, somatic short variants, somatic copy-number alterations, loss-of-heterozygosity events, tumor mutational burden, microsatellite instability, and mutational signatures. The NOTATES report is formatted to provide a coherent overview of clinically-relevant genomic findings, enabling the adaptation of WES to the clinical setting. For this purpose, NOTATES utilizes curated sets of relevant genes and databases that collect knowledge about cancer alterations and their relationships to tumor formation and clinical utility and reports the findings in a sequential manner according to clinical relevance. The results in this work demonstrate that NOTATES successfully captures glioma-specific alterations while also reporting possibly relevant cancer-related alterations. The comprehensive report contains the most clinically important findings that may aid in clinical decision-making.


Fond

Cancer arises from gradual accumulation of somatic genomic instability and alterations, which eventually lead to carcinogenesis and cancer progression [1, 2]. Copy number alterations (CNAs), one form of somatic genome alterations, refer to somatic changes in chromosome structure that result in gains or losses of copies of DNA segments. Detection of CNA is important to understand cancer development and identify key driver events [3, 4]. Microarray technologies have been widely used in CNA detection [5–7], including array comparative genomic hybridization (array CGH) and single nucleotide polymorphisms (SNP) microarrays. In array CGH, reference and test DNAs are fluorescence-labeled and hybridized to arrays, which are composed of bacterial artificial chromosome (BAC) clones, cDNA clones, or oligonucleotides. The signal ratio is used as an estimate of the copy number ratio. SNP microarrays are also based on hybridization, but a single sample is processed on each microarray and intensity ratios are formed by comparing the intensity of the sample under investigation to a collection of reference samples, or all other samples that are studied. Compared to array CGH, SNP arrays can have better resolution and produce B allele frequency so that loss of heterozygosity (LOH) can be detected [7]. Resolution of these arrays is typically greater than 1 kb, depending on the density, distribution, and response characteristics of their probes. More recently, next-generation sequencing (NGS) technologies offer single-nucleotide resolution and absolute counts of read numbers and therefore can provide more sensitive and accurate CNA results. Moreover, direct sequencing enables substantial increases in discoveries of smaller structural variation events [8, 9]. It is believed that, with its ever-decreasing cost, NGS will ultimately replace microarrays in copy number analyses [10].

In this paper, we conduct CNA analyses using published NGS data from [11], which contains 145 esophageal adenocarcinoma (EA) samples, as no CNA analyses were reported in the paper. The incidence of EA has strikingly increased over the past 30–40 years, and it is the seventh leading cause of cancer death among men in the USA [12]. Many studies of CNA detection in EA have been carried out using microarrays. Paulson et al. detected 19 most frequent CNAs in 15 EA patients using BAC array data [13]. Beroukhim et al. created the Tumorscape Copy Number Portal, where they collected more than 3000 copy number profiles from 26 cancer types using Affymetrix 250K StyI (Affymetrix, Santa Clara, CA) arrays [3]. They identified 33 recurrent CNAs (RCNAs), which appear in 44 EA samples more frequently than expected by chance. Dulak et al. detected 46 regions of significant recurrent events of gain and loss in 186 EA samples using 250K StyI arrays and SNP Array 6.0 arrays (Affymetrix) [14]. Zack et al. created the TCGA Copy Number Portal and identified RCNAs across multiple cancer types they detected 88 RCNAS across 184 EA samples using Affymetrix SNP6 arrays [4, 15]. Frankel et al. detected 52 RCNAs in 54 EA samples using Illumina CytoSNP-12 arrays [16]. However, there has not been any published CNA detection study using NGS technologies. In this study, we plan to fill the gap by analyzing the NGS data from [11] and compare the result to the findings of the aforementioned papers.

Indeed, microarray-based CNA analyses are still a common approach to detect CNAs, possibly due to the following reasons: microarray technologies have been developed for a longer time and corresponding CNA detection methods were well established and accurate detection of CNA in NGS can be a challenging task due to the complexities of sequencing data processing [17]. To the best of our knowledge, only a few CNA studies have been conducted to compare the performance of microarrays and NGS side-by-side. Koboldt et al. detected CNAs on coding regions of five ovarian tumors using both a SNP array and two NGS platforms—whole-genome (WGS) and whole-exome sequencing (WES) [18]. They found the majority of CNA events were consistently detected by the three platforms. More CNAs were detected by the WGS platform than those by the array. In another study, the authors detected germline copy number variations (CNVs) in 16 breast cancer cell lines using both array CGH and WES [19]. Four WES-based CNV detection methods were compared, and the regions detected by the array were used to form the gold standard. They detected a greater number of focal-scale CNVs using the array. These studies were conducted on the individual sample level. In this study, we are interested to detect and compare regions frequently appearing among multiple samples between NGS data and previous findings derived from microarrays-based studies. The detected recurrent regions may contain real driver events that contribute to the cancer development.

Furthermore, there were 15 samples (patients) subjected to both WGS and WES in [11], providing a great opportunity to compare CNA detection by WES and WGS. Not much work has been conducted to address this question. Koboldt et al. found that a significant portion (79.53 %) of focal-scale CNAs detected by WES were also supported by WGS, and they recommended the use of WES-based approach, by which it is likely to detect more platform-specific focal copy number changes missed by WGS and microarray [18]. WES is an increasingly popular platform for studying tumor genomics because of itscost-effectiveness and the immediate interpretation of mutations in coding regions. It has been shown that WES data can be used to study CNA [19]. However, the uniformity of WES coverage is worse than that of WGS mostly due to exome capturing, and exons are not evenly placed within the genome so that it is difficult to detect CNAs over a long intergenic region using WES. On the other hand, if the interest is long CNA segments spanning over genes, it is not clear whether CNAs inferred by WES will lose a substantial amount of information when compared to WGS. It is quite possible that this comparison may depend on cancer site and the length of CNAs, since longer segment should be reliably detected by exome sequencing.

A number of bioinformatics and statistical methods have been developed for CNA detection using NGS data [17, 20–22]. These methods can be classified in several ways. Most methods were developed to detect CNAs on the individual sample level, and they usually detect CNAs based on read count ratios between a tumor sample and its matched normal sample. These methods can be further categorized according to the study design. Some commonly used ones are as follows. (a) CNVnator [23], RDXplorer [24], and ReadDepth [25] detect CNAs on a single tumor sample. (b) CNAseg [26], Segseq [27], ExomeCNV [28], HMMcopy [29], and VarScan2 [18] identify CNAs on matched tumor-normal samples. Control-FREEC [30, 31] can be categorized both into classes (a) and (b), as it can either work with tumor-normal pairs or with tumor-only samples. Depending on the NGS platforms, CNVnator, Segseq, RDXplorer, ReadDepth, and HMMcopy work for WGS data ExomeCNV and VarScan work for WES data and Control-FREEC can work for both types of the sequencing data. In addition to the above methods detecting CNA in individual samples, other methods have been developed to detect RCNAs from multiple samples. These methods take segments from all the individual samples as input and identify the (merged) segments which appear more frequently across the population than expected by chance. Only a few RCNA methods have been developed for NGS data, including JointSLM [32] and cn.MOPS [33]. They conduct copy number analyses based on read counts of segments of multiple tumor samples and usually are applied for CNV detection. On the other hand, many RCNA detection methods that were originally developed for microarray platforms [34] can also be adapted to work on NGS data. These methods include STAC [35], CMDS [36], and GISTIC2.0 [37].

In this study, Control-FREEC is selected to detect CNAs on the individual sample level using WGS and WES data from [11], and the results are compared between the two sequencing platforms. Control-FREEC is a flexible and powerful tool in that it performs multiple types of bias corrections considering GC-content, mappability, and matched normal sample, and it is among the most sensitive tools on both WGS and WES platforms [22]. GISTIC2.0, likely the most popular RCNA detection method, is chosen to detect RCNAs using both WGS and WES data. The identified RCNAs are then compared with those reported previously using microarrays. We compare our results with those from five previous studies, and four of which (all except [13]) used GISTIC2.0. By choosing GISTIC2.0, we hope to alleviate the concern that potential differences generated in the NGS data are due to different software and analytical methods being applied.


Conclusion

We show here in a multiple-tool comparative approach in clinical samples that different NGS approaches will identify a large variety and number of genetic alterations in GC. Validation studies usually provide prevalences ranging from 1 to 15%. Our results are in line with these recent findings and present a benchmark strategy of individual tumor genome analysis combining both, WES and WGS information with two different NGS platforms, used population-based whole genome resources as a novel pathway-based filter, and integrated SNV as well as structural variant analyses. Using this comprehensive strategy we identified a multitude of novel somatic potentially damaging mutations and show that MSS and MSI GCs have markedly different numbers of somatic and germline mutations, which is in line with observations made by Wang et al. [28]. This further underlines a specific hallmark of GC, i.e. the large variety of different genetic alterations leading to significant tumor heterogeneity. Importantly, our data also point to distinct mutational processes, which are responsible for the different mutational landscapes of the individual tumors. It is thus tempting to speculate that the identification of such signatures by cancer genome sequencing could reflect a potential future biomarker for therapy stratification. Compared with colorectal cancer, no characteristic “carcinogenesis-pathway” has been discovered for GC, as yet. Our study clearly underlines the value of individual genome sequencing to depict the multidimensional aberrations in GC, but also demonstrates challenges (e.g. functional annotation in the light of high genomic diversity of the cancer type, sample heterogeneity and clinically reliable, quick turn round times) must be solved before genome-driven therapy stratification will become clinical reality.


Résultats

Overview of genetic alterations

In this study, we performed whole-exome sequencing of paired tumour/control DNA from nine Chinese patients with NSCLC, including eight ADCs and one SCC, with a mean depth of 104× and 93.8% of bases covered to at least 20× (Table 1, Supplementary Table 1). Altogether we identified 3618 high-confidence somatic mutations, of which 1556 (43%) were in protein coding regions. These NSCLCs display a large variation in the number of somatic mutations (Supplementary table 2), with a mean of 132 nonsynonymous and 40 synonymous mutations in protein-coding sequences as well as 229 mutations in introns or intergenic regions (Table 1, Supplementary Tables 2, 3). In line with previous results 5,6,9,15,17 , we found that tumors from smokers (smk) have significantly higher number of exonic mutations compared to nonsmokers (nonsmk) (324 ± 119 per smk vs 52 ± 16 per nonsmk, p = 0.001, Student's t-test). Consistent with previous studies 9,16,17 , we observed that mutations occurred predominantly at G:C base pairs (69.1%), with G:C > A:T (14.7%), C:G > T:A (14.2%), C:G > A:T (12.2%) and G:C > T:A (11.9%) to be the most commonly observed transversions.

We then selected a subset of nonsynonymous mutations from genes that are mutated in multiple patients for further validation. Using Sequenom MassARRAY genotyping, we validated 101 out of the 108 (93.5%) nonsynonymous mutations examined (Supplementary Table 3), indicating a very low false-positive rate of our results. Possible impact of all nonsynonymous substitutions were predicted based on functional prediction algorithms PolyPhen and Grantham, as well as conservation prediction algorithms PhastCons and GERP. Altogether, 533 out of 1190 (44.8%) nonsynonymous mutations were predicted to be highly deleterious as supported by three or four algorithms (Supplementary Table 4).

Frequently mutated genes in NSCLC

This systematic approach allowed us to identify several well-described target genes as well as a number of previously unreported genes that are recurrently mutated in our NSCLC cohort. Notably, we found nonsynonymous mutations in 62 census cancer genes as reported in Catalogue of Somatic Mutations in Cancer (COSMIC) database, indicating that they were highly mutated in NSCLC and causally linked to the pathogenesis of the disease. This included many known genes associated with lung cancer, such as TP53, EGFR, KRAS and ERBB4. Indeed, TP53 was the second most frequently mutated gene identified in this study, with two nonsense and three missense mutations in five tumor samples (56%). A missense mutation and a mutation in 5′-UTR region of EGFR were identified in two different samples. We also found one missense mutation of KRAS and one missense mutation of ERBB4 in different patients. TTN is the most frequently mutated proteins in our study which contains 13 missense mutations in 6 out of 9 samples (67%). This is consistent with results from COSMIC that 244 out of the 467 (52%) lung cancer samples sequenced have somatic mutations in TTN. TTN encodes a very large, high abundant protein of striated muscle. However, considering the large size of the protein and prevalence of TTN mutations identified in other studies unrelated to cancer, it is presently hard to determine whether mutations in TTN act as drivers or are only passengers in NSCLC 6 .

We then used MuSiC algorithm 21 to identify potential drivers that have a significant higher mutation rate than background mutation rates with three independent tests, including FCPT (Fisher's combined P-value test), LRT (Likelihood ratio test) and CT (Convolution test) (see method). Altogether we identified nine genes that are potential cancer drivers supported by all three tests (Table 2, p < 0.05). Benchmarking the results with TTN gene, we found that TTN is much less likely to be a cancer driver as predicted by LRT than the other two methods (Supplementary Table 5). Based on LRT method, TP53 was identified as most significantly mutated gene, followed by MLL2, which had three missense and two nonsense mutations in three out of nine samples (33%). MLL2 is a member of the myeloid/lymphoid or mixed-lineage leukemia (MLL) gene family, encodes a histone lysine methyltransferase that play an important role in epigenetic regulation of gene expression 22,23 . Recent studies showed that MLL2-inactivating mutations were frequently observed in several cancers 19,24,25,26,27 , establishing it as a novel tumor suppressor. Frequent mutation of MLL2 was also observed in COSMIC lung cancer cohort (64 out of 431, 15%), we thus suggest that MLL2 might be a novel cancer gene associated with NSCLC 22,27 . Additionally, we found that NEK1, a serine/threonine kinase involved in cell cycle regulation, was mutated more frequently than expected by chance. Other significantly mutated proteins include PAPPA2, which encodes a member of the pappalysin family of metzincin metalloproteinases and plays an important role in insulin-like growth factor signaling pathway. CDH10 encodes a cadherin superfamily, integral membrane protein that mediates calcium-dependent cell-cell adhesion and might play a significant role in cancer progression and metastasis.

In addition to mutations, we also identified small insertions/deletions (indels) as well as copy number variations (CNVs) in these nine patients using different computational approaches (see methods). All together we identified 93 high confident indels in these nine samples (supplementary Table 6). We found indel mutations in several key regulators of cell death including NOTCH2, CASPA8AP2, CUL2, PRUNE2 and RPS27L, as well as those involved in Ras signaling, including GMIP, ECT2L and ERBB2. We also detected CNV events in 2870 genes, of which, 301 contains deleterious mutations and eight contains indels (supplementary Table 7). For example, we observed copy number loss in a number of cell cycle regulators including CKS2, NEK1 and LATS2. However, compared with detecting mutations and indels, extracting information of CNVs from exome sequencing data is very challenging as the results are highly affected by sequencing depth and the noncontiguous nature of the captured exons. We thus suggest that the CNV results reported here should be interpreted with care.

Altered pathways and gene modules in NSCLC

Although it seems that the mutations are tremendously diverse and complex, however, they might disturb genes involved in the same signaling pathway or regulatory module 6,28,29,30 . We thus performed pathway analysis to identify signaling cascades that contain a larger number of mutated genes than expected by chance (Supplementary table 8). Interestingly, mutated genes were significantly enrichment in DNA damage checkpoint and cell cycle control (Figure 1A). In response to DNA damage, eukaryotic cells activate ATM/ATR and TP53 to initiating signaling cascade involved in cell cycle arrest and DNA repair. Multiple components of the signaling pathway were mutated in six out of the nine NSCLC cases. Moreover, we also observed significant enrichment of mutated genes in NF-kB signaling, which controls the expression of many genes involved in cell growth and immune responses. Although no somatic mutation was detected in any components of NF-kB complex, we found frequent mutations in a wide range of membrane receptors and their downstream effectors that might result in perturbed NF-kB function in six cases. As shown in Figure 1B, some of the key cascades involved EGFR/KRAS pathway, TLR/IRAK-M pathway and TCR/LCK pathway. Interestingly, in line with previous study 5 , we found that JAK-STAT pathway was also significantly disrupted in NSCLC. JAK-STAT pathway is one of the important signaling pathways downstream of cytokine receptors, which functions in plays an important role in regulating cell proliferation and migration. Somatic mutations in several key components of the pathway, including JAK, STAT and SOCS (Figure 1C), were identified in four cases. Moreover, there is growing evidence suggesting that aberrant epigenetic modifications are playing an important role in the tumorigenesis. Recurrent mutations of chromatin-modifying genes have been recently discovered in other cancers 19,24,25,27,31 but their implication in lung cancer had not yet been reported. Here we found frequent mutations in several modifiers in six tumors, including some of the most frequently mutated gene MLL2 (Figure 1D). As epigenetic aberrations are potentially reversible, targeting abnormal chromatin-modifiers might be a promising strategy for the treatment of cancer. Other core signaling pathways that were mutated in at least six patients included the Axonal Guidance Signaling, Hereditary Breast Cancer Signaling, PTEN Signaling and p70S6K Signaling, many of which have been implicated in other cancers (Supplementary Table 8).

Core Signaling Pathways in NSCLC.

Mutated genes are significantly enriched in several important signaling pathways including: (A) DNA damage and cell cycle control (B) NF-kB signaling (C) JAK/STAT signaling and (D) Chromatin modification. Genes with deleterious mutations are shown in red, while other key players of the signaling pathway were shown in grey.

We then mapped mutant genes into a global signaling network using cytoscape 32,33 (Supplementary Figure 1A). To enhance quality of the analysis and to reduce network complicity, only physical interactions and regulatory interactions were used for network construction. Using GeneMANIA 33 , we also identified several tightly connected modules that contains a significantly higher number of genes involved in the same signaling pathway. Interestingly, we find that the most significantly affected module is involved in Tyrosin kinase activity of JAK-STAT cascade (Supplementary Figure 1B). This is in line with our pathway analysis and supports the roles of alternations in JAK-STAT module as driver mutations in NSCLC. Moreover, we also identified a closely connected sub-network that plays an important role in G2/M transition (Supplementary Figure 1C).

Validation study of MLL2 mutations in NSCLC

The frequent mutations of genes involved in chromatin modification and the discovery of MLL2 as one of the most frequently mutated genes in NSCLC lead us to study this gene in greater detail. We then resequenced the coding regions of MLL2 in the discovery cohort as well as an additional 96 NSCLC samples by targeted sequencing. The two cohorts together encompass 105 NSCLC cancers, including 81 ADC and 24 SCC. Specifically, all exons of MLL2 in each tumor tissue were amplified using long-range PCR, followed by barcoded sequencing on the Illumina Genome Analyzer with an average coverage of

1000× per sample. After removing known mutations in dbSNP and 1000 Genomes, we resequenced all nonsynonmous mutations in tumor/normal pairs to screen for novel somatic mutations using Sequenom followed by Sanger sequencing. All together we identified inactivating mutations or protein deficiency of MLL2 in 12 out of 105 (11.4%) individuals (Figure 2A, Table 3), which was similar to that reported in COSMIC database (64/431, 15%), indicating that MLL2 is frequently mutated in NSCLC.

Somatic Mutations and gene expression of MLL2 in NSCLC.

(A) Schematic representation of somatic mutations identified in MLL2 shown in the context of the known domain structures. Numbers refer to amino acid residues. Frame-shift and nonsense mutations are shown in red other missense mutations are shown in black. (B) Pair-wise comparisons of MLL2 expression in NSCLC tumors and adjacent normal tissues. Relative abundance of MLL2 was measured based on the ratio between fluorescence emission intensity values between MLL2 and GAPDH in the same sample obtained by quantitative real-time PCR. Patients with loss-of-function mutations in MLL2 are in red while others are in grey. (C) The distribution of MLL2 expression levels between tumor and normal tissues.

We then used quantitative real-time PCR to study MLL2 expression in 23 NSCLC samples with good RNA quality, including the nine samples in the discovery cohort. Somatic mutations of MLL2 were identified only in three tumors in the discovery cohort. Interestingly, we found that MLL2 expression was either silenced or significantly reduced in all tumor tissues compared with adjacent non-tumor lung tissues (Figure 2B, C, p = 4.6 × 10 −6 , Student's t-test), regardless of the mutation status. All together, we found that MLL2 was frequently mutated and repressed in NSCLC, supporting its role as a critical tumor suppressor.


Conclusion

Clinical sequencing requires an accurate computational tool to call multiple types of DNA alterations—SNVs/indels, fusion genes, and CNAs—from NGS data in FFPE samples. We developed such a tool and demonstrated that our tool outperformed seven other tools that have been developed for explanatory research purposes. This is because our tool uses robust non-parametric statistics to select alteration candidates and more than ten elaborated noise filters that maximally utilize internal control values automatically calculated from observed data as inputs for the tool’s parameters so that the tool can efficiently remove inherent noise arising in FFPE samples that cannot be filtered out using other tools. Our tool allows us to accurately detect DNA alterations in multiple genes, which will promote more accurate and efficient cancer precision medicine.


Voir la vidéo: Causative variant prioritization from whole-exome.. - Eva Tosco-Herrera - SCS - ISMBECCB 2021 (Novembre 2022).