Informations

Comment puis-je normaliser les échantillons d'ARNm pour le séquençage ?

Comment puis-je normaliser les échantillons d'ARNm pour le séquençage ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Existe-t-il un moyen simple, peu coûteux et pas trop laborieux de normaliser les échantillons d'ARNm de sorte que même si l'on perd des informations sur les niveaux d'expression génique, chacun des transcrits du transcriptome est également représenté dans l'échantillon pour le séquençage ? C'est-à-dire que l'on a une distribution uniforme des transcrits, de sorte que les transcrits faiblement exprimés ont encore de bonnes chances d'être séquencés.

J'ai vu quelques articles mentionnant des protocoles pour la normalisation de l'ARNm, mais je ne peux pas dire si l'un d'entre eux est pratique dans des situations réelles de laboratoire humide.


J'ai trouvé le lien vers un produit commercial d'Evrogen ici : http://www.evrogen.com/technologies/normalization.shtml

Ils affirment que leur méthode est compatible avec les plateformes de séquençage nextgen :

La normalisation de l'ADNc à l'aide d'une nucléase spécifique du duplex (DSN) est une approche très efficace qui peut être appliquée pour la normalisation de l'ADNc enrichi de pleine longueur (Zhulidov et al., 2004 ; Zhulidov et al., 2005). L'ADNc résultant contient une abondance égalisée de différents transcrits et peut être utilisé pour la construction de bibliothèques d'ADNc et pour le séquençage direct, y compris le séquençage à haut débit sur les plateformes de séquençage de nouvelle génération (Roche/454, ABI/SOLiD ou Illumina/Solexa).

Et la référence la plus récente semble être ce Curr Protoc Mol Biol. article de Bogdanova et al. : http://www.ncbi.nlm.nih.gov/pubmed/20373503


Le séquençage de l'empreinte protéique médiée par la RNase révèle des sites de liaison aux protéines dans tout le transcriptome humain

Bien que de nombreuses approches aient été développées pour cartographier les sites de liaison à l'ARN des protéines de liaison à l'ARN (RBP) individuelles, il existe peu de méthodes permettant d'évaluer les interactions RBP-ARN globales. Ici, nous décrivons PIP-seq, une approche universelle de séquençage de l'empreinte protéique médiée par la ribonucléase à haut débit qui révèle les sites d'interaction ARN-protéine dans un transcriptome d'intérêt. Nous appliquons PIP-seq au transcriptome HeLa et comparons les sites de liaison trouvés en utilisant différents agents de réticulation et ribonucléases. À partir de cette analyse, nous identifions de nombreux motifs de liaison à la RBP putatifs, révélons de nouvelles informations sur la co-liaison par les RBP et découvrons un enrichissement significatif pour les polymorphismes associés à la maladie au sein des sites d'interaction RBP.


Fond

La dégradation des transcrits d'ARN par la machinerie cellulaire est un processus complexe et hautement régulé. Dans les cellules et les tissus vivants, l'abondance de l'ARNm est étroitement régulée et les transcrits sont dégradés à des vitesses différentes par divers mécanismes [1], en partie en relation avec leur fonction biologique [2–5]. En revanche, le devenir des transcrits d'ARN dans les tissus mourants et la dégradation de l'ARN isolé ne font pas partie de la physiologie cellulaire normale et, par conséquent, sont moins susceptibles d'être étroitement régulés. Il reste largement difficile de savoir si la plupart des types de transcrits se désintègrent à des taux similaires dans de telles conditions ou si les taux de désintégration de l'ARN dans les tissus mourants sont associés à des propriétés spécifiques au transcrit.

Ces questions sont d'une grande importance pour les études qui reposent sur la collecte d'échantillons sur le terrain ou en milieu clinique (à la fois de populations humaines et d'autres espèces), dans lesquelles les échantillons de tissus ne peuvent souvent pas être immédiatement stockés dans des conditions empêchant la dégradation de l'ARN. Dans ces conditions, l'ARN extrait est souvent partiellement dégradé et peut ne pas représenter fidèlement in vivo niveaux d'expression des gènes. Le stockage d'échantillons dans des stabilisants comme RNALater atténue ce problème [6] mais n'est pas toujours faisable. Les différences dans la qualité de l'ARN et la manipulation des échantillons pourraient donc perturber les analyses ultérieures, en particulier si les échantillons soumis à différentes quantités de dégradation sont naïvement comparés les uns aux autres. Le degré auquel ce facteur de confusion affecte les estimations des niveaux d'expression génique n'est pas bien compris.

Il n'y a pas non plus de consensus sur le niveau de désintégration de l'ARN qui rend un échantillon inutilisable ou sur les approches pour contrôler l'effet de ex vivo dans l'analyse des données d'expression génique. Ainsi, alors que les métriques standardisées de qualité de l'ARN telles que le Degradometer [7] ou le RNA Integrity Number (RIN [8]), fournissent des méthodes empiriques bien définies pour évaluer et comparer la qualité des échantillons, il n'existe pas de critère largement accepté pour l'inclusion des échantillons. Par exemple, les seuils proposés pour l'inclusion de l'échantillon ont varié entre des valeurs RIN aussi élevées que 8 [9] et aussi basses que 3,95 [10]. Le récent projet Genotype-Tissue Expression (GTEx) [11], par exemple, rapporte à la fois le nombre d'échantillons d'ARN total qu'ils ont collectés ainsi que le nombre d'échantillons d'ARN avec des scores RIN supérieurs à 6, vraisemblablement comme une mesure du nombre de échantillons de haute qualité dans l'étude.

D'une manière générale, trois approches peuvent être adoptées pour traiter des échantillons d'ARN de qualité variable. Premièrement, les échantillons d'ARN présentant des preuves de dégradation substantielle peuvent être exclus d'une étude plus approfondie. Cette approche repose sur l'établissement d'une valeur seuil pour les échantillons de « haute qualité » par rapport aux échantillons « de faible qualité » et souffre du manque actuel de consensus sur ce que ce seuil est devrait être. Cela pourrait également exclure la possibilité d'utiliser des échantillons uniques et difficiles à collecter à partir d'emplacements éloignés ou de collections historiques. Deuxièmement, si les chercheurs sont prêts à supposer que tous les types de transcrits se dégradent à un rythme similaire, la variation des estimations d'expression génique due aux différences d'intégrité de l'ARN pourrait être expliquée en appliquant des procédures de normalisation standard. Troisièmement, si différents transcrits se désintègrent à des vitesses différentes et si ces taux sont cohérents entre les échantillons pour un niveau donné de dégradation de l'ARN - par exemple, une valeur RIN donnée - un modèle qui incorpore explicitement des niveaux de dégradation mesurés et spécifiques à l'échantillon pourrait être appliqué. aux données d'expression génique pour corriger les effets confusionnels de la dégradation.

À ce jour, la plupart des études appliquent une combinaison des deux premières approches : une application d'un seuil arbitraire de qualité d'ARN (généralement basé sur le score RIN), suivie d'une normalisation standard des données, qui suppose que les échantillons d'ARN à n'importe quelle valeur RIN supérieure à la le seuil choisi n'est pas soumis à des taux de décroissance spécifiques au transcrit. Cependant, les travaux actuels sur les effets de la désintégration de l'ARN n'ont pas encore fourni de directives claires en ce qui concerne ces approches. En outre, presque tous les travaux publiés qui se concentrent sur la stabilité de l'ARN dans les tissus après la mort cellulaire et/ou l'isolement des échantillons sont antérieurs aux technologies de séquençage à haut débit ou n'utilisent pas ces technologies. Ces études suggèrent largement que la quantité et la qualité de l'ARN récupéré dans les tissus peuvent être affectées par des facteurs de stress pré-mortem aigus, tels que la pyrexie ou l'hypoxie prolongée [12-14], et par le moment de la conservation des échantillons et de l'extraction de l'ARN. La quantité et la qualité des ARN récupérés dépendent fortement du type de tissu étudié [15], même lors d'un prélèvement sur le même individu [16, 17]. Ces différences de rendement entre les tissus ont donné lieu à un large éventail de recommandations pour un autopsie intervalle pour extraire l'ARN utilisable et de haute qualité, allant d'aussi peu que 10 minutes [18] à plus de 48 heures [19], selon la source de tissu et les conditions de conservation.

De même, les études examinant les changements dans l'abondance relative de transcrits spécifiques à la suite de ex vivo La désintégration de l'ARN a atteint des recommandations quelque peu contradictoires. Une partie de ce conflit peut être attribuable à des différences méthodologiques. Les études qui se sont concentrées sur un petit nombre de gènes analysés par PCR quantitative rapportent systématiquement peu ou pas d'effet de la variation de la qualité de l'ARN sur les estimations de l'expression génique [6, 19–22]. À l'inverse, des études basées sur des puces à ADN ont rapporté à plusieurs reprises des effets significatifs de la variation de la qualité de l'ARN sur les estimations de l'expression génique, même après avoir appliqué des approches de normalisation standard. L'augmentation du temps entre la récolte des tissus et l'extraction de l'ARN ou la cryoconservation de 0 à seulement 40 ou 60 minutes, par exemple, a affecté de manière significative les profils d'expression dans environ 70 % des gènes étudiés dans une expérience sur des tissus de cancer du côlon humain [20]. De même, une fraction substantielle des gènes dans les cellules mononucléées du sang périphérique (PBMC) semble être sensible à ex vivo incubation [21]. D'autres études basées sur des puces à ADN sont parvenues à des conclusions similaires, à la fois dans des échantillons d'humains [15, 16, 22, 23] et d'autres organismes [24], et ont exhorté à la prudence lors de l'analyse d'échantillons d'ARN avec des scores RIN moyens ou faibles, bien que la définition de un seuil de qualité d'ARN acceptable reste insaisissable.

Pour examiner les effets de la dégradation de l'ARN dans un cadre pertinent pour la collecte d'échantillons d'études sur le terrain, nous avons séquencé l'ARN extrait d'échantillons de PBMC qui ont été stockés non traités à température ambiante pendant différentes périodes, jusqu'à 84 heures. Nous avons collecté des données sur l'évolution dans le temps de la décroissance de l'ARN couvrant presque toute l'échelle de qualité RIN et examiné les taux de dégradation relatifs spécifiques aux gènes grâce au séquençage de l'ARN. En raison de la sensibilité et de la résolution élevées du séquençage d'ARN à haut débit, nos données fournissent une image détaillée sans précédent de la dynamique de la dégradation de l'ARN dans les conditions de stress, ex vivo cellules. Sur la base de nos résultats, nous développons des recommandations spécifiques pour la prise en compte de ces effets dans les études d'expression génique.


Séquençage d'ARN (ARNm-Seq à haut débit, ARN-seq total, 3′-Tag-Seq, miRNA-seq, …)

Quelque chose d'un terme impropre parce que toutes les bibliothèques finissent sous forme d'ADN, mais cela fait référence au matériel de départ. Nous proposons la préparation de bibliothèques d'ARN-seq, avec plusieurs options telles que l'épuisement des ribo-ribos, l'enrichissement poly-A, les bibliothèques 3′-Tag-Seq (QuantSeq) comme décrit ci-dessous ainsi que des préparations de micro-ARN (miARN) et de petites bibliothèques d'ARN . Toutes nos préparations de bibliothèques sont spécifiques aux brins. Le terme « . Veuillez trouver des informations sur l'ARN-seq unicellulaire ici.
Nous exigeons la soumission d'échantillons d'ARN total isolés. Nous n'effectuons pas d'isolements d'ARN pour le séquençage d'Illumina dans notre laboratoire, mais le laboratoire PCR du bâtiment voisin le fait. Veuillez les contacter.

Veuillez consulter la page d'échantillons complets d'exigences et consulter notre FAQ pour les questions techniques

Directives pour la soumission d'ARN digne d'une bibliothèque
Fournir au moins 1 ug (2 ug de préférence) d'ARN total à une concentration d'au moins 50 ng/ul (1 ug pour l'enrichissement Poly-A 2 ug pour les bibliothèques à ribo-épuisement en utilisant moins de matériel de départ est possible, mais nous ne pouvons pas garantir les résultats). Veuillez vous assurer que votre protocole d'isolement d'ARN utilise une digestion ADNase étape ou d'autres moyens pour éliminer l'ADN de l'échantillon. Sur un gel d'agarose, la contamination par l'ADN sera visible sous la forme d'un frottis de bande de fragments considérablement plus gros que l'ARN (>10 kb). Sur les puces à ARN Bioanalyzer, l'ADN sera visible dans une plage de tailles allant de 4 à 10 kb. Pour vérifier la pureté des échantillons d'ARN, le rapport 260/280 doit être compris entre 1,8 et 2,1 et le rapport 260/230 doit être supérieur à 1,5. L'enrichissement Poly-A, l'épuisement des ribo et la préparation de bibliothèques spécifiques aux brins font partie des types de services les plus fréquemment demandés (plus de détails techniques à ce sujet apparaissent ci-dessous). Si la qualité de l'ARN le permet, l'enrichissement en poly-A est le premier choix. Les bibliothèques pour les échantillons d'ARN légèrement dégradés doivent être préparées à l'aide de protocoles de déplétion des ribonucléides. L'ARN-seq bactérien nécessitera toujours une déplétion ribo-ribonucléique. Si possible, évitez les protocoles d'extraction d'ARN impliquant du Trizol ou des réactifs associés contenant du phénol (les kits à base de colonne de silice sont moins susceptibles de retenir les contaminants). Si vous utilisez Trizol, des protocoles contenant un nettoyage basé sur une colonne (par exemple, Direct-zol, TRIzolPlus) sont recommandés. Veuillez noter qu'un nettoyage supplémentaire de la colonne est obligatoire pour l'ARN isolé d'un échantillon de sang Tubes PAXgene ou Tempus (pour la conservation des échantillons de sang) ou avec le Kits d'isolement d'ARN PAXgene et Tempus. Les échantillons d'ARN doivent être élués dans de l'eau de qualité biologie moléculaire, toujours conservés dans un congélateur à -80 degrés et expédiés sur de la neige carbonique.
_
Tous Les échantillons d'ARN nécessitent un CQ d'échantillon de bioanalyseur (ou équivalent). De telles traces de contrôle de qualité peuvent être soumises par les clients ou nous pouvons exécuter le contrôle de qualité moyennant des frais à la place.
Tous les échantillons d'ARN besoin d'être sans ADN .

RNA-Seq après enrichissement en Poly-A
Les échantillons d'ARN total peuvent contenir jusqu'à 90 % de séquences d'ARN ribosomique (ARNr), qui ne sont pas informatives pour les études de transcriptome ou d'expression génique, tandis que les ARNm ne représentent généralement que 1 à 2 % de l'ARN total. Ainsi, l'enrichissement des échantillons pour les ARNm est hautement souhaitable. La sélection positive via l'enrichissement poly-A est la méthode la plus couramment utilisée pour enrichir les séquences d'ARNm à partir d'échantillons d'ARN total eucaryotes. Les ARNm sont sélectionnés par hybridation à des oligos poly-T liés à des billes magnétiques. Cette méthode génère le pourcentage le plus élevé de lectures mappées sur des gènes codant pour des protéines et constitue donc le premier choix pour la plupart des applications. L'enrichissement Poly-A nécessite cependant des échantillons d'ARN total de haute qualité. Nous suggérons de suivre les recommandations d'Illumina - pour les échantillons humains/animaux, utilisez l'ARN total avec un score RIN de bioanalyseur de 8 ou mieux, pour le matériel végétal, les nombres RIN peuvent être inférieurs et spécifiques au tissu (ceci est principalement fonction de la teneur en chloroplastes) mais devrait généralement être supérieur à 7.

RNA-Seq après déplétion de l'ARN ribosomique
L'épuisement de l'ARN ribosomique est une méthode de sélection négative pour éviter le séquençage de la teneur en ARNr dominante. Il existe plusieurs kits disponibles dans le commerce pour éliminer les ARN ribosomiques (ARNr) de votre ARN total. L'épuisement de l'ARN ribosomique est appliqué lorsque les transcrits ne portent pas de polyA (ARN bactérien), lorsque vous souhaitez conserver tous les ARN longs non codants (lncRNA) et les classes d'ARN polyA dans votre échantillon, ainsi que pour les échantillons d'ARN de qualité inférieure. Des kits commerciaux contenant une solution d'élimination de l'ARNr sont disponibles pour différents types d'ARN total, notamment l'humain, la souris, le rat, les bactéries (gram positives ou négatives), les feuilles de plantes, les graines et racines de plantes et les levures. Les protocoles de déplétion du ribo peuvent en outre permettre l'analyse d'échantillons d'ARN légèrement dégradés (les scores RIN devraient néanmoins être au mieux de 5 ou plus). Nous demandons au moins 1 ug d'ARN total pour la préparation des bibliothèques ribo-appauvries. Comme toujours, les bibliothèques peuvent être générées à partir de moins de matériel, mais la complexité peut en pâtir.

Profilage d'expression génique 3′-Tag-Seq (QuantSeq)
3'-Tag-Seq est un protocole permettant de générer des données de profilage d'expression génique à faible coût et à faible bruit. Le protocole dépend moins de l'intégrité de l'échantillon d'ARN que les protocoles d'enrichissement poly-A. Plus de 48 échantillons peuvent être séquencés par voie. Veuillez consulter cette FAQ pour des informations détaillées ainsi que la page 3'-Tag-Seq. Pour la génération de bibliothèque 3'Tag-Seq à haut débit, nous avons besoin d'échantillons d'ARN total pur à une concentration de 100 ng/ul. Pour les préparations de bibliothèque 3'-Tag-Seq personnalisées, les quantités d'entrée peuvent être aussi faibles que 10 ng au total. Les échantillons d'ARN pour ce protocole doivent être isolés ou nettoyés par des protocoles de colonne de rotation. Les bibliothèques 3-Tag-Seq sont séquencées par séquençage à une seule extrémité sur le HiSeq 4000 ou le NextSeq.

Entrée la plus basse 3'-Tag ARN-Seq :
Pour les échantillons de quantité d'ARN la plus faible (picogrammes jusqu'à 10 ng), nous proposons un protocole alternatif, conçu pour l'analyse du transcriptome unicellulaire. Veuillez vous renseigner auprès de nous sur le protocole Qiagen UPX 3 & 8242-RNA-seq en fournissant des informations sur les quantités totales d'ARN disponibles, le nombre d'échantillons, la nature des échantillons et les objectifs du projet.

Bibliothèques de micro-ARN et de petits ARN
Nous proposons la construction de bibliothèques pour les micro et petits ARN à partir d'ARN total en utilisant le protocole et les réactifs Illumina. Nous dimensionnons les bibliothèques avec une grande précision en utilisant le système Blue Pippin. La quantité minimale recommandée d'ARN total requis pour ces préparations est de 100 ng (recommandations pour les échantillons humains). Étant donné que la composition d'ARN total peut varier considérablement entre les tissus et les organismes, veuillez viser à fournir au moins 1 ug d'ARN total. Veuillez également veiller à ce que votre méthode d'isolement d'ARN retienne réellement les micro et petits ARN. Les échantillons d'ARN total doivent être soumis dans de l'eau de qualité biologie moléculaire à une concentration de 200 ng/ul. Un ARN de haute qualité est recommandé (les échantillons d'ARN totaux doivent avoir des scores RIN de 8 ou plus selon un Bioanalyzer QC) et doivent avoir été traités à la DNAse avant la soumission de l'échantillon.
Nous utilisons le kit NEXTflex™ Small RNA-Seq pour la génération de bibliothèques de micro-ARN et de petites bibliothèques d'ARN-seq, car il réduit considérablement les biais spécifiques à la séquence lors de la préparation de la bibliothèque en utilisant des adaptateurs avec des jonctions de ligature randomisées. Pour la plupart des applications, les bases aléatoires doivent être rognées avant de mapper les lectures.

Les UMI permettent la déduplication de la lecture de séquence
Nous proposons l'incorporation d'UMI en ligne lors de la génération de bibliothèques d'ARN-seq. UMI peut être utile pour toutes les applications de quantification NGS. L'utilisation de UMI est recommandé pour deux scénarios, comme expliqué dans cette FAQ : échantillons d'entrée très faibles et séquençage très approfondi des bibliothèques RNA-seq (>50 millions de lectures par échantillon). Notre protocole 3′-Tag-RNA-Seq ainsi que le protocole à faible entrée utilisent des UMI par défaut. Pour les demandes d'ARN-seq poly-A et ribodéplétion, veuillez demander les UMI dans la soumission.

Bibliothèques d'ARN spécifiques au brin
Par défaut, nous générons des bibliothèques RNA-seq spécifiques au brin. S'il vous plaît laissez-nous savoir si vous préférez la préparation de bibliothèque traditionnelle non bloquée à la place. Les bibliothèques RNA-seq spécifiques au brin (également appelées brins ou directionnelles) améliorent considérablement la valeur d'une expérience RNA-seq. Ils ajoutent des informations sur le brin d'origine et peuvent ainsi délimiter avec précision les limites des transcrits dans les régions avec des gènes sur les brins opposés, et peuvent déterminer le brin transcrit des ARN non codants. Au cours de la synthèse d'ADNc, le dUTP est incorporé dans la synthèse secondaire. Après la ligature de l'adaptateur, le brin contenant dUTP est dégradé de manière sélective, afin de préserver les informations de brin pour l'ARN-seq. La lecture directe des données de séquençage résultantes représente donc le "brin anti-sens" et la lecture inverse du "brin sens" des gènes (pour les assemblages de transcriptome Trinity, le drapeau d'orientation "8220"RF" doit être utilisé).


 Longueur de lecture et profondeur de séquençage

ARNm standard ou ARN total seq : les lectures à extrémité unique de 50 ou 75 pb sont principalement utilisées pour le profilage général de l'expression génique. Pour étudier des variantes d'épissage alternatif, des lectures appariées plus longues (jusqu'à 150 pb) sont souvent demandées. Sur la profondeur de séquençage, 20 à 25 millions de lectures par échantillon sont généralement appropriées pour le profilage général de l'expression génique, tandis que 40 à 50 millions de lectures sont suggérées pour la détection de variantes d'épissage.

Single-Cell RNA-seq : pour les bibliothèques scRNA-seq préparées manuellement, nous vous recommandons d'obtenir 1 à 2 millions de lectures unilatérales de 50 à 75 pb par cellule. Cette profondeur est généralement suffisante pour identifier des transcrits de faible abondance. Pour les bibliothèques préparées avec le système 10x Genomics Chromium, la société suggère une profondeur de séquençage de 50 000 lectures par cellule et une longueur de lecture de transcription de 98 pb.

RNA-seq à faible ou très faible entrée : la longueur de lecture reste la même que l'ARNm standard ou l'ARN-seq total. La profondeur de séquençage peut être réduite dans une certaine mesure en fonction de la quantité de matériau de départ.

Small RNA-seq : NUSeq génère des lectures unilatérales de 50 ou 75 pb pour les petits RNA-seq. La profondeur de séquençage suggérée est de 4 à 5 millions de lectures par échantillon.

 Demande de service

La consultation du projet est gratuite. Les services RNA-seq peuvent être demandés via NUcore.

 Soumission d'échantillons

NUSeq prend l'ARN total extrait pour l'ARN-seq (pas de tissus ni de cellules, à l'exception de l'ARN-seq à cellule unique - voir ci-dessous). La qualité de l'ARN est le facteur le plus important qui détermine le résultat final. Après le dépôt de l'échantillon, le personnel principal effectue le contrôle qualité de l'échantillon, qui comprend la mesure de la concentration de Qubit et la génération du numéro d'intégrité de l'ARN (RIN) basé sur le bioanalyseur, avant la construction de la bibliothèque. Un RIN de 7 est requis pour procéder à la construction de la bibliothèque d'ARNm-seq. Les échantillons d'ARN soumis doivent également être exempts d'ADN et nous suggérons de toujours inclure une étape de traitement à la DNase lors de l'extraction de l'ARN. La présence d'une contamination par l'ADN génomique est visible sur les traces du bioanalyseur dans la plage de 4 à 10 kb.

Dans les situations dans lesquelles la dégradation de l'ARN est inévitable, comme lors de l'utilisation de tissus FFPE, l'ARN-seq total est suggéré car il dépend moins de l'intégrité de l'ARN.

Pour l'ARN-seq à cellule unique, le personnel de base commence à partir des cellules cibles pour la construction de la bibliothèque. Veuillez d'abord consulter le noyau avant de préparer l'échantillon pour de meilleures performances.

 Bioinformatique

L'analyse des données est fournie sur demande. Le service standard de bioinformatique RNA-seq comprend le contrôle qualité des données de séquençage, l'alignement, la normalisation et l'analyse de l'expression différentielle.En savoir plus sur les services bioinformatiques.


MMiRNA-Viewer 2 , un outil bioinformatique pour visualiser l'annotation fonctionnelle pour les paires MiRNA et MRNA dans un réseau

Fond: Bien qu'il existe de nombreuses études sur les caractéristiques des interactions miARN-ARNm utilisant des données de séquençage miARN et ARNm, la complexité du changement des coefficients de corrélation et des valeurs d'expression des paires miARN-ARNm entre les échantillons tumoraux et normaux n'est toujours pas résolue, et cela entrave les applications cliniques potentielles. Il existe un besoin urgent de développer des méthodologies et des outils innovants capables de caractériser et de visualiser les conséquences fonctionnelles des paires de gènes de risque de cancer et de miARN tout en analysant simultanément la tumeur et les échantillons normaux.

Résultats: Nous avons développé un outil bioinformatique innovant pour visualiser l'annotation fonctionnelle des paires miARN-ARNm dans un réseau, connu sous le nom de MMiRNA-Viewer 2 . L'outil prend des paires d'interaction ARNm et miARN et visualise le réseau de régulation ARNm et miARN. De plus, notre serveur Web MMiRNA-Viewer 2 intègre et affiche les informations d'annotation des gènes d'ARNm et de miARN, signalant les voies en cascade et l'association directe du cancer entre les miARN et les ARNm. Les annotations fonctionnelles et les informations de régulation des gènes peuvent être directement récupérées à partir de notre serveur Web, ce qui peut aider les utilisateurs à identifier rapidement un sous-réseau d'interaction significatif et à signaler une éventuelle association de maladie ou de cancer. L'outil peut identifier des miARN ou des ARNm essentiels qui contribuent à la complexité du cancer, tout en utilisant une technologie de séquençage moderne de nouvelle génération pour analyser simultanément la tumeur et les échantillons normaux. Nous avons comparé nos outils avec d'autres outils de visualisation.

Conclusion: Notre MMiRNA-Viewer 2 sert de plate-forme multitâche dans laquelle les utilisateurs peuvent identifier des clusters d'interaction importants et récupérer des informations fonctionnelles et associées au cancer pour les paires miARN-ARNm entre les échantillons tumoraux et normaux. Notre outil est applicable à toute une gamme de maladies et de cancers et présente des avantages par rapport aux outils existants.

Mots clés: Algorithme de clustering Régulation des gènes MMiRNA-Viewer2 Prédiction de cible L'atlas du génome du cancer Visualisation de l'ARNm miARN.


Résumé

La biogenèse et la fonction moléculaire sont deux sujets clés dans le domaine de la recherche sur les microARN (miARN). Le séquençage profond est devenu la principale technique de catalogage du répertoire de miARN et de génération de profils d'expression de manière impartiale. Ici, nous décrivons la mise à jour miRGator v3.0 (http://mirgator.kobic.re.kr) qui a compilé les données de miARN de séquençage en profondeur disponibles en public et mis en œuvre plusieurs nouveaux outils pour faciliter l'exploration de données massives. Le navigateur miR-seq aide les utilisateurs à examiner l'alignement des lectures courtes avec la structure secondaire et les informations de nombre de lectures disponibles dans les fenêtres simultanées. Des fonctionnalités telles que l'édition de séquences, le tri, le classement, l'importation et l'exportation de données utilisateur seraient d'une grande utilité pour étudier les iso-miR, l'édition et les modifications de miARN. La relation miARN-cible est essentielle pour comprendre la fonction des miARN. L'analyse de la coexpression des miARN et des ARNm cibles, basée sur les données miRNA-seq et RNA-seq du même échantillon, est visualisée dans les vues de carte thermique et de réseau où les utilisateurs peuvent étudier la corrélation inverse de l'expression génique et des relations cibles, compilées à partir de divers bases de données de cibles prédites et validées. En gardant à jour les ensembles de données et les outils d'analyse, miRGator devrait continuer à servir de ressource intégrée pour la biogenèse et l'investigation fonctionnelle des miARN.


Roy J. Carver Centre de biotechnologie

Notre établissement propose une gamme complète de services pour la construction et le séquençage de bibliothèques avec NovaSeq 6000, MiSeq, Oxford Nanopore GridION et le 10x Genomics Chromium. Les informations ci-dessous concernent uniquement les projets 10x Visuim Spatial Transcriptomics. Veuillez retourner à notre page principale de soumission d'échantillons pour tous les autres types d'échantillons.

10x projets de transcriptomique spatiale Visium sont traités dans le cadre d'une collaboration conjointe entre les installations centrales de l'IGB et l'installation de services ADN du Carver Biotechnology Center.

Coordonnées:

Microscopie IGB : test de perméabilité tissulaire, sectionnement et protocole initial Visium :

Installation de services d'ADN : préparation et séquençage de la bibliothèque :

HPCBio : Traitement bioinformatique / Space Ranger / Analyse en aval :

Informations de base:

Ci-dessous, vous trouverez une foule de détails et de liens auxquels vous pouvez vous référer tout au long de ce processus et/ou utiliser dans votre demande de subvention. Vous pouvez en savoir plus sur la technologie Visium ici et trouver la documentation d'assistance, les logiciels et les ensembles de données pour l'expression des gènes Visium ici.

Si vous écrivez une subvention, veuillez nous envoyer un e-mail, y compris l'agence de financement et le titre de la subvention, et nous pourrons envoyer des devis et des lettres de soutien.

10x Visium est compatible uniquement avec les tissus frais congelés intégrés à l'OCT. ** Il s'agit d'un point critique, car les tissus congelés avec d'autres méthodes peuvent entraîner une fissuration des tissus, la formation de cristaux ou d'autres conditions modifiant la morphologie. Veuillez consulter le Guide de préparation des tissus 10x pour plus de détails sur la façon de congeler et de conserver correctement vos tissus.

Flux de travail :

Le PI doit acheter le kit 10X (kit de réactifs Visium Spatial Gene Expression Slide &) et planifier avec les deux installations principales. Les kits sont disponibles en 4 options de réaction (1 diapositive) ou 16 options de réaction (4 diapositives).

Le personnel de l'installation de microscopie IGB effectue les tests de perméabilité tissulaire et la première partie du protocole spatial : coupez et montez les sections, effectuez la coloration initiale, l'imagerie et la capture de l'ARNm jusqu'à la synthèse de l'ADNc.

DNA Services reçoit l'ADNc et procède à la construction et au séquençage de la bibliothèque.

Une planification et une coordination avancées sont nécessaires pour planifier ensemble l'expérience, le temps de microscopie et le temps des services ADN.

Technologie 10x Visium :

Chaque lame Visium Spatial Gene Expression comprend 4 zones de capture (6,5 x 6,5 mm), chacune définie par un cadre de référence (le cadre de référence + la zone de capture sont de 8 x 8 mm). La zone de capture a

5 000 spots d'expression génique, chaque spot est

55 microns avec des amorces comprenant :

Illumina TruSeq Read 1 (amorce de séquençage à lecture partielle 1)

16 nt Spatial Barcode (toutes les amorces dans un endroit spécifique partagent le même Spatial Barcode)

Identifiant moléculaire unique (UMI) 12 nt

Séquence poly(dT) de 30 nt (capture l'ARNm polyadénylé pour la synthèse d'ADNc).

La distance de centre à centre de chaque spot est

Des coupes de tissus sur les zones de capture de la lame Visium Spatial Gene Expression Slide sont fixées à l'aide de méthanol. L'hématoxyline est utilisée pour colorer les noyaux, suivie d'une coloration à l'éosine pour la matrice extracellulaire et le cytoplasme. Les coupes de tissus colorées sont imagées.

La même section de tissu est perméabilisée pour libérer l'ARNm sur des points de capture qui contiennent des oligos à code-barres spatialement fixés sur la lame. Les ARNm sont convertis en ADNc, puis collectés pour la construction et le séquençage de la bibliothèque Illumina à double index. L'image colorée H&E et les ADNc à code-barres spatial sont superposés pour permettre la visualisation de l'expression du gène dans le placement du tissu d'origine.

Idéalement, les coupes de tissus ne doivent pas être plus grandes que la zone de capture (6,5 mm x 6,5 mm) pour éviter de couvrir le cadre de référence qui est utilisé pour aligner les données RNASeq avec les images de tissus colorées. De plus, le tissu placé en dehors de la zone de capture ne générera tout simplement pas de données d'expression génique supplémentaires, ou pourrait éventuellement compliquer les données d'expression génique générées.

Regardez cette excellente vidéo explicative sur la préparation des tissus ici !

Planification:

Contactez à la fois la microscopie et l'installation des services d'ADN pour coordonner l'expérience. Le test de perméabilité des tissus sera programmé en premier, suivi plus tard de l'expérience complète avec la coupe, la coloration et l'imagerie des tissus, la capture d'ARNm, la synthèse d'ADNc, la construction de bibliothèques et le séquençage. Ceux-ci doivent tous deux être programmés au moins 1 semaine à l'avance pour garantir que les laboratoires auront du personnel disponible pour traiter vos échantillons. La microscopie peut travailler avec vous pour tester la coloration de vos tissus au besoin avant le test initial de perméabilité des tissus.

Séquençage :

10X recommande 50 000 lectures par endroit recouvert de tissu.

Couverture de 80 % par spot, 4 000 spots couverts x 50 000 lectures = 200 millions de lectures d'ADNc par section. Comme avec une cellule unique 10X, nous prévoyons que 100 000 lectures deviendront la cible réelle pour la plupart des projets.

Le séquençage minimal a été mis à jour en juin 2020 et nécessite 28nt pour la lecture1 du code-barres et de l'UMI, 2 lectures d'index 10nt et 90nt lectures d'ADNc en lecture 2. Les lectures inférieures à 90nt ne sont pas recommandées par 10x Genomics car elles peuvent entraîner une diminution de l'application. performance.

Frais:

Tous les frais de préparation des tissus.

Tarif de base de microscopie IGB, 68 $/heure.

Diapositive d'expression génique (4 échantillons) :

Lames d'optimisation des tissus Visium, 750 $ la lame. Une lame par type de tissu (vous aurez peut-être besoin de 2 lames si la morphologie des tissus change, c'est-à-dire tumeur/normale).

Kit de lames et de réactifs Visium Gene Expression :

4 échantillons : 4 400 $ (il s'agit d'une lame à usage unique, avec 4 carrés, prévoyez donc 4 coupes de tissus).

16 échantillons : 16 000 $ (il s'agit de 4 diapositives, chaque diapositive est à usage unique avec 4 carrés).

Frais de préparation de la bibliothèque DNA Services (30 $/bibliothèque) et de séquençage (variable, voir exemples ci-dessous).

Exemple 1 : 1 diapositive, 4 sections (4 bibliothèques), 80 % de couverture = 4 000 points à 50 000 lectures/point :

  1. 10x kit de réaction Visium 4: 4 400 $
  2. Lame d'optimisation des tissus : 750 $
  3. Travail d'optimisation tissulaire IGB, 1 lame à 2 heures chacune* (68 $ x 1 x 2) : 136 $
  4. Taux horaire IGB de 68 $ pour 1 diapositives à 8 heures par diapositive * (68 $ x 1 x 8): 544 $
  5. Construction de la bibliothèque : 30 $ x 4 : 120 $
  6. Séquençage sur 2 voies SP 28x150nt : 4 760 $ -ou- Séquençage sur 2 voies SP 28x91nt : 3 440 $

Total : 10 710 $ (150nt lectures d'ADNc) -ou- 9 390 $ (90nt lectures d'ADNc)

Exemple 2 : 1 diapositive, 4 sections (4 bibliothèques) , 80 % de couverture = 4 000 points à plus de 100 000 lectures/point :

  1. 10x kit de réaction Visium 4: 4 400 $
  2. Lame d'optimisation des tissus : 750 $
  3. Travail d'optimisation des tissus IGB, 1 lame à 2 heures chacune* (68 $ x 1 x 2) : 136 $
  4. Taux horaire IGB de 68 $ pour 1 diapositives à 8 heures par diapositive * (68 $ x 1 x 8): 544 $
  5. Construction de la bibliothèque : 30 $ x 4 : 120 $
  6. Séquençage sur 1 voie S4 28x150nt : 6 300 $

Total : 12 250 $ (150 nt lectures d'ADNc)

Exemple 3 : 4 diapositives, 16 sections (16 bibliothèques), 80 % de couverture = 4 000 points à 75 000 lectures/point :

  1. 10x kit de réaction Visium 16 : 16 000 $
  2. Lames d'optimisation tissulaire (2) : 1 500 $
  3. Optimisation des tissus IGB, 2 lames à 2 heures chacune* (68 $ x 2 x 2) : 272 $
  4. Taux horaire IGB de 68 $ pour 4 diapositives à 8 heures par diapositive* (68 $ x 8 x 4) : 2 176 $
  5. Construction de bibliothèque : 30 $ x 16 : 480 $
  6. Séquençage sur 2 voies S4 2x150nt : 12 600 $

Total : 33 028 $ (150 nt lectures d'ADNc)

*le taux horaire est estimé pour le temps maximum, le coût final peut être réduit.

The Microscopy facility at the Carl Woese Institute for Genomic Biology, the DNA Services laboratory, and the High-Performance Computing in Bioinformatics units (Roy J. Carver Biotechnology Center) have received training from 10X Genomics, are fully equipped, and work seamlessly to offer the Visium Spatial transcriptomics service on campus, see attached letters of support. Briefly, frozen tissues are sectioned and placed onto a Tissue Optimization Slide with eight capture areas, each having thousands of spots with poly-dT capture probes. Tissue sections are permeabilized across a time-course from 0 to 36 minutes. The mRNAs from the tissue anneal to the oligos, are converted to cDNA by reverse transcription with a fluorophore and the sections are evaluated with the Zeiss Axiovert 200M microscope. The permeabilization condition producing the brightest image with the least diffusion is chosen for the processing of the tissues. Once optimal conditions have been identified, tissue sections are placed onto the Visium spatial Gene Expression slide, which contains 4 capture area squares 6.5mm x 6.5mm. Each square has approximately 5,000 spots with barcoded poly-dT oligos. Tissue sections are fixed, stained with hematoxylin and eosin (H&E) and visualized with the Hamamatsu Nanozoomer microscope. After permeabilization, messenger RNAs are converted into spatially-barcoded cDNAs. The double-stranded-barcoded cDNAs are then denatured, pooled and converted into a sequencing-ready and dual-indexed library. The libraries are sequenced in a NovaSeq 6000 to a length of 28nt (read 1, contains the spot barcode and unique molecular identifier used for removing PCR duplicates), 10nt for each index (libraries contain unique dual indexes to prevent index switching) and a minimum of 90nt for read 2 (the cDNA read) to a minimum depth of at least 50,000 cDNA read 2 per spot. Data is processed and visualized using Space Ranger Analysis Pipelines and Loupe browser. Visium uses the cDNA barcodes to associate the transcripts to an X-Y coordinate on the slide, which can then be used to overlay the H&E-stained image with the transcript information from a spatial viewpoint.

Please contact Dr. Alvaro Hernandez, Director of DNA Services ([email protected]) at 217-244-3480 or Chris Wright, Associate Director of DNA Services ([email protected]) at 217-333-4372 to discuss ways the staff can be of assistance in achieving your project goals or to receive a quote for your project, submission forms, grant support or other information needed.

All work performed by the Roy J. Carver Biotechnology Center (CBC) should be acknowledged in scholarly publications, posters, and presentations. Proper recognition allows us to measure the impact of our work and supports our initiatives in obtaining sponsored funding. In addition, any CBC personnel who make a substantial intellectual or experimental contribution are deserving of further recognition as co-author.


How can I normalize mRNA samples for sequencing? - La biologie

Jusqu'aux années 1990, le séquençage de l'ADN (lecture de la séquence de l'ADN) était un processus relativement long et coûteux. L'utilisation de nucléotides radiomarqués a également aggravé le problème en raison de problèmes de sécurité. With currently available technology and automated machines, the process is cheap, safer, and can be completed in a matter of hours. Fred Sanger developed the sequencing method used for the human genome sequencing project, which is widely used today (Figure 1).

Visit this site to watch a video explaining the DNA sequence reading technique that resulted from Sanger’s work.

Figure 1. In Frederick Sanger’s dideoxy chain termination method, dye-labeled dideoxynucleotides are used to generate DNA fragments that terminate at different points. The DNA is separated by capillary electrophoresis on the basis of size, and from the order of fragments formed, the DNA sequence can be read. The DNA sequence readout is shown on an electropherogram that is generated by a laser scanner.

The method is known as the dideoxy chain termination method. The sequencing method is based on the use of chain terminators, the dideoxynucleotides (ddNTPs). The dideoxynucleotides, or ddNTPSs, differ from the deoxynucleotides by the lack of a free 3′ OH group on the five-carbon sugar. If a ddNTP is added to a growing a DNA strand, the chain is not extended any further because the free 3′ OH group needed to add another nucleotide is not available. En utilisant un rapport prédéterminé de désoxyribonucléotides aux didésoxynucléotides, il est possible de générer des fragments d'ADN de différentes tailles.

Figure 2. DNA can be separated on the basis of size using gel electrophoresis. (credit: James Jacob, Tompkins Cortland Community College)

The DNA sample to be sequenced is denatured or separated into two strands by heating it to high temperatures. The DNA is divided into four tubes in which a primer, DNA polymerase, and all four nucleotides (A, T, G, and C) are added. In addition to each of the four tubes, limited quantities of one of the four dideoxynucleotides are added to each tube respectively. Les tubes sont étiquetés A, T, G et C selon le ddNTP ajouté. À des fins de détection, chacun des quatre didésoxynucléotides porte un marqueur fluorescent différent. L'allongement de la chaîne se poursuit jusqu'à ce qu'un didésoxynucléotide fluorescent soit incorporé, après quoi aucun autre allongement n'a lieu. Une fois la réaction terminée, une électrophorèse est effectuée. Même une différence de longueur d'une seule base peut être détectée. The sequence is read from a laser scanner. For his work on DNA sequencing, Sanger received a Nobel Prize in chemistry in 1980.

Sanger’s genome sequencing has led to a race to sequence human genomes at a rapid speed and low cost, often referred to as the $1000 in one day sequence. Learn more by selecting the Sequencing at Speed animation here.

Gel electrophoresis (Figure 2) is a technique used to separate DNA fragments of different sizes. Usually the gel is made of a chemical called agarose. La poudre d'agarose est ajoutée à un tampon et chauffée. Après refroidissement, la solution de gel est versée dans un bac de coulée. Une fois le gel solidifié, l'ADN est chargé sur le gel et un courant électrique est appliqué. L'ADN a une charge nette négative et se déplace de l'électrode négative vers l'électrode positive. Le courant électrique est appliqué pendant un temps suffisant pour permettre à l'ADN de se séparer en fonction de la taille, les fragments les plus petits seront les plus éloignés du puits (où l'ADN a été chargé) et les fragments de poids moléculaire les plus lourds seront les plus proches du puits. Once the DNA is separated, the gel is stained with a DNA-specific dye for viewing it.

Neanderthal Genome: How Are We Related?

The first draft sequence of the Neanderthal genome was published by Richard E. Green et al. in 2010. [1] Neanderthals are the closest ancestors of present-day humans. They were known to have lived in Europe and Western Asia before they disappeared from fossil records approximately 30,000 years ago. Green’s team studied almost 40,000-year-old fossil remains that were selected from sites across the world. Des moyens extrêmement sophistiqués de préparation des échantillons et de séquençage de l'ADN ont été employés en raison de la nature fragile des os et de la forte contamination microbienne. Dans leur étude, les scientifiques ont pu séquencer quelque quatre milliards de paires de bases. La séquence de Néandertal a été comparée à celle des humains actuels du monde entier. Après avoir comparé les séquences, les chercheurs ont découvert que le génome de Néandertal avait une similitude 2 à 3 pour cent plus grande avec les personnes vivant en dehors de l'Afrique qu'avec les personnes en Afrique. While current theories have suggested that all present-day humans can be traced to a small ancestral population in Africa, the data from the Neanderthal genome may contradict this view. Green et ses collègues ont également découvert des segments d'ADN chez les peuples d'Europe et d'Asie qui sont plus similaires aux séquences néandertaliennes qu'à d'autres séquences humaines contemporaines. Une autre observation intéressante était que les Néandertaliens sont aussi étroitement liés aux peuples de Papouasie-Nouvelle-Guinée qu'à ceux de Chine ou de France. Ceci est surprenant car les restes fossiles de Néandertal n'ont été localisés qu'en Europe et en Asie occidentale. Très probablement, des échanges génétiques ont eu lieu entre les Néandertaliens et les humains modernes lorsque les humains modernes ont émergé d'Afrique, avant la divergence des Européens, des Asiatiques de l'Est et des Papouasie-Nouvelle-Guinée.

Plusieurs gènes semblent avoir subi des changements par rapport aux Néandertaliens au cours de l'évolution de l'homme actuel. Ces gènes sont impliqués dans la structure crânienne, le métabolisme, la morphologie de la peau et le développement cognitif. L'un des gènes qui présente un intérêt particulier est RUNX2, ce qui est différent chez les humains modernes et les Néandertaliens. Ce gène est responsable de l'os frontal proéminent, de la cage thoracique en forme de cloche et des différences dentaires observées chez les Néandertaliens. On suppose qu'un changement évolutif de RUNX2 était important dans l'origine de l'homme moderne, et cela a affecté le crâne et le haut du corps.

Watch Svante Pääbo’s talk explaining the Neanderthal genome research at the 2011 annual TED (Technology, Entertainment, Design) conference.


To approach this project, we cultured neurons from embryonic mice and manually dissected dendrites and soma, individually from each cell, collecting the material from each compartment separately. These sub-cellular fractions from single cells were amplified and sequenced. We used within-cell differential expression analysis as well as between-cell consistency analysis to identify localized RNA and possible isoform variants that differentially localize. We then used computational analyses to identify possible structural motifs mediating the localization and the proteomic functions of the localized RNA. We collated our data with existing studies to create a resource for the community.

Neuron culture and collection

Hippocampal neurons from embryonic day 18 (E18) mice (C57BL/6) were cultured as described in [44] for 15 days. Isolated single neurons were selected for collection. A micropipette with a closed, tapered end was used to sever dendrites from the cell body. Another micropipette was used to aspirate the soma, which was deposited into a tube containing a first-strand synthesis buffer and RNase inhibitor and placed on ice. A separate micropipette was used to aspirate the dendrites, which were deposited into a separate tube as above. Samples were transferred to − 80 °C within 30 min and stored there until first-strand synthesis. Sixteen neurons (32 total samples) were collected from multiple cultures across multiple days.

Single-cell RNA amplification and sequencing

ERCC spike-in control RNA was diluted 1:4,000,000 and 0.9 μL was added to each tube. Poly-adenylated RNA was amplified using two or three rounds of the aRNA in vitro transcription-based amplification method, as described in [15]. The quality and quantity of the amplified RNA was verified using a Bioanalyzer RNA assay. Strand-specific sequencing libraries were prepared using the Illumina TruSeq Stranded kit according to the manufacturer’s instructions, except that the initial poly-A capture step was skipped because the aRNA amplification procedure already selects for poly-adenylated RNA. Samples were sequenced on a HiSeq (100 bp paired-end) or NextSeq (75 bp paired-end) to an average depth of 25 million reads. Reads were trimmed for adapter and poly-A sequence using in-house software and then mapped to the mouse genome (mm10) using STAR [45]. Uniquely mapped reads were used for feature quantification using VERSE [46]. The features used for each analysis are described below.

Gene-level expression and localization

Three sources of gene annotations were combined to obtain a comprehensive definition of known 3′ ends: Ensembl genes (downloaded from UCSC, Dec. 2015), UCSC genes (downloaded from UCSC, Dec. 2015), and the set of

2000 new 3′UTRs determined by Miura et al. [10]. The 3′UTR regions of these annotations were used for quantification of reads. A single 3′UTR feature was created for each gene by taking the union of all 3′UTR regions for that gene. Read counts were calculated for each gene based on how many reads mapped to this 3′UTR region. Quantification was done using VERSE with options “-s 1 -z 3 --nonemptyModified”. For differential expression analysis, we used only the genes that had at least one read in at least half (16) of the samples. Read counts were normalized for library size using the size factor method of DESeq2 and differentially expressed genes between the dendrites and soma were identified using DESeq2 with a paired experimental design. A FDR corrected p ≤ 0.05 was used to identify significantly differentially expressed genes. The consDend genes were identified separately based on having at least one read in at least 90% (i.e., 15 out of 16) of the dendrite samples.

GO functional enrichment of deDend and consDend genes was calculated using the GOrilla webserver [47]. For deDend genes, the background set for GO analysis was all genes with at least one read in half the samples for the consDend genes, the background was all genes with at least one read in at least 15 samples (i.e., the input sets for each analysis).

Gene markers of pyramidal neurons and cardiomyocytes, as well as housekeeping genes, were obtained from [9]. Markers of other mouse brain cell types were obtained from [48].

Isoform-level expression and localization

An overview of these methods is shown in Additional file 7. To quantify individual 3′ isoforms of genes, we used the last 500 nt of each 3′ end for that gene as the isoform quantification feature. This was done to normalize length differences between 3′UTRs and because the vast majority of reads were mapped within 500 nt of a 3′ end (Fig. 3a). Any 3′ ends that were less than 500 nt apart were merged together into a single quantification feature. Thus, the final set of 3′ isoform quantification features is non-overlapping. Isoform read counts were calculated by VERSE using the same parameters as above. Genes with only one expressed 3′ isoform were removed from further analysis to focus on alternative expression of 3′ isoforms.

To identify the top two 3′ isoforms for each gene, the following procedure was used (Additional file 7). For each gene in each sample, the fraction of reads mapping to each isoform was calculated (that is, the number of reads mapping to that isoform divided by the total reads for all isoforms of the gene). The fractions for each isoform were then summed up across samples (unless a sample had fewer than 10 reads total for that gene, in which case it was skipped), and the two isoforms with the highest total per gene were considered the top two isoforms for that gene. The purpose of this process was to give each sample equal weight in the final decision of the top 3′UTR, while also excluding samples with too few reads to give a reliable estimate of the isoform fractions. This process was repeated for each gene with at least two expressed isoforms in the dataset. Then for each gene, whichever of the top two isoforms was more 5′ (as defined by the locations of their 500-nt quantification features) was designated the “proximal” isoform and whichever was more 3′ was designated the “distal” isoform. Finally, for each gene in each sample, we calculated the distal fraction (DF) as the fraction of reads mapping to the distal isoform divided by the total reads mapping to the distal and proximal isoforms.

We defined the proximal and distal isoforms as being, relative to each other, generated by alternative splicing (ALEs) or alternative cleavage and polyadenylation (tandem UTRs) by the following criterion: if the full-length 3′UTRs of a pair of isoforms were directly adjacent or overlapping, they were called tandem otherwise, they were called ALEs.

The differential localization of isoforms was determined based on the change in distal fraction between soma and dendrites of the same original neuron. A non-parametric paired test of differences (Wilcoxon signed-rank test) was used to identify genes with consistent changes in distal fraction across samples. Only genes with at least five pairs of samples (where a “pair” means the soma and dendrites from the same original neuron) where each member of the pair had at least 10 combined reads for the two isoforms were tested (3638 genes), to ensure there was enough read and sample support to reliably identify these events.

GO enrichment was done on the dendrite-enriched isoforms as described in the previous section, using the input set of 3638 genes as background.

Background datasets for motif enrichment

We generated a pool of “non-localized” background 3′UTR sequences based on the list of genes that were significantly higher expressed in the soma from the gene-level DESeq2 analysis described above (3811 genes). We filtered this set to remove any overlap with one of the other localized lists (i.e., the consDend list and the isoDend list) and any overlap with previously annotated dendritically localized genes in order to make this list as specific to non-localized genes as possible, which resulted in removal of 471 and 531 genes respectively leading to a final pool of 2809 genes from which to draw 3′UTR sequences to make up a background. Since motif frequency in a sequence can be related to sequence length, we created a length-matched background set for each of the three localized gene lists as follows: (1) for each localized gene in the set, scan the pool of non-localized genes in order of their somatic specificity (starting with the most soma-specific, as indicated by its DESeq2 test statistic) (2) select the first non-localized gene encountered with a 3′UTR length within 100 nt of the localized gene’s 3′UTR length (3) add the selected non-localized gene to the background set and remove it from the pool (4) if no background gene can be found that meets the 100-nt criteria, select whichever gene in the pool that has the most similar 3′UTR length to the localized gene’s 3′UTR. Using this protocol resulted in background sets with highly similar length characteristics to the foreground set.

RNA motif analysis

Linear motifs were identified using the HOMER motif-finding suite [25]. De novo-enriched motif searches were done using the script “findMotifs.pl” and set to look for either short motifs (4 or 6 nt) or long motifs (8, 10, or 12 nt). Enrichment of known RBP-binding motifs was analyzed using the same script with option “-known” in combination with a custom set of positional weight matrices specifying binding preferences that was downloaded from CISBP-RNA (version 0.6) [49]. A log-odds threshold for RBP motif matching was set for each motif separately based on the number of informative positions in the motif such that longer, more specific motifs had a higher log-odds threshold for calling a match. The background sets used for enrichment testing were the length-matched non-localized sets described above.

G-quadruplexes were identified by regular expression search using the “re” module in Python. The search pattern was ‘([gG]<3,>w<1,7>)<3,>[gG]<3,>,’ which requires three consecutive matches to the pattern “three or more G’s followed by 1–7 of any nucleotide” and then ending with a fourth set of three or more G’s. The background set was the same as described in the previous section.

De novo identification of enriched RNA secondary structures was performed using NoFold [27]. Sliding windows of 100 nt (slide = 75 nt) across the localized sequences were used for input. Background datasets were the same as described in the previous section and also converted to sliding windows with the same parameters. Additional matches to the B1 and B2 elements were found by creating a CM for each element based on its canonical sequence(s) downloaded from RepeatMasker [28] and its predicted MFE structure from RNAfold [50]. The sequences and structures used to create the CM are as follows:


Voir la vidéo: How to syhthesis cDNA from mRNA? (Janvier 2023).