Informations

Quel réseau de régulation génique est le plus important chez l'homme ?

Quel réseau de régulation génique est le plus important chez l'homme ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Quel est le nombre maximum de nœuds impliqués dans un réseau de régulation génique et de quel réseau s'agit-il, à condition qu'il vienne de l'homme ?


Circuit de régulation des gènes

Les circuits de régulation génétique (également appelés circuits de régulation transcriptionnelle) sont un concept qui a évolué à partir du modèle Opéron découvert par François Jacob et Jacques Monod. [1] [2] [3] Ce sont des groupes fonctionnels de gènes qui ont un impact sur l'expression des uns et des autres par le biais de facteurs de transcription inductibles et d'éléments cis-régulateurs. [4] [5]

Les circuits de régulation génétique sont analogues à bien des égards aux circuits électroniques dans la façon dont ils utilisent les entrées et les sorties de signaux pour déterminer la régulation des gènes. [4] [5] Comme les circuits électroniques, leur organisation détermine leur efficacité, et cela a été démontré dans des circuits fonctionnant en série pour avoir une plus grande sensibilité de régulation génique. [4] [6] Ils utilisent également des entrées telles que les régulateurs de séquence trans et cis des gènes, et des sorties telles que le niveau d'expression génique. [4] [5] Selon le type de circuit, ils répondent constamment aux signaux extérieurs, tels que les niveaux de sucres et d'hormones, qui déterminent comment le circuit reviendra à son point fixe ou à son état d'équilibre périodique. [7] Les circuits de régulation génétique ont également la capacité d'être recâblés de manière évolutive sans perte du niveau de sortie transcriptionnel d'origine. [8] [9] Ce recâblage est défini par le changement dans les interactions entre les gènes régulateurs et cibles, alors qu'il y a encore conservation des facteurs régulateurs et des gènes cibles. [8] [10]

Ces circuits peuvent être modélisés in silico pour prédire la dynamique d'un système génétique. [8] [11] Après avoir construit un modèle informatique du circuit naturel d'intérêt, on peut utiliser le modèle pour faire des prédictions testables sur les performances du circuit. [12] [13] Lors de la conception d'un circuit synthétique pour une tâche d'ingénierie spécifique, un modèle est utile pour identifier les connexions nécessaires et les régimes de fonctionnement des paramètres qui donnent lieu à une sortie fonctionnelle souhaitée. De même, lors de l'étude d'un circuit naturel, on peut utiliser le modèle pour identifier les parties ou les valeurs de paramètres nécessaires pour un résultat biologique souhaité. [12] [14] En d'autres termes, la modélisation informatique et les perturbations synthétiques expérimentales peuvent être utilisées pour sonder les circuits biologiques. [12] [14] Cependant, la structure des circuits s'est avérée ne pas être un indicateur fiable de la fonction que le circuit de régulation fournit pour le plus grand réseau de régulation cellulaire. [7]

La compréhension des circuits de régulation génétique est essentielle dans le domaine de la biologie synthétique, où des éléments génétiques disparates sont combinés pour produire de nouvelles fonctions biologiques. [1] [12] Ces circuits de gènes biologiques peuvent être utilisés synthétiquement pour agir comme modèles physiques pour étudier la fonction régulatrice. [15] [16]

En créant des circuits de régulation génétique, les cellules peuvent être modifiées pour prendre des informations de leur environnement, telles que la disponibilité des nutriments et les signaux de développement, et réagir en fonction des changements dans leur environnement [17] [18] . [19] [20] En biologie synthétique des plantes, les circuits de régulation génétique peuvent être utilisés pour programmer des traits afin d'augmenter l'efficacité des plantes cultivées en augmentant leur robustesse aux facteurs de stress environnementaux. [18] [21] De plus, ils sont utilisés pour produire des produits biopharmaceutiques pour une intervention médicale. [18] [21]


Fond

Bien que toutes les cellules des organismes multicellulaires partagent fondamentalement la même séquence d'ADN avec le même ensemble de gènes, dans chaque type cellulaire, seul un ensemble particulier de gènes est activement exprimé, ce qui définit alors sa morphologie et sa fonction spécifiques. Ainsi, différents types de cellules sont contrôlés par différents ensembles de gènes actifs et par les interactions entre eux [1–4]. A l'intérieur de chaque cellule, un ensemble de gènes cibles et de gènes régulateurs, à savoir les facteurs de transcription (TF), interagissent les uns avec les autres et forment un réseau de régulation génique (GRN). Les GRN comprennent topologiquement un composant hautement connecté et quelques nœuds à faible connectivité [5]. Les cellules souches embryonnaires (CSE), par exemple, peuvent être distinguées des autres cellules principalement en fonction de leur réseau de pluripotence. Ce réseau dans les CES est couvert par quelques TF connectés qui partagent de nombreux gènes cibles [6]. Un léger changement dans les niveaux d'expression d'un tel réseau étroitement imbriqué de TF conduit à la différenciation ESC [6].

Les groupes de gènes pilotes clés et de gènes régulateurs maîtres dans les réseaux de régulation génique spécifiques et non spécifiques sont particulièrement intéressants. Les gènes pilotes clés sont essentiellement les gènes qui contrôlent l'état du réseau [7-9]. Le terme gène régulateur principal a été introduit par Susumu Ohno il y a plus de 30 ans. Selon sa définition, un régulateur maître est un gène qui se situe au sommet d'une hiérarchie de régulation et n'est régulé par aucun autre gène [10]. Plus tard, ce terme a été redéfini pour impliquer un ensemble de gènes qui régissent directement l'identité cellulaire particulière ou sont à l'origine de lignées de développement et régulent une cascade d'expressions géniques pour former des lignées spécifiques [11].

Pour résoudre le problème de l'identification informatique des gènes régulateurs clés et maîtres, nous avons modélisé et résolu deux problèmes d'optimisation nommés Minimum Doifying Set (MDS) et Minimum Connected Doifying Set (MCDS) sur les GRN. Nous avons comparé ces ensembles à des mesures de centralité bien connues telles que la centralité de degré, d'intermédiarité et de proximité, comme décrit dans [12]. Ceux-ci attribuent l'importance des gènes à leur centralité dans les réseaux. Cependant, il n'est pas clair si les gènes à haute centralité fournissent un contrôle total du réseau sous-jacent.

Une étude récente a dérivé un théorème d'entrée minimum basé sur la théorie du contrôle structurel qui peut être appliqué aux graphes orientés pour contrôler complètement le réseau [7]. Pour cela, les auteurs ont introduit une relation profonde entre la contrôlabilité structurelle et l'appariement maximal. L'idée est de contrôler l'ensemble du réseau en couvrant toutes les interactions régulatrices avec un nombre minimum de gènes. Leurs résultats montrent que quelques nœuds sont suffisants pour contrôler des réseaux denses et homogènes, mais ce nombre augmente considérablement lorsque les nœuds du réseau sont faiblement connectés.

Un MDS est un concept connexe dans lequel le but est de contrôler le réseau en couvrant tous les gènes exprimés avec un nombre minimum de TF. Étant donné que chaque nœud qui n'appartient pas au MDS est adjacent à au moins un nœud du MDS, le contrôle total du réseau est assuré par la solution MDS. Notre groupe a déjà appliqué le concept de MDS au domaine des maladies complexes. Les résultats ont montré que cette méthode peut capturer plusieurs gènes cibles importants de maladies et de médicaments [9, 13]. La méthode MDS peut être appliquée à tout réseau réglementaire connecté ou déconnecté pour identifier les nœuds dominants clés. Dans ce travail, nous utilisons MDS dans des graphes dirigés pour identifier les gènes moteurs clés. Outre le concept de MDS, nous suggérons d'envisager également la tâche d'identifier un ensemble de gènes régulateurs maîtres comme un analogue d'un autre problème d'optimisation, à savoir celui de construire un MCDS. Nous suggérons d'appliquer MCDS principalement aux réseaux liés aux transitions du destin cellulaire tels que le réseau de pluripotence d'une cellule souche embryonnaire. Cette idée est motivée par l'observation que le réseau de pluripotence dans les CSE de souris est maintenu par quelques TF connectés qui partagent de nombreux gènes cibles [6]. Les concepts de MDS et MCDS sont visualisés pour un petit réseau de jouets dans la Fig. 1.

Une représentation graphique qui illustre les solutions MDS et MCDS d'un exemple de réseau. Le réseau peut être contrôlé par des nœuds MDS et MCDS. Dans le cas d'un GRN, les arcs dirigés symbolisent qu'un facteur de transcription régule un gène cible. Dans le panneau une, les nœuds MDS <UN B> sont les dominants du réseau. Ensemble, ils régulent tous les autres nœuds du réseau (C, E, D). Panneau b visualise l'ensemble respectif des nœuds MCDS (noir et gris). Ici, nœud C est ajouté afin de préserver le lien entre les deux dominants UNE et B former un MCDS

Le concept de MCDS a déjà été appliqué aux réseaux d'interaction protéine-protéine (qui sont représentés par des graphes non orientés). Là, les protéines qui composent une solution MCDS ont contribué de manière significative aux processus biologiques connexes [14]. Dans ce travail, nous montrons comment le concept MCDS peut être appliqué aux GRN (représentés par des graphes dirigés) pour détecter les TF et les gènes cibles qui déterminent une identité cellulaire spécifique. Nous commençons par les organismes modèles E. coli et S. cerevisiae parce que leurs GRN ont été largement caractérisés dans des études expérimentales. Ensuite, nous présentons des applications à un réseau de pluripotence de souris et à un réseau de régulation du cancer du sein.


Une approche de biologie des systèmes découvre le réseau de régulation des gènes de base régissant le choix du destin des iridophores à partir de la crête neurale

Les progéniteurs multipotents de la crête neurale (NC) génèrent une gamme étonnante de dérivés, y compris des composants neuronaux, squelettiques et des cellules pigmentaires (chromatophores), mais les mécanismes moléculaires permettant une sélection équilibrée de chaque destin restent inconnus. Chez le poisson zèbre, on pense que les mélanocytes, les iridophores et les xanthophores, les trois lignées de chromatophores, partagent des progéniteurs et se prêtent donc à l'étude des réseaux complexes de régulation des gènes (GRN) qui sous-tendent la ségrégation du destin des progéniteurs NC. Bien que le noyau GRN régissant la spécification des mélanocytes ait été précédemment établi, ceux qui guident le développement des iridophores et des xanthophores restent insaisissables. Ici, nous nous concentrons sur l'iridophore GRN, où les phénotypes mutants identifient les facteurs de transcription Sox10, Tfec et Mitfa et le récepteur tyrosine kinase, Ltk, en tant qu'acteurs clés. Nous présentons ici les données d'expression, ainsi que les résultats de perte et de gain de fonction, guidant la dérivation d'une spécification initiale d'iridophore GRN. De plus, nous utilisons un processus itératif de modélisation mathématique, complété par un algorithme de criblage Monte Carlo adapté à la nature qualitative des données expérimentales, pour permettre une exploration prédictive rigoureuse de la dynamique du GRN. Les prédictions ont été évaluées expérimentalement et des hypothèses testables ont été dérivées pour construire une version améliorée du GRN, dont nous avons montré qu'elles produisaient des résultats conformes à la dynamique d'expression génique observée expérimentalement. Notre étude révèle plusieurs caractéristiques régulatrices importantes, notamment une boucle de rétroaction positive dépendante de sox10 entre tfec et ltk conduisant à la spécification de l'iridophore, la base moléculaire de la maintenance de sox10 tout au long du développement de l'iridophore et la coopération entre sox10 et tfec dans la conduite de l'expression de pnp4a, un gène clé de différenciation. Nous évaluons également un répresseur candidat de mitfa, une cible de sox10 spécifique aux mélanocytes. Étonnamment, nos données remettent en question le rôle rapporté de Foxd3, un répresseur mitfa établi, dans la régulation des iridophores. Notre étude s'appuie sur notre précédente approche de biologie des systèmes, en incorporant des valeurs de paramètres physiologiquement pertinentes et une évaluation rigoureuse des valeurs de paramètres dans un cadre de données qualitatives, pour établir pour la première fois la spécification de base GRN de la lignée d'iridophore.

Déclaration de conflit d'intérêts

Les auteurs ont déclaré qu'ils n'existaient pas de conflit d'intérêts.

Les figures

Fig 1. Détection d'iridophores en développement à l'aide de…

Fig 1. Détection d'iridophores en développement utilisant l'expression de tfec .

(A) WISH chromogène identifie tfec…

Figure 2. sox10 l'expression est maintenue tout au long…

Figure 2. sox10 l'expression est maintenue tout au long du développement de l'iridophore.

Figure 3. Un sox10 -dépendant tfec /…

Figure 3. Un sox10 -dépendant tfec / ltk une boucle de rétroaction positive est requise pour l'iridophore…

Figure 4. pnp4a est activé par mitfa…

Figure 4. pnp4a est activé par mitfa en NC prémigratoires et migratrices, et par coopérative…

Fig 5. Modélisation mathématique et raffinement de…

Fig 5. Modélisation mathématique et raffinement de l'iridophore GRN préliminaire.

Représentation graphique, sorties de simulation…

Fig 6. Le modèle B reflète avec précision observé…

Fig 6. Le modèle B reflète avec précision la dynamique d'expression génique observée.

(A) Représentation graphique du modèle…

Fig 7. Modèle de restriction progressive du destin pour…

Fig 7. Modèle de restriction du destin progressif pour le développement d'iridophores à partir de eNCC.


Résultats et discussion

Nous nous sommes concentrés sur le dysfonctionnement de la régulation des gènes dans le CHC dans lequel le VHB est endémique. Les données des puces à ADN ont été téléchargées à partir de la base de données GEO [GEO : <"type":"entrez-geo","attrs":<"text":"GSE22058","term_id":"22058">> GSE22058] [22], et les profils d'expression à l'échelle du génome des miARN et des ARNm ont été examinés.

Modèle de construction de réseau

Tout d'abord, un réseau candidat a été établi en combinant des interactions cibles prédites et des interactions soutenues expérimentalement impliquant à la fois des TF et des miARN. Étant donné que ce type de réseau contient beaucoup de bruit et ne concerne pas de tissu spécifique, nous avons refiltré les interactions à l'aide d'un modèle de co-expression basé sur des données de microarray.

Les modèles de co-expression sont fréquemment utilisés pour établir des relations entre les gènes exprimés dans des tissus spécifiques [23]. Dans ces modèles, si deux gènes partagent des profils d'expression similaires, tels que mesurés par des coefficients de corrélation de Pearson significatifs, les deux gènes sont connectés dans le réseau. Dans cette étape, nous avons uniquement calculé les coefficients de corrélation entre les régulateurs et les cibles dans le réseau candidat. Si un TF/miARN a des modèles d'expression similaires ou inversés pour certains gènes, il y a alors une forte probabilité que le TF/miARN régule ces gènes. Étant donné que le modèle de co-expression ne peut pas dire si la régulation est directe ou indirecte et que les interactions du réseau candidat ne peuvent fournir que des interactions physiques potentielles, il est nécessaire que l'intégration des deux sources de données fournisse des preuves plus solides de la régulation des gènes. Ainsi, le GRN final peut être considéré comme l'intersection du réseau candidat et du GRN construit par le modèle de co-expression. Nous avons d'abord éliminé les valeurs aberrantes dans les données du profil d'expression, puis calculé les coefficients de corrélation entre les régulateurs et les cibles à l'aide de la méthode de Pearson. Les régulations finales entre les régulateurs et les cibles doivent satisfaire les trois conditions suivantes : 1) il existe une interaction cible prédite ou une interaction soutenue expérimentalement 2) le coefficient de corrélation entre le miARN et ses cibles doit être négatif 3) la valeur absolue du coefficient de corrélation est plus grand que la coupure.

Sélection des seuils pour les coefficients de corrélation

Il existe deux types de régulateurs dans le GRN, les TF et les miARN, et nous avons constaté que la force de régulation diffère entre les deux. Si le GRN est séparé en un réseau où seuls les TF se comportent comme des régulateurs, et un réseau où seuls les miARN sont le régulateur, sous le même seuil de corrélation, le nombre de miARN est bien inférieur à celui des TF (Figure ​ (Figure 1 ). 1 ). Par exemple, lorsque le seuil de la valeur absolue de corrélation entre les régulateurs et les cibles est fixé à 0,6, le nombre de TF est de 101, alors que seulement dix miARN sont retenus dans le GRN. Si nous prenons le même seuil pour les TF et les miARN, il y aurait une grande différence entre le nombre des deux types de régulateurs, et le GRN final est fortement biaisé en faveur des TF. La différence dans le mécanisme des TF et des miARN pour réguler la transcription est probablement la raison de la force de régulation différente. En conséquence, le seuil des corrélations d'interactions où les TF sont des régulateurs et le seuil des corrélations d'interactions où les miARN sont des régulateurs ont été choisis indépendamment.

Nombre de régulateurs dans le GRN, où seuls les TF ou les miARN sont pris comme régulateurs.

La sélection des seuils a été traitée selon un critère topologique [24], ce qui signifie que le GRN final doit être approximativement sans échelle. Le réseau sans échelle est courant dans les réseaux biologiques où une très petite quantité de nœuds se connecte à de nombreux nœuds voisins, tandis que la majorité restante des nœuds ont des connexions extrêmement petites [25]. Les nœuds avec un nombre élevé de connexions sont appelés nœuds concentrateurs et ils sont importants au sein du réseau. Il est connu que certains TF et miARN importants régulent de nombreuses cibles qui entraînent la génération de cancer, et ils sont les régulateurs centraux des GRN.

Les caractéristiques du réseau sans échelle sont évaluées à partir de la distribution des degrés de nœuds. Le degré d'un nœud est le nombre de nœuds voisins auxquels le nœud se connecte directement. Dans un réseau sans échelle, la distribution des degrés est toujours représentée comme une distribution de loi de puissance [26] ou une distribution de loi de puissance tronquée exponentielle [27]. Nous avons ajusté la distribution des degrés du GRN construite à partir de différents seuils de coefficients de corrélation à la distribution de loi de puissance et à la distribution de loi de puissance tronquée exponentielle. Les R La valeur 2 a été utilisée pour mesurer la qualité de l'ajustement pour ces deux distributions. Étant donné que le GRN est un réseau dirigé, la distribution des degrés est divisée en distribution de degré et distribution de degré. Figure ​ Figure2 2 illustre comment le seuil de la valeur absolue des corrélations affecte R 2 et la taille du GRN. Pour les GRN où seuls les TF sont des régulateurs, si aucune donnée d'expression n'est intégrée (coupure =𠂐), la distribution de degré d'entrée et la distribution de degré de sortie ne sont pas du tout en loi de puissance (R 2  ≈𠂐). En d'autres termes, les GRN construits uniquement à partir de réseaux candidats ne sont pas sans échelle et peuvent donc ne pas avoir de sens biologique. La même condition se produit également pour la distribution hors degré des GRN où seuls les miARN sont des régulateurs. Il souligne l'importance de l'utilisation des données d'expression. Dans la plupart des cas, à mesure que le seuil de la corrélation absolue augmente, R 2 augmente tandis que la taille du GRN diminue, donc un compromis entre R 2 valeurs et la taille correcte du GRN est faite. Nous avons choisi des seuils avec le critère que le R La valeur 2 atteint d'abord un état stable pour la distribution en degrés et la distribution en degrés. Dans cette étude, le seuil de la valeur absolue de la corrélation pour les interactions où les TF sont des régulateurs a été fixé à 0,6, et celui pour les miARN a été fixé à 0,45.

Sélection de seuils pour les corrélations entre régulateurs et cibles par critère topologique. La première ligne représente le GRN où seuls les TF sont des régulateurs, et la deuxième ligne représente le GRN où seuls les miARN sont des régulateurs. Le seuil fait référence à la valeur absolue du coefficient de corrélation.

Présentation du réseau

Après avoir intégré les interactions cibles prédites, les interactions soutenues expérimentalement et le modèle de co-expression, le réseau a été construit avec 1844 nœuds. Le plus gros composant connecté contenait 1691 nœuds (91,7 x 02009 % de tous les nœuds) et a été utilisé pour l'analyse en aval (Figure ​ (Figure 3). 3 ). Le GRN construit à partir du plus grand composant connecté contenait 80 miARN, 64 TF et 4199 interactions, qui étaient composées de 1111 régulations des miARN aux gènes, 74 régulations des TF aux miARN et 3014 régulations des TF aux gènes. Parmi les GRN, il y avait 484 interactions qui étaient étayées par des données expérimentales. La liste complète de contiguïté du GRN se trouve dans le fichier supplémentaire 1.

Le réseau de régulation des gènes dans le CHC. Différentes couleurs représentent des nœuds dans différents modules de réseau. La taille des nœuds est proportionnelle au degré de sortie des nœuds. Les bords noirs représentent les régulations dans le noyau GRN, et la largeur des bords dans le noyau GRN sont proportionnelles aux valeurs d'intercommunication des bords calculées à partir du GRN global.

Modules réseau

Les gènes dans les réseaux biologiques ont toujours une structure dans laquelle les gènes sont plus étroitement liés [28]. Ce type de sous-réseau est appelé module de réseau ou communauté. Nous avons utilisé des algorithmes de walktrap [29] pour trouver des sous-réseaux densément connectés où les valeurs absolues des corrélations ont été prises comme poids des arêtes. Les six plus grands modules (couverts 79,7 % de tous les nœuds de GRN) sont illustrés dans la figure ​ Figure3, 3, et un résumé des six modules est répertorié dans le tableau ​ Tableau1. 1 . Les cartes thermiques du profil d'expression des régulateurs et des cibles dans les six modules sont illustrées à la figure ​ Figure4 4 .

Tableau 1

IndiceTailleRégulateurs principauxFonctions des gènes cibles
1 419 RUNX3, RUNX2, POU2AF1, POU2F2, FLI1, BHLHB3, PRDM1 Réponse immunitaire,
Membrane plasma,
Activation cellulaire
2 328 HAND2, TCF4, FOXF1, FOXF2, ARID5B, FOXL1 Région extracellulaire,
Adhésion cellulaire
3 270 miR-150, miR-142, miR-155, miR-181a, miR-342, miR-27a, miR-146a, miR-199a, miR-214, HNF4A Mitochondrie,
Réduction de l'oxydation,
Enveloppe mitochondriale
4 152 AR, miR-127, miR-377, miR-323, miR-299, miR-221, miR-433, miR-376a, miR-136, miR-18a, miR-296, miR-154, miR-431, miR-382, miR-369, miR-200b Réduction de l'oxydation,
Processus métabolique des cofacteurs,
Processus métabolique des stéroïdes
5 103 NR1I3, NR1I2, ESR1 Réduction de l'oxydation,
Microsome,
Processus métabolique des acides gras
6 75 E2F1, E2F7 Cycle cellulaire,
Mitose,
Chromosome,
Lumière nucléaire
3, 4, 5525NR1I3,miR-150, miR-142, miR-155, miR-181a, AR, NR1I2, miR-342, miR-27a, miR-146a, HNF4A, miR-199a, miR-218, miR-214, miR- 127, miR-132, ESR1, miR-377, SOX4, miR-323, miR-299, miR-221, miR-23aMitochondrie,
Réduction de l'oxydation,
Liaison de cofacteur,

Les régulateurs sont triés par nombre de cibles. Les régulateurs qui régulent plus de 80 % des gènes dans chaque module sont répertoriés. L'enrichissement de l'ontologie des gènes a été appliqué par DAVID pour trouver les fonctions communes des gènes. La taille de chaque module correspond au nombre de nœuds. Les résultats détaillés de l'enrichissement se trouvent dans le fichier supplémentaire 2.

Carte thermique des valeurs d'expression des gènes dans les six modules. Carte thermique des valeurs d'expression des gènes dans les six modules identifiés dans le réseau illustré à la figure ​ Figure3. 3 . Pour chaque figure, les lignes correspondent aux gènes et les colonnes correspondent aux échantillons des cartes thermiques. Les valeurs d'expression sont le logarithme de la valeur du rapport en base 2. La première colonne devant chaque carte thermique est la t-valeur pour chaque gène, et la couleur du t-value représente si le gène est régulé à la hausse (rouge) ou à la baisse (vert). Pour chaque carte thermique, le profil d'expression des cibles et des régulateurs est illustré séparément. Seule l'expression pour les régulateurs répertoriés dans le tableau ​ Tableau1 1 est illustrée.

Pour le CHC induit par le VHB, la réponse immunitaire de l'hôte pour éliminer les agents pathogènes anormaux est inhibée. Les gènes cibles du module 1 sont étroitement liés à la réponse immunitaire et la plupart des gènes sont régulés à la baisse. Il y a sept régulateurs principaux dans le module 1, dans lesquels RUNX3, POU2AF1, POU2F2, FLI1 et PRDM1 ont été considérablement régulés à la baisse (p-valeur <�-6). RUNX3 a été suggéré comme étant un suppresseur de tumeur, et son gène est fréquemment réduit au silence transcriptionnel dans le cancer [30]. POU2F2, avec son facteur POU2AF1, agit comme un facteur de survie cellulaire dans les cellules immunitaires et joue un rôle central dans la transcription lymphoïde spécifique des gènes des immunoglobulines [31]. FLI1 peut affecter l'apoptose dans les cellules tumorales [32], et PRDM1 est un gène suppresseur de tumeur candidat lié au système immunitaire [33].

L'adhésion cellulaire est généralement supprimée dans les cancers. Une adhésion cellulaire réduite permet aux cellules cancéreuses de perturber la structure histologique, entraînant les caractéristiques morphologiques des tumeurs malignes [34]. Les gènes cibles du module 2 liés aux activités extracellulaires sont régulés à la baisse. Il y a six régulateurs principaux dans le module 2, dans lesquels HAND2, TCF4, FOXF1 et ARID5B (p-value <�-3) ont été considérablement régulés à la baisse, et FOXF2 a été considérablement régulé à la hausse (p-valeur <�-4). HAND2 régulerait le remodelage de la matrice extracellulaire [35]. Le TCF4 est un facteur clé de la voie Wnt et est impliqué dans la prolifération des cellules HCC [36]. Il a été rapporté que le déficit en FOXF1 diminuait l'adhésion cellulaire [37], et FOXF2 est important pour la production de matrice extracellulaire [38].

La mitochondrie est un organite clé du métabolisme cellulaire. Ce n'est pas seulement une usine d'énergie, mais régule également les voies de mort cellulaire. Dans les cellules cancéreuses, en raison d'une prolifération rapide, la phosphorylation oxydative est supprimée afin que les mitochondries consomment moins d'oxygène [39]. Dans nos résultats, les cibles des modules 3𠄵 sont principalement liées aux fonctions des mitochondries, telles que la réduction oxydative et le métabolisme. Parmi les régulateurs, miR-150, miR-146a, miR-199a, miR-214, ainsi que NR1I3, AR, NR1I2 et ESR1 ont été considérablement régulés à la baisse (p-value  < �-6) et miR-221 était considérablement régulé à la hausse (p-valeur <�-12). Il a été rapporté que MiR-150 inhibe le cancer du foie par une régulation négative de c-Myb [40]. Un polymorphisme dans miR-146a est associé au risque de CHC [41], tandis que miR-199a induit l'apoptose et inhibe la voie ERK [42]. MiR-214 induit la survie cellulaire en ciblant la voie PTEN/Akt pour supprimer l'apoptose [43], et la surexpression de mir-221 contribue à la tumorigenèse hépatique [44]. L'androgène est lié au HCC, et donc son récepteur, AR, joue également un rôle important [45]. NR1I2 et NR1I3 sont liés au métabolisme des lipides et à la génération de HCC [46]. Enfin, ESR1 est associé à une susceptibilité au CHC chez les porteurs du VHB [47].

C'est une caractéristique commune que la prolifération cellulaire est activée dans les tissus cancéreux, on s'attend donc à ce que les gènes liés au cycle cellulaire soient tous régulés à la hausse (Module 6). Deux régulateurs, E2F1 et E2F7, ont été considérablement régulés à la hausse (p-value <�-16), et sont des TF bien connus de la famille E2F qui contrôlent le cycle cellulaire [48].

Pour résumer, la régulation des gènes est modulaire en ce sens que chaque ensemble de régulateurs régule des processus biologiques spécifiques. De plus, les deux types de régulateurs ont une division claire du contrôle. Nous avons montré que les miARN contrôlent les fonctions biologiques liées aux mitochondries et à la réduction oxydative, tandis que les TF contrôlent la réponse immunitaire, les activités extracellulaires et le cycle cellulaire.

Fonctions associées aux miARN dans le GRN

Pour avoir un aperçu complet des fonctions des miARN dans le GRN, nous avons effectué une analyse TAM [49]. L'outil TAM prend une liste de miARN et renvoie les fonctions enrichies par rapport à l'ensemble des miARN humains. Nos résultats pour les fonctions enrichies associées aux miARN sont répertoriés dans le tableau ​ Table2 2 (FDR <𠂐.01). Comme prévu, la plupart des fonctions sont fortement liées au cancer, telles que les onco-miARN et la prolifération cellulaire. De plus, nous avons constaté que les fonctions liées à la réponse immunitaire sont enrichies en miARN. Cependant, selon notre analyse des modules de réseau, les TF sont principalement responsables de la réponse immunitaire. De cela, nous avons déduit qu'il pourrait exister un mécanisme par lequel les miARN régulent ces TF et régulent davantage ces fonctions associées aux TF indirectement. Ce concept sera discuté en détail dans les sections suivantes. De plus, nous avons trouvé que les miARN dans le GRN sont hautement enrichis en HCC (p-value =𠂕.75e-12, en utilisant HMDD [50] comme catégorie de miARN).

Tableau 2

Fonctions associées aux miARN enrichies dans le GRN

Termep-valeurRAD
Régulation des cellules souches embryonnaires humaines (CSEh) 8.46e-14 3.64e-12
Inflammation 1.00e-08 2.15e-07
Hématopoïèse 8.00e-08 1.15e-06
Apoptose 2.70e-07 2.90e-06
Lié au cycle cellulaire 4.90e-07 3.81e-06
Régulation hormonale 5.60e-07 3.81e-06
Onco-miARN 6.20e-07 3.81e-06
Réponse immunitaire 1.60e-06 8.60e-06
Suppresseurs de tumeurs MiARN 2.21e-06 1.06e-05
Mort cellulaire 4.70e-06 2.02e-05
Différenciation cellulaire 2.40e-05 9.39e-05
L'angiogenèse 3.06e-05 1.10e-04
Motilité cellulaire 2.34e-04 7.48e-04
Transition épithéliale-mésenchymateuse 2.60e-04 7.48e-04
Latence du VIH 2.61e-04 7.48e-04
Le développement du cerveau 2.97e-04 7.99e-04
Remodelage de la chromatine 3.36e-04 8.31e-04
Système immunitaire 3.48e-04 8.31e-04
Le métabolisme des glucides 1.04e-03 2.35e-03
Sentier Akt 1.29e-03 2.78e-03
Régénération osseuse 1.72e-03 3.53e-03
Cardiogenèse 3.13e-03 6.12e-03
Proliferation cellulaire3.95e-037.39e-03

Réseau central de régulation des gènes

Bien que chaque module de réseau puisse fournir un contrôle spécifique des fonctions biologiques, pour maintenir l'intégrité du système biologique, une dépendance existe entre les modules. Au-delà de la modularité de la régulation des gènes, il devrait y avoir un mécanisme central pour réguler le modèle d'expression de chaque module à un niveau supérieur. Ainsi, nous avons introduit le concept du noyau GRN qui contient les réglementations les plus importantes parmi les régulateurs et les comportements en tant que centre de contrôle pour le GRN mondial.

Le noyau GRN est le sous-réseau extrait du GRN global, où les nœuds du noyau GRN ne sont que des TF et des miARN. Les arêtes du noyau GRN ont l'interdépendance la plus élevée (supérieure à 99 & 02009 % quantile) calculée à partir du GRN global. L'entre-deux-points est défini par le nombre de chemins les plus courts passant par un bord du réseau, et dans le contexte du GRN, l'entre-deux-points mesure le nombre de cibles qu'une réglementation affecterait. Dans le noyau GRN, il y avait 32 nœuds et 42 bords. Parmi elles, neuf interactions ont été soutenues par des expériences antérieures. En particulier, 17 interactions supplémentaires soutenues expérimentalement peuvent être déduites du noyau GRN indirectement (la liste peut être trouvée dans le fichier supplémentaire 3). Le noyau GRN est illustré dans les figures ​ Figures3 3 et ​ et 5, 5, et la liste adjacente des noyaux GRN se trouve dans le fichier supplémentaire 4.

Réseau central de régulation des gènes. Différentes couleurs représentent les différents modules auxquels appartiennent les nœuds. La couleur de chaque module est la même que la couleur illustrée à la Figure ​ Figure3. 3 . Les bords noirs représentent les interactions sont pris en charge par des expériences.

Le nombre d'arêtes dans le GRN principal ne couvre que 1,0 % de tous les arêtes du GRN global, et la suppression de ces arêtes n'affecte pas la connectivité du GRN global. Ainsi, on peut en déduire que les attributs locaux du réseau ne seront pas affectés par le noyau GRN. Cependant, la somme des bords intermédiaires représente 65,8 % de la somme des bords intermédiaires dans le GRN global. Cela signifie que la plupart des informations sont contrôlées par le GRN central et affecteraient la plupart des nœuds du GRN global. Lors de la suppression de ces bords importants, les attributs globaux du réseau seraient modifiés et le système serait susceptible de tomber en panne.

Le rôle principal du GRN a deux aspects. Premièrement, il ajuste le réseau réglementaire au plus haut niveau. Il divise l'ensemble du réseau en deux couches avec une limite claire. Dans la couche inférieure, les protéines sont synthétisées sous la régulation des TF et des miARN, pour jouer des rôles à l'intérieur ou à l'extérieur des cellules. Alors qu'il se trouve dans la couche supérieure, le noyau GRN contrôle quel type de protéines serait exprimé à quel moment et à quel emplacement cellulaire. En conséquence, l'ensemble du GRN est organisé comme un système contrôlable et distribué. Deuxièmement, le noyau GRN peut améliorer la redondance du réseau de régulation. Les régulateurs et les relations régulatrices dans le noyau GRN peuvent contrôler plus d'un module, et les régulations des protéines non régulatrices sont influencées par le noyau GRN à travers une variété de chemins. Par conséquent, lorsqu'un chemin de régulation ne fonctionne pas pour certaines protéines, le système affectera d'autres chemins pour traiter les régulations afin d'éviter l'effondrement global causé par une petite partie des dommages. En outre, un grand nombre de boucles de rétroaction et de rétroaction existent dans le GRN central, qui contribuent à la flexibilité, à la résilience et à la stabilité du GRN central, ainsi qu'à la stabilité de l'ensemble du réseau de réglementation.

Dans le noyau GRN, la plupart des régulateurs sont liés aux cancers. PBX1 [51], TWIST1 [52], HNF4A [53], ERG [54], FOXA2 [55], NR2F2 [56], FLI1 [57], GLI2 [58], RARB [59], RUNX3 [30], BHLHB3 [60], RUNX2 [61], TCF4 [36] and FOXF1 [62] are reported TFs related to cancers. After querying the human microRNA disease database (HMDD) [50], we found miR-21 [63], miR-199a [42], miR-155 [64], miR-142 [65], miR-181a [66], miR-146a [41], and miR-150 [40] are reported miRNAs related to cancers. Especially, there is direct evidence for the involvement of TWIST1, HNF4A, GLI2, RARB, RUNX3, TCF4, FOXF1, miR-21, miR-199a, miR-155, miR-142, miR-146a, miR-181a, and miR-150 in HCC generation.

Transcription-level regulation of biological pathways

In the complete cellular system, there exist several kinds of biological networks: metabolic networks containing chemical reactions between metabolites and enzymes, protein-protein interaction networks containing protein modification and signaling transduction, and the gene regulatory network. The aim of GRN control is to regulate the quantity of downstream proteins, and to further influence the protein-protein interaction and metabolic networks. For a type of specific biological network, pathways are a set of genes and molecules that act together in the form of both metabolic and protein-protein interactions to carry out certain biological functions. It may explain how pathways are affected in diseases from the viewpoint of gene regulation of pathways. Thus, we predicted the regulations of KEGG pathways by the GRN. We found enriched pathways from all genes in the GRN, and the significant pathways are listed in Table ​ Table3 3 (FDR <𠂐.05). Most of the enriched pathways are highly related to HCC, such as fatty acid metabolism, which is associated with tumors [67] and cell adhesion. An example of the regulation of the fatty acid metabolism pathway is illustrated in Figure ​ Figure6, 6 , where the top part is the GRN level and the bottom part is the pathway level. It may provide insights to explain how fatty acid metabolism is altered under the control of the GRN. For regulations of all significant pathways by core the GRN, readers can refer to Additional File 5.


Matériaux et méthodes

Data preparation

Spatial expression database.

We extract the pre-processed ISH images from FlyExpress (http://www.flyexpress.net) [23–25]. In this database, the raw ISH images from BDGP database have been cropped, aligned, and scaled to the size of 320 × 128. As in the BDGP database, the standardized images are assigned to 16 embryonic stages, each gene corresponds to a group of images, and a set of CV (controlled vocabulary) terms.

GRN for Drosophile eye development.

The ground truth TF-target gene interactions, i.e. the verified interactions, are from the study of Ref. [19], in which a large-scale gene regulatory network on Drosophile eye development was established. We regard it as valid because they considered both co-expression relationships (by RNA-Seq) and physical interactions (using computational motif inference) to yield the TF-target associations. Moreover, the authors marked confidence levels for the GRNs, namely, high-, medium and low-confidence, and they released the high- and medium- GRNs. In the high-confidence GRN, TF-target links were drawn from direct evidence, while the medium-confidence network contains the links with partial evidence.

Construction of the data sets.

Note that the organism samples used in Potier’s study [19] are fruit fly larvae, because the eye development mainly happens during the larval stage [26]. In fact, the eye development already begins early in embryo (a lot of genes are annotated by eye-related terms in BDGP), and BDGP collects only embryonic images, thus we use the images from the last stage range of embryonic period, i.e. stage 13-16. In order to build a benchmark set, we retrieve the common genes shared between the high-confidence GRN and the last embryonic stage range in FlyExpress, including 96 TFs, 1261 target genes and 2889 TF-gene links. The negative data is randomly selected TF-gene pairs from the same gene set, and the negative pairs are not present in the high- or medium-confidence network. The positive to negative ratio is set to 1:1. We divide the TF-gene pairs into training and test sets, where images belonging to the same gene are either in the training set or in the test set. The training to test ratio is 4:1, and 10% training data is used for validation. In order to prepare an independent test set, we filter out the links common to the high-confidence and medium-confidence networks, leaving the links specific to the medium-confidence network. The statistics of the benchmark dataset and independent test set are shown in Table 1.

Problem modeling

In this study, we try to determine whether a certain TF regulates a certain gene’s expression according to their ISH images, thus the input is a combination of two image features and output is a probability of the existence of regulating relationship. However, this is not a conventional image classification problem, as each gene corresponds to a set of images, captured in different orientations, i.e. lateral, ventral and dorsal, or from different experimental batches, and the size of set is not fixed. Therefore, in order to employ the state-of-the-art deep learning models, we generate a set of instances for each gene pair, which includes all the cross-gene image pairs, and each pair of images should have the same orientation. Specifically, for a TF gje and a gene gj, they correspond to two image sets, Xje et Xj, respectivement. Laisser Xje be the union of three sets, Xje,je, Xje,v, Xje,, which contain images of lateral, ventral and dorsal orientation, respectively. Et Xj is defined in the same way.

Let be the output space, and ouije,j(∈ <0, 1>) be the output label, indicating whether the interaction between gje et gj exists or not. In the original learning scenario, we want to learn a mapping function F as shown in Eq (1), (1) where the input consists of two varying sized image sets. To simplify this multi-instance learning problem, we split the pair (Xje, Xj) into multiple pairs of single images, e.g. , where is the pth image in Xje, est le qth image in Xj, and and have the same orientation. In the training phase, we assign the same label ouije,j to all the pairs splitted from (Xje, Xj), and we try to learn a mapping function F′, which satisfies Eq (2), (2) where the ⊕ operator concatenates the two vectors into a whole feature vector, then the task is converted into a single-instance learning problem in conventional supervised learning scenario. Note that a single image may not cover all the representative expression patterns of its corresponding gene, thus the above simplification may cause some problem, but according to the previous studies, the single-instance learning works well for the automatic annotation of Drosphila embryonic images [17, 27], and another advantage of the conversion to single-instance learning is that it substantially expands the data set.

After training, we obtain the estimated mapping function for prediction. The model outputs a probability value for each pair of images with the same orientation. Since our goal is to predict the regulatory relationship for TF-gene pairs, in the test phase, we need to integrate the outputs of image pairs to the final probability of the TF-target linkage, as shown in Eq (3), (3) where |⋅| denotes the size of a set. We set the threshold to the default value 0.5, i.e., an output probability greater than or equal to 0.5 indicates the existence of regulatory relationship.

Model architecture

We model the prediction of gene regulatory interaction as a binary classification problem, in which a data instance corresponds to a gene pair, and a label (positive or negative) denotes the presence or absence of regulatory interaction between the two genes. The data features are extracted from gene expression images. The training labels are from previously revealed GRNs by using RNA-Seq data and computational motif inference [19]. Fig 2 shows the flowchart of GripDL. The convolutional neural network (CNN) serves as a binary classifier. Especially, we adapt ResNet50 [28] model in our prediction system. The top layer of ResNet50 model is replaced by a fully connected layer activated by tanh function with an output dimensionality of 128, where both the batch normalization and dropout (dropout rate 0.1) are used. The 128-D output is fed into the final fully connected layer and gives rise to the prediction probability via a sigmoid activation function. The detailed settings of model architecture is shown in Table 2. There are four sets of residual blocks, namely conv2_x, conv3_x, conv4_x, and conv5_x, which contain different numbers of basic residual units.


Comparative Analysis of Gene Regulatory Networks: From Network Reconstruction to Evolution

Regulation of gene expression is central to many biological processes. Although reconstruction of regulatory circuits from genomic data alone is therefore desirable, this remains a major computational challenge. Comparative approaches that examine the conservation and divergence of circuits and their components across strains and species can help reconstruct circuits as well as provide insights into the evolution of gene regulatory processes and their adaptive contribution. In recent years, advances in genomic and computational tools have led to a wealth of methods for such analysis at the sequence, expression, pathway, module, and entire network level. Here, we review computational methods developed to study transcriptional regulatory networks using comparative genomics, from sequence to functional data. We highlight how these methods use evolutionary conservation and divergence to reliably detect regulatory components as well as estimate the extent and rate of divergence. Finally, we discuss the promise and open challenges in linking regulatory divergence to phenotypic divergence and adaptation.


Possibilités d'accès

Obtenez un accès complet au journal pendant 1 an

Tous les prix sont des prix NET.
La TVA sera ajoutée plus tard dans la caisse.
Le calcul des taxes sera finalisé lors du paiement.

Obtenez un accès limité ou complet aux articles sur ReadCube.

Tous les prix sont des prix NET.


Gene Regulatory Networks

Eric H. Davidson , Isabelle S. Peter , in Genomic Control Process , 2015

Résumé

Gene regulatory network (GRN) theory defines the principal structural and functional properties of genomic control programs in animals. Here we provide an introductory overview, specifying the components of GRNs, and focusing on higher level design features such as hierarchy, modular organization, and the unidirectionality of these encoded regulatory systems. We consider two major aspects of GRN output, the generation of regulatory states that in turn determine all downstream genetic functions, and the Boolean nature of spatial gene expression that underlies developmental process. The genomic regulatory transactions linked together in GRNs are executed by cis-regulatory modules, and their combinatorial information processing function deeply affect GRN organization. This chapter further includes a first principles quantitative treatment of network dynamics, which rationalizes the measurable kinetics of accumulation of transcriptional products and permits computational assessment of the outputs of regulatory gene cascades. Current GRN theory devolves from multiple earlier roots which we very briefly trace.


Which gene regulatory network is the largest in human? - La biologie

Gene regulatory networks are crucial for understanding the mechanism of gene expression regulation and expression heterogeneity. GRNdb is a freely accessible and user-friendly database for conveniently exploring and visualizing the predicted regulatory networks formed by transcription factors (TFs) and downstream target genes (termed regulons) based on large-scale RNA-seq data as well as the known TF-target relationships for various human and mouse conditions.

All the regulations in GRNdb are predicted from the omics data rather than being experimentally determined. Users can easily search, browse, and download the TF-target pairs and corresponding motifs of a variety of conditions at the single-cell or bulk level, as well as investigate the expression profile of a list of genes simultaneously and analyze the association between gene expression level and the patients' survival of diverse TCGA cancers. We will continue to update GRNdb and add more datasets for different organisms.


Voir la vidéo: Régulation de lexpression des gènes: exemple de lopéron lactose (Janvier 2023).