Informations

Recapture de capture d'amorçage paramétrique

Recapture de capture d'amorçage paramétrique


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

J'utilise la recapture de capture (un échantillon) pour estimer la population humaine cachée. Une méthode d'échantillonnage utilise uniquement les fréquences de capture pour estimer la population. Un de mes collègues a suggéré une méthode d'amorçage paramétrique pour évaluer la variabilité de l'estimation de la taille de la population. J'ai essayé de faire des recherches en ligne un peu sur cette méthode de bootstrap paramétrique, mais je ne comprends toujours pas comment elle est exécutée. Je sais que l'amorçage consiste essentiellement à rééchantillonner les données avec remplacement, puis à en calculer la variance. Cependant, comment effectuer un bootstrap paramétrique (je suppose que les fréquences de capture suivent la distribution de Poisson) sur les données de recapture de capture ? Traitons-nous les fréquences comme des données, c'est-à-dire que si f(1)=100 et f(2)=9, nos données ont 100x 1 et 9x 2, puis rééchantillonnons-les ? La probabilité de capture quotidienne est-elle le paramètre $lambda$ dans la distribution de Poisson ?

Je suppose que ce que j'essaie de demander, c'est comment effectuez-vous le bit d'échantillonnage d'un bootstrap paramétrique [en capture recapture] ?


J'ai fait une petite recherche et je pense que ça marche comme ça:

  1. Recueillez un ensemble de données de $n$ observations.

  2. Ajustez un modèle paramétrique à vos données. Si vous souhaitez modéliser les recaptures, je suggérerais un Poisson-GLM. Vous pouvez également estimer le paramètre directement à partir de vos données et paramétrer simplement une distribution de Poisson. Cependant, cette approche ne modéliserait pas la variation aléatoire de vos données.

  3. Utilisez le modèle ajusté pour tirer un échantillon de taille $n$

  4. Calculez la métrique souhaitée en fonction de l'échantillon. Je suppose que dans votre cas, ce serait la taille de la population humaine (calculée comme ${N} = frac{nM}{m}$ ?)

  5. Répétez les étapes 3 et 4 plusieurs fois (1000+)

  6. Voilà! Vous pouvez désormais facilement évaluer la variabilité de la taille de la population sur la base des estimations de vos échantillons bootstrap.


Méthodes de capture-recapture de données sur l'activation d'applications sur téléphones mobiles

Ce travail porte sur l'analyse des données marketing sur l'activation des applications (apps) sur les appareils mobiles. Chaque application possède un numéro d'identification haché propre à l'appareil sur lequel elle a été installée. Ce numéro peut être enregistré par une plateforme à chaque activation de l'application. Les activations sur un même appareil sont liées entre elles à l'aide du numéro d'identification. En se concentrant sur les activations qui ont eu lieu sur un site commercial, on peut créer un ensemble de données de capture-recapture sur les appareils, c'est-à-dire les utilisateurs, qui ont « visité » l'entreprise : les unités sont propriétaires d'appareils mobiles et les occasions de capture sont des intervalles de temps tels que comme jours. Une unité est captée lorsqu'elle active une application, à condition que cette activation soit enregistrée par la plateforme fournissant les données. Des techniques de capture-recapture statistiques peuvent être appliquées aux données de l'application pour estimer le nombre total d'utilisateurs ayant visité l'entreprise sur une période donnée, fournissant ainsi une estimation indirecte du trafic piétonnier. Cet article soutient que la conception robuste, une méthode pour traiter une expérience de marquage-recapture imbriquée, peut être utilisée dans ce contexte. Un nouvel algorithme pour estimer les paramètres d'un plan robuste avec un assez grand nombre d'occasions de capture et un estimateur de variance bootstrap paramétrique simple sont proposés. De plus, de nouvelles méthodes d'estimation et de nouveaux résultats théoriques sont introduits pour une application plus large du plan robuste. Ceci est utilisé pour analyser un ensemble de données sur les appareils mobiles qui ont visité les concessionnaires automobiles d'une grande marque automobile dans une région métropolitaine des États-Unis sur une période d'un an et demi. Des documents supplémentaires pour cet article, y compris une description standardisée des documents disponibles pour la reproduction de l'œuvre, sont disponibles sous forme de supplément en ligne.


Introduction

L'étude de l'abondance de la population et l'analyse de ses fluctuations dans le temps, c'est-à-dire la dynamique des populations, constitue un outil fondamental dans la surveillance, la conservation et la gestion adaptatives de la faune 1,2. Cependant, il est souvent difficile d'obtenir des estimations fiables de la taille de la population, ou même d'évaluer avec précision la présence d'espèces, étant donné que les espèces au sein d'une communauté et les individus au sein d'une population sont généralement détectés de manière imparfaite 1,3. Afin de tenir compte de la détection imparfaite, les chercheurs ont développé plusieurs méthodes pour obtenir des estimations fiables de l'abondance, telles que la capture-marquage-recapture (CMR), le prélèvement et l'échantillonnage à distance 1,4. Ces méthodes reposent principalement sur l'identification individuelle ou sur une sorte de données auxiliaires (par exemple dans l'échantillonnage à distance, la distance perpendiculaire entre l'observation et le transect) qui peuvent être coûteuses en termes de coûts et d'efforts, peu pratiques à collecter ou même inadaptées dans des environnements complexes ou pour les petites espèces secrètes. Au cours des quinze dernières années, le développement et l'application de modèles de mélange N 5 , qui permettent une estimation simultanée de l'abondance et de la probabilité de détection, ont suscité un grand intérêt de la part des écologistes de terrain 6 . Ces méthodes reposent sur des dénombrements répétés d'individus sur plusieurs sites (par exemple, des transects linéaires ou des parcelles) et sont très rentables 7,8. Plus récemment, certaines extensions de ces modèles ont été formulées pour divers types de données autres que les dénombrements simples, tels que les données de prélèvement ou de double observateur 9 , pour modéliser les populations ouvertes d'une manière robuste 10 , ou même pour modéliser l'abondance des espèces spécifiques à l'espèce. ensembles ou communautés entiers 6,11 . Une autre caractéristique importante des modèles de mélange N est la capacité de modéliser à la fois le processus d'observation (c. actions 12,13 . L'utilisation croissante de la modélisation du mélange N dans les programmes de surveillance et les études écologiques a conduit à un intérêt croissant pour leur fiabilité. En effet, plusieurs études ont soulevé des problèmes en ce qui concerne l'identifiabilité des paramètres lorsque les hypothèses du modèle sont violées ou en présence de sources non modélisées d'hétérogénéité dans les processus d'abondance ou de détection 14,15. Néanmoins, malgré les problèmes soulevés, de nombreuses études récentes ont confirmé la fiabilité de cette famille de modèles dans des applications réelles : en les comparant à une variante hiérarchique d'un modèle de capture-recapture 16 , ou en comparant les estimations d'abondance obtenues au moyen de N- modèles de mélange par rapport à ceux estimés avec des méthodes largement acceptées, telles que CMR, enlèvement ou échantillonnage à distance 7,17,18,19,20 . Bien que la modélisation du mélange N puisse être utilisée dans de nombreuses situations, cette approche repose généralement sur un plan de métapopulation, dans lequel des dénombrements répétés d'individus dans plusieurs emplacements d'échantillonnage sont obtenus au fil du temps 6 . Cependant, en particulier lorsqu'il s'agit d'espèces avec une aire de répartition géographique très étroite et peu de populations connues, un protocole de surveillance spatialement répliqué peut être impraticable, et seules des données pour des populations uniques au cours d'années successives peuvent être disponibles. Dans ces situations, l'application de la substitution temps-espace (TSS) dans le cadre de modélisation du mélange N peut être une option appropriée pour surveiller une population sur un seul site sur plusieurs années 20,21. La substitution temps-espace est appliquée lorsque plusieurs comptages sont effectués sur des intervalles de temps réguliers (par ex. des dénombrements répétés au cours de l'année (c.-à-d. des enquêtes) sont utilisés comme réplications temporelles, compte tenu de la population démographiquement fermée au cours de chaque année. Ce cadre a été utilisé pour un système multi-espèces avec des données de détection/non-détection d'espèces d'oiseaux obtenues pendant neuf années consécutives sur un seul site au Japon 21 . Il a également été appliqué sur un ensemble de données couvrant 20 ans d'une population en déclin d'un gecko en voie de disparition en Italie, trouvant un bon accord avec les estimations CMR obtenues à partir des mêmes données, et validant ainsi le cadre TSS sur une application réelle 20 . Bien qu'une évaluation de cette technique par rapport à un petit scénario de simulation existe déjà, la nécessité d'une évaluation approfondie à travers un cadre de simulation plus étendu a été soulignée 6 .

Le but de cette étude est de fournir une évaluation de la fiabilité du TSS appliqué aux modèles de mélange N, et en particulier d'évaluer la fiabilité des estimations d'abondance et de tendance sur plusieurs scénarios, y compris différentes dynamiques de population, abondance initiale, probabilité de détection, effort de relevé. ou la durée de l'étude, en simulant les données de dénombrement d'une seule population étudiée plusieurs fois par an et soumise à différentes dynamiques, puis en comparant les valeurs réelles d'abondance et de tendance avec les estimations du TSS.


Estimation de la taille de la population avec détection imparfaite à l'aide d'un bootstrap paramétrique

Lisa Madsen, Département de statistique, Université d'État de l'Oregon, 239 Weniger Hall, Corvallis, OR 97331.

Commission géologique des États-Unis, Corvallis, Oregon

Département de statistique, Oregon State University, Corvallis, Oregon

Commission géologique des États-Unis, Corvallis, Oregon

Service américain de la pêche et de la faune, Dillingham, Alaska

Département de statistique, Oregon State University, Corvallis, Oregon

Lisa Madsen, Département de statistique, Université d'État de l'Oregon, 239 Weniger Hall, Corvallis, OR 97331.

Commission géologique des États-Unis, Corvallis, Oregon

Département de statistique, Oregon State University, Corvallis, Oregon

Commission géologique des États-Unis, Corvallis, Oregon

Service américain de la pêche et de la faune, Dillingham, Alaska

Connexion institutionnelle
Connectez-vous à la bibliothèque en ligne Wiley

Si vous avez déjà obtenu l'accès avec votre compte personnel, veuillez vous connecter.

Acheter un accès instantané
  • Consultez le PDF de l'article et les éventuels suppléments et chiffres associés pendant une durée de 48 heures.
  • L'article peut ne pas être imprimé.
  • L'article peut ne pas être téléchargé.
  • L'article peut ne pas être redistribué.
  • Visualisation illimitée de l'article PDF et des éventuels suppléments et figures associés.
  • L'article peut ne pas être imprimé.
  • L'article peut ne pas être téléchargé.
  • L'article peut ne pas être redistribué.
  • Visualisation illimitée de l'article/chapitre PDF et des éventuels suppléments et figures associés.
  • L'article/le chapitre peut être imprimé.
  • Article/chapitre téléchargeable.
  • L'article/le chapitre peut ne pas être redistribué.

Résumé

Nous développons une nouvelle méthode d'estimation de la taille de la population à partir de dénombrements d'individus imparfaitement détectés et une estimation distincte de la probabilité de détection. Les dénombrements observés sont séparés en classes dans lesquelles la probabilité de détection est supposée constante. Au sein d'une classe de détection, les comptages sont modélisés comme une seule observation binomiale X avec probabilité de réussite p où le but est d'estimer l'indice N. Nous utilisons un estimateur de type Horvitz-Thompson pour N et tenir compte de l'incertitude à la fois dans les données de l'échantillon et dans la probabilité de succès estimée via un bootstrap paramétrique. Contrairement aux méthodes de capture-recapture, notre modèle ne nécessite pas d'échantillonnage répété de la population. Notre méthode est capable d'obtenir de bons résultats, même avec de petites X. Nous montrons dans une étude de simulation factorielle que la médiane de l'échantillon bootstrap a un faible biais par rapport à N et que les probabilités de couverture des intervalles de confiance pour N sont presque nominales dans un large éventail de scénarios. Notre méthodologie commence à s'effondrer lorsque P(X=0)>0.1 mais est toujours capable d'obtenir une couverture de confiance raisonnable. Nous illustrons la technique proposée en estimant (1) la taille d'une population d'orignaux en Alaska et (2) le nombre de décès de chauves-souris dans une centrale éolienne, tous deux à partir d'échantillons avec des probabilités de détection imparfaites, estimés indépendamment.


Méthodes

Description de l'étude de simulation

Dans l'étude de simulation, nous avons créé 500 ensembles de données avec 5 000 cas chacun. La date de naissance et le sexe des cas ont été échantillonnés à partir des distributions de date de naissance et de sexe des cas réels d'IPD trouvés dans la surveillance sentinelle. La sélection des codes postaux a été pondérée par le nombre de résidents âgés de 50 ans et plus inscrits à ces codes postaux. Huit scénarios différents ont déterminé comment et quels cas ont été détectés par trois systèmes de surveillance différents. Dans la suite du texte, ces systèmes seront appelés sentinelle, Centre National de Référence (CNR) et échantillon hospitalier. Les scénarios sont donnés ci-dessous.

Échantillonnage aléatoire (Mt) : Des cas ont également été détectés. Le nombre de cas détectés dans un échantillon a été déterminé par le nombre de détecteurs participants (laboratoires, hôpitaux) sur le nombre total de détecteurs ( ).

Échantillonnage dépendant des covariables (Me.âge) : La probabilité d'être détecté par l'un des trois échantillons a augmenté (poids de probabilité = âge(jours)^2.5) avec l'âge du boîtier. Un cas de 100 ans était 2^2,5 fois plus susceptible d'être détecté qu'un cas de 50 ans. La taille des échantillons est déterminée comme dans l'échantillonnage aléatoire ( ).

Hétérogénéité spatiale (Me.prise de bec) : La probabilité d'être détecté est déterminée par l'emplacement du boîtier, par rapport à l'emplacement des détecteurs. Un cas est détecté par l'un des trois détecteurs les plus proches. Ce détecteur ne participe pas nécessairement à un système de surveillance spécifique. Le sous-ensemble de détecteurs qui ont participé à un réseau de surveillance était basé sur l'ensemble de données IPD. La probabilité de capture est égale pour les trois détecteurs les plus proches. La taille des échantillons est déterminée comme dans l'échantillonnage aléatoire ( ).

Références (Mtb.réf) : Après échantillonnage aléatoire, les cas ont été référés d'un échantillon à l'autre 30% des cas de laboratoire sentinelle ont été référés au NRC, 40% des cas hospitaliers ont été référés au NRC

Chaque cas a reçu une variable d'identification unique pendant la simulation. Les systèmes de surveillance ont répertorié les cas capturés, après quoi les listes ont été fusionnées par la variable ID. Pour chaque simulation de chaque scénario, il y avait un ensemble de données final, composé de caractéristiques de cas (ID, code postal, date de naissance, sexe, âge) et de caractéristiques de capture (laboratoire de détection, hôpital de détection, distance jusqu'au laboratoire de détection, distance jusqu'à l'hôpital de détection, date de détection et historique de détection).

Dans les scénarios ci-dessus uniquement Mt (échantillonnage aléatoire) n'a pas de source de dépendance. Les scénarios qui ont introduit la dépendance ont été comparés au scénario d'échantillonnage aléatoire pour démontrer l'effet de la dépendance. L'effet de l'échantillonnage par âge a été illustré en comparant les densités de la probabilité de capture dans le scénario dépendant de la covariable (Me.âge) et le scénario aléatoire (Mt). L'hétérogénéité spatiale a été illustrée par une fonction de risque relatif lissée par noyau, calculée par le R-package « sparr » [28]. Le risque relatif représente le rapport des probabilités de détection (Me.prise de bec/Mt). L'effet des références a été illustré en calculant le rapport de cotes pour la détection dans un échantillon par la détection dans un autre échantillon. De plus, nous avons construit quatre autres scénarios dans lesquels ces sources d'hétérogénéité ont été combinées. Trois scénarios (Me.âge.prise de bec, Mthb.âge.réf, Mthb.prise de bec.réf) avait deux et un scénario (Mthb.âge.prise de bec.réf) avait trois sources d'hétérogénéité.

Description des jeux de données belges sur les maladies infectieuses

Les populations IPD et coqueluche ont toutes deux été estimées par des études à trois échantillons. Les ensembles de données ont été appariés par un ensemble de caractéristiques de cas (code postal, sexe, date de naissance) car aucun identifiant de cas unique n'était présent. Si des cas avec des identifiants identiques étaient détectés à plus de 90 jours d'intervalle, ils étaient traités comme des cas uniques. Les propriétés de l'algorithme d'appariement et l'analyse de sensibilité supplémentaire ont été décrites dans l'annexe S1. Les données ont été recueillies dans le cadre d'une approbation éthique ou d'une législation. L'étude pneumococcique en milieu hospitalier a été approuvée par le comité d'éthique de la KULeuven. Les Centres Nationaux de Référence est légiféré par KB 09/02/2011. La notification obligatoire en Flandre est régie par le «préventiedecreet 21/11/2003». La notification obligatoire en Wallonie est régie par le contrôle de la sécurité sanitaire du 1/07/1998. Pour la surveillance du laboratoire sentinelle, une déclaration a été soumise à la commission belge de la vie privée.

Etude IPD en milieu hospitalier.

En Belgique, une étude épidémiologique hospitalière des IIP chez l'adulte a été menée entre 2009 et 2011 [29]. L'étude a été coordonnée par un partenariat public-privé. Les adultes hospitalisés avec une IIP confirmée microbiologiquement étaient éligibles pour l'inclusion. Nous avons limité l'ensemble de données aux données sur les adultes âgés de 50 ans et plus et n'avons pris en compte que les données collectées entre le 1er juillet 2009 et le 30 juin 2011.

Centres nationaux de référence (CNR).

Le NRC a analysé les isolats qu'ils ont eux-mêmes collectés et les isolats qu'ils ont reçus des laboratoires belges. Les isolats ont été envoyés au CNRC sur une base volontaire, mais recommandée. Les objectifs d'un CNR étaient : la confirmation et la caractérisation supplémentaire des souches (séro et génotypage) et la détermination de la résistance aux antibiotiques [30]. Le CNRC pour B. coqueluche étaient le laboratoire du CHU de Bruxelles et l'Institut de Santé Publique. Un titre d'anticorps IgG contre la toxine coquelucheuse (PT) >125 UI/ml, une PCR ou une culture positive ont été considérés comme reflétant une infection coquelucheuse aiguë probable. L'ensemble de données NRC se composait de cas belges avec des échantillons collectés en 2014.

Le laboratoire de l'hôpital universitaire de Louvain est le CNR pour les isolats invasifs de Streptococcus pneumoniae bactéries. L'ensemble de données IPD était limité aux isolats obtenus à partir de sites normalement stériles, chez des adultes âgés de 50 ans ou plus, entre le 1er juillet 2009 et le 30 juin 2011.

Réseau de laboratoires sentinelles.

Streptococcus pneumoniae et Bordetella pertussis étaient deux des 36 agents pathogènes pour lesquels la surveillance était organisée à travers un réseau sentinelle de laboratoires [31]. La surveillance a commencé en 1983 et consistait à la fois en laboratoires hospitaliers et en laboratoires privés. Le réseau était coordonné par l'Institut de santé publique. L'ensemble de données IPD était limité aux isolats obtenus à partir de sites normalement stériles, chez des adultes âgés de 50 ans ou plus, entre le 1er juillet 2009 et le 30 juin 2011. L'ensemble de données sur la coqueluche comprenait tous les cas détectés en 2014.

Notification obligatoire.

La notification des cas confirmés de coqueluche était obligatoire dans les trois régions belges. La notification a été coordonnée par les agences régionales de santé publique. Les médecins et les laboratoires étaient obligés de notifier les cas, mais la notification était soupçonnée d'être incomplète. L'ensemble de données sur la coqueluche comprenait tous les cas notifiés en 2014.

Estimateurs

Cinq méthodes différentes ont été utilisées dans l'étude de simulation. Les mêmes méthodes ont été utilisées pour l'estimation de la population coquelucheuse et IPD. Ces méthodes ont déjà été utilisées dans des études épidémiologiques de capture-recapture. Nous avons sélectionné la modélisation loglinéaire, la vraisemblance multinomiale (conditionnelle), les estimateurs non paramétriques jackknife de Burnham et la couverture d'échantillon de Chao et la modélisation directe de la structure de dépendance sous-jacente avec le logiciel bayésien WinBUGS (Tableau 1). Une brève description des estimateurs utilisés est donnée dans l'annexe S1.


Discussion

Notre étude a fourni, pour la première fois, une estimation du nombre total de nouveaux diagnostics de VIH chez les enfants de moins de 13 ans en France métropolitaine au cours de la période 2003-2006 (N = 387). La complétude du système de déclaration obligatoire (DOVIH) et de la cohorte périnatale française (EPF) était inférieure à 30 %. Le nombre de cas observés dans les trois sources liées était de 56 %.

Limites et forces

Des violations possibles des hypothèses de capture-recapture sous-jacentes pourraient influencer la validité de nos résultats. Nos estimations doivent être interprétées avec prudence car les critères de la méthode de capture-recapture n'ont pas été entièrement satisfaits [8].

Identification des cas courants

Le couplage d'enregistrements a été effectué à l'aide d'une combinaison d'identificateurs, y compris l'année de naissance. Un nombre limité de cas courants ont été identifiés entre les registres et ont été confirmés par une validation manuelle ultérieure, minimisant ainsi la violation de l'hypothèse de couplage parfait des enregistrements. Des liens peuvent avoir été manqués entre la source LaboVIH et les 2 autres sources, entraînant potentiellement une sous- ou une surestimation du nombre de nouveaux diagnostics de VIH.

Population fermée

La période d'étude et la zone géographique étaient les mêmes pour toutes les sources. Cependant, il a été estimé que la cohorte EPF couvrait 70 % des femmes enceintes séropositives, ce qui aurait pu introduire un biais, ce qui aurait entraîné une sur- ou une sous-estimation de nos résultats.

Indépendance entre les sources

La dépendance positive entre les sources DOVIH et EPF a été suspectée avant analyse. La prise de conscience accrue des pédiatres qui participent à la cohorte EPF de la nécessité de se déclarer à la déclaration obligatoire, mise en place en 2003, peut expliquer cette dépendance. Deux grands laboratoires ont participé à la fois à la cohorte EPF et à l'enquête en laboratoire, ce qui pourrait entraîner une dépendance positive entre les sources EPF et LaboVIH.

Capturez l'homogénéité

Trois variables de capturabilité hétérogène ont été identifiées : le pays de naissance, la région de diagnostic et l'année de diagnostic. Le modèle sélectionné incluait les 3 variables de capturabilité hétérogène et donnait une estimation de 387 cas (tableau 2), ce qui était légèrement supérieur au modèle incluant les dépendances entre sources uniquement.

Sélection et estimation du modèle

La sélection finale du modèle dans l'analyse stratifiée qui comprenait des variables de capturabilité était basée sur l'AIC et le DIC, en supposant que la qualité de l'ajustement de ce modèle, selon le test du rapport de vraisemblance, est correcte. L'approche proposée par Meng et Rubin a été appliquée pour utiliser le test du rapport de vraisemblance et a fourni des valeurs p légèrement inférieures à l'approche naïve (données non présentées). Les critères AIC/DIC ont été obtenus en faisant la moyenne de leurs valeurs sur les ensembles de données imputés et doivent donc être interprétés avec prudence [20]. Les différences entre les modèles selon ces critères peuvent être surestimées et peuvent avoir conduit à la sélection d'un modèle trop complexe.

Le modèle 7 et le modèle 8 donnent une estimation similaire (387 cas). Malgré un AIC et un DIC légèrement plus élevés, nous avons retenu le modèle 7 en raison de sa statistique de vraisemblance légèrement meilleure (p=0,07). Bien que le modèle 7 soit moins parcimonieux, il inclut un terme d'interaction biologiquement plausible entre l'EPF et l'année du diagnostic.

Estimation des valeurs manquantes

La variable « lieu de naissance » n'était pas enregistrée dans la source LaboVIH mais était presque complète pour les deux autres sources. Typiquement, l'approche standard dans une méthode de capture-recapture consiste à ignorer les variables qui ne sont pas communes à toutes les sources, ce qui conduit souvent à des estimations biaisées de la taille de la population [24]. Une approche couramment utilisée pour l'analyse d'ensembles de données incomplets consiste à imputer les valeurs manquantes et à analyser l'ensemble de données comme s'il était complet. De telles méthodes d'imputation unique ne sont pas statistiquement valides, peuvent produire des estimations biaisées et conduire à des variances sous-estimées [25]. Deux méthodes actuellement recommandées pour traiter les valeurs manquantes de manière adéquate incluent l'estimation du maximum de vraisemblance (MLE) et l'IM. Ces méthodes sont asymptotiquement équivalentes et nécessitent la même hypothèse que les données sont manquantes au hasard (MAR), c'est-à-dire que le mécanisme des données manquantes ne dépend que des valeurs observées [11, 26]. Dans notre étude, la variable « lieu de naissance » manquait sans indication d'un mécanisme sous-jacent dans la source LaboVIH, ce qui impliquait que l'hypothèse MAR avait été remplie. Seules quelques études rapportent l'imputation de valeurs non observées dans les applications de capture-recapture. Les deux MLE, utilisant un algorithme de maximisation des attentes (EM) [24, 27, 28], et MI ont été appliqués dans ces études [29]. Van der Heijden et al.[28] ont estimé les valeurs manquantes pour les variables de capturabilité hétérogène qui n'ont pas été collectées dans toutes les sources, telles que le sexe et la région de résidence. Les auteurs soulignent que l'algorithme de maximisation des attentes (EM) implique parfois une intégration numérique complexe, notamment lors de l'étape E (l'algorithme calcule l'espérance de la log-vraisemblance évaluée à partir de l'estimation courante des paramètres), et que MI a l'avantage d'être informatiquement beaucoup plus simple pour les situations avec des variables continues incomplètes. Zwane et al.[29] ont démontré dans leur étude que l'IM donnait de bons résultats dans une application de capture-recapture. Ils ont estimé les valeurs manquantes pour les variables continues et catégorielles de capturabilité hétérogène et ont conclu que MI est préféré à MLE dans ces circonstances. Dans notre étude, la variable incomplète était catégorique. Bien que MLE aurait pu être appliquée, l'approche MI a été préférée car elle pouvait être mise en œuvre dans la plupart des logiciels statistiques généraux.

Lors de la construction du modèle d'imputation, il est recommandé d'inclure toutes les variables pouvant être utilisées dans les analyses ultérieures [30]. Les variables suivantes étaient complètes dans nos bases de données et utilisées comme prédicteurs : âge, sources, année de diagnostic et région de diagnostic. Étant donné que la variable « pays de naissance » était manquante dans LaboVIH, les termes d'interaction double source*covariable n'ont pas été inclus dans le modèle d'imputation. Par conséquent, on a supposé que le processus d'imputation était mené sous l'hypothèse d'une corrélation nulle entre les variables omises et le résultat. En conséquence, les estimations associées à ces termes d'interaction pourraient être biaisées vers zéro [30, 31].

D'après Graham et al.[30, 32] et Blanc et al.[20], il est recommandé de générer un nombre de bases de données au moins égal au pourcentage de cas incomplets, soit au moins 30 bases de données dans notre étude. Comme une seule variable était incomplète, nous avons choisi d'imputer un plus grand nombre de bases de données.

L'un des avantages de l'IM est que les erreurs types et les IC des estimations sont directement disponibles dans le cadre de l'estimation du modèle. Une approche de bootstrap paramétrique a été recommandée pour calculer les IC pour les estimations finales [33, 34]. Cette méthode donne des CI asymétriques et permet de prendre en compte l'incertitude du modèle. Les recherches futures devraient aborder la possibilité de combiner cette approche de bootstrap paramétrique avec l'IM.

Estimations du nombre de nouveaux diagnostics de VIH

Parmi les 89 nouveaux diagnostics de VIH estimés chez les enfants de moins de 13 ans en 2006, 40 sont survenus chez des enfants nés en France. Cette estimation est plus du double du nombre annuel attendu de cas cités par Yeni [4]. Cependant, l'estimation de Yeni n'a pas pris en compte les femmes qui ne sont pas testées pour le VIH pendant la grossesse ou les femmes qui seroconvertissent pendant la grossesse suite à un premier test négatif. Les deux scénarios créent un risque beaucoup plus élevé de transmission de la mère à l'enfant à naître. Avant 1994 en France, en l'absence de toute stratégie de prévention, le taux de transmission mère-enfant du VIH était d'environ 20 % [35]. Ces situations à haut risque ont été identifiées dans une analyse rétrospective d'enfants diagnostiqués séropositifs à l'hôpital Necker à Paris [36].

Nos résultats de capture-recapture nous ont permis d'estimer un taux de nouveaux diagnostics de VIH chez les enfants en France métropolitaine en 2006 à 9,1 pour un million. Ce taux était 38 fois plus élevé pour les enfants nés à l'étranger que pour ceux nés en France. Ce ratio est supérieur à celui observé chez les adultes, le taux de nouveaux diagnostics de VIH chez les adultes nés à l'étranger est de 6,0 par million, contre 0,6 par million chez les personnes nées en France [10]. Le ratio plus élevé observé chez les enfants peut s'expliquer par un accès moindre au dépistage du VIH et à la prévention de la TME pendant la grossesse dans les pays d'endémie du VIH.

Nos résultats peuvent être comparés aux données du Royaume-Uni car les deux pays ont des populations de taille similaire (le Royaume-Uni a une population d'environ 60 millions, dont 10 millions d'enfants), des épidémies de VIH aussi concentrées et des populations nées à l'étranger de taille similaire (le Royaume-Uni' La population née à l'étranger représente environ 8 % de la population totale, dont environ 0,5 million d'habitants d'Afrique subsaharienne). En 2006, le taux de nouveaux diagnostics de VIH chez les enfants de moins de 15 ans au Royaume-Uni était légèrement plus élevé (10,1 par million) que notre estimation pour la France. Cet écart est probablement dû aux différents taux de prévalence du VIH dans les pays d'origine de la population née à l'étranger de chaque pays. Au Royaume-Uni, la population née à l'étranger est principalement originaire d'Afrique orientale ou australe. La population née à l'étranger en France est majoritairement originaire des pays d'Afrique de l'Ouest ou du Centre, où la prévalence du VIH est plus faible. Comme en France, le nombre de nouveaux diagnostics chez les enfants au Royaume-Uni a diminué de 2003 à 2006 (de 148 à 117) et a continué de baisser depuis [37]. De plus, comme en France, environ les deux tiers des enfants diagnostiqués comme infectés par le VIH au Royaume-Uni sont nés à l'étranger [38].

Intégralité

L'exhaustivité de la notification obligatoire des nouveaux diagnostics de VIH chez les enfants était faible (28 %) par rapport à celle de l'ensemble du système DOVIH pour le VIH chez les enfants et les adultes (62 % en 2004) [10]. Cet écart pourrait s'expliquer par la pré-notification obligatoire des laboratoires par les microbiologistes pour le VIH de l'adulte, ce qui facilite la déclaration DOVIH par les cliniciens. Le système de notification de l'infection à VIH chez les enfants a été modifié en 2007 pour obliger les microbiologistes à signaler les nouveaux diagnostics de VIH chez les enfants. Cependant, le faible niveau d'exhaustivité et la modification du système de surveillance rendent difficile l'évaluation des tendances potentielles des nouveaux diagnostics de VIH survenus depuis 2007.

Plusieurs hypothèses peuvent expliquer la faible complétude des diagnostics VIH chez les enfants en EPF (26%). Environ 70 % des femmes enceintes infectées par le VIH et leurs enfants ont été inclus dans la cohorte EPF. Les cas d'enfants infectés par le VIH nés de mères qui n'étaient pas incluses dans l'EPF, et en particulier de ceux qui ont accouché à l'étranger, peuvent avoir été manqués pour deux raisons : (i) les données ont été collectées rétrospectivement pour 2003 et 2004, et (ii) le consentement après le diagnostic du VIH chez les enfants est parfois difficile à obtenir pour les pédiatres.


Un modèle paramétrique pour l'estimation des schémas de dispersion appliqué à cinq populations de passereaux structurés spatialement

Les données de capture-recapture de dispersion natale de cinq populations fragmentées de moineaux domestiques, de mésanges charbonnières et de mésanges bleues ont été analysées à l'aide des méthodes du maximum de vraisemblance. Une nouvelle distribution biparamétrique a été construite qui inclut quatre distributions précédemment utilisées comme cas particuliers dans la littérature. Les écarts types de dispersion ont été estimés à 22,9 km pour les moineaux domestiques et variaient de 0,66 à 4,4 km pour les mésanges. Les mésanges charbonnières et les mésanges bleues femelles se sont dispersées systématiquement plus loin que les mâles. Les estimations du paramètre de forme de la distribution de dispersion variaient de 0,66 à 2,27, indiquant des déplacements de dispersion forts à modérément leptokurtiques. Il y avait des effets significatifs de la densité sur les taux d'immigration locaux et une tendance constante des taux d'immigration à dépendre sous-proportionnellement des densités locales. Les implications potentielles de la forme de la distribution de dispersion pour la propagation des organismes envahisseurs ont été étudiées et comparées aux résultats précédents. Il est montré que la vitesse des vagues, pour un écart type de dispersion donné, ne dépend que dans une certaine mesure de la leptokurtose, à condition que le taux de croissance intrinsèque de la population soit modéré ou faible. Cependant, lors de l'estimation de l'écart type de dispersion, des hypothèses incorrectes sur le degré de leptokurtose peuvent entraîner un biais important dans l'estimation et les prédictions.


Évaluation des performances des modèles en biologie évolutive

De nombreux domaines de la biologie évolutive dépendent désormais de modèles mathématiques stochastiques. Ces modèles sont précieux pour leur capacité à formaliser des prédictions face à l'incertitude et à fournir un cadre quantitatif pour tester des hypothèses. Cependant, aucun modèle mathématique ne capturera pleinement la complexité biologique. Au lieu de cela, ces modèles tentent de capturer les caractéristiques importantes des systèmes biologiques en utilisant des principes mathématiques relativement simples. Ces simplifications peuvent nous permettre de nous concentrer sur les différences qui ont du sens, tout en ignorant celles qui ne le sont pas. However, simplification also requires assumptions, and to the extent that these are wrong, so is our ability to predict or compare. Here, we discuss approaches for evaluating the performance of evolutionary models in light of their assumptions by comparing them against reality. We highlight general approaches, how they are applied, and remaining opportunities. Absolute tests of fit, even when not explicitly framed as such, are fundamental to progress in understanding evolution.


Evaluating Model Performance in Evolutionary Biology

Many fields of evolutionary biology now depend on stochastic mathematical models. These models are valuable for their ability to formalize predictions in the face of uncertainty and provide a quantitative framework for testing hypotheses. However, no mathematical model will fully capture biological complexity. Instead, these models attempt to capture the important features of biological systems using relatively simple mathematical principles. These simplifications can allow us to focus on differences that are meaningful, while ignoring those that are not. However, simplification also requires assumptions, and to the extent that these are wrong, so is our ability to predict or compare. Here, we discuss approaches for evaluating the performance of evolutionary models in light of their assumptions by comparing them against reality. We highlight general approaches, how they are applied, and remaining opportunities. Absolute tests of fit, even when not explicitly framed as such, are fundamental to progress in understanding evolution.


Remerciements

Funding was provided by Everglades National Park through the Critical Ecosystem Science Initiative and the Land and Water Conservation Fund. We gratefully acknowledge the staff at the South Florida Natural Resources Center who provided essential administrative and technical assistance. Numerous technicians assisted on this project, most notably S. Wolf, J. Strantz, J. Ball, M. Rogne, and L. MacDade. Finally, we thank A. J. Kroll, J. Citta, and 2 anonymous reviewers for providing constructive criticism that sharpened our thinking and resulted in a substantially improved manuscript.


Voir la vidéo: How to Add Google reCAPTCHA in Laravel Form. reCAPTCHA integration. Laravel (Janvier 2023).