Augmenter les taux de réponse aux enquêtes en utilisant l'apprentissage automatique pour prédire les fournisseurs d'or
Détail
Le deuxième document de recherche publié dans le cadre de la série technique du statisticien australien
Détail
Le Bureau australien des statistiques (ABS) et d’autres organismes nationaux de statistique ont de plus en plus de difficulté à maintenir des taux de réponse élevés pour les enquêtes. Avec des budgets limités pour la collecte de données, cela a conduit à la recherche de stratégies plus efficaces pour le suivi des répondants. Ce document se concentre sur la prédiction des répondants à l’enquête qui répondront à leur enquête sans nécessiter d’appels de suivi – ci-après appelés fournisseurs Gold (GP). La prédiction précise des omnipraticiens permet aux efforts de suivi de se concentrer sur le reste des fournisseurs – ceux pour qui le suivi est susceptible d’améliorer la probabilité qu’ils répondent. Ce protocole de collecte de données réactif d’allocation des ressources de suivi s’appelle la stratégie du PS.
Cet article examine un essai en direct de cette stratégie GP pour le cycle 2018-19 de l’Enquête sur l’environnement rural et les produits agricoles (REACS), l’une des enquêtes APA qui luttent pour atteindre son taux de réponse cible. Deux approches ont été utilisées pour prédire les omnipraticiens : une approche descriptive fondée sur des règles et une approche fondée sur un modèle de propension à la réponse. L’approche de propension à la réponse basée sur un modèle a utilisé une méthode d’apprentissage automatique appelée méthode des forêts aléatoires avec des arbres de régression.
Dans l’essai en direct, l’approche d’apprentissage automatique a surpassé l’approche basée sur des règles en prédisant plus précisément les médecins généralistes et les non-médecins généralistes, et en offrant plus de flexibilité pour définir la proportion requise de médecins généralistes dans l’échantillon complet.
Mots-clés : Stratégie Gold Provider ; Suivi intensif; la propension à la réaction; apprentissage automatique; Méthode des forêts aléatoires
Il devient de plus en plus difficile pour le Bureau australien de statistique et les autres organismes nationaux de statistique de maintenir des taux de réponse constamment élevés pour les enquêtes. Ce fait, conjugué à l’augmentation des coûts et aux budgets limités pour la collecte de données, a amené ces organismes à rechercher des stratégies de suivi plus efficaces qui visent à augmenter les taux de réponse de celles qui aideront à réduire le biais de non-réponse.
Lorsque les variables d’enquête cibles d’intérêt sont statistiquement indépendantes de la propension à répondre, cela peut être réalisé grâce à un protocole de collecte de données réactif appelé stratégie Gold Provider (GP) qui retarde et redirige stratégiquement ce que l’on appelle dans l’ABS les efforts de suivi intensif (IFU) (c’est-à-dire les appels téléphoniques) autrement dépensés sur les médecins généralistes vers les non-médecins généralistes pendant la période stratégique du GP. Ici, les médecins généralistes sont les répondants à l’enquête qui répondent eux-mêmes, c’est-à-dire qui remplissent leur enquête sans nécessiter d’appels de suivi. Au cours de la période de la stratégie des médecins généralistes, les appels de suivi normaux seront normalement effectués à leur égard, tandis que les médecins généralistes ne feront délibérément pas l’objet d’un suivi, et les appels de suivi enregistrés seront réattribués aux non-médecins généralistes. Une fois la période de stratégie des médecins généralistes terminée, les médecins généralistes qui ne se sont pas auto-répondus seront suivis, tout comme les non-médecins généralistes. Étant donné que l’élément clé de la stratégie des médecins généralistes est de retarder plutôt que d’arrêter ou d’annuler les ressources de l’UDI vers les médecins généralistes, conceptuellement, cela n’entraînera aucun biais de non-réponse supplémentaire aux estimations et ne posera donc aucun risque statistique important, le cas échéant, sur la qualité des données. D’autre part, les appels enregistrés du suivi retardé des omnipraticiens peuvent être utilisés pour suivre les non-omnipraticiens, contribuant ainsi à améliorer les taux de réponse et à réduire le biais de non-réponse. Par conséquent, cette stratégie du Partenariat mondial vise en fin de compte à orienter les efforts de suivi le plus efficacement possible afin d’améliorer les taux de réponse globaux sans réduction, ni même amélioration, de la qualité des données.
Réalisée chaque année, l’Enquête sur l’environnement rural et les produits agricoles (REACS) est l’une des enquêtes de conjoncture du Bureau australien de statistique qui ont été confrontées à la difficulté d’atteindre leurs taux de réponse cibles. Pour le REACS, la période de l’IFU est d’environ 3 mois avec 3 étapes importantes, à savoir la deuxième et la troisième lettre de rappel et la fin de l’IFU. Il convient de noter que la première lettre de rappel n’est pas considérée comme une étape critique en raison de sa survenance précoce. Tout au long de la période de l’IFU, la stratégie clé de l’IFU consiste à donner la priorité aux ressources de l’IFU (c’est-à-dire les appels) aux non-répondants du secteur Complètement dénombré (CEd), suivi du secteur échantillonné. Ici, le secteur CEd fait référence à celui qui contient les répondants qui ont une probabilité de sélection de 1 parce qu’ils ont un impact significatif sur la qualité des estimations. Néanmoins, au sein du secteur de l’EDEC et du secteur échantillonné, on suppose implicitement que tous les répondants ont une propension identique à répondre et ont besoin de ressources égales pour répondre. Par conséquent, l’intensité de l’affectation des ressources au sein des secteurs n’est pas différenciée pour les différents répondants.
De toute évidence, il s’agit d’une stratégie IFU moins rentable que la stratégie GP. Pour illustrer l’efficacité de la stratégie GP, nous avons mené un essai en direct sur la moitié de l’échantillon pour le cycle 2018-19 de REACS.
Cet article donne un aperçu de la méthodologie utilisée pour prédire et sélectionner les médecins généralistes de l’échantillon 2018-19, la mise en place de l’essai en direct et l’évaluation de l’efficacité de la stratégie des médecins généralistes en termes de précision des prévisions, de réduction des coûts ainsi que d’impact sur la qualité des données.
La clé du succès d’une stratégie de médecin généraliste est d’identifier avec précision les omnipraticiens. Il y a différentes façons d’y parvenir. Une approche simple consiste à utiliser une méthode descriptive basée sur des règles (RBD) pour définir et prédire les médecins généralistes en fonction de leur comportement de réponse au cours des cycles d’enquête précédents. Historiquement, cela a été utilisé pour un nombre limité d’enquêtes auprès des entreprises dans l’ABS.
Par ailleurs, puisque les propensions à répondre aux enquêtes prédites par modèle ont été utilisées pour élaborer des protocoles de collecte de données (McCarthy et coll., 2009; Peytchev et coll., 2010; Earp et coll., 2013; Buskirk et coll., 2013; Phipps et Toth, 2012; Wilson et coll., 2015; Plewis et Shlomo, 2017), une méthode de propension à répondre basée sur un modèle (MBRP) pourrait également être adaptée pour définir et prédire les médecins généralistes. Pour l’essai en direct, les méthodes RBD et MBRP ont été évaluées afin de comparer leur performance dans la prédiction précise des GP.
Pour développer les règles de RDB ou entraîner l’algorithme du MBRP à prédire les GP pour le cycle REACS 2018-19, nous avons utilisé un ensemble de données qui a rassemblé les données d’enquête de 4 cycles d’enquête historiques allant de 2014-15 à 2017-18. L’ensemble de données consolidées comprenait des informations d’enquête telles que l’état de la réponse à chaque étape de l’IFU (c’est-à-dire la deuxième et la troisième lettre de rappel et la fin de l’IFU), l’état de la réponse finale, la date de réponse finale, le nombre total de lettres de rappel envoyées à un répondant avant la réponse, le nombre d’appels faits à un répondant au cours de chaque période jalon de l’IFU, etc. Après la consolidation et la confrontation des données, un total de 157 000 observations provenant d’environ 100 000 répondants (dont beaucoup se sont produites dans plus d’un cycle) ont été incluses dans l’ensemble de données.
Il convient de noter que seuls les répondants au sondage du cycle 2018-2019 qui ont des informations historiques dans l’ensemble de données consolidées seront prédits avec leur statut de GP, et ceux qui ont été nouvellement sélectionnés dans le cycle 2018-19 ou qui ne disposaient pas d’informations historiques complètes ont été automatiquement classés comme non-GP.
Avec la stratégie de PG précédemment utilisée dans l’ABS, les GP ont été définis comme des répondants à l’enquête qui ont rempli leur sondage sans nécessiter de suivi au cours du cycle d’enquête précédent (appelé « définition 1 »).
Pour cet essai en direct, quelques définitions alternatives avec un assouplissement spécifique de la règle relative au nombre d’appels à différents jalons ont également été explorées. Il s’agit de :
Une analyse rétrospective a été menée sur les trois définitions du point de vue de l’exactitude des prévisions sur les omnipraticiens et des économies potentielles sur le nombre d’appels IFU.
Du point de vue de l’exactitude des prédictions, le niveau de précision de chaque définition pour prédire correctement les médecins généralistes a été évalué. Autrement dit, pour décider s’ils sont de véritables médecins généralistes ou non pour le cycle d’enquête REACS de 2015-16, l’ensemble des répondants qui ont été prédits comme médecins généralistes sur la base de la définition choisie en utilisant les informations du cycle d’enquête de 2014-15, ont été évalués par rapport à leur statut de réponse réel et aux efforts tentés de l’IFU. Les résultats ont montré que la définition 3 fournissait la prédiction la plus précise des médecins généralistes avec un taux de précision supérieur à 80% contre 75% et 70% des définitions 1 et 2 respectivement. L’évaluation des cycles d’enquête REACS de 2016-17 et 2017-18 a montré des résultats cohérents.
Du point de vue des économies de coûts, les économies potentielles d’appels découlant du non-suivi des omnipraticiens prévues par chaque définition ont été évaluées. Les résultats ont montré que le nombre d’appels qui auraient été sauvegardés en utilisant la définition 3 est plus élevé que ceux qui ont été utilisés à l’aide des définitions 1 et 2. Plus précisément, comparativement à la définition 1, le pourcentage d’appels qui auraient été sauvegardés à partir de la définition 3 est de 6,3 %, 10,5 % et 8,5 % de plus pour les cycles 2015-2016, 2016-2017 et 2017-2018 respectivement. Et comparativement à la définition 2, le pourcentage d’appels qui auraient été sauvegardés de la définition 3 est encore plus élevé, soit 7,8 %, 15,4 % et 13,2 % de plus pour les cycles 2015-2016, 2016-2017 et 2017-2018 respectivement.
Sur la base des résultats de l’analyse rétrospective, la définition 3 a été choisie comme définition finale de RBD. C’est-à-dire que les omnipraticiens sont des répondants à l’enquête qui ont répondu à la fin de l’IFU avec 2 appels ou moins au cours du cycle d’enquête précédent.
Un certain nombre de méthodes pour modéliser les propensions à réagir ont été préconisées dans la littérature. Traditionnellement, les propensions à répondre sont estimées en ajustant un modèle de régression logit ou probit (Black et coll., 2010; Peytchev et coll., 2010; Chen et coll., 2012; Whiting et McNaughtan, 2013; Plewis et Shlomo, 2017). Avec un modèle de régression logit ou probit, il existe plusieurs mesures de validation pour tester la robustesse et la pertinence des résultats du modèle. Cependant, Earp et coll. (2013) ont souligné que la régression logit exige que l’analyste émette des hypothèses sur les variables que l’on croit être associées à la non-réponse, puis utilise les données observées pour ajuster les paramètres du modèle. Par conséquent, il existe un risque que ces variables « explicatives » soient mal spécifiées ou sous-identifiées, et les modèles de régression logistique sont souvent difficiles à interpréter en raison des interactions entre les variables caractéristiques.
Nouvelles techniques d’apprentissage automatique (ML) pour la classification et la prédiction, y compris les arbres de classification et de régression (CART) (Phipps et Toth, 2012; Valiiant et coll., 2013; Earp et coll., 2013; Toth et Phipps, 2012; Buskirk et Kolenikov, 2015; Lohr et coll., 2015; Wilson et al., 2015) et des forêts aléatoires (Brieman, 2001; Buskirk et coll., 2013; Buskirk et Kolenikov, 2015) se sont avérés être des outils puissants pour prédire la propension à répondre aux enquêtes. Bien que ces techniques d’apprentissage automatique souffrent également d’une mauvaise spécification du modèle si les variables explicatives ne sont pas correctement et complètement identifiées, elles sont supérieures aux modèles de régression logistique car elles ne nécessitent pas l’hypothèse de linéarité dans la modélisation. Plus important encore, la détection automatique des interactions inhérente aux arbres fournit une méthode simple pour rendre compte et interpréter facilement les interactions entre les données auxiliaires et les paradonnées et la propension à réagir (Earp et coll., 2013; Toth et Phipps, 2014; Buskirk et Kolenikov, 2015).
Parmi ces différentes techniques d’AA, la méthode des forêts aléatoires est un exemple de méthode arborescente « d’ensemble » non paramétrique, car elle génère des estimations en combinant les résultats de plusieurs arbres de classification ou de régression plutôt qu’en utilisant les résultats d’un seul arbre. En agrégeant les estimations sur de nombreux arbres, les forêts aléatoires ont tendance à générer des estimations plus stables et avec moins de variance par rapport à celles générées à partir d’un seul arbre, car elles surmontent les problèmes associés au surajustement en utilisant des ensembles de données bootstrapés et en limitant le nombre de caractéristiques sélectionnées par l’algorithme à chaque nœud (Brieman, 2001).
Une forêt d’arbres de classification et une forêt d’arbres de régression sont les deux principales méthodes d’estimation de propension qui ont été développées dans des forêts aléatoires. Pour cet essai en direct, la méthode des forêts aléatoires avec arbres de régression a été choisie comme approche MBRP car elle peut générer des propensions à réponse continue.
Les prédicteurs sélectionnés pour être inclus dans les forêts aléatoires jouent un rôle essentiel dans l’adéquation du modèle et la précision des prédictions. Par conséquent, des efforts sont nécessaires pour sélectionner les prédicteurs pertinents afin d’améliorer encore la précision de la prédiction.
La littérature a montré que les modèles de réponse standard qui n’incluent que des variables d’enquête en tant que variables prédictives donnent de piètres résultats en termes de prédiction. Au lieu de cela, une étude de l’ABS (Black et al., 2010) recommande d’utiliser un cadre qui couvre 6 catégories principales, y compris les caractéristiques de la région, les caractéristiques de l’entreprise, les caractéristiques de la conception de l’enquête, les caractéristiques des répondants, les caractéristiques des intervieweurs et les observations des intervieweurs. Les trois premières catégories sont des variables d’enquête, tandis que les trois dernières catégories sont appelées paradonnées. À l’aide de ce cadre, une analyse descriptive a été effectuée pour déterminer quelles variables d’enquête et quels éléments de paradonnées devaient être adoptés comme prédicteurs pour l’essai réel. Il s’agissait notamment de l’état, de l’industrie, de la taille, du niveau d’importance et de la pondération de la contribution aux estimations (comme les variables de l’enquête) et du nombre d’appels effectués et de lettres de rappel envoyées (comme les paradonnées). En raison du manque de données, les caractéristiques des catégories de caractéristiques des intervieweurs et les observations de l’intervieweur n’ont pas pu être incluses comme prédicteurs.
Les paramètres utilisés dans les forêts aléatoires peuvent augmenter la puissance prédictive du modèle. L’utilisation excessive de paramètres peut toutefois « surajuster » le modèle et entraîner un biais de prédiction. Par conséquent, il est très important d’ajuster les paramètres pendant le processus de modélisation pour obtenir des performances prédictives optimales du modèle. Les paramètres les plus courants que nous sélectionnons pour ajuster incluent ntree (le nombre d’arbres à cultiver dans la forêt), le mtry (le nombre de variables utilisées pour construire chaque arbre) ainsi que la taille du nœud (taille minimale des nœuds terminaux).
Pour déterminer les choix de paramètres pour ce travail, nous avons effectué des tests préliminaires en exécutant le modèle de forêts aléatoires sur l’ensemble de données de 15 700 observations en tant qu’ensemble de données d’apprentissage. Nous avons ensuite choisi l’ensemble des paramètres qui produisaient le moins de taux d’erreur dans la prédiction. Tous les calculs pour ce travail ont été effectués à l’aide du package R RandomForest.
Les tests ont indiqué que pour la méthode des arbres de régression, les taux d’erreur stables pour les forêts seraient atteints en utilisant \(ntree = 300\) avec \(mtry=4\) et \(nodesize = 20\).
Pour estimer le taux d’erreur de prédiction « hors échantillon », nous avons utilisé une approche de validation croisée à n fois pour produire des scores finaux de propension à la réponse, en utilisant l’ensemble de paramètres choisis déterminés dans le modèle de test. L’idée générale de la validation croisée n-fold est de diviser les données en deux parties: l’une est l’ensemble de données d’apprentissage et est utilisée pour construire le modèle, c’est-à-dire la croissance des arbres; L’autre est l’ensemble de données de test qui est utilisé pour valider et évaluer le modèle, c’est-à-dire évaluer la précision de la prédiction hors échantillon. La validation croisée à 10 volets est principalement utilisée dans l’apprentissage automatique. Avec la validation croisée de 10 fois, l’ensemble de données d’origine est séparé au hasard en 10 sous-ensembles avec une taille d’échantillon égale de 1/10. 1 sous-ensemble est choisi comme ensemble de test et les 9 autres sont les ensembles d’entraînement. Chaque fois que nous choisissons un ensemble de test différent et répétons la procédure 10 fois, donc toutes les observations sont testées exactement une fois. L’estimation est obtenue en combinant les résultats de chaque ensemble de tests. Pour ce travail, 157 000 observations ont été regroupées au hasard en 10 sous-ensembles avec une taille d’échantillon approximativement égale de 15 700 pour chaque sous-groupe. Chaque fois, nous avons choisi un sous-ensemble différent comme ensemble de test et les 9 autres sous-ensembles combinés comme ensemble d’entraînement. En répétant la procédure 10 fois, les 157 000 observations ont été testées une fois. La propension à répondre a été estimée en combinant les résultats de chaque ensemble de tests. Ces scores estimés de propension à répondre ont été utilisés pour prédire les omnipraticiens et les prédictions ont été comparées à l’état réel des répondants pour déterminer les taux d’erreur. Aux fins de l’essai réel, les répondants ayant une propension prédite de 0,85 et plus ont été considérés comme des médecins généralistes.
Comme mentionné dans la section précédente, en rassemblant les données d’enquête de quatre cycles allant de 2014-2015 à 2017-2018, un total de 157 000 observations provenant d’environ 100 000 répondants ont été incluses dans l’ensemble de données sur la formation. Par conséquent, bon nombre des répondants se sont produits dans plus de 1 cycle et auraient été prédits avec plus de 1 propension à répondre. Pour ces répondants, la moyenne de leurs propensions à répondre à différents cycles a été calculée pour générer les propensions de réponse finales.
À l’instar de l’approche RBD qui a exploré l’utilisation de différentes étapes de la période IFU pour décider de sa définition de GP, l’approche MBRP a également prédit les propensions de réponse à différentes étapes, c’est-à-dire la troisième lettre de rappel et la fin de l’IFI. Il a été constaté que les propensions de réponse produites à la fin de l’UTI fournissent la prédiction la plus précise. L’assouplissement du nombre d’appels a également été adopté par l’approche MBRP dans le cadre de la définition.
Par conséquent, la définition finale des omnipraticiens pour l’approche MBRP est la suivante : les omnipraticiens sont des répondants à l’enquête dont les propensions prédites moyennes à répondre avant la fin de l’UTF avec deux appels ou moins sont supérieures à un certain seuil (0,85 pour cet essai en direct).
Sur la base de la définition finale de chaque approche, l’échantillon total de 27 159 répondants pour le cycle REACS 2018-19 a été prédit en tant que généralistes ou non-généralistes. Il convient de noter qu’il y avait des répondants dont le statut de médecin généraliste ne pouvait être prédit par l’une ou l’autre approche en raison du manque d’informations historiques. Ces répondants ont été automatiquement classés comme non-médecins généralistes.
Les GP prévus à partir des deux approches pour le cycle 2018-19 sont énumérés comme suit :
Afin de simplifier les flux de travail et d’avoir un groupe de traitement suffisamment important, il a été décidé de classer 40% de la taille totale de l’échantillon en tant que médecins généralistes en utilisant une combinaison d’approches RBD et MBRP. Les médecins généralistes de l’essai étaient donc composés de:
Cette façon collective de reconnaître les médecins généralistes pour l’essai en direct s’appelle l’approche GP_final. Les 60 % restants de l’échantillon total, y compris 1 718 répondants de l’EDC et 14 155 répondants échantillonnés, ont été traités comme des non-médecins généralistes pour cet essai vivant.
Les omnipraticiens et les non-médecins généralistes prévus ont été divisés également en deux sous-groupes homogènes – un groupe témoin et un groupe de traitement – en veillant à équilibrer le nombre total de répondants, en tenant compte de la similitude des spécifications, y compris le nombre total de nouveaux répondants, le nombre total de répondants CEd, le nombre total de médecins généralistes et le nombre de répondants CEd qui sont des omnipraticiens. Il convient de noter que la répartition égale a été effectuée au niveau de la strate et que l’échantillon REACS est stratifié en fonction de caractéristiques, notamment la taille et l’emplacement géographique. Par conséquent, la distribution selon ces caractéristiques entre le groupe témoin et le groupe de traitement devrait également être similaire.
La composition détaillée des groupes témoins et de traitement attribués est présentée dans les tableaux 1 et 2 ci-dessous.
Pour l’essai en direct, alors que le groupe témoin aurait un suivi « normal » des UIF à leur égard tout au long de la période de collecte de données, le groupe de traitement a été mis en place pour être mis en œuvre avec la stratégie GP, dans le but d’augmenter les taux de réponse globaux en utilisant les mêmes ressources d’IFU. Les composantes étaient les suivantes :
L’essai en direct de la stratégie GP a été mené avec succès sous la ligne directrice d’un cadre rigoureux de mise en œuvre et de suivi. Une fois le projet terminé, une évaluation a été effectuée en comparant le rendement des groupes de traitement et de contrôle selon trois perspectives principales, à savoir l’exactitude des prévisions, le rapport coût-efficacité et l’impact sur la qualité des données. L’évaluation visait à déterminer si la stratégie des PS avait permis d’accroître le taux de réponse global en retardant les mesures prises par les UIF à l’égard des médecins généralistes et en réaffectant ces ressources supplémentaires aux non-médecins généralistes au cours de la période de la stratégie du Partenariat mondial. En outre, l’évaluation a été essentielle pour éclairer les décisions quant à savoir si et à quelle échelle adopter la stratégie GP sur une base continue pour REACS, et identifier toute amélioration future qui pourrait être mise en œuvre pour améliorer son efficacité.
Pour évaluer le succès de la stratégie des médecins généralistes, l’aspect principal consistait à évaluer avec quelle précision les médecins généralistes étaient prédits d’un point de vue rétrospectif.
Le tableau 3 ci-dessous présente un aperçu du statut du médecin généraliste défini par différentes approches, par rapport au statut réel du médecin généraliste pour le cycle 2018-2019 (chiffres dans la dernière rangée). Ici, la colonne « Non classifié » fait référence à la situation où le statut de médecin généraliste d’un répondant ne pouvait être prédit par l’une ou l’autre approche en raison du manque d’informations historiques. D’après le tableau 3, nous pouvons voir que la population du médecin généraliste réel représentait environ 60% de l’échantillon total, soit 20% de plus que les 40% que nous avons mis en place. Et la GP_MBRP seule approche a permis d’identifier le nombre total de médecins généralistes plus proche. De plus, il comptait un nombre beaucoup plus faible de répondants non classifiés par rapport à l’approche RBD uniquement.
Le tableau 4 ci-dessous présente l’exactitude des prévisions des différentes approches en termes de taux. D’après les résultats, nous pouvons voir clairement que toutes les approches ont atteint une grande précision dans la prédiction des médecins généralistes, avec un taux de précision allant de 76% à 80% respectivement. Nous pouvons également observer que la seule approche GP_MBRP a surpassé les autres en atteignant des taux de précision élevés pour prédire à la fois les médecins généralistes et les non-généralistes.
Pour comparer davantage l’exactitude des prédictions entre les approches RBD et MBRP, les 10 863 répondants qui ont été prédits en tant que médecins généralistes utilisant l’approche GP_final ont été ventilés selon l’approche à partir de laquelle ils ont été prédits, et leur précision de prédiction a été évaluée par rapport à leur statut réel de médecin généraliste. Cette ventilation est présentée dans le tableau 5 ci-dessous, à partir duquel nous pouvons observer que sur les 7 955 médecins généralistes qui ont été communément prédits par les deux approches, 6 495 étaient des médecins généralistes réels, ce qui donne un taux de précision d’environ 82%. Alors que des deux ensembles de 1 454 GP qui ont été prédits de manière unique par l’une ou l’autre approche, celui prédit par l’approche MBRP a atteint un taux de précision beaucoup plus élevé que celui de l’approche RBD, ce qui a prouvé une fois de plus la précision de prédiction plus élevée de l’approche MBRP seule.
De l’analyse rétrospective menée ci-dessus, nous avons conclu que l’approche d’identification des médecins généralistes qui a été mise en œuvre pour l’essai réel a été un succès. En outre, il pourrait être encore amélioré en adoptant l’approche du MBRP uniquement, car elle surpasse les autres dans la prédiction des médecins généralistes et des non-généralistes. De plus, l’approche du MBRP seulement était plus souple en permettant à l’utilisateur de préciser les proportions globales de GP en ajustant le seuil seuil des scores de propension à la réponse prévus, et était donc plus adaptable aux changements et aux améliorations en fonction des informations historiques. Comme mentionné ci-dessus, les répondants réels des médecins généralistes représentaient environ 60% de l’échantillon complet, plutôt que les 40% que nous avons mis en place pour l’essai réel. Par conséquent, pour le prochain cycle, afin de refléter ce statut réel de GP, nous devrions abaisser le seuil de 0,85 à 0,75 par exemple pour permettre à davantage de GP d’être prédits par l’approche MBRP.
Étant donné que les ressources de l’UDI sont demeurées les mêmes et que l’objectif principal était d’augmenter le taux de réponse global, il est essentiel d’analyser le succès de la stratégie du Partenariat mondial du point de vue du rapport coût-efficacité, plus précisément, le taux de réponse atteint (c.-à-d. l’efficacité) et les ressources de l’UGO allouées comme indiqué par les appels au cours de la période de l’UDI (c.-à-d. les coûts) pour les répondants du PG et des non-PG entre le groupe témoin et le groupe de traitement. D’après le tableau 6 ci-dessous, nous pouvons voir que le groupe de traitement a obtenu un taux de réponse similaire à celui du groupe témoin avec 708 appels de moins aux omnipraticiens. Il était également évident que les omnipraticiens du groupe de traitement ont atteint un taux beaucoup plus faible d’appels moyens par réponse, par rapport aux médecins généralistes du groupe témoin. Il s’agissait là d’indications solides de l’efficacité de la stratégie du Partenariat mondial pour ce qui est de générer des économies sur les ressources de l’Ugd. Cependant, l’essai en direct a également démontré que le détournement des ressources économisées vers des non-médecins généralistes n’était pas rentable. Comme le montre le tableau 6, il n’y a pratiquement pas eu d’amélioration du taux de réponse des non-omnipraticiens, même avec une augmentation de plus de 900 appels à ces derniers.
Le tableau 7 examine plus en détail la répartition des non-médecins généralistes entre le groupe témoin et le groupe de traitement en termes d’état de la réponse et de ressources de l’UIF allouées. Nous pouvons voir que pour le groupe de traitement, 875 appels supplémentaires (228 plus 647) ont entraîné de manière inattendue un nombre global plus faible de répondeurs de 24 (38 moins 14), par rapport au groupe témoin. Nous pouvons également voir que le nombre moyen d’appels attribués aux répondants au sein du groupe de traitement était supérieur à celui du groupe témoin, sans qu’un taux de réponse global plus élevé ait été atteint.
(a) Hors champ d’application désigne les répondants qui ont été identifiés comme étant hors champ d’application pour le cycle 2018-2019 après avoir été sélectionnés.
Les résultats des tableaux 6 et 7 suggèrent que, pour le groupe de traitement, les appels qui ont été sauvegardés des omnipraticiens et redirigés vers des non-omnipraticiens n’ont pas donné lieu à un meilleur résultat de réponse. Cela peut être dû à la réaffectation inefficace de ces ressources à des non-GP. Par conséquent, pour mener la réaffectation plus efficacement, les ressources supplémentaires devraient être ciblées sur des non-médecins généralistes spécifiques qui sont plus susceptibles de répondre par des appels de suivi plus intenses, c’est-à-dire ceux dont la propension à répondre est relativement plus élevée. Pour valider cette approche proposée, le taux de réponse atteint et les ressources de l’UIF allouées aux non-médecins généralistes entre les groupes témoin et de traitement ont été examinés plus en détail en fonction de leurs fourchettes de scores de propension à la réponse, comme le montre le tableau 8 ci-dessous.
D’après le tableau 8, nous pouvons voir, comme prévu pour le groupe de traitement et le groupe témoin, qu’il y avait une forte corrélation entre les propensions à répondre et les taux de réponse. C’était encore une fois une forte indication du pouvoir prédictif élevé de l’approche MBRP dans la prédiction des omnipraticiens. De même, pour chaque plage de score de propension à la réponse, nous pouvons également observer une relation positive entre le pourcentage de répondants et les appels pour le groupe de traitement et le groupe témoin. Nous notons, cependant, avec le groupe de traitement, que les appels qui ont été attribués aux répondants dans les fourchettes de scores de propension à répondre qui sont annotées (a) et (b) respectivement dans le tableau 8 étaient disproportionnellement plus grands ou plus petits par rapport à ceux du groupe témoin, sans conversion vers un taux de réponse supérieur ou inférieur correspondant. Cela donne à penser que si ces appels supplémentaires avaient été réaffectés aux non-omnipraticiens en fonction de leurs scores de propension à répondre prévus allant du plus élevé au plus faible, le rapport coût-efficacité global aurait pu être amélioré, comme l’indiquent les résultats du groupe témoin. Il convient de noter que le résultat du tableau 8 doit être interprété en mettant l’accent sur les fourchettes de scores PR qui ont un nombre substantiel d’unités, c’est-à-dire celles commençant par (0,2, 0,3).
(a) Disproportionnellement plus petit(b) Disproportionnellement plus grand
Pour tester cette hypothèse, de nouveaux taux de réponse potentiels pour chaque plage de score du groupe de traitement ont également été simulés, en supposant que la conversion de réponse par appel du groupe de traitement reste la même et que la distribution des appels vers les non-médecins généralistes était alignée sur celle du groupe témoin. Les résultats de la simulation, tels que présentés au tableau 9, suggèrent qu’avec le même nombre total de 3 906 appels effectués vers les non-omnipraticiens du groupe de traitement, le nombre total de répondeurs pourrait passer de 5 025 à 5 189, ce qui entraînerait une augmentation globale du taux de réponse de 2 %. Il convient de noter que ces résultats de simulation étaient prudents car, théoriquement, la nouvelle approche de réattribution ciblée des appels devrait être plus efficace que celle du groupe témoin.
En résumé, l’évaluation du rapport coût-efficacité a suggéré que la stratégie du Partenariat mondial a permis d’économiser les ressources des Principes directeurs en retardant le début des ressources des Ugs pour ces derniers, sans entraîner une réduction du taux de réponse de ces répondants. Ce résultat était une forte indication du succès de la stratégie du Partenariat mondial pour détourner des ressources des répondants qui n’avaient pas besoin d’UTF. Toutefois, l’évaluation a également indiqué que les ressources de l’UIF qui ont été économisées auprès des omnipraticiens et redirigées vers des non-médecins généralistes n’ont pas donné lieu à un meilleur résultat d’intervention en raison de la réaffectation inefficace de ces ressources. Une autre étude de simulation a montré que si ces ressources économisées avaient été dirigées vers des non-médecins généralistes de la même manière que le groupe témoin, un taux de réponse plus élevé de 2% aurait pu être atteint. Cela suggère que, si les ressources économisées étaient dirigées uniquement vers les non-médecins généralistes ayant la plus forte propension à répondre, des gains encore plus importants en matière de réponse pourraient être réalisés. D’autres recherches devraient être menées pour développer un déploiement efficace des ressources économisées vers les non-médecins généralistes en vue de réduire le biais de non-réponse.
Comme nous l’avons déjà indiqué dans la section d’introduction, étant donné que l’élément clé de la stratégie des médecins généralistes est de retarder plutôt que d’arrêter les ressources de l’IFU vers les médecins généralistes, conceptuellement, cela ne devrait pas entraîner de biais de non-réponse aux estimations et ne posera donc aucun risque statistique significatif, voire aucun, sur la qualité des données de l’enquête. Pour valider quantitativement cette affirmation, nous avons également analysé les estimations entre le groupe de traitement et le groupe témoin.
D’après la comparaison entre le groupe témoin et le groupe de traitement sur leurs estimations produites par les états et les variables d’intérêt présentées dans le nuage de points ci-dessous, il a été constaté qu’aucun biais systématique (c.-à-d. problème de surestimation ou de sous-estimation) ne s’est produit dans un sens ou dans l’autre. Par conséquent, nous pouvons conclure que la mise en œuvre de la stratégie GP dans la façon dont l’essai réel a été mené n’a pas posé de biais de non-réponse supplémentaire aux estimations globales.
Pour aider à augmenter le taux de réponse global tout en maintenant le même budget de collecte de données, la stratégie GP a été menée dans le cadre d’un essai en direct pour le cycle REACS 2018-19. La stratégie des omnipraticiens vise à augmenter les taux de réponse en redirigeant les contacts de suivi inutiles des omnipraticiens vers les non-omnipraticiens, c’est-à-dire des répondants qui sont plus susceptibles de répondre eux-mêmes, vers ceux qui sont moins susceptibles de répondre eux-mêmes.
Cet article donne un aperçu d’un essai en direct de la stratégie GP axé sur les aspects de la prédiction et de la sélection des répondants GP de l’échantillon 2018-19, de la mise en place de l’essai en direct avec des groupes témoins et de traitement, et de l’évaluation de l’efficacité de la stratégie GP en termes de précision de prédiction, de réduction des coûts et de qualité des données.
Pour évaluer l’exactitude des prédictions, deux méthodes ont été adoptées pour prédire les médecins généralistes. Pour l’approche RBD, les omnipraticiens ont été définis comme des répondants au sondage qui ont répondu à la fin de l’UIF avec 2 appels ou moins au cours du cycle d’enquête précédent. Pour l’approche MBRP, les omnipraticiens ont été définis comme des répondants à l’enquête dont la propension moyenne prédite par le modèle à répondre avant la fin de l’IFU avec deux appels ou moins est supérieure à un certain seuil (0,85 pour cet essai en direct). En combinant les deux approches, un nombre total de 10 863 répondants (40 % de la taille totale de l’échantillon) ont été prédits comme omnipraticiens, tandis que les 60 % restants ont été classés comme non-médecins généralistes. Ces omnipraticiens et non-médecins généralistes ont été divisés de façon égale et aléatoire en deux sous-groupes - le groupe témoin et le groupe de traitement, en tenant compte de la similitude des spécifications, y compris le nombre total de nouveaux répondants, le nombre total de répondants CEd, le nombre total de répondants GP et le nombre de répondants CEd qui sont des omnipraticiens.
Pour l’essai en direct, alors que le groupe témoin aura une action « normale » de l’IFU entreprise à son égard tout au long de la période de collecte de données, le groupe de traitement a été mis en place pour être mis en œuvre avec la stratégie GP. Cela comprenait les éléments suivants :
Après avoir réussi l’essai en direct, une évaluation a été effectuée en comparant les groupes de traitement et de contrôle en termes de précision de prédiction, de rentabilité et d’impact sur la qualité des données. L’évaluation visait à déterminer si la stratégie du Partenariat mondial avait permis d’accroître le taux de réponse global en retardant les mesures prises par les Gouvernements officiels à l’égard des répondants du Partenariat mondial et en réaffectant ces ressources supplémentaires aux non-PS au cours de la période de la stratégie du Partenariat mondial. En outre, l’évaluation a été essentielle pour éclairer les décisions sur l’adoption continue de la stratégie du Partenariat mondial pour le REACS et sur l’identification de toute amélioration future qui pourrait être mise en œuvre pour accroître son efficacité.
L’évaluation de l’exactitude des prévisions a confirmé que les approches RBD et MBRP pour identifier les omnipraticiens étaient efficaces. En outre, il a montré que l’approche MBRP surpassait le RBD dans la prédiction des généralistes et des non-généralistes. De plus, l’approche du MBRP était plus souple pour modifier les proportions globales des omnipraticiens en ajustant le seuil seuil des scores de propension à répondre prévus, et était donc plus adaptable aux changements et aux améliorations en fonction des données historiques.
L’évaluation du rapport coût-efficacité a suggéré que la stratégie des PS était efficace pour économiser les ressources des SDI en retardant le début des ressources des UGO pour ces derniers, sans entraîner une réduction du taux de réponse pour ces répondants. Ce résultat était une forte indication du succès de la stratégie du Partenariat mondial pour détourner des ressources des répondants qui n’avaient pas besoin d’UTF. Cependant, l’évaluation a également indiqué que les ressources de l’IFU qui ont été économisées auprès des omnipraticiens et redirigées vers des non-omnipraticiens n’ont pas donné lieu à un meilleur résultat de réponse en raison de la réaffectation inefficace de ces ressources dans l’essai réel.
L’évaluation de la qualité des données a confirmé qu’aucun risque supplémentaire lié à la qualité des données n’a été posé par la mise en œuvre de la stratégie du Partenariat mondial.
Sur la base des conclusions de l’évaluation, on peut conclure que la stratégie de GP basée sur le MBRP a été efficace pour identifier les médecins généralistes et économiser les ressources de l’IFU et peut être adoptée pour REACS sur une base continue. Toutefois, des recherches supplémentaires seraient nécessaires pour élaborer des stratégies de déploiement efficaces de ces ressources en vue d’améliorer encore les taux de réponse et de réduire le biais de non-réponse pour les futurs REACS.
Black, M., Brent, G., Bell, P., Starick, R. et Zhang, M. (2010). Modèles empiriques pour le coût de l’enquête, le taux de réponse et le biais à l’aide de paradonnées, cat. n° 1352.0.55.113, ABS, Canberra.
Breiman, L. (2001). Forêts aléatoires. Machine Learning, 45 (1), 5-32.
Burks, A.T. et Buskirk, T. D. (2012). Les propensions à réagir peuvent-elles se développer sur les arbres? Explorer des modèles de propension à répondre basés sur des forêts aléatoires à l’aide de données auxiliaires annexées à une base d’échantillonnage ABS. Communication présentée à 2012 Midwest Association of Public Opinion Research, Chicago, IL. http://www.mapor.org/confdocs/progarchives/mapor_2012.pdf (consulté le 20/12/2017).
Buskirk, T. D., Burks, A-T., West, B.T. (2013). Les propensions à répondre aux enquêtes peuvent-elles croître sur les arbres? Comparaison de la validité des forêts aléatoires et des modèles de régression logistique à l’aide de variables de population annexées à une base d’échantillonnage ABS », affiche présentée à la Conférence 2013 sur la pratique statistique, Nouvelle-Orléans.
Buskirk, T. D. et Kolenikov, S. (2015). Trouver des répondants dans la forêt : comparaison de la régression logistique et des modèles forestiers aléatoires pour la pondération et la stratification de la propension à la réponse. Survey Insights: Methods from the Field, Weighting: Practical Issues and 'How to' Approach. Extrait de http://surveyinsights.org/?p=5108 (consulté le 20/12/2017).
Chen, Q., Gelman, A., Tracy, M., Norris, F. H., & Galea, S. (2012). Ajustements de pondération pour non-réponse du panel. Disponible sur http://www.stat.columbia.edu/~gelman/research/unpublished/weighting%20adjustments%20for%20panel%20surveys.pdf (consulté le 20/12/2017).
Durrant, G.B., Maslovskaya, O. et Smith, P. W.F. (2017). Utilisation d’informations antérieures sur les vagues et de paradonnées : peuvent-elles aider à prédire les résultats de la réponse et la longueur de la séquence d’appel dans une étude longitudinale? Journal of Official Statistics, 33-3, 801-833.
Earp, M., Toth, D., Phipps, P., et Oslund, C. (2013). Identifier et comparer les caractéristiques des non-répondants tout au long du processus de collecte de données. Disponible sur https://www.bls.gov/osmr/pdf/st130090.pdf (consulté le 20/12/2017).
McCarthy, J.T., Jacob, T. et Atkinson, D. (2009). Utilisations novatrices des techniques d’exploration de données dans la production de statistiques officielles. Documents du Comité fédéral de méthodologie statistique. https://www.nass.usda.gov/Education_and_Outreach/Reports,_Presentations_and_Conferences/reports/conferences/FCSM/data%20mining%202009%20fcsm.pdf (consulté le 20/12/2017).
Peytchev, A., Riley, S., Rosen, J., Murphy, J. et Lindblad, M. (2010). Réduction du biais de non-réponse dans les enquêtes grâce à la priorisation des cas. Méthodes de recherche par sondage, 4-1, 21-29.
Phipps, P. et Toth, D. (2012). Analyse de la non-réponse des établissements à l’aide d’un modèle d’arbre de régression interprétable avec des données administratives couplées. Annals of Applied Statistics, 6, 772-794.
Phipps, P. et Toth, D. (2012). Modèles d’arbre de régression pour l’analyse des réponses à l’enquête. Disponible sur https://www.bls.gov/osmr/pdf/st140160.pdf (consulté le 20/12/2017).
Plewis, I. et Shlomo, N. (2017). Utilisation de modèles de propension à la réponse pour améliorer la qualité des données de réponse dans les études longitudinales. Journal of Official Statistics, 33-3, 753-779.
Lohr, S., Hsu, V., et Montaquila, J. (2015). Utilisation d’arbres de classification et de régression pour modéliser la non-réponse à l’enquête. Disponible au https://ww2.amstat.org/sections/srms/Proceedings/y2015/files/234054.pdf (évalué le 20/12/2017).
Valliant, R., Dever, J., et Kreuter, F. (2013). Outils pratiques pour la conception et la pondération des échantillons d’enquête. Springer, New York.
Whiting, J., et McNaughtan, R. (2013). Modélisation de la réponse pour le modèle de dénombrement du Recensement de 2016, cat. n° 1352.0.55.136, ABS, Canberra.
Wilson, T., McCarthy, J., et Dau, A. (2015). Conception adaptative dans une enquête auprès des établissements : ciblage, application et mesure des procédures de collecte de données « optimales » dans l’enquête sur la gestion des ressources agricoles. Communication présentée à 2016 International Conference on Establishment Surveys, Geneva, Switzerland. http://ww2.amstat.org/meetings/ices/2016/proceedings/047_ices15Final00159.pdf (consulté le 20/12/2017).
Je tiens à remercier tout particulièrement M. David Gruen AO, statisticien australien, d’avoir donné son point de vue sur ce document et d’avoir approuvé la publication de ce document dans le cadre de la série technique Australian Statistician. Ma profonde et sincère gratitude va également au Dr Siu-Ming Tam, ancien méthodologiste en chef, au Dr Anders Holmberg, méthodologiste en chef et à Paul Schubert, gestionnaire de programme, pour avoir pris le temps de réviser ce document à plusieurs reprises au cours de plusieurs séries de révisions. Je remercie également la professeure Natalie Shlomo de l’Université de Manchester d’avoir fourni des commentaires utiles.
Le projet Gold Provider sur lequel ce document est basé a été une réalisation collaborative avec des contributions perspicaces et un travail acharné de mes collègues de l’ABS dans divers domaines, y compris la méthodologie des statistiques d’entreprises, le programme de statistiques agricoles, le centre de conception de la collecte de données, le centre national d’acquisition de données et la modélisation, l’analyse et la visualisation. Je leur suis très reconnaissant de leur soutien et de leur dévouement. Je remercie en particulier Justin Farrow et Lyndon Ang pour leurs conseils réfléchis, Susan Fletcher et Tom Davidson pour leurs efforts inlassables, ainsi que Kirrilie Horswill et Sean Geltner pour leur aide à la publication de cet article.
Summer WangDirecteur adjointDivision de la méthodologie
De plus amples informations sur l’enquête agricole 2018-19 de l’ABS sont disponibles dans la publication Agricultural Commodities, Australia.
De plus amples informations sur la méthodologie utilisée dans l’enquête agricole annuelle 2018-19 de l’ABS sont disponibles dans Agricultural Commodities, Australia methodology
La série technique du statisticien australien présente une analyse et une discussion des faits nouveaux intervenus dans les méthodes statistiques utilisées par l’ABS.
La série vise à informer la communauté australienne, à stimuler la discussion et à solliciter des commentaires sur des questions techniques importantes.
De plus amples renseignements sont disponibles dans le communiqué de presse suivant.