Chercheurs principaux : David Haziza, Zeinab Mashreghi et Changbao Wu

Projets des équipes de recherche collaborative – Projet 31

Inférence statistique en échantillonnage d’enquête avec méthodes d’apprentissage automatique

L’apprentissage automatique (AA) aide les offices nationaux de statistique à améliorer la précision en trouvant des motifs au sein de grands ensembles de données complexes. Malgré l’utilisation répandue de techniques d’AA, la littérature sur l’inférence statistique à partir de prédictions issues de l’AA demeure limitée. Ce projet vise à développer de meilleurs outils statistiques en présence d’AA afin de produire des inférences valides basées sur des plans d’échantillonnage complexes dans divers contextes : gestion de données manquantes, estimation assistée par modèle, et intégration d’échantillons probabilistes et non probabilistes. L’équipe du projet vise à établir des cadres théoriques fondamentaux ainsi qu’un logiciel convivial pour ces procédures, utile aux praticiens.

Catégorie de recherche :
Région : Nationale
Date : 2026–2029

Pourquoi avons-nous besoin de meilleurs outils pour l’inférence statistique à partir de prédictions fondées sur l’apprentissage automatique?

Au cours des dernières années, l’intérêt pour l’application de procédures d’apprentissage automatique au sein des bureaux nationaux de statistique s’est accru. La disponibilité croissante de sources de mégadonnées et de fichiers administratifs a permis l’utilisation d’algorithmes d’AA sophistiqués, et l’AA aide les ONS à améliorer la précision en repérant des motifs dans de grands ensembles de données complexes. Malgré l’utilisation généralisée des techniques d’AA, la littérature sur l’inférence statistique à partir de prédictions fondées sur l’AA demeure limitée. En effet, les propriétés des estimateurs ponctuels et de variance dérivés de ces méthodes sont mal comprises, et il est donc très important — voire crucial — de développer de meilleurs outils statistiques dans un environnement où l’AA est présente afin de produire des inférences valides fondées sur des plans d’échantillonnage complexes dans différents contextes : gestion des données manquantes, estimation assistée par modèle et intégration d’échantillons probabilistes et non probabilistes.

Dans cette optique, l’équipe de recherche collaborative (ERC) offrira de la formation aux étudiants, aux chercheurs et aux méthodologues d’enquête travaillant dans les OSN et d’autres organismes tels que la Banque du Canada. Elle encouragera également l’utilisation de méthodes statistiques modernes dans la communauté des enquêtes en démontrant l’applicabilité des méthodologies proposées à des ensembles de données réelles. L’ERC vise à établir des cadres fondamentaux ainsi qu’un logiciel convivial pour ces procédures, utiles aux praticiens.

Crédit: Statistique Canada
Credit: Bank of Canada

Objectifs et activités de recherche

Récemment, on observe un intérêt croissant pour l’utilisation de l’apprentissage automatique afin d’obtenir des prédictions plus précises dans le cadre d’enquêtes. Le plus souvent, l’objectif consiste à estimer des paramètres d’une population finie (p. ex. un total/moyenne de population finie, un quantile de population finie, etc.), et c’est précisément le but de cette recherche.

L’ERC examinera quatre problèmes liés à cet intérêt :

  1. Apprentissage automatique débiaisé pour l’imputation et l’estimation assistée par modèle : Des projets seront entrepris pour examiner les procédures d’imputation doublement débiaisées pour une moyenne de population, les procédures d’imputation doublement débiaisées pour des paramètres généraux, ainsi que l’estimation assistée par modèle fondée sur des méthodes d’apprentissage automatique débiaisé.
  2. Apprentissage automatique pour le traitement du non-réponse unitaire : L’équipe examinera les procédures de bootstrap pour populations finies afin d’identifier les contextes dans lesquels elles fonctionnent bien et ceux dans lesquels elles échouent ; analysera le choix de l’architecture à utiliser, correspondant à un ensemble d’hyperparamètres, afin d’identifier l’architecture optimale ; explorera l’effet des procédures de réduction des poids basées sur des seuils adaptatifs pour, par exemple, minimiser l’erreur quadratique moyenne (EQM) estimée des estimateurs pondérés par probabilité inverse ; et résoudra le problème de l’absence d’orthogonalisation de Neyman en considérant une approche de pondération, où des modèles de régression pour chaque variable clé de l’enquête sont ajustés séparément.
  3. Intégration d’échantillons probabilistes et non probabilistes : L’objectif de ce projet est d’étudier comment, et sous quelles hypothèses, obtenir des prédicteurs approximativement non biaisés des totaux ou moyennes d’une population finie lorsque peu ou pas de données d’enquêtes probabilistes sont disponibles, ainsi que comment estimer la qualité (variance de prédiction) de ces prédicteurs.
  4. Inférence basée sur la prédiction avec des données d’enquête : Ce travail traitera un certain nombre de questions techniques et fondamentales liées à l’utilisation de l’inférence basée sur la prédiction pour l’intégration de données en échantillonnage d’enquête et en statistique officielle.

Les gens derrière le projet

Membres du groupe

David Haziza | Université d’Ottawa

Zeinab Mashreghi | Université de Winnipeg

Changbao Wu | Université de Waterloo

Collaborateurs

Jean-François Beaumont | Statistique Canada

Sixia Chen | Université de l’Oklahoma

Mehdi Dagdoug | Université McGill

Audrey-Anne Vallée | Université Laval

Angelika Welte | Banque du Canada

Partenaires du projet

Statistique Canada

Banque du Canada