Chercheurs principaux ERC 27
Chercheurs principaux (de gauche à droite et de haut en bas) : Alexandre Bouchard-Côté, Trevor Campbell, Philippe Gagnon, Liangliang Wang

Projets des équipes de recherche collaborative – Projet 27

Bayes rapide et distribué pour tous

La modélisation bayésienne est largement utilisée dans tous les domaines de la science et de l’ingénierie pour modéliser la réalité tout en quantifiant l’incertitude. Pourtant, le coût de calcul des méthodes bayésiennes empêche toujours le développement de modèles scientifiques plus ambitieux et limite la précision de leurs prédictions. Ce projet développera des méthodes fondamentales dans l’inférence bayésienne distribuée à grande échelle et les publiera dans un package open source, Pigeons (prototype disponible ici), qui permettra aux statisticiens d’exploiter le calcul distribué/cloud pour effectuer des calculs bayésiens à grande échelle.

Catégorie de recherche :

Région : National

Date : 2025–2028

Pourquoi de nouvelles méthodes fondamentales sont-elles nécessaires dans l’inférence bayésienne distribuée à grande échelle ?

Étant donné les propriétés d’optimalité des méthodes bayésiennes, pourquoi sont-elles simplement « largement utilisées » plutôt que utilisées pour tous les problèmes de prédiction ? La raison principale est simple : leur coût de calcul.

Pour les problèmes difficiles, malgré les progrès récents des méthodes bayésiennes de calcul, il existe encore une marge de progression importante, notamment en ce qui concerne deux domaines principaux : (1) tirer parti des plates-formes modernes de calcul distribué et de cloud computing massivement parallèles, et (2) rendre l’inférence bayésienne à l’aide de ces plates-formes accessible aux utilisateurs finaux sans aucune expertise en calcul distribué.

Nous prévoyons que la capacité à paralléliser massivement le calcul bayésien sans nécessiter de connaissances spécialisées de la part de l’utilisateur sera transformatrice : des tâches qui prenaient auparavant plusieurs heures peuvent être réduites à quelques dizaines de secondes, ce qui permet un développement rapide de modèles pour une classe de problèmes considérablement élargie. Les premiers tests de notre nouvelle plateforme sur un problème de reconstruction d’arbre phylogénétique génomique du cancer ont déjà montré des résultats prometteurs : en utilisant le calcul distribué, nous avons obtenu une accélération de plus de 700 fois par rapport à l’inférence non distribuée.

Crédit photo : Alexandre Bouchard-Côté
Crédit photo : Alexandre Bouchard-Côté

Objectifs et projets de recherche

Le but ultime de notre projet est de permettre aux utilisateurs d’exploiter la puissance des plateformes de calcul distribué à grande échelle pour l’inférence bayésienne impliquant une distribution postérieure complexe, sans avoir besoin d’une quelconque expertise en calcul distribué.

À un niveau élevé, notre proposition consistera en quatre projets méthodologiques abordant les principaux défis de l’inférence bayésienne distribuée, ainsi qu’en deux projets transversaux à travers lesquels tous les stagiaires et chefs d’équipe interagiront :

Projet transversal 1 : Application du calcul bayésien distribué à des problèmes scientifiques du monde réel. L’objectif de ce projet transversal est d’affiner les projets de méthode 1 à 4 pour garantir leur adéquation avec les besoins réels des praticiens.

Projet transversal 2 : Intégration de nouvelles méthodologies dans une bibliothèque open source. À partir de la première année, de nouveaux doctorants rejoindront l’équipe de développement de notre bibliothèque de logiciels open source pour le calcul bayésien distribué (Pigeons). L’objectif est qu’à la fin de leur doctorat, les étudiants aient contribué par leur travail méthodologique à cette bibliothèque de logiciels, qui dispose déjà d’une communauté d’utilisateurs saine.

Projet de méthode 1 : Permettre la pleine généralité de l’inférence bayésienne dans un cadre distribué et fortement évolutif. Nous développons des logiciels qui éliminent les limitations de nombreux packages existants populaires et construisons des ponts logiciels qui permettent à l’utilisateur d’exprimer son problème dans le langage de modélisation de son choix.

Projet de méthode 2 : réglage automatique dans un environnement distribué. Les algorithmes d’inférence bayésienne incluent généralement des paramètres qui peuvent être définis (réglés) pour adapter la méthode à un problème particulier. Ce projet adaptera les méthodes de réglage automatique conçues pour le cadre de calcul local sur une seule machine à l’environnement distribué.

Projet de méthode 3 : méthodes avancées d’échange distribué. Nous étudierons des schémas de communication inter-chaînes alternatifs, développerons des versions distribuées de ces schémas d’échange avancés, les incorporerons dans notre logiciel open source et analyserons leur évolutivité.

Projet de méthode 4 : méthodes de particules distribuées. Nous adapterons le travail que nous avons effectué en trempe parallèle non réversible distribuée (NRPT) au domaine du Monte Carlo séquentiel recuit (SMC). Les méthodes PT et SMC peuvent également être combinées pour obtenir différents compromis de performance. Nous travaillerons avec des collaborateurs appliqués pour identifier les régimes où les options manquent actuellement.

Les gens derrière le projet

Membres du groupe

Alexandre Bouchard-Côté | Université de la Colombie-Britannique

Trevor Campbell | Université de la Colombie-Britannique

Philippe Gagnon | Université de Montréal

Liangliang Wang | Université Simon Fraser

Collaborateurs

Abigail Azari | Université de la Colombie-Britannique et professeur entrant, Université de l’Alberta

Cindy Feng | Université Dalhousie

Saifuddin Syed | Université d’Oxford

William Thompson | Conseil national de recherches du Canada

Paul Tiede | Université Harvard et Smithsonian Astrophysical Observatory