Atelier de l’INCASS Prairies : From Classical NLP to Large Language Models: Concepts, Architectures, and Practical Demonstrations

Date : samedi 7 février 2026
Heure : 9 h à 16 h (heure du Centre)
Lieu : Université du Manitoba, campus Fort Garry, bâtiment Armes, salle 201
Description de l’atelier
Cet atelier d’une journée, intitulé « From Classical NLP to Large Language Models: Concepts, Architectures, and Practical Demonstrations », est le cinquième de la série d’ateliers sur la science des données de l’INCASS Prairies. Il sera animé par Lei Ding, professeur adjoint de statistique à l’Université du Manitoba.
L’atelier s’adresse aux étudiants, aux chercheurs, ainsi qu’aux professionnels en statistique, en informatique et en science des données, de même qu’aux personnes intéressées à comprendre ou à appliquer le traitement automatique du langage naturel (TAL) et les grands modèles de langage (GML) dans le cadre de la recherche ou de la pratique. Aucune connaissance approfondie en apprentissage automatique n’est requise, bien qu’une familiarité de base avec la programmation soit un atout.
Les participants acquerront une compréhension unifiée du TAL classique et moderne ; une meilleure compréhension de la manière dont les GML apprennent, raisonnent et se comportent ; des exemples de code pratiques pour les embeddings et la génération augmentée par récupération (GAR) ; ainsi qu’une base solide pour la recherche ou le travail appliqué faisant appel aux GML.
À la fin de l’atelier, les participants seront en mesure de :
- comprendre les représentations classiques du TAL et pourquoi elles ne parviennent pas à saisir la sémantique ;
- saisir les principales innovations à l’origine des word embeddings ;
- apprendre l’architecture des Transformers et comprendre pourquoi elle est devenue le modèle dominant ;
- comprendre comment les GML sont préentraînés, ajustés par instruction (instruction tuning) et alignés à l’aide de la rétroaction humaine ;
- voir comment les modèles effectuent des raisonnements et pourquoi l’amorçage par chaîne de pensée (Chain-of-Thought, CoT) peut améliorer les performances ;
- apprendre comment la récupération de l’information et l’ancrage (grounding) améliorent la précision des modèles ;
- acquérir une expérience pratique dans la création de petits flux de travail en TAL et avec des GML.
Nous vous invitons à vous joindre à nous !
Coût et inscription
- Étudiants : 25 $
- Non-étudiants : 50 $
Programme de l’atelier
Séances du matin
9 h – 10 h 30 | Séance 1 — Fondements du TAL et des embeddings
Cette séance présente les techniques traditionnelles du TAL et motive la transition vers des représentations vectorielles denses. Les thèmes abordés comprennent :
- sac de mots (Bag-of-Words, BoW) et TF-IDF ;
- limites des représentations clairsemées : absence d’ordre, absence de sens ;
- transition vers des embeddings continus ;
- Word2Vec, GloVe, fastText ;
- géométrie sémantique : similarité et raisonnement par analogie.
Résultat attendu : Les participants comprendront comment le texte est transformé en vecteurs et pourquoi les embeddings ont révolutionné le TAL.
10 h 30 – 10 h 45 | Pause
10 h 45 – 12 h | Séance 2 — Architecture des Transformers et préentraînement
Une introduction ciblée à l’architecture qui sous-tend tous les GML modernes. Les thèmes abordés comprennent :
- mécanisme d’auto-attention ;
- attention multi-têtes ;
- encodage positionnel ;
- structure encodeur vs décodeur ;
- objectifs de préentraînement : prédiction du prochain jeton, modélisation du langage masqué ;
- pourquoi l’augmentation de l’échelle des Transformers mène à des capacités émergentes.
Résultat attendu : Les participants acquerront une intuition du fonctionnement des Transformers et comprendront pourquoi ils se déploient efficacement à grande échelle.
12 h – 13 h | Dîner
Séances de l’après-midi
13 h – 14 h 30 | Séance 3 — Grands modèles de langage : raisonnement, alignement et applications
Il s’agit de la principale séance conceptuelle de l’après-midi. Les thèmes abordés comprennent :
- qu’est-ce qui rend un modèle « grand »? ;
- ajustement par instruction (instruction tuning) ;
- ajustement supervisé fin (Supervised Fine-Tuning, SFT) ;
- apprentissage par renforcement à partir de la rétroaction humaine (Reinforcement Learning from Human Feedback, RLHF) ;
- amorçage par chaîne de pensée (Chain-of-Thought, CoT) et pourquoi il améliore les performances de raisonnement ;
- hallucinations, ancrage (grounding) et brève introduction à la GAR ;
- exemple : amorce standard vs amorce CoT (démonstration en direct du raisonnement).
Résultat attendu : Les participants comprendront comment les GML modernes raisonnent, comment fonctionne l’alignement et comment les stratégies d’amorçage influencent la qualité des résultats.
14 h 30 – 14 h 45 | Pause
14 h 45 – 16 h | Séance 4 — Démonstration de programmation en direct : embeddings, raisonnement et GAR
Cette séance pratique relie tous les concepts de la journée à des exemples concrets. Les démonstrations en direct comprendront :
- génération d’embeddings de texte ;
- recherche de similarité sémantique ;
- pipeline RAG minimal ;
- démonstration du raisonnement avec et sans chaîne de pensée ;
- petit exemple de bout en bout : téléverser du texte → vectoriser → récupérer → amorcer → répondre.
Résultat attendu : Les participants verront comment les systèmes de TAL et de GML sont construits en pratique et repartiront avec du code Python reproductible.
À propos du conférencier
Lei Ding est professeur adjoint au Département de statistique de l’Université du Manitoba. Il a auparavant occupé un poste de stagiaire postdoctoral à l’Université de l’Alberta, où il a également obtenu son doctorat en apprentissage statistique automatique en 2024. Ses travaux de recherche se situent à l’intersection des grands modèles de langage (GML), du traitement automatique du langage naturel (TAL) et de l’apprentissage statistique. Le Dr Ding est l’auteur de plus de 20 publications dans des conférences et revues internationales de premier plan, notamment la Conference on Neural Information Processing Systems (NeurIPS), l’International Conference on Machine Learning (ICML), la AAAI Conference on Artificial Intelligence, la Conference of the North American Chapter of the Association for Computational Linguistics (NAACL) et les Proceedings of the National Academy of Sciences Nexus (PNAS Nexus).
À propos de la série
La série d’ateliers sur la science des données de l’INCASS Prairies offre une excellente occasion de perfectionner ses connaissances et ses compétences dans divers domaines de la science des données. Grâce à une série de séances hybrides (en ligne et en personne), dynamiques et interactives, les participants peuvent explorer de nouveaux sujets, apprendre des techniques de pointe et échanger avec des experts du domaine.