Les grands modèles de langage (Large Language Models, ou LLM) sont des réseaux de neurones entraînés à prédire le mot suivant dans un texte. À force d'avaler des milliards de phrases, ils finissent par capturer la grammaire, des connaissances et des schémas de raisonnement.

L'architecture qui a tout changé s'appelle le Transformer (2017). Son mécanisme d'« attention » permet au modèle de pondérer l'importance de chaque mot par rapport aux autres, même éloignés dans la phrase.

Ces modèles alimentent aujourd'hui les assistants conversationnels, la génération de code, la traduction ou le résumé automatique. Mais ils ont des limites : ils peuvent « halluciner » (inventer des faits avec aplomb), reproduire des biais, et ne connaissent pas les événements postérieurs à leur entraînement.