Oubliez les World models et concentrez-vous sur les Work models

Les world models font l’objet d’un engouement médiatique considérable depuis le début de l’année, portés par des figures comme Yann LeCun ou Fei-Fei Li qui y consacrent des startups au financement record. Mais avant de nous laisser emporter par cette nouvelle vague d’enthousiasme technologique, je vous propose de prendre du recul sur ce que ces modèles sont réellement, ce qu’ils promettent et ce qu’ils ne peuvent pas encore tenir, et surtout sur ce qui devrait retenir notre attention. Car pendant que la recherche s’emballe et que les factures grimpent avec la prolifération des agents IA, la question de la frugalité numérique revient sur le devant de la scène. Il est plus que temps d’avoir une lecture lucide d’un marché en surchauffe, pour nous aider à concentrer les efforts et moyens là où ils auront un impact réel.

#GenAI #AIagents #DigitalWorkplace


En synthèse :

  • Les world models sont une prouesse technique séduisante, mais prématurée. Contrairement aux LLM qui prédisent des mots, les modèles de monde cherchent à simuler les lois du monde physique, une ambition considérable dont les corpus d’entraînement nécessaires sont encore très loin d’être constitués.
  • La course à la puissance a largement dépassé le point de surchauffe. L’explosion quasi-exponentielle de la consommation de tokens et le « tokenmaxxing » signalent une trajectoire non viable, où investir plus dans plus de directions n’améliore pas la situation mais la complique.
  • L’avènement des agents intelligents rend le contrôle des fichiers de travail stratégique. Ce n’est pas un hasard si les grands éditeurs cherchent à s’implanter sur l’ordinateur des utilisateurs, car sans accès aux informations, données et connaissances de l’entreprise, un agent IA ne vaut littéralement rien.
  • La parenthèse enchantée des abonnements subventionnés tire à sa fin. OpenAI et Anthropic entrent dans une phase de maturité à l’approche de leur introduction en bourse, ce qui se traduit déjà par des offres forfaitaires plus limitées et des coûts qui grimpent de façon préoccupante pour les entreprises utilisatrices.
  • La priorité n’est pas d’innover davantage, mais de faire mieux avec moins. Des modèles compacts, spécialisés et intégrés aux routines de travail constituent la trajectoire réaliste à suivre. Tandis que les priorités restent les mêmes : rassurer les utilisateurs, acculturer les équipes, et préparer le terrain pour la généralisation des agents intelligents.

Quand les équipes d’OpenAI a lancé ChatGPT à la fin de l’année 2022, elles ne devaient certainement pas se douter de l’onde de choc que l’IA générative provoquerait. Le monde des NTIC s’est ainsi très rapidement passionné pour les modèles de langage (capables de générer des contenus), puis pour les modèles de raisonnement (capables de réflexions poussées), puis pour les modèles d’action (capables d’utiliser une application à votre place).

Nous sommes en milieu d’année 2026, et la nouvelle marotte technologique à la mode semble être les modèles de monde : les « world models » (cf. les explications de Nvidia : What Is a World Model?).

Le bal médiatique autour des modèles de monde a été ouvert en début d’année avec le départ de Yann Lecun de Meta pour créer sa startup dédiée aux world models. Cette dernière ayant réussie à procéder à un amorçage record : Yann Le Cun lève 900 millions d’euros pour sa start-up d’IA basée en France. Vous noterez que le breton n’est pas le seul à avoir opéré une telle bascule : Fei-Fei Li’s World Labs Raises $1 Billion for Spatial AI.

Puis Google a commencé à communiquer de façon plus intensive sur son propre world modèle et a ravi les plus enthousiastes avec des démonstrations spectaculaires lors du dernier Google I/O : Simulate real-world places with Project Genie and Street View.

Un engouement confirmé récemment par le recrutement du co-fondateur d’OpenAI par Anthropic pour concevoir leurs propres modèles de monde : OpenAI co-founder Andrej Karpathy joins Anthropic’s pre-training team.

Maintenant que la démonstration de la popularité des world models est faite, intéressons-nous à ce qu’ils sont réellement.

Modèle de monde = LLM + Compréhension du monde physique + Capacités de simulation

Les world models sont donc des modèles génératifs entrainés avec des contenus leur permettant de comprendre non pas le sens d’une phrase ou d’une question (appréhension sémantique), mais les règles qui régissent notre monde physique (appréhension spatiale et causales). Ce sont des modèles de représentation du monde physique.

En gros : si dans une simulation on renverse un verre d’eau posé sur une table, l’eau s’écoule par terre, tandis que le verre se brise en tombant au sol. Sauf s’il y a un tapis suffisamment épais sous la table. Auquel cas, le tapis devient mouillé. Et tâché si le verre était rempli de Coca.

Comme vous pouvez l’imaginer, générer des simulations réalistes qui tiennent compte de l’ensemble des paramètres physiques d’un environnement et des objets qui le composent n’est pas une tâche facile. Et c’est un euphémisme !

Comme expliqué plus haut, la principale différence est qu’un modèle de langage apprend à partir d’un vaste corpus de contenus textuels pour pouvoir prédire le prochain mot, tandis qu’un modèle de monde apprend à partir de contenus beaucoup plus complexes (réels ou simulés) pour pouvoir extrapoler les lois de la physique (propriété des objets, causalité des actions…).

Pour bien appréhender la complexité des modèles de monde, je vous encourage à explorer les différentes infographies proposées sur cette page : World Models.

Et si vous êtes motivé, vous pouvez même lire l’article-compagnon pour avoir une vue approfondie des défis qu’il sera nécessaire de relever avant d’avoir des modèles de monde parfaitement au point : World Models: Computing the Uncomputable.

La principale difficulté pour le moment est de constituer un corpus d’entrainement suffisamment vaste pour que les modèles de monde aient une bonne compréhension de l’environnement dans lequel nous vivons. Voilà pourquoi certains sont payés pour se filmer dans leurs gestes quotidiens, pour créer des données d’entrainement : Why hundreds of people in L.A. are strapping cameras on their bodies to do chores.

Peut-être vous souvenez-vous de cette célèbre citation d’une designeuse qui disait qu’elle ne voulait pas d’IA capables de faire de l’art, mais d’IA capables de faire des tâches ménagères à sa place. Il semblerait que nous soyons sur la bonne voie !

Sinon, il y a toujours la possibilité d’entrainer les modèles à partir de simulations réalistes, celles que l’on trouve dans les jeux vidéo…

Mais n’allez pas croire que l’objectif est de faire des jeux vidéo plus réalistes ou moins coûteux, car la finalité est de pouvoir doter les robots de capacités de compréhension et d’action, de leur permettre d’être autonomes dans leur apprentissage d’un environnement et/ou d’une tâche. C’est ce que l’on appelle l’Embodied AI, l’IA incarné (What Is Embodied AI?).

Mais ce n’est pas tout, car si les modèles de monde vont permettre aux robots d’arrêter de se cogner partout (A Chinese humanoid robot flopped face-first onto the ground during a public showcase, Dancing robot falls on stage during Billie Jean routine in China…), ils permettent aussi de simuler de façon très efficace les interactions entre molécules, ce qui ouvre la porte à de nouvelles découvertes scientifiques : Zuckerberg’s philanthropic venture unveils AI world model for drug discovery.

Voilà de très bonnes raisons de nous réjouir, non ? Pas forcément, car ce n’est pas comme si nous manquions de nouvelles applications de l’IA générative à découvrir, ou comme si nous avions des ressources infinies à disposition.

Un axe de recherche supplémentaire fera-t-il la différence ?

La semaine dernière, l’ARCEP publiait un rapport sur l’empreinte écologique de l’IA : Intelligence artificielle générative : quels défis environnementaux ?

Rassurez-vous, je ne vais pas vous faire la morale sur votre empreinte carbone, mais j’attire néanmoins votre attention sur le fait que la course à la puissance dans laquelle se sont lancés la plupart des éditeurs les a entrainés vers des sommets de gaspillage d’énergie et d’argent.

Mais le pire reste visiblement à venir avec une accélération de la progression de la consommation de tokens pour les années à venir.

Cette progression quasi-exponentielle de la consommation de tokens, et plus généralement la mode ridicule du « tokenmaxxing » me font dire que nous ne sommes pas sur la bonne trajectoire. J’avais déjà évoqué le sujet l’année dernière (Des limites de la capacité d’absorption du marché avec l’IA), et je réitère mes propos : la priorité n’est pas d’accélérer (plus d’innovation dans plus de directions), mais au contraire de ralentir pour mieux concentrer les efforts (éviter la dispersion des moyens) et surtout permettre aux particuliers comme aux professionnels d’adopter sereinement l’IA et de changer leurs habitudes de travail de façon volontaire et non de façon contrainte et/ou précipitée.

Plus de que jamais, il y a un réel besoin de savoir où nous allons (As AI becomes cognitive infrastructure, policy-makers must govern for resilience) et surtout de savoir combien ça va nous coûter. Quoi que, nous en avons une meilleure idée : Claude, ChatGPT et Gemini transforment les tokens en or. De plus, il semblerait que nous ayons déjà atteint un plafond : The AI rush is hitting a bottleneck.

De l’urgence de ralentir

Peut-être serait-il temps d’accorder moins d’attention aux projets de recherche dont l’ambition est de réaliser des exploits techniques pour justifier les montants colossaux qui sont investis quasiment à perte dans les infrastructures techniques et logicielles.

Ceux qui me lisent depuis le début (plus de 20 ans pour certains), savent que j’ai toujours adopté une attitude réaliste, mais enthousiaste vis-à-vis des innovations technologiques. Et là, il faut bien avouer que nous avons depuis longtemps dépassé le point de surchauffe : plus d’innovation ne changera pas la donne, il faut maintenant chercher à optimiser l’existant pour pouvoir en tirer des bénéfices concrets, et non pas pousser toujours plus loin la recherche de l’automatisation (L’IA doit nous aider à mieux réfléchir et non réfléchir à notre place).

Je pense très sincèrement qu’il serait opportun de s’intéresser à nouveau au développement numérique durable, car il y a réellement un problème de viabilité dans cette course folle à l’IA : Une transformation digitale vertueuse à travers la responsabilité numérique des entreprises.

Ainsi, notre attention devrait se porter en priorité sur ce qui fonctionne réellement et surtout à l’impact de toutes ces innovations, sinon le retour de balancier risque d’être violent : An AI hate wave is here et US Law Enforcement Warns of ‘Anti-Tech Extremism’ as AI Hatred Grows.

Pour le moment, les centaines de milliards de $ investis proviennent du secteur privé, donc le grand public ou les gouvernements n’ont pas leur mot à dire (la décision revient aux fonds d’investissement). Mais ces sommes gigantesques englouties dans l’IA ne le seront pas dans d’autres technologies ou activités. Il va logiquement y avoir des conséquences indirectes pour nous tous de cette course à la puissance.

Voilà pourquoi il est tout à fait salutaire d’avoir une réflexion sur l’intérêt d’alimenter à tout prix la machine à innover (de financer de nouveaux travaux de recherche) alors que nous ne savons même pas où nous allons. Encore une fois, ce n’est pas comme si nous avions trop d’électricité ou de silicium !

Ainsi, même si ce n’est pas votre religion, je vous encourage vivement à lire le point de vue officiel de l’Église Catholique sur l’IA : Lettre encyclique du Saint-Père Léon XIV Magnifica Humanitas.

Je ne me risquerais pas à une analyse de texte de cette encyclique, d’autres l’ont fait beaucoup mieux que moi : Que faut-il retenir de Magnifica Humanitas, la première encyclique de Léon XIV ? Cette vision beaucoup plus humaniste des nouvelles technologies (l’IA au service du bien commun) nous permet de prendre du recul sur des modèles de plus en plus puissants qui nous font dire que nous jouons avec le feu (Cybersécurité : La Banque centrale européenne sonne l’alarme suite aux failles critiques révélées par Claude Mythos d’Anthropic).

Au final, les deux impératifs du moment sont de convertir et fidéliser les utilisateurs (plutôt que de les paniquer avec un rythme d’innovation toujours plus élevé), ainsi que d’optimiser les outils actuels (concevoir des modèles plus précis, moins couteux à faire tourner, et les intégrer aux routines de travail quotidien).

La bonne nouvelle, c’est que ce n’est pas incompatible !

Des mega-modèles ultra-puissants pour créer des modèles compacts spécialisés

Je vais être honnête avec vous : j’ai bien conscience que mon avis importe peu, et que la course à la puissance va se poursuivre pendant encore un certain temps. Ceci étant dit, ce n’est pas parce que nous avons des modèles ultra-puissants qu’il faut les utiliser à tort et à travers.

J’ai ainsi déjà eu l’occasion de vous parler de techniques comme la distillation des connaissances qui permet d’extraire les connaissances essentielles d’un modèle « maitre » pour les transférer vers un modèle « élève » : Model Distillation Explained.

Le principe est connu de tous, encore faut-il lui trouver sa place sur le marché. Jusqu’à présent, la quasi-majorité des usages d’IA générative se faisait à travers des chatbots à l’aide de questions et réponses. Mais depuis peu, le grand public a pu découvrir les vertus d’une autre façon d’exploiter les modèles génératifs : Une accélération exponentielle de l’IA grâce aux agents intelligents.

Avec l’avènement des agents intelligents, les cols blancs (travailleurs du savoir) ont à leur disposition une nouvelle génération de modèles qui transforment en profondeur les façons de travailler (Les agents IA vont nous permettre de gagner en productivité collective), ainsi que les outils de travail (De la transformation numérique à la transformation agentique).

Sauf que… ces fameux agents intelligents ne sont pas non plus devins : sans un accès aux informations, données et connaissances de l’entreprise, ils ne sont littéralement bons à rien. Les grands éditeurs avaient prévu de les introduire petit à petit dans leur offre, mais la sortie en début d’année de Claude Cowork et d’OpenClaw a changé la donne : AI Agents Plunged the Tech World Into Chaos. Here’s Exactly How That Happened.

Il n’a ainsi pas fallu attendre plus de 6 mois pour que le marché se réoriente et adopte ce principe d’agents orchestrateurs. Le dernier éditeur en date à faire la bascule n’est autre que Mistral : Vibe gets to work.

Mistral a donc opté pour un environnement de travail agentique en ligne, certainement plus facile dans un premier temps à déployer et à encadrer. Les éditeurs américains, qui disposent de moyens conséquents, cherchent maintenant à s’implanter au plus près des utilisateurs : directement dans leur ordinateur.

La ruée vers l’inférence locale

OpenAI, Anthropic, Perplexity et même Google se bousculent pour essayer de préempter les derniers centimètres qui les séparent du Saint-Graal : les fichiers de travail qui permettent aux agents de délivrer leur plein potentiel.

Voilà pourquoi nous avons pu assister ces dernières semaines à la sortie d’un certain nombre de logiciels d’orchestration locale d’agents IA :

Pourquoi un tel empressement des éditeurs à prendre pied sur l’ordinateur des utilisateurs ? Car c’est la voie royale pour accéder aux fichiers et logiciels, mais également parce qu’une partie des traitements peuvent être réalisés en local.

Pour le moment, Microsoft, Salesforce et Adobe préfèrent encore tout miser sur leurs offres cloud, car la compétition y est moins forte, surtout sur les activités historiques (bureautique pour Microsoft, gestion commerciale et relation-client pour SalesForce, documentation, créativité et marketing pour Adobe).

Mais Microsoft à plus d’un tour dans son sac, avec notamment une expertise méconnue dans les modèles compacts capables d’authentiques prouesses en local, notamment avec les gammes Phi et Fara :

La promesse est alléchante : un modèle d’action spécifiquement entrainé sur des tâches bureautiques, et même capable de faire du « computer use » (ex : de surfer sur le web à votre place). Si je suis sceptique pour ce qui concerne les usages grand public (ex : réserver une chambre d’hôtel), je suis en revanche très confiant dans la capacité de Microsoft à livrer un modèle dédié aux usages bureautiques : Bientôt un “Work Model” universel sur votre PC ?.

Vous noterez que les éditeurs chinois ont de grandes ambitions en ce domaine également, puisqu’ils se sont fait la spécialité des modèles proposant le meilleur rapport performance / consommation : DeepSeek V4 Pro tops global bang-for-buck ranking after 75% price cut. Il est néanmoins difficilement envisageable de déployer ce genre de modèle dans des entreprises ou institutions européennes. J’ai donc l’intuition qu’au final, la position dominante historique de Microsoft va faire la différence.

La fin du « All inclusive »

Je pense ne rien vous apprendre en écrivant que ce qui définit le mieux une startup est sa recherche de croissance rapide. Mais dès que ladite startup a atteint une taille critique, qu’elle ne peut plus dépenser sans compter, alors elle se transforme en scale-up, une société dont la priorité est de gérer sa croissance (= de trouver le juste équilibre entre la rentabilité et la compétitivité de son offre).

C’est dans cette phase que viennent de rentrer OpenAI et Anthropic, d’autant plus à l’approche de leur introduction en bourse (I think Anthropic and OpenAI have found product-market fit). Ceci explique le coup de rabot pour les différentes offres forfaitaires qui sont maintenant beaucoup plus limitées :

Très clairement une fin de « parenthèse enchantée », car c’était trop beau pour être vrai. Une décision quasiment salutaire pour certains qui avaient développé une forme d’obsession : Claude Code Price Hike Finally Feels Like a Relief.

Cette tendance est confirmée par la sortie récente d’ordinateurs compacts dédiés aux IA, donc capables de réaliser des inférences en local avec des performances très honorables pour un moindre coût :

Je ne suis pas devin, mais j’ai la conviction que la trajectoire d’évolution de l’IA générative en entreprise est toute tracée : des modèles compacts, beaucoup plus légers / rapides, beaucoup moins coûteux, et surtout bien mieux maitrisés. Le tout dans un environnement de travail intégré où les informations, données et connaissances sont à disposition des agents intelligents : Des Digital Workplaces aux Agentic Workplaces.

Une approche à contre-courant des entreprises qui se targuent d’exploiter les modèles les plus puissants et à consommer toujours plus de tokens, mais une approche résolument réaliste qui va très rapidement s’imposer, car les factures grimpent de façon inquiétante : Uber burned through its entire 2026 AI budget in four months. Now its COO is questioning whether it’s worth it.

If a $500K engineer isn’t using $250K in tokens, something’s wrong!

La priorité reste de faire mieux avec moins

Encore une fois, je ne cherche absolument pas à faire du green washing ou à vous culpabiliser sur votre empreinte carbone, mais je pense qu’il est important de rappeler que nous sommes dans une configuration de marché complètement inhabituelle avec :

  • des startups qui commercialisent des offres subventionnées par des investisseurs prêts à prendre tous les risques (un abonnement Claude Max est facturé à 1/10e de son prix de revient) ;
  • des fournisseurs de solution cloud qui s’endettent pour financer des infrastructures techniques dont on sait qu’ils auront beaucoup de mal à les rentabiliser (l’offre se banalise très rapidement) ;
  • des entreprises qui sont sommées d’adopter au plus vite des technologies immatures et coûteuses pour pouvoir réaliser des économies (ce qui est parfaitement antinomique) ;
  • des institutions et gouvernements qui multiplient les mises en garde envers des technologies et usages qu’ils ne comprennent pas (l’Église Catholique fait figure d’exception)…

Bref, la situation est très complexe et chaotique, il y a de fortes chances de gaspiller ses ressources et de se perdre en chemin. Voilà pourquoi il faut au plus vite définir une feuille de route cohérente et réaliste, afin de :

  • Rassurer les utilisateurs potentiels (ceux dont on exige une adoption rapide de l’IA) ;
  • Acculturer les équipes (sensibilisation, formation, accompagnement…)
  • Préparer le terrain pour la généralisation des agents IA (mutualisation et structuration des informations / données / connaissances, modélisation des activités et tâches…).

Rien de très nouveau dans mon discours, mais une échéance qui arrive très rapidement à mesure que les modèles compacts et spécialisés progressent : The future of work is world models.

La transformation numérique est un vaste chantier qui est loin d’être achevé, car nous n’en sommes qu’au tout début de la révolution agentique : L’agentisation amorce une nouvelle étape de maturité numérique menant au Web4 et à l’Entreprise4.

Ce n’est pas le moment de vous laisser distraire et de disperser vos moyens.


Questions / Réponses

Qu’est-ce qu’un « world model », et en quoi est-ce différent d’un modèle de langage (LLM) ?

Un modèle de langage comme ChatGPT apprend à prédire le mot suivant à partir d’un vaste corpus de textes. Un modèle de monde (« world model ») apprend à comprendre les règles qui régissent le monde physique : comment les objets se comportent, comment une action entraîne une conséquence. L’objectif est de simuler la réalité, et non de la décrire.

À quoi servent concrètement les modèles de monde ?

Leurs applications sont multiples : doter des robots humanoïdes d’une capacité d’apprentissage autonome de leur environnement (ce que l’on appelle l’Embodied AI), simuler des interactions entre molécules pour accélérer la découverte de médicaments, ou encore générer des environnements réalistes à partir de données issues du monde réel.

Pourquoi entend-on parler de problèmes de consommation énergétique avec l’IA ?

L’entraînement et l’utilisation des modèles d’IA générative consomment des quantités croissantes d’électricité et d’eau. Cette progression est quasi-exponentielle, et la tendance au « tokenmaxxing » (utiliser toujours plus de tokens) aggrave la situation. Des entreprises comme Uber ont ainsi épuisé l’intégralité de leur budget IA en seulement quatre mois.

Qu’est-ce qu’un « work model » et pourquoi les grands éditeurs se ruent-ils sur nos ordinateurs ?

Un « work model » est un modèle d’IA compact, spécialisé dans les tâches bureautiques, et capable de fonctionner en local sur votre ordinateur. Les éditeurs cherchent à s’implanter au plus près des utilisateurs en proposant des logiciels à installer sur leur ordinateur, car c’est la condition indispensable pour que les agents intelligents accèdent aux fichiers, logiciels et données de travail, sans lesquels ils sont sans valeur.

Comment les entreprises doivent se préparer à l’avènement des modèles de travail (work models) ?

Plutôt que de chercher à adopter en urgence les outils d’IA les plus puissants, la priorité est de définir une feuille de route cohérente et réaliste. Cela passe par trois étapes : rassurer les utilisateurs internes, acculturer les équipes (sensibilisation, formation, accompagnement), et préparer le terrain pour les agents IA en structurant les informations, données et connaissances de l’entreprise.