Une polarisation du marché de l’IA générative pour fidéliser les entreprises et utilisateurs

La sortie de Claude Fable aurait dû être un moment de célébration pour l’écosystème des nouvelles technologies. Elle illustre au contraire une contradiction de plus en plus difficile à ignorer : les modèles les plus puissants sont aussi les moins accessibles, les plus coûteux, et finalement les moins pertinents pour la majorité des utilisateurs. Je vous propose dans cet article de décrypter la polarisation en cours du marché entre une poignée de modèles XXL réservés aux cas d’usage extrêmes, et une nouvelle génération de modèles compacts que les Big Tech comptent déployer sur leurs terminaux et au sein de leur environnement de travail. Car pendant que les experts s’extasient sur les exploits technologiques des startups, les acteurs historiques concentrent leurs effort sur un autre objectif : la rentabilité à long terme.

#GenAI #BigTech


En synthèse :

  • La course au gigantisme est freinée par la consommation énergétique. Les modèles XXL comme Claude Mythos / Fable affichent des coûts d’inférence si élevés qu’ils ne sont même plus inclus dans les abonnements, provoquant la colère des clients d’Anthropic.
  • Le marché se polarise entre puissance et compétitivité. Les acteurs du marché de l’IA générative doivent choisir entre être les plus performants ou les plus compétitifs, sachant que l’immense majorité des utilisateurs occasionnels n’a pas besoin des modèles les plus puissants.
  • La réalité économique rattrape les entreprises. Incapables d’évaluer le ROI de l’IA ou même de mesurer leur consommation, les entreprises vont se reporter sur les solutions offrant le meilleur compromis entre puissance et coût.
  • Les modèles compacts s’imposent sur les terminaux. Les acteurs historiques comme Google et misent sur des modèles génératifs compacts embarqués sur les smartphones qui reportent ainsi les coûts d’inférence sur les utilisateurs.
  • La distribution l’emporte sur l’innovation. Microsoft illustre parfaitement cette logique avec ses modèles MAI conçus pour les tâches de bureau, rentables et adossés à une stratégie d’enfermement qui consolide sa position dominante auprès d’entreprises captives.

Après de nombreuses semaines de spéculation, Anthropic vient enfin d’officialiser la sortie de ses modèles de 5e génération : Claude Fable 5 and Claude Mythos 5. Un nouveau modèle XXL qui a nécessité une puissance gigantesque pour sa phase d’entrainement : 6 octillions d’opérations en virgule flottante par seconde (6×10^27 FLOPs).

Autant dire que les capacités de ce nouveau modèle sont bien évidemment sensiblement supérieures à la concurrence, c’est le moins que l’on puisse attendre…

Et justement, après un interminable teasing, les attentes du marché étaient très fortes, car Anthropic est la nouvelle startup de référence de l’IA générative, celle qui a su opérer une formidable remontada : Anthropic beats OpenAI on business adoption.

Mais ce nouveau modèle s’accompagne de fortes contraintes d’utilisation, dont un coût d’inférence très élevé.

Cette course au gigantisme est-elle justifiée ? Je n’en suis pas convaincu, je vous l’expliquais d’ailleurs l’année dernière : nous n’avons pas besoin de meilleurs modèles, mais de meilleurs produits.

Les progrès en IA générative sont constants, mais se concentrent sur la puissance des modèles au détriment d’une véritable utilité pour les utilisateurs finaux.

Mais le pire dans tout ça, c’est que la version grand public de ce nouveau modèle est bridée, car officiellement trop puissante, ce qui fait enrager la communauté : Anthropic apologizes for invisible Claude Fable guardrails.

D’autant plus que ce modèle est tellement puissant (= coûteux) qu’il ne sera même pas inclus dans les abonnements, il ne sera proposé qu’à travers une facturation à l’utilisation : Claude Fable 5 Pricing, Access, and Usage Limits.

J’avais déjà abordé la question de la rentabilité des services d’IA l’année dernière, ainsi que la viabilité des startups : Les modèles économiques de l’IA générative.

Les coûts exorbitants liés à l’entrainement et à l’exploitation des modèles génératifs utilisés par les chatbots grand public en font des activités à jamais déficitaires. Mais les startups privilégient la croissance à la rentabilité, ce qui leur permet d’être beaucoup plus agressives dans le recrutement de nouveaux utilisateurs.

Mais visiblement, ce « détail » ne dérange personne, en tout cas pas le grand perdant de l’histoire (OpenAI) qui compte d’ailleurs relancer la guerre des prix : OpenAI Considers Drastic Price Cuts, Anticipating War for Users With Anthropic.

Force est de constater que les considérations éco-environnementales sont largement mises de côté, sacrifiées sur l’hôtel de la recherche de performance (lire à ce sujet cet article publié en début d’année dernière : Vers un marché plus responsable de l’IA générative).

Le secteur de l’IA est stimulé par des projets toujours plus ambitieux, pour des perspectives de rentabilité toujours plus incertaines. Mais la sortie des modèles V3 et R1 de DeepSeek marquent un coup d’arrêt à cette course au gigantisme avec une approche frugale centrée sur l’optimisation du ratio performances / coûts.
Le scénario d’évolution le plus probable semble être une reprise en main du marché de l’IA par les acteurs historiques (Microsoft, Google et Apple) qui imposeront leur assistant à la fois dans leur environnement logiciel, mais également sur le matériel (ordinateurs, smartphones…) pour reporter les coûts d’inférence sur les utilisateurs.

Croyez-le ou non, mais cette prédiction formulée il y a 1 an 1/2 semble être en train de se réaliser dans la mesure où tous les chatbots sont maintenant commercialisés selon le principe du freemium : une offre gratuite avec une puissance et des fonctionnalités limitées, ainsi que des offres payantes avec différents niveaux de puissance / prix, même chez les grands éditeurs (cf. les formules Plus / Pro / Ultra chez Gemini, ou la formule « Apple Intelligence » sur Mac et iPhone).

Mais heureusement, le marché est en train de se structurer.

Le marché de l’IA en 2026 : Bugatti vs Clio

Au vu des dernières actualités, il semble qu’une tendance se dessine avec la partition du marché en deux positionnements : Il faut soit être le plus performant, soit être le plus compétitif (The AI Price War Is Here, Piling Pressure on OpenAI and Anthropic).

Ainsi, il ne faut pas être un génie du marketing pour se rendre compte que si l’on met de côté les techno-geeks, le marché adressable de l’IA générative est globalement composé de deux segments : les développeurs et le reste des utilisateurs. Pour vous en convaincre, il vous suffit de consulter la dernière version de ce schéma : Each dot is ~3.2 million people.

Comme vous pouvez le constater, il y a 8,3 MM d’habitants, dont 17 % utilisent l’IA. Sachant que sur les 1,4 MM d’utilisateurs de services d’IA générative, 1,3 MM se contente des chatbots en version gratuite.

En entreprise, c’est la même chose : si l’on met de côté les enthousiastes qui sont dans les groupes de travail, la moitié des salariés n’utilisent pas l’IA, tandis que l’autre moitié se contente de bidouiller avec Copilot.

Je pense ne pas vous choquer en écrivant que tous ces utilisateurs occasionnels n’ont pas besoin de Claude Fable 5, ni de Claude Opus 4.8 d’ailleurs… Ainsi, les commerciaux n’ont pas besoin d’une Bugatti Tourbillon ou d’une Jacob&Co Zodiac pour être à l’heure en RDV, une Clio et un smartphone suffisent amplement.

Je ne suis pas devin, mais je sais lire les indicateurs macro-économiques, dont le World Trade Uncertainty Index. J’anticipe un phénomène de report des entreprises qui vont rapidement se rabattre sur les solutions d’IA offrant le meilleur compromis entre puissance et coût.

Et même sans la lecture de cet indice, n’oubliez pas que les entreprises ont toujours le plus grand mal à évaluer le ROI de l’IA, car les coûts de licence ou de tokens atteignent des sommets : Your AI Budget Is Growing, Your Returns Aren’t. Pire : les 3/4 des entreprises ne parviennent même pas à avoir une évaluation précise de leur consommation : The Metric CFOs Struggle to Track: AI Usage.

Dans la mesure où personne ne peut échapper à la réalité économique, la question du coût, corrélée à celle de la consommation d’énergie, devient prépondérante.

Ceci explique le travail en sous-marin des Big Tech pour mettre au point leurs propres modèles compacts, ceux qui sont destinés aux smartphones.

Des modèles compacts dédiés aux smartphones (et bientôt aux ordinateurs)

Il y a 15 ans, apparaissaient les premiers assistants vocaux sur smartphones (Siri et Google Now) ainsi que sur les enceintes connectées (Alexa). Ces premiers assistants semblent aujourd’hui archaïques, mais ils représentaient un très grand accomplissement technologique à l’époque, car nous n’avions pas encore de modèles génératifs open source à disposition.

Les choses ont bien changé depuis, car les Big Tech proposent maintenant des assistants numériques bien plus puissants (Gemini, Copilot…), mais également des modèles génératifs compacts qui sont installés par défaut sur les smartphones, notamment sur ceux de la gamme Pixel de Google : Introducing Gemma 4 12B, a unified, encoder-free multimodal model. Un modèle qui est également disponible en téléchargement libre pour pouvoir l’exploiter sur votre ordinateur.

Mais la grande nouveauté de cette semaine est bien évidemment la présentation officielle de la nouvelle architecture logicielle derrière la refonte de Siri, avec une approche similaire : Apple’s real AI story isn’t Siri: it’s a 20-billion-parameter model that runs from your iPhone’s flash.

Comme toujours, Apple adopte la posture du suiveur réactif pour ne pas avoir à essuyer les pots cassés de l’innovation technologique à marche forcée. Ils optent ainsi pour une architecture hybride avec des modèles « maison » dérivés de Gemini qui tourne sur les serveurs iCloud, ainsi qu’une version compacte pour optimiser les performances et la consommation sur les iPhones (Craig Federighi details Apple’s collaboration with Google for Siri AI in iOS 27).

Est-il juste de dire qu’Apple a-t-il du retard dans le domaine de l’IA générative ? Sur le plan scientifique, oui certainement, mais pas sur le plan commercial, car je vous rappelle qu’ils ont les pleins pouvoirs sur le système d’exploitation de 2,5 MM de terminaux mobiles. De ce fait, Apple a tout le loisir d’imposer son assistant numérique à des clients captifs qui n’ont d’autre choix que de se contenter d’une offre modeste, mais parfaitement maitrisée : Apple Wins Consumer AI By Default.

Cette stratégie de commercialisation de l’IA générative sera-t-elle la bonne ? La question ne se pose pas, car ils sont seuls maitres à bord…

« Distribution always beat innovation »

Comme nous venons de le voir, en cette période trouble, l’important n’est pas d’avoir la technologie la plus puissante, mais la capacité d’imposer sa propre technologie à des clients captifs. Ne pensez pas que c’est la marque de fabrique d’Apple (car ils sont aussi capables d’innover), mais plutôt la spécialité de Microsoft.

Le monde de la technologie a été pris de court par l’annonce du partenariat entre Microsoft et OpenAI quelques mois après la sortie de ChatGPT. Pourtant, cet accord à 10 MM $ s’appuyait sur un précédent partenariat signé en 2019 : OpenAI forms exclusive computing partnership with Microsoft to build new Azure AI supercomputing technologies.

Objet de nombreuses moqueries ces dernières années, l’investissement initial de Microsoft dans OpenAI semble aujourd’hui dérisoire comparé aux dépenses réalisées chaque trimestre pour étendre les capacités des data centers des grands acteurs du cloud (nous parlons de centaines de milliards de $).

Toujours est-il que ce partenariat technologique permettant à OpenAI d’exploiter les infrastructures d’Azure a permet à Microsoft d’en apprendre beaucoup sur les usages de l’IA générative et de mettre au point des modèles génératifs compacts spécifiquement dédiés aux entreprises : Building a hill-climbing machine: Launching seven new MAI models.

L’objectif poursuivi par Microsoft n’est pas de concevoir un modèle XXL qui concentre tous les savoirs du monde en 80 langues, mais de mettre au point des modèles génératifs modulaires offrant d’excellentes performances pour des tâches pertinentes dans un contexte d’entreprise (en gros du travail de bureau) tout en minimisant la consommation énergétique et les coûts. Ceci n’empêche bien évidemment pas Microsoft de poursuivre ses travaux de recherche : Microsoft AI chief says company was “set free” from OpenAI to pursue superintelligence.

Grâce à ses modèles « maison », Microsoft va pouvoir proposer des offres à la fois plus agressives sur les tarifs (car rentables), mais également plus performantes, car spécifiquement conçus pour les entreprises. Pour se faire, ils vont pouvoir s’appuyer sur leur infrastructure (les data centers Azure équipés de processeurs Maia), sur leurs modèles (ceux de la gamme MAI) et surtout sur la couche sémantique exploitant les données de ses clients, comme cela nous a été expliqué lors de leur dernière conférence annuelle : Frontier Tuning: Teaching AI to work the way you do.

C’est donc un nouveau coup de maitre pour Microsoft qui consolide encore plus sa position dominante dans le monde des entreprises avec une stratégie d’enfermement parfaitement exécutée par Microsoft et ses partenaires: The Enormous Potential For Microsoft Frontier Fine Tuning.

Pendant que les techno-prophètes, analystes et « experts IA » de LinkedIn s’extasient sur les exploits technologiques des startups, les acteurs historiques voient plus loin que la prochaine release et s’inscrivent dans un temps long avec la mise au point de leurs futures vaches à lait : Oubliez les World models et concentrez-vous sur les Work models.

Rien à redire, c’est du grand art, c’est comme ça que l’on parvient à verrouiller fidéliser ses clients et bâtir des sociétés valorisées aujourd’hui à plusieurs billiards de $.


Questions / Réponses

Pourquoi les modèles d’IA les plus puissants posent-ils problème ?

Les modèles XXL comme Claude Mythos / Fable nécessitent une puissance de calcul gigantesque pour leur entrainement et affichent des coûts d’inférence très élevés. Ces coûts sont tels que ce modèle n’est même pas inclus dans les abonnements : il n’est proposé qu’à travers une facturation à l’utilisation, ce qui limite fortement son accessibilité.

Qu’est-ce qu’un modèle génératif compact ?

Il s’agit d’un modèle d’IA générative de taille réduite, conçu pour fonctionner directement sur les terminaux (smartphones, ordinateurs) plutôt que sur des serveurs distants (cloud). Google propose ainsi Gemma 4 12B sur ses Pixel, tandis qu’Apple a développé un modèle de 20 milliards de paramètres qui s’exécute depuis la mémoire flash de l’iPhone.

Tous les utilisateurs ont-ils besoin des modèles les plus performants ?

Non, et c’est tout l’enjeu : sur les 1,4 milliard d’utilisateurs de services d’IA générative, 1,3 milliard se contente des chatbots en version gratuite. En entreprise, la moitié des salariés n’utilise pas l’IA, et l’autre moitié se limite à Copilot. Pour ces usages occasionnels, un modèle compact suffit amplement.

Pourquoi les entreprises vont-elles privilégier les solutions les moins coûteuses ?

Parce qu’elles peinent à évaluer le ROI de l’IA, dont les coûts de licence ou de tokens atteignent des sommets. Les trois quarts d’entre elles ne parviennent même pas à mesurer précisément leur consommation. Dans un contexte d’incertitude économique et géopolitique, elles vont se rabattre sur les solutions offrant le meilleur compromis entre puissance et coût.

Quelle est la stratégie des grands acteurs historiques comme Microsoft ou Apple ?

Plutôt que de viser la performance maximale, ils parient sur leur capacité de distribution : Apple impose son assistant sur 2,5 milliards de terminaux mobiles, tandis que Microsoft développe une offre reposant sur des modèles compacts spécifiquement conçus pour les tâches de bureau (bien moins coûteux, donc plus rentables).