Les modèles linguistiques comme ChatGPT sont les nouvelles stars des médias, celles qui éclipsent les sujets qui nous faisaient rêver l’année dernière (Web3, métavers…) et qui nous détournent des préoccupations plus urgentes (sobriété numérique, blocage des identifiants publicitaires…). Mais au-delà des promesses surréalistes que très peu se risquent à réfuter, se pose la question du bien-fondé de la démarche d’OpenAI : pourquoi précipiter une évolution qui serait venue naturellement et chercher à nous faire adopter au plus vite des outils pour lesquels nous ne sommes pas encore prêt ? Comme c’est souvent le cas, les questions à trancher ne sont pas techniques, mais plutôt sociétales.

Les semaines passent et Microsoft poursuit sa grande cure de rajeunissement médiatique avec l’annonce récente de l’intégration de son nouvel agent conversationnel dans la barre de lancement de Windows : Microsoft brings its new AI-powered Bing to the Windows 11 taskbar. Après Bing, Edge et Skype, il ne restera plus à la firme de Redmond qu’à officialiser l’intégration de ChatGPT dans Office et Teams pour boucler la boucle !

Toutes ces annonces forcent les autres géants numériques à sortir du bois, notamment Snapchat (Snapchat is releasing its own AI chatbot powered by ChatGPT) et Facebook (Meta says it is experimenting with AI-powered chat on WhatsApp and Messenger) alors qu’ils avaient abandonné leur projet d’assistant numérique il y a 5 ans (Facebook is shutting down M, its personal assistant service that combined humans and AI).
Tel un banc de piranhas, les géants numériques se jettent sur une proie facile : les médias et leur capacité à relayer des contes de fées. Face à l’aveuglement généralisé, je poursuis sur ma lancée (cf. Mythes et réalités des IA génératives), et vous propose un autre article pour bien comprendre les tenants et les aboutissants de cette nième “révolution technologique”.
La nouvelle marotte des médias, le cauchemar des BigTech
Cela fait presque 3 mois que le monde des NTIC tourne en boucle sur ChatGPT et ce qui semble être la plus grande révolution depuis l’invention de l’ordinateur. Effectivement, “semble être” car les modèles génératifs reposant sur du machine learning (“GenML” pour les initiés) sont un champ de recherche dans lequel tous les géants numériques étaient déjà investis depuis plusieurs années. En l’absence d’annonces de lancement d’un nouveau produit, les équipes de recherche de Facebook et Amazon n’ont ainsi pas manqué l’occasion de rappeler qu’il n’y a pas qu’OpenAI qui a fait des progrès en la matière : Introducing LLaMA: A foundational, 65-billion-parameter large language model et 20B-parameter Alexa model sets new marks in few-shot learning.
Ce que vous devez comprendre de l’hésitation des géants numériques, c’est qu’ils avaient bien compris que le lancement à grande échelle d’un agent conversationnel n’est pas une mince affaire, car il y a des enjeux bien plus critiques que l’exploit scientifique. En un mot : c’est un terrain miné (cf. La révolution des IA génératives n’aura pas lieu, ou pas comme on essaye de nous la vendre).
La liste des complications liées aux modèles génératifs associés à un agent conversationnel est longue, aussi je me limiterais à trois obstacles potentiels :
- le coût de mise en place d’une infrastructure technique capable de servir des milliards d’utilisateurs (visiblement supérieur à 50 MM$ : Peeling The Onion’s Layers – Large Language Models Search Architecture And Cost) ;
- les imbroglios juridiques d’un service délivrant des réponses et non des résultats de recherche (ChatGPT Heralds an Intellectual Revolution) ;
- l’impact écologique pour concevoir, optimiser et exploiter les modèles linguistiques (sans compter l’augmentation du prix de l’électricité).
De ces trois obstacles, je pense que le plus problématique est celui de la propriété intellectuelle du modèle, et plus précisément des données ayant été utilisées lors de la phase d’entrainement. Dans la mesure où les futures versions de modèle linguistique ingurgiteront quasiment la totalité du web, les éditeurs de site sont légitimement en droit de demander des comptes à OpenAI. Si ChatGPT était resté un projet de recherche limité au monde scientifique, la question ne se serait pas posée, mais dans la mesure où ils ont empoché 10 milliards de $ de la part de Microsoft, les ayants droit se mobilisent pour réclamer une part du gâteau.

C’est encore une fois l’interface qui pose problème, car l’agent conversationnel agit comme une façade qui se sert des contenus du web pour formuler des réponses, mais n’offre aucune visibilité ou trafic aux sites sur lesquels sont publiés ces contenus. C’est encore pire avec les articles en ligne de journaux : Google paye au éditeurs une somme conséquente pour avoir le droit d’indexer la presse française dans News, pensez-vous qu’ils vont accepter que ChatGPT fournissent des synthèses de l’actualité sans aucune forme de compensation ?
Il en va de même pour la phase d’affinage du modèle qui repose sur le principe d’apprentissage renforcé par retours humains (“Reinforcement Learning from Human Feedback“) : les utilisateurs intensifs de ChatGPT vont-ils accepter de payer 24 $ par mois pour un service perfectible qu’ils vont devoir perfectionner eux-mêmes ? Auriez-vous accepté de payer pour affiner les résultats de recherche de Google ?
Nous en revenons encore et toujours à l’idée que transformer ChatGPT en produit est un véritable casse-tête, et pourtant : OpenAI launches an API for ChatGPT, plus dedicated capacity for enterprise customers. La question que l’on se pose est alors la suivante : mais que cherchent-ils à accomplir au juste ?
OpenAI est plus un perturbateur qu’un innovateur
Comme mentionné plus haut, la différence entre OpenAI et Microsoft (ou Google) est que le premier est un petit laboratoire de recherche, tandis que le second est un groupe international coté en bourse étroitement surveillé par le régulateur. Le principal problème de ChatGPT n’est pas tant la pertinence de ses réponses, mais sa viabilité commerciale. En d’autres termes : je ne doute absolument pas de la capacité de Microsoft d’améliorer le modèle, mais je me demande simplement comment ils vont réussir à gagner de l’argent (accessoirement à rembourser leur investissement de 10 milliards de $).
Visiblement les obstacles listés dans le paragraphe précédent ne semblent pas inquiéter les équipes d’OpenAI qui planent sur leur petit nuage et continuent d’abreuver les médias avec leurs belles promesses et intentions : Planning for AGI and beyond.

À partir de quand une intelligence artificielle peut être considérée comme généraliste ? Est-ce eux qui décident ? D’ailleurs ont-ils pris la peine de définir ce qu’est une intelligence artificielle généraliste ? Là encore, la posture d’OpenAI est très naïve, à la limite de l’arrogance, tandis que les géants numériques font preuve de beaucoup plus de retenue, car ils ont des comptes à rendre à leurs actionnaires.
Toujours est-il que le ramdam médiatique créé par OpenAI génère un appel d’air pour de nombreuses startups qui s’engouffrent dans la brèche. Nous nous retrouvons ici dans la même situation qu’il y a 5 ans avec une avalanche de nouveaux services censés révolutionner notre façon de travailler, car ils reposent sur une technologie magique : ChatGPT. Rien que sur les deux derniers jours, j’ai vu passer des articlse sur des services commeTypeface ou Redaction qui proposent de faire tout le travail créatif à votre place :

Est-ce que vous envisagez une seule seconde que ChatGPT va pouvoir fournir le même travail qu’une agence ? Visiblement je suis le seul à en douter…
Vous remarquerez que nous sommes ici dans une configuration qui se situe à l’opposé de la promesse d’une IA généraliste puisque ces services sont sur des champs d’application très étroits. Ce qui au passage n’est pas une mauvaise chose, car ça permet de garder un minimum de contrôle sur la production (plus le modèle peut vous générer des contenus diversifiés, plus il a de chance d’halluciner ou de déraper).
Toujours est-il qu’à défaut de provoquer la plus grosse révolution depuis l’invention de l’ordinateur, ChatGPT va surtout reproduire la trajectoire d’intégration / banalisation des précédentes briques technologiques comme la correction orthographique ou la dictée vocale : c’est dans un premier temps une innovation issue de la recherche, puis elle est packagée sous forme de logiciel, puis elle est intégrée en tant que fonctionnalité, puis elle se généralise et devient un pré-requis (lire à ce sujet l’article de l’ex président de la division Windows chez Microsoft : AI, ChatGPT, and Bing…Oh My).
OpenAI a peut-être initié le phénomène d’emballement médiatique autour des IA génératives, mais ce n’est très certainement pas eux qui finiront par en bénéficier. Il y a ici un parallèle à faire avec les outils de reconnaissance vocale / transcription comme ceux de Dragon qui ont de plus en plus de mal à démontrer leur valeur ajoutée face aux fonctions intégrées de saisie vocale présentes nativement dans Word ou Google Docs…
Avec les modèles génératifs, ça sera la même chose : peu importe la taille ou la pertinence du modèle, ce sont les sociétés qui maitrisent la distribution qui finiront par avoir le dernier mot. Ainsi, seules les big techs ont aujourd’hui les ressources financières / techniques ainsi que les canaux de distribution pour pouvoir procéder à un déploiement à grande échelle des IA génératives. À ce petit jeu, Microsoft semble avoir pris une longueur d’avance avec toutes les annonces récentes, mais la firme de Redmon va rapidement atteindre un plafond de verre par rapport à d’autres géants numériques comme alphabet (la maison-mère de Google) qui semble cocher toutes les cases.

De plus, passée la phase d’émerveillement de ce que sont capables de faire des IA génératives comme ChatGPT ou DALL-E, le grand public va vouloir utiliser des services plus confortables et intuitifs qu’un simple champ de saisie.
La prochaine étape logique sera de proposer des modèles génératifs plus sophistiqués capables de traiter des demandes plus complexes et de produire des contenus plus riches mélangeant du texte, des images, du son… Dans le jargon des spécialistes, on appelle ça de la recherche multimodale, et c’est précisément ce sur quoi les équipes de Google travaillent depuis des années : Search and explore information in new ways. Et vous ne devinerez jamais qui est déjà monté au créneau : Microsoft Introduces Multimodal Large Language Model Kosmos-1.
Attendez-vous donc prochainement à ce que les géants numériques mettent en avant leur puissance et leur savoir-faire au service des MLLM. Pour plus d’explications sur ce que cela implique, je vous recommande cette publication scientifique : Towards artificial general intelligence via a multimodal foundation model.

Comme quoi, il n’y a pas de mystère : la course à l’intelligence artificielle se joue à guichet fermé. D’ailleurs de quelle course parlons-nous au juste ?
Les IA génératives sont là pour nous aider à résoudre notre problème de… de quoi déjà ?
À ce stade de mon argumentation, je vous propose de récapituler : nous avons d’un côté les apôtres de la cinquième révolution industrielle initiée par la montée en puissance des IA génératives ; et de l’autre, ceux qui font l’effort de prendre du recul et de constater que leur déploiement à grande échelle va poser de nombreuses questions auxquelles nous n’avons pas encore de réponse. Mais au fait, à quel besoin concret correspondent ces IA génératives ? Formulé autrement : quel est le problème que nous essayons de résoudre avec elles ?
La triste réalité que j’anticipe est la suivante : plus on offre de facilités aux utilisateurs pour qu’ils créent des contenus et plus ils vont en créer, jusqu’à saturation ! Nous nous dirigeons tout droit vers un nouveau palier d’infobésité… que seules les IA pourront nous aider à absorber. C’est le serpent qui se mord la queue : en déléguant aux machines une partie du travail de rédaction / création, nous augmentons le volume de production et créons un besoin supplémentaire de traitement par d’autres machines.
En ce sens, je ne suis pas certain que des applications comme Shortwave soient une bonne chose. Ne serait-il pas plus viable sur le moyen terme de mettre en place une charte d’utilisation des emails ?
Nous touchons ici du doigt un problème de fond, car il y a une ligne très fine entre automatisation et indolence : la recherche de productivité ne nous mène-t-elle pas à une forme d’apathie à vouloir compenser une faiblesse humaine (organisation, communication…) avec de la puissance informatique ? Au final, qui seront les grands gagnants : les humains ou les machines ?

Loin de moi l’idée de faire de la démagogie, mais est-ce réellement de ça dont l’humanité à besoin : des IA pour produire à notre place des contenus que d’autres IA vont traiter à notre place ? Vous noterez que ce scénario est tout à fait aligné avec les nouvelles ambitions d’OpenAI et de son partenaire Microsoft (OpenAI Is Now Everything It Promised Not to Be: Corporate, Closed-Source, and For-Profit). Nous sommes ici bien loin de la mission originale d’OpenAI…
Plus je réfléchis à la question, et plus je suis persuadé que l’automatisation, l’intelligence artificielle ou les modèles génératifs sont des sujets de société et non des sujets techniques. Des modèles linguistiques incluant plus de paramètres (ex : le futur GPT-4) ou des processeurs plus puissants (ex : l’accélérateur H100 de Nvidia) ne nous aideront pas à relever les défis du XXIe siècle (baisse du taux de natalité, transition énergétique / alimentaire, conflits sociaux…). Selon cette optique, les IA génératives font autant partie du problème que de la solution, mais tant que nous ne serons pas sortis de cette torpeur médiatique autour de ChatGPT, nous ferons du sur-place. Le CEO d’OpenAI est à ce sujet très explicite sur la nécessité de bien comprendre ce qu’une IA générative peut ou ne peut pas faire ainsi que sur leur évolution :
We still believe the benefits of society understanding what is happening are huge and that enabling such understanding is the best way to make sure that what gets built is what society collectively wants (obviously there’s a lot of nuance and conflict here).
Il y a 30 ans, les entreprises ont mis entre les mains des employés de bureau des outils informatiques très puissants (email, bureautique…) sans nécessairement les former ou définir de règles d’usage. Nous en payons aujourd’hui lourdement les conséquences. Imaginez ce que ça pourrait donner avec un déploiement prématuré d’IA génératives dans les outils de notre quotidien professionnel ! Essayons d’apprendre de nos erreurs et de ne pas les reproduire.