Les IA génératives annoncent une révolution dans les médias et la publicité

Nous vivons une époque formidable où les progrès dans les NTIC sont constants. Les modèles génératifs nous apportent ainsi des preuves flamboyantes des progrès réalisés en matière de génération de contenus (textes, images, vidéos…). Si ces intelligences artificielles représentent d’énormes gains de temps potentiels, elles risquent néanmoins d’être un cadeau empoisonné pour toutes les professions créatives qui vont voir leur légitimité contester et leur valeur perçue diminuer. Les IA génératives proposent d’innombrables domaines d’application, mais également des débats éthiques et juridiques sans fin. Elles vont surtout déporter la valeur vers les données d’entrainement et ceux qui les maitrisent : les big tech.

L’intelligence artificielle est un sujet que je traite depuis plusieurs années sur ce blog. Ces derniers temps, j’étais passé à d’autres thématiques (Web3, métavers, numérique responsable…), mais j’ai toujours gardé un oeil sur ce domaine.

Si le concept d’intelligence artificielle existe depuis plus de 50 ans, les IA sont vraiment devenues à la mode dans le milieu des années 2010. Comprenez par là que les progrès spectaculaires réalisés en deep learning ont propulsé les IA sur le devant de la scène médiatique. Il s’en est suivi une frénésie de prédictions et de startups fumeuses. Puis, l’agitation est retombée.

Avec les progrès récents en matière de modèles génératifs, l’exposition médiatique remonte en flèche, mais ce coup-ci, il ne repose pas sur des promesses, mais sur des services que tout un chacun peut tester pour se rendre compte du potentiel réel, et il est gigantesque. La preuve ici : This New AI Model Can Turn Anyone into a Creepy Pokemon.

À ce stade de mon argumentation, je tiens à rappeler la définition d’une IA pour bien garder en tête que ce n’est pas une technologie :

L’intelligence artificielle est un concept visant à utiliser les machines pour simuler l’intelligence humaine.

Pour bien cadrer cet article, il est ainsi important, voire essentiel, de ne jamais oublier que l’IA est une vue de l’esprit qui se traduit par un certain nombre d’applications informatiques. Ni plus, ni moins. Ceci étant dit, c’est déjà énorme, car souvenez-vous que « software is eating the world« .

L’IA est l’avenir de l’informatique, pour le meilleur et pour le pire

À une époque pas si lointaine, il suffisait de mentionner l’intelligence artificielle pour que tout projet ou startup prenne de la valeur. Cette époque est maintenant révolue, mais l’on constate que depuis ces abus, beaucoup de choses ont été réalisées grâce aux IA.

Il y a notamment de très belles applications dans la recherche (DeepMind found the structure of nearly every protein known to science), la chasse aux fraudeurs fiscaux (French tax officials use AI to spot 20,000 undeclared pools) ou dans la traduction (Google Translate adds support for 24 new languages, now supports over 130 et Meta open sources early-stage AI translation tool that works across 200 languages). Mais il y a également des ratés, ou du moins des promesses non transformées, notamment dans la santé (When It Comes to Health Care, AI Has a Long Way to Go) ou les ressources humaines (AI tools fail to reduce recruitment bias).

Une mauvaise utilisation des IA peut parfois déboucher sur des situations parfois inextricables, surtout quand il est question de justice (Crime Prediction Keeps Society Stuck in the Past et A Dad Took Photos of His Naked Toddler for the Doctor. Google Flagged Him as a Criminal).

Ces deux derniers exemples illustrent parfaitement la situation dans laquelle nous nous trouvons aujourd’hui : une société civile déphasée par rapport à des usages numériques peut-être trop en avance sur leur temps. Dans ces histoires, ce ne sont pas vraiment les IA qui sont en cause, mais plutôt les traitements administratifs qui découlent d’une analyse de données par des IA. Le problème est que les progrès sont trop rapides, surtout pour les médias (donc pour l’opinion publique) et les gouvernements (donc pour les législateurs).

Très clairement, nous avançons en territoire inconnu et les premières victimes sont déjà tombées, comme cet ingénieur de chez Google licencié pour avoir été trop fier de sa création : Google fires Blake Lemoine, the engineer who claimed AI chatbot is a person.

Comme vous l’aurez compris, l’intelligence artificielle est une notion que tout le monde connait, mais que très peu maitrisent. Il en résulte des sentiments ambivalents envers les IA avec un émerveillement pour les progrès réalisés, mais en énorme crainte de se voir remplacer (une idée absurde).

Pourtant, la magie opère toujours : 94% des dirigeants pensent que l’IA sera critique dans le succès de leur entreprise dans les 5 prochaines années : State of AI in the Enterprise – Fifth Edition.

Est-ce que ce coup-ci la promesse est transformée : les IA sont-elles devenues réellement intelligentes ? Nous ne pouvons pas sérieusement dire que les IA peuvent devenir intelligentes, car tout est dans le terme : intelligences AR-TI-FI-CIE-LLES (Meta’s AI guru LeCun: Most of today’s AI approaches will never lead to true intelligence). Ceci étant dit, les services rendus par les IA sont toujours plus sophistiqués, ils créent toujours plus de valeur… et de problèmes ! (We Need to Talk About How Good A.I. Is Getting).

La question est maintenant de savoir comment en est-on arrivé là…

Comment les transformers ont… transformé les usages autour de l’IA

Comme nous venons de le voir, l’intelligence artificielle est un concept qui couvre différentes façons de travailler, plus ou moins sophistiquées. Nous distinguons ainsi les agents intelligents des pratiques reposant sur le machine learning, ou même sur le deep learning (un sous-ensemble du précédent). Ces différentes façons de simuler un traitement cognitif grâce à l’outil informatique permettent de faire tout un tas de choses : de la reconnaissance visuelle / auditive / textuelle, de la simulation, des prédictions…

Tout ceci existe depuis fort longtemps, mais ces pratiques ont connu un coup d’accélérateur avec les derniers progrès réalisés en matière d’apprentissage automatique. Je vous en propose une définition pour bien cadrer les explications qui vont suivre :

Le machine learning est une branche de l’intelligence artificielle axée sur des processus d’apprentissage permettant à une machine d’évoluer dans sa façon de traiter les données

Dans toutes les pratiques d’apprentissage automatique, on distingue une méthode particulièrement intéressante, l’apprentissage profond, qui ne nécessite pas de supervision humaine :

Le deep learning une méthode de machine learning qui permet un apprentissage non supervisé en s’appuyant sur l’analyse de données hétérogènes

Encore une fois, ces différentes façons de simuler l’intelligence ne sont pas nouvelles, on les utilise dans différents domaines depuis des dizaines d’années, notamment la reconnaissance d’écriture ou les modèles prédictifs, ainsi que dans des logiciels.

Déjà en 2018 je vous parlais sur ce blog de la façon dont les designers utilisent l’IA avec les outils d’Adobe pour gagner de temps dans la phase de recherche d’illustrations et de déclinaison : L’intelligence artificielle est un outil de productivité comme les autres.

J’insiste sur le fait que l’IA n’est en rien disruptive, c’est un domaine dans lequel il y a une évolution continue avec un cercle vertueux : plus il y a d’améliorations, plus l’adoption est forte, donc plus il y a d’utilisations différentes, donc plus de données à analyser, donc des progrès plus rapides…

5 ans après la démo citée plus haut, les progrès réalisés sur les outils d’Adobe sont toujours plus spectaculaires pour faire gagner beaucoup de temps aux personnes qui retouchent les photos : Adobe makes selecting and deleting objects and people in Photoshop and Lightroom a lot easier et Adobe’s AI prototype pastes objects into photos while adding realistic lighting and shadows.

Idem dans l’édition vidéo avec le récent et bluffant Project Blink qui propose une utilisation très pratique de la détection d’image et de la retranscription :

Mais il n’y a pas que dans la retouche de photos ou vidéos que les progrès sont spectaculaires, il y a également dans la création de contenus où l’IA semble avoir atteint un nouveau palier maturité avec les modèles génératifs.

Si les progrès semblent ralentir dans certaines branches de l’apprentissage profond (Deep Learning Is Hitting a Wall), les choses se sont très nettement accélérées dans les autres méthodes d’apprentissage automatique, notamment grâce à la disponibilité de très grands jeux de données d’apprentissage ainsi que la mise au point de nouvelles façons d’assimiler des données hétérogènes. Nous distinguons ainsi trois paliers de maturité, dont un dernier palier franchi il y a 5 ans : Three Eras of Machine Learning and Predicting the Future of AI.

Le dernier palier de maturité en date correspond à la mise au point des « transformers », des modèles d’apprentissage profond qui reposent sur des réseaux de neurones artificiels qui peuvent travailler en parallèle : What Is a Transformer Model? et Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5.

Cette parallélisation du traitement de la donnée autorise des phases d’apprentissage beaucoup plus intenses, grâce à des jeux de données beaucoup plus grands. Grands comment ? Très très grands, car on parle de dizaines, voire de centaines de milliards de paramètres analysés. Nous avons logiquement assisté ces 5 dernières années à une escalade dans les jeux de données, avec néanmoins un plafond constaté récemment : DeepMind tests the limits of large AI language systems with 280-billion-parameter model.

Tout ceci est très intéressant, j’imagine que les scientifiques qui ont mis au point ces modèles se sont éclatés, mais en quoi est-ce réellement différent des progrès précédemment réalisés ? La différence ne vient pas de l’exploit technique, mais de sa perception par le grand public. Plusieurs modèles génératifs de type « text-to-image » (Dall-E 2, Midjourney, Stable Diffusion…) ont ainsi été mis à disposition il y a quelques mois pour que tout un chacun puisse les tester. C’est le simple fait de laisser les journalistes et curieux jouer avec ces modèles qui a déclenché un soudain regain d’intérêt : Generative AI: A Creative New World.

Pour celles et ceux que ça intéresse, ces modèles génératifs reposent sur les réseaux antagonistes génératifs (« generative adversarial network » en anglais ou GAN) dont le fonctionnement est expliqué ici : The Illustrated Stable Diffusion.

La possibilité donnée à n’importe qui de manipuler ces modèles pour pouvoir créer tout un tas d’images à créer un engouement sans précédent du fait de la qualité des images générées (que vous pouvez apprécier ici : Midjourney community showcase) à partir d’une simple phrase (il suffit de passer votre souris sur les images pour lire la « commande »).

Cet engouement attise nécessairement l’appétit des investisseurs qui se précipitent pour rentrer au capital des sociétés qui éditent ces modèles, au détriment des projets cryptos / blockchain / métavers, et dont les valorisations s’envolent : Stability AI, the startup behind Stable Diffusion, raises $101M et OpenAI, Valued at Nearly $20 Billion, in Advanced Talks with Microsoft For More Funding.

Le fait que Microsoft souhaite rentrer également au capital d’OpenAI, l’éditeur de Dall-E, n’est pas un hasard. La firme de Redmond a ainsi présenté cette semaine son nouvel outil de création, Microsoft Designer, qui intègre justement le modèle génératif d’OpenAI : Microsoft brings DALL-E 2 to the masses with Designer and Image Creator.

L’intégration par défaut des modèles génératifs dans les outils de création annonce-t-elle le début d’une révolution créative ? Oui, peut-être bien : How DALL-E could power a creative revolution.

Comment les IA génératives révolutionnent la création

Cela fait plusieurs années que l’on nous alerte sur les dangers de l’hypertrucage (The Biggest Deepfake Abuse Site Is Growing in Disturbing Ways). Dans un premier temps utilisée pour faire de mauvaises blagues, cette technique de génération a rapidement été utilisée par les médias (New Anthony Bourdain documentary deepfakes his voice) puis par la propagande militaire (Hacked News Channel and Deepfake of Zelenskyy Surrendering Is Causing Chaos Online). Certains anticipe même une révolution dans les métiers de la figuration avec la possibilité de générer des visages très réalistes (ex : ThisPersonDoesNotExist).

Maintenant que l’opinion publique est sensibilisée à l’hypertrucage, le marché commence à se structurer avec une professionnalisation des pratiques (Inside the strange new world of being a deepfake actor) et des premières utilisations à grande échelle comme cette publicité avec l’acteur Bruce Willis pour un opérateur russe (Deepfake tech allows Bruce Willis to return to the screen without ever being on set) ou cette émission en France : L’émission « Hôtel du Temps » ressuscite Dalida, et préfigure la révolution deep fake.

Faut-il se réjouir de la possibilité de réaliser des émissions, films ou publicités sans que les acteurs aient à se déplacer ? Plus ou moins, car la généralisation de ces technologies amènerait plus de problèmes que de solutions : The Bruce Willis Deepfake Is Everyone’s Problem. On pense immédiatement à tous les risques liés aux impostures et falsifications, mais il y a également des utilisations qui posent des questions morales comme ce discours utilisant une synthèse de la voix de la défunte lors de son enterrement : AI Allows Dead Woman to Talk to People Who Showed Up at Her Funeral.

Ici, le débat porte réellement sur l’éthique et non sur la législation puisqu’il n’y a rien d’illégal. Idem avec cette société qui propose de transformer les voix des télé-opérateurs pour qu’elles sonnent plus « américaines » : Startup develops AI that makes call center employees sound like white, American robots. Là encore, rien d’illégal, mais une zone grise morale que nous allons avoir beaucoup de mal à clarifier (à partir de quand ça n’est plus moral ?).

Ceci étant dit, il ne faut pas jeter le bébé avec l’eau du bain, car s’il y a des utilisations qui peuvent potentiellement poser problème, le potentiel des IA génératives dans les médias est gigantesque. Nous avons ainsi d’un côté cet exemple de faux podcast qui viole la propriété intellectuelle (Fake Joe Rogan interviews fake Steve Jobs in an AI-powered podcast). Mais nous avons aussi une intégration très pertinente de ces IA dans les outils d’édition audio ou vidéo comme Descript : The AI Video Editor With A Difference.

Les IA génératives offrent également la possibilité de créer des livres audio (Synthetic Voices Want to Take Over Audiobooks) ou d’automatiser le doublage des films et séries avec plus de fidélité (Deepdub raises $20M for AI-powered dubbing that uses actors’ original voices).

Mais ce n’est pas tout, puisque les IA génératives peuvent être utilisées pour générer toute sorte de contenus :

  • des objets 3D

Encore plus intéressant, il est même possible de générer des données d’entrainement pour pouvoir accélérer et simplifier l’affinage des modèles : Synthetic data is the safe, low-cost alternative to real data that we need et The multi-billion-dollar potential of synthetic data.

Comme vous pouvez le constater, les possibilités des IA génératives sont illimitées et nous livrent sur un plateau la promesse d’énormes économies de temps et d’argent. Revers de la médaille : ces gains se feront au détriment de la confiance du grand public envers les médias qui est déjà faible, et qui risque encore de baisser avec le recours massif aux IA pour générer des contenus artificiels (AI-generated imagery: you might never be able to trust the internet again).

Vous pourriez penser que ces nouveaux outils vont libérer la créativité et permettre aux non-initiés de produire des contenus de qualité, en tout cas c’est ce que certains essayent de nous faire croire (The Creativity Supply Chain), mais il suffit de générer quelques images ou vidéos pour se rendre compter que ces modèles génératifs ne font qu’une partie du travail, il ne faut pas confondre création et exécution graphique. Pour vous convaincre que cette histoire de démocratisation des outils créatifs ne fonctionne pas avec n’importe qui, il suffit d’installer des modèles « clé en main » comme DiffusionBee. Je l’ai testé, et je peux vous garantir que le résultat n’est pas exploitable.

Je rejoins donc tout à fait l’avis exprimé ici : le processus de création ne peut se résumer à la manipulation d’outils, il fait appel à une culture graphique, à une sensibilité et un talent que les machines ne pourront pas reproduire (L’IA dans la création : la révolution de l’IA générative). Ce qui va réellement changer, ce sont les façons de travailler : il va falloir maitriser à la fois la palette graphique et l’art de la commande textuelle (le choix des mots, des concepts…).

Qu’à cela ne tienne, le plus intéressant dans cette histoire, c’est le côté « clé en main ». Là où ces solutions sont intéressantes, c’est qu’elles ciblent des populations créatives qui ne sont pas forcément compétentes en informatique, c’est-à-dire capables d’installer et de paramétrer des librairies brutes de décoffrage. D’où la prolifération d’applications et services permettant d’exploiter des modèles en local ou dans le cloud.

Un marché qui se structure très rapidement

Comme expliqué plus haut, dès qu’il y a un peu d’exposition médiatique, c’est qu’il y a du potentiel, donc un hypothétique marché. Les sociétés d’investissement américaines se sont déjà positionnées sur le créneau et nous offre une analyse complète des modèles et des applications possibles : Generative AI: A Creative New World.

N’oubliions pas que ces modèles sont soit libres d’accès (car issus du milieu universitaire), soit sous licence. Il est donc très simple de les transformer en des produits. Ci-après, voici une cartographie des solutions créatives reposant sur les IA génératives :

Toutes ces solutions participent à nue adoption rapide des IA génératives, mais surtout à une intensification de la compétition, donc des solutions toujours plus performantes, donc une adoption toujours plus rapide… Un authentique cercle vertueux !

Une révolution pour les médias et la publicité ?

Les IA génératives sont la nouvelle poule aux oeufs d’or. OK, mais est-ce une bonne chose ? La réponse à cette question est plus complexe que vous ne le pensez, car nous sommes en plein dans un débat éthique, notamment dans les milieux artistiques où la polémique enfle suite à la victoire dans un concours artistique d’une création générée par une IA : An AI-Generated Artwork Won First Place at a State Fair Fine Arts Competition, and Artists Are Pissed.

Mais il n’y a pas que chez les artistes où ça grogne, le débat se déporte maintenant chez les photographes et illustrateurs professionnels : Artists begin selling AI-generated artwork on stock photography websites.

Très clairement, avec l’accès libre aux IA génératives, nous avons ouvert la boite de Pandore : AI Art Is Here and the World Is Already Different. Ces intelligences artificielles vont avoir un énorme impact sur les métiers créatifs, car les modèles génératifs diminuent la valeur perçue du processus créatif. Attendez-vous à une compression logique des délais et budgets…

Pour vous convaincre du potentiel, mais également du danger que cela représente pour les métiers de la création dans le marketing ou la publicité, il suffit d’étudier les solutions clé-en-main pour générer des contenus textuels : The Future of the Web Is Marketing Copy Generated by Algorithms.

Vous pourriez vous dire que c’est une révolution, mais pas réellement, car ce type de solution existe depuis de nombreuses années (cf. cet article publié il y a 5 ans : Panorama des solutions d’intelligence artificielle pour le marketing).

Sinon, il y a aussi les modèles capables de générer des images illustratives à partir du scan d’un produit :

Toujours plus fou : les IA génératives pourraient également être utilisées dans la compression d’images, non pas pour optimiser le codec en lui-même, mais pour générer une partie de l’image en sortie : Better than JPEG? Researcher discovers that Stable Diffusion can compress images. Ceci nous amène à remettre en question l’intérêt des algorithmes de compression puisque nous pourrions nous contenter d’encoder une image ou une vidéo à l’aide de la reconnaissance visuelle et de la restituer en la générant localement, ce qui représente un énorme gain de bande passante. Un principe que l’on pourrait étendre à d’autres types de contenus, bouleversant ainsi le créneau des moteurs de recherche : Language models like GPT-3 could herald a new type of search engine.

En conclusion de cet article, je rappellerai que comme avec n’importe quel nouvel outil, il est essentiel de bien mesurer le potentiel, mais également d’anticiper les dérives. Cela fait 5 ans que le « décret Photoshop » est passé en France (La mention « Photo retouchée » désormais obligatoire sur les photos de mode), espérons que le législateur sera prompt à encadrer les usages des IA génératives. Peut-être pour cela pourra-t-il se faire aider par une IA juridique ? 😁

Toujours est-il qu’à partir du moment où l’intelligence artificielle est utilisée à la fois pour la génération du texte, des images et des publicités, nous pouvons clairement affirmer que les médias entrent dans une nouvelle ère : The age of synthetic media has begun.

Ce qui est certain, c’est que les IA génératives vont bouleverser les pratiques publicitaires en permettant la génération de messages et offres toujours plus personnalisées, individualisées. Le problème est que pour y arriver, il faut disposer des bonnes données d’entrainement (et la grogne se fait déjà entendre : These artists found out their work was used to train AI, now they’re furious) et des bonnes données de profilage / ciblage. Tout ceci ne va faire qu’accroitre la dépendance aux BigTech, principalement Apple et Google, qui sont les gardiennes des données des utilisateurs.