Alors que le mystère plane toujours sur la disponibilité prochaine de GPT-5 et que la concurrence s’intensifie entre les géants numériques pour imposer leur offre d’IA générative (Google, Microsoft, Amazon, SalesForce, Adobe…), plusieurs éditeurs de modèles alternatifs choisissent de se différencier en mettant en avant la transparence et la qualité des données d’entrainement. Et si l’important n’était plus la taille du modèle (le nombre de paramètres), mais la pertinence des contenus servant à entrainer ce modèle ? Une question complexe qui nécessite un minimum d’explications et surtout de la transparence, tout l’inverse de la façon dont les grands éditeurs essayent de nous vendre leur offre.

L’essentiel de l’article en 5 points-clés :
- Les IA génératives reposent sur des modèles entrainés grâce à des jeux de données (articles, images…) qui sont issus du milieu universitaire ou de la recherche
- Ces jeux de données d’entrainement compilent de très grandes quantités de contenus récupérées sur le web, sans l’autorisation explicite des auteurs ou éditeurs
- Certains contenus présents dans ces jeux de données d’entrainement peuvent poser problème s’ils sont exploités en dehors du cadre d’expériences scientifiques
- La maîtrise des corpus documentaires ou des référentiels utilisés pour l’entrainement des modèles est essentielle pour optimiser les performances ou la pertinence des IA génératives
- Le manque de recul sur les usages ainsi que de maturité sur les technologies et outils renforcent le besoin de transparence et de pédagogie sur l’intelligence artificielle
Croyez-le ou non, mais les IA génératives ne sont ni intelligentes, ni magiques. Ce sont des systèmes informatiques dont le fonctionnement repose sur un processus d’apprentissage à partir de données, comme le sont toutes les applications de machine learning (si vous souhaitez combler vos connaissances sur le fonctionnement des LLMs, c’est ici : Explaining ChatGPT to Anyone in less than 20 Minutes).
Les corpus documentaires sont donc la matière première des IA génératives. D’où viennent les contenus utilisés pour entrainer les modèles et qui se charge de les constituer ? C’est une question plutôt embarrassante que tout le monde évite consciencieusement, car elle cache un vilain secret : nous ne connaissons pas réellement le corpus documentaire ayant servi à entrainer des modèles comme GPT-4 ou Gemini. Tout ce que nous savons sur le modèle de référence d’OpenAI sont des suppositions : son réseau de neurones aurait plus ou moins 120 couches et exploiterait 1,76 billiard de paramètres, le tout sur la base de contenus majoritairement en anglais (à plus de 90%) issus de gros sites web (Wikipedia, Reddit…).

La raison pour laquelle les éditeurs de modèles génératifs ne communiquent pas beaucoup sur les contenus d’entrainement est qu’ils utilisent tous des jeux de données « open source » : Machine learning datasets.
Des milliards de pages web accessibles, mais pas libres de droits
On dénombre ainsi un certain nombre de corpus de pages web dont les plus utilisés sont :
- Common Crawl, un corpus de 25 milliards de pages qui existe depuis 2007 et qui représente 500.000 gigaoctets ;
- The Pile, une combinaison de 22 jeux de données qui représente l’équivalent de 885 gigaoctets ;
- OpenWebText2, un corpus de 17 millions de documents pour un taille supérieure à 65 gigaoctets.
Ces jeux de données sont utilisés tels quels ou nettoyés et filtrés pour en améliorer la qualité (réduire le « bruit »), donnant naissance à de nouveaux jeux comme C4 (« Colossal Clean Crawled Corpus« ), la version épurée de Common Crawl utilisé par Google ; ou RefinedWeb, une autre version purgée de Common Crawl utilisée pour entrainer le modèle Falcon.
En allant parcourir la liste des jeux de données, on tombe parfois sur des choses surprenantes, comme les questions / réponses issues de Yahoo Answers, une sélection de poèmes chinois ou d’avis de restaurants tchèques utilisés pour entrainer les modèles génératifs de langage (je vous recommande une visite de la catégorie Text Generation). 😁
Je vous conseille les deux articles suivants pour avoir des explications sur les enjeux autour de ces datasets : How Common Crawl’s Data Infrastructure Shaped the Battle Royale over Generative AI et One of the world’s largest AI training datasets is about to get bigger and ‘substantially better’.

Pour une vue d’ensemble sur les différents jeux de données d’entrainement, il y a cette étude publiée récemment : Datasets for Large Language Models, A Comprehensive Survey.
Là où ça se complique, c’est que les équipes en charge d’alimenter ces jeux de données prennent de plus en plus de liberté et vont notamment aspirer les sites d’informations pour récupérer leurs articles, des contenus de grande qualité car rédigés par des professionnels. De ce fait, les éditeurs des sites d’informations se révoltent, à juste titre, et bloquent l’accès aux robots d’indexation :
- Major websites are blocking AI crawlers from accessing their content
- Who blocks OpenAI, Google AI and Common Crawl?
- Étude : qui bloque GPTBot, le robot d’OpenAI ?
Les éditeurs des corpus ont-ils raison d’aspirer les contenus ? Oui et non. Non, car ce ne sont pas des contenus libres de droits ; mais oui, car ces contenus ne sont pas réellement volés ou copiés (transférés dans une base de données), mais servent à la création d’une base de connaissances, au même titre qu’un internaute qui va lire ces articles et n’en retenir que son interprétation. Je vous propose ainsi de lire ces deux articles complémentaires qui adoptent une certaine prise de hauteur : Inside the secret list of websites that make AI like ChatGPT sound smart et AI Training Datasets: the Books1+Books2 that Big AI eats for breakfast.
Comme vous pouvez le constater, la question n’est pas simple, car si ces jeux de données publics intègrent effectivement des contenus sous licence, les éditeurs ont laissé faire, car ils servaient à des fins scientifiques ou universitaires. Mais maintenant qu’ils sont utilisés pour alimenter des services payants auxquels sont abonnés des dizaines de millions de clients (OpenAI on track to hit $2bn revenue milestone as growth rockets), les ayants droit se réveillent, ce qui engendre une bombe à retardement d’un point de vue juridique. Le problème est que les lois à ce sujet varient d’un pays à l’autre (ici, un article sur la législation en vigueur en France : À qui appartiennent les données d’apprentissage et les données générées ?) et que même aux États-Unis où plusieurs recours collectifs sont en train de se monter, nous sommes dans la zone grise de la propriété intellectuelle et de la notion de « fair use » qui débouchera certainement sur un compromis largement en défaveur des éditeurs de contenus.
Face à la grogne, OpenAI et Microsoft tentent néanmoins de faire bonne figure et ont annoncé en grande pompe des partenariats avec des éditeurs pour calmer le jeu : Partnership with Axel Springer to deepen beneficial use of AI in journalism et Here’s how we’re working with journalists to create the newsrooms of the future with AI.
Au sujet de ces vastes corpus, la fondation Mozilla a publié un rapport très instructif sur le corpus Common Crawl, ainsi que des recommandations explicites sur les bonnes façons de l’utiliser : How Common Crawl’s Data Infrastructure Shaped the Battle Royale over Generative AI.
Common Crawl has helped to make generative AI more transparent and audible, but it is a problematic source to train LLMs that needs to be used with care. Yet, this care is often lacking among AI builders.
Training Data for the Price of a Sandwich
L’approche la plus saine consiste à créer des modèles de langage qui soient spécifiques à un éditeur de contenus, comme c’est le cas pour Bloomberg qui a été un des premiers à le faire (Introducing BloombergGPT, Bloomberg’s 50-billion parameter large language model, purpose-built from scratch for finance), mais malheureusement tous les éditeurs ne bénéficient pas d’une telle réputation et ne peuvent pas financer une telle opération.
Des dizaines de milliers de livres, dont certains sous licence
La situation est encore plus compliquée avec des corpus de livres comme BookCorpus (plus de 11.000 livres) ou Project Gutenberg (70.000 livres), car contrairement aux articles que l’on peut lire sur le web, la plupart des livres ne sont pas accessibles, et pourtant :
- These 183.000 books are fueling the biggest fight fight in publishing and tech
- Grisham, Martin join authors suing OpenAI: “There is nothing fair about this”
- Revealed: The authors whose pirated books are powering generative AI
- Researchers Have a Magic Tool to Understand AI: Harry Potter
- Stephen King: My Books Were Used to Train AI
Dans la mesure où les LLMs du marché démontrent une parfaite connaissance de livres sous licence (ex : la saga Harry Potter), on comprend aisément que les éditeurs soient particulièrement énervés : The battle over Books3 could change AI forever.

Là encore, la situation n’est pas simple, car les avis divergent, notamment dans la communauté scientifique où règne la tradition du partage (tout le monde s’inspire des travaux des autres). Pour bien saisir toute la nuance du débat, je vous recommande ces deux articles : Copyright, AI, and Provenance et ‘Impossible’ to create AI tools like ChatGPT without copyrighted material, OpenAI says.
Des milliards d’images, dont certaines très sensibles
Pour ce qui est des corpus d’images, là nous sommes face à une situation encore plus complexe dans la mesure où les corpus de référence sont moins nombreux (ex : ImageNet ou encore LAION avec ses « hipster french cats » 😸) et que certains posent problème : Large AI Dataset Has Over 1,000 Child Abuse Images, Researchers Find.

Oui, vous avez bien lu : l’un des corpus d’images les plus utilisés pour entrainer les modèles génératifs inclus des images à caractère pédopornographiques. Certes, ces corpus sont gigantesques (nous parlons de plusieurs milliards d’images), donc très coûteux à auditer et nettoyer, mais quand même, ce n’est pas une raison pour les laisser en quasi libre accès. Heureusement, les modèles en question ont été dépubliés et nettoyés depuis le scandale (Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion’s Image Generator).
Là encore, tant que ces jeux d’images sont utilisés par des professionnels dans un cadre universitaire ou de recherche, ça ne pose en théorie pas de problème, mais nous avons maintenant des services payants spécialisés dans la génération d’images pornographiques comme Unstable Diffusion : As AI porn generators get better, the stakes get higher.

Et comme pour les éditeurs d’articles et de livres, de nombreux artistes s’insurgent également que des IA génératives puissent imiter leur style sans qu’ils aient donné leur accord pour que leurs oeuvres soient utilisées pour l’entraînement des modèles. Et là encore, il n’y a pas réellement de vol de propriété intellectuelle, mais plutôt de l’inspiration libre, comme si un artiste allait chercher l’inspiration en visitant un musée. Assurément un problème complexe dont même l’UNESCO se soucie : Navigating intellectual property rights in the era of generative AI: The crucial role of educating judicial actors.

Heureusement, certains éditeurs comme Adobe s’illustrent en rémunérant les créateurs d’images utilisées pour entrainer son modèle : Adobe starts paying bonuses to Stock contributors whose content is being used to train Firefly.
Et pendant ce temps-là, le fondateur d’OpenAI essaye de lever 7 billiards de $ pour créer ses propres usines de processeurs (OpenAI CEO Sam Altman seeks as much as $7 trillion for new AI chip project), et il ne peut pas reverser des royalties aux auteurs des contenus ? Veuillez pardonner mon langage outrancier, mais WTF?!?
Je me fais l’avocat du diable en écrivant que la mise en place d’un système de rémunération équivalent à la SACEM serait une sacrée usine à gaz, mais faut-il « sacrifier » les auteurs de contenus sur l’autel de l’innovation ? C’est assurément un énorme casse-tête, car pour progresser, les modèles génératifs ont besoin de toujours plus de contenus de toujours meilleure qualité (cf. De l’importance des données (et des humains) pour le machine learning).
Le pire dans cette histoire est que nous ne parlons que des problèmes identifiés ces 18 derniers mois, que se passera-t-il avec des méthodes d’apprentissage plus puissantes ou complexes ? À ce sujet, le patron de la recherche chez Meta attire notre attention sur le fait que l’apprentissage tel que pratiqué aujourd’hui est loin d’être le plus performant, car reposant sur des documents. Ainsi, un enfant de 4 ans est en moyenne exposé à 50 fois plus de contenus que les plus grands modèles de langage :
Tout ça pour dire que si la très grande majorité des analystes et observateurs louent les prouesses des modèles génératifs, ils sont encore largement perfectibles (entrainement, précision, consommation d’énergie…) et souffrent encore de nombreux défauts, à commencer par le phénomène d’hallucination.
Les moteurs symboliques pour réduire le risque d’hallucination
Quelle que soit la taille, la qualité du corpus documentaire ou de la méthode d’entrainement des modèles génératifs, il y aura toujours un phénomène d’hallucination. Comprenez par là que les IA génératives ont tendance à inventer des choses, à avoir des hallucinations (le terme exact en français est « affabulations »), que ce oit dans la génération de textes (ex : citation de références qui n’existent pas) ou d’images (ex : des mains avec 4 ou 6 doigts). Croyez-le ou non, mais cette tendance est une caractéristique et non un bug, car inhérent aux calculs probabilistes : Are AI models doomed to always hallucinate?.

Ceci étant dit, dans la mesure où ce problème est connu, il peut également être considéré comme un atout, notamment pour la génération de contenus atypiques, particulièrement utiles pour alimenter une réflexion ou sortir de nos carcans culturels : In defense of AI hallucinations.
Effectivement, dans certains cas de figure, cette capacité des modèles génératifs à créer des choses non conventionnelles peut se révéler très utile, notamment dans la création de cahiers de tendances, comme c’est le cas chez EssilorLuxottica dont le responsable de l’innovation nous a très gentiment partagé quelques exemples lors d’une table ronde à laquelle je participais la semaine dernière.

Mais à part ce cas d’usage bien précis, il faut bien avouer que le phénomène d’hallucination est très désagréable, car il force les utilisateurs à vérifier la véracité des informations ou données qui sont générées, ce qui n’est pas toujours facile, car la plupart des modèles ne citent pas leurs sources, et car de nombreux utilisateurs ne prennent pas le temps de vérifier dans la mesure où le recours à un modèle génératif sert précisément à leur faire gagner du temps (leur éviter la phase de vérification et compilation des résultats).
Pire : la publication de contenus générés par des modèles génératifs va très rapidement servir à alimenter d’autres modèles ou à nourrir les modèles existants, ce qui risque de provoquer une dégradation rapide de la performance (Model collapse explained: How synthetic training data breaks AI). Un risque que certains chercheurs ont déjà pu constater : A New Study Says AI Is Eating Its Own Tail.
La solution pour limiter le phénomène d’hallucination et pour éviter l’effondrement des modèles par anthropophagie est d’utiliser conjointement l’approche statistique et l’approche symbolique. Cette combinaison des deux approches est vraisemblablement la méthode ultime, du moins pour des usages restreints. C’est en tout cas ce qui ressort des travaux menés par cette équipe sur un modèle dédié à la résolution de problèmes géométriques : How Google built the perfect LLM system-AlphaGeometry.

Ainsi, avec AlphaGeometry, les équipes de DeepMind ont franchi un nouveau cap en parvenant à combiner un moteur symbolique (reposant sur une base de données de déductions et des règles algébriques) avec un modèle de langage (entrainé avec des données synthétiques) pour générer de nouveaux théorèmes : Solving olympiad geometry without human demonstrations. Cette méthode, la combinaison d’une IA symbolique avec une IA générative, permet de surpasser les meilleurs spécialistes en géométrie, là où GPT-4 a échoué (trop d’hallucinations).

Cette réussite nous démontre encore une fois l’importance des données d’entrainement et des référentiels, ce que nous savons déjà puisque les pratiques de machine learning ne datent pas de l’année dernière, mais ça fait toujours du bien de le rappeler.
Tout ceci nous amène à nous questionner sur la disponibilité de corpus documentaires de meilleure qualité, ainsi que de leur financement.
À quand des corpus documentaires internes et/ou souverains ?
En explorant les différents liens proposés dans cet article, vous vous rendrez vite compte que la majeure partie des corpus documentaires sont constitués de documents en anglais (plus de 92% pour GPT). Certes, il y a plus de contenus en anglais, et la langue anglaise propose une structure linguistique et grammaticale plus facile à modéliser, mais ça ne rend pas justice aux autres langues (ex : français, allemand, italien, chinois…) et à leur richesse culturelle (Pourquoi l’Asie est contrainte de rééduquer ChatGPT).
Il existe bien des modèles censés être multilingues comme BLOOM (Introducing The World’s Largest Open Multilingual Language Model), mais les contenus en anglais restent majoritaires (30%), tandis que les autres langues sont finalement assez peu représentées (13% pour le français, 10% pour l’espagnol et quasiment rien en allemand). Un déséquilibre de fait déjà commenté (The State of Multilingual LLMs: Moving Beyond English), mais pas réellement corrigé.
Même le modèle Falcon, pourtant financé par les Émirats Arabes Unis, est présenté comme un modèle de langage anglais. D’autres pays ont annoncé leur volonté de créer leur propre modèle comme les Pays-Bas, mais nous ne savons pas encore quelles seront les parts de contenus en néerlandais et en anglais qui seront utilisés pour l’entrainement (Netherlands building own version of ChatGPT amid quest for safer AI). Il ne reste que des initiatives privées comme Ǎguila pour l’espagnol (mais qui repose sur Falcon) ou Jais pour l’arabe (mais dont l’entrainement s’est fait avec des contenus majoritairement en anglais).
Plus récemment, nous avons l’exemple d’Aya, le tout nouveau modèle de Cohere censé être bilingue en 67 langues et pouvoir dialoguer en 114 langues : New AI polyglot launched to help fill massive language gap in field. Peut-être un bon début…

Idéalement, chaque pays devrait financer la constitution d’un corpus documentaire de la langue officielle pour s’assurer de la disponibilité de modèles « locaux ». Outre PAGnol lancé en 2021, je ne crois pas qu’il existe de corpus d’envergure de livres et articles en français, pourtant le secteur culturel et les éditeurs de presse sont largement subventionnés par l’État. Serait-il aberrant de penser que la moindre des choses serait pour ces éditeurs d’accepter l’utilisation de leurs contenus (même sous licence) ? Je ne veux pas créer de polémique, je pose simplement la question dans la mesure ou c’est l’argent de mes impôts qui est utilisé pour subventionner ces entreprises privées. Après tout, moi aussi j’édite des contenus libres d’accès, mais sans toucher un seul centime de subvention…
Dans un autre registre, nous entendons beaucoup parler de l’utilisation de documents internes à une entreprise pour pouvoir créer ou personnaliser un modèle à usage interne (ex : chatbot). Plusieurs entreprises ont d’ailleurs déjà communiqué sur de tels projets : Docaposte lance son IA générative souveraine et Le Crédit Mutuel Arkéa publie son modèle d’IA générative en open source.

Je suis tout à fait favorable à ce type d’initiative, mais encore faut-il que l’entreprise soit capable de fournir un corpus documentaire de qualité (ne pensez pas vous en sortir en faisant avaler à la machine vos emails ou vos fichiers en vrac). Il y a donc un gros travail préalable de récolte, nettoyage et labellisation des fichiers ou référentiels internes avant de pouvoir procéder à l’entrainement ou à l’affinage d’un modèle.
Est-ce ça l’avenir proche : un modèle pour chaque pays, entreprise ou usage ? Certainement, ou du moins une déclinaison d’un modèle générique par pays, usage ou utilisateur. C’est grosso modo le positionnement d’éditeurs comme OpenAI qui conçoivent des modèles de fondation et en commercialise à travers des licences des versions optimisées pour un usage précis ou adapté à un contexte particulier. Dans tous les cas de figure, tout ceci ne va pas pouvoir se faire sans un minimum de confiance accordée à tel ou tel modèle, il y a donc un réel besoin de transparence sur le fonctionnement du modèle et sur les données ayant servi à son entrainement (principe du « Know Your Data« ). Cette obligation de transparence est d’ailleurs un des objectifs de la régulation européenne (EU AI Act: first regulation on artificial intelligence).
AI systems shall be developed and used in a way that allows appropriate traceability and explainability while making humans aware that they communicate or interact with an AI system as well as duly informing users of the capabilities and limitations of that AI system and affected persons about their rights.
Tout ceci nous confirme que le domaine de l’IA générative est encore très immature et qu’il y a énormément de progrès à faire (performances, encadrement…).
Nous n’avons pas besoin de plus gros modèles, mais davantage de pédagogie
Pour le moment, l’essentiel de la communication autour des modèles se fait sur leur performance, celle-ci étant abusivement associée à la taille du modèle. Dans les faits, ce n’est pas le nombre de paramètres d’un modèle de langage qui conditionne sa performance, mais plutôt son adaptation à un contexte d’utilisation, c’est-à-dire l’adéquation entre ses données d’entrainement et le sujet à traiter (Find the AI Approach That Fits the Problem You’re Trying to Solve), ainsi que le ratio consommation d’énergie / précision des réponses (cf. Pour une utilisation responsable de l’IA générative).
Pour faire comprendre ces subtilités, j’utilise toujours la comparaison entre une formule1 et une Clio : une voiture ultra-performante qui intègre un moteur de plus de 1.000 chevaux n’a aucun intérêt si l’on ne peut pas lui faire franchir un simple dos d’âne et si le prix de l’essence dépasse les 2 € par litre (pour info, une F1 consomme en moyenne 45 litres pour 100 km, soit 9 fois plus qu’une Clio).
Très clairement, l’avenir n’est pas aux IA génératives multi-tâches reposant sur un modèle entrainé avec des contenus en anglais, mais plutôt sur des modèles à la fois spécialisés et optimisés comme ceux de Mistral qui présentent ainsi un compromis idéal : Pushing the frontier of open models with sparse architectures.

Vous pourriez me répondre que la polyvalence est justement la qualité première que l’on cherche chez les agents intelligents, mais là encore, ce n’est pas la taille du modèle qui compte, mais la confiance que les utilisateurs sont prêts à accorder à l’éditeur pour accepter de changer leurs habitudes : Les assistants numériques vont-ils remplacer les applications mobiles ?
Comme vous pouvez le constater, le marché à évolué et les attentes des utilisateurs comme des entreprises ne sont plus les mêmes : nous ne sommes plus dans un course à l’armement, mais plutôt dans une démarche d’adoption qui passe nécessairement par une évaluation fine des modèles, donc une transparence sur les données d’entrainement.
Tout ceci nous ramène encore et toujours à un besoin de pédagogie : expliquer ce qu’est une intelligence artificielle, le fonctionnement ainsi que les points forts et faibles des modèles génératifs, les critères de sélection et facteurs-clés de succès de l’adoption…
Non, une formation au prompt engineering ne facilitera pas l’adoption, au contraire, elle ne fera qu’embrouiller les utilisateurs potentiels et renforcer la méfiance vis-à-vis de ce qui est considéré comme de dangereuses boîtes noires. Cette récente étude de l’Ifop nous apprend ainsi que près des 2/3 des salariés n’ont pas et ne veulent pas être formés à l’IA : Intelligence artificielle, les salariés inquiets et méfiants.

C’est clairement un signal très alarmant qu’il ne faut pas prendre à la légère. Voilà pourquoi je préconise fortement une démarche d’accompagnement rigoureuse : pour s’assurer que les objectifs pédagogiques soient bien remplis (expliquer, rassurer, impliquer…) et que des initiatives internes ne soient pas contre-productives (accentuer la fracture entre ceux qui savent et ceux qui se méfient).
N’hésitez pas à me solliciter pour que je puisse vous aider à évangéliser, rassurer ou accompagner vos collaborateurs dans leur appropriation de l’intelligence artificielle, ou autres sujets liés au numérique.