Oubliez la singularité et concentrez-vous sur vos données

Plus les semaines passent, et plus le débat sur la place des intelligences artificielles dans notre société s’enlise. Nombreux sont ceux qui prédisent l’apocalypse à grand renfort de théories du complot (numérique), mais très peu sont ceux qui pointent du doigt le réel problème auquel toutes les entreprises vont très rapidement être confrontées : la pénurie de données. Il y a urgence, car il ne vous reste plus que 6 mois pour agir.

Listen to me, Coppertop!

Nous sommes quasiment à la fin de l’année 2017, et si j’en crois tout ce qui est publié en ce moment, le monde court à sa perte et les intelligences artificielles vont nous réduire en esclavage :

Les IA seraient plus performantes que 87% des salariés dans les pays occidentaux (7 travailleurs sur 8 sont moins performants que l’intelligence artificielle) ;
L’IA de Google est maintenant autonome dans son processus d’apprentissage (Intelligence artificielle : toujours plus puissant, AlphaGo apprend désormais sans données humaines) ;
Une IA s’invite dans un cabinet ministériel (Les Emirats Arabes Unis créent un ministère de l’intelligence artificielle) ;
Lancement du premier service de détective reposant sur un IA (Detective by Charlie is an AI tool that’s like having your own personal CIA)…

Je sais bien qu’il faut des titres accrocheurs pour faire cliquer les internautes, mais là ça devient carrément n’importe quoi. Outre ces articles racoleurs, ce sont surtout ces débats sur la singularité qui me soucient : pendant que nous nous interrogeons sur le bien fondée des IA et sur les conséquences que cela peut avoir dans 30 ans, les GAFAMI et BAT sont en train de prendre une avance considérable sur le sujet, nous laissant loin derrière avec nos tergiversations.

Le problème est que l’intelligence artificielle est un sujet complexe, aussi bien d’un point de vue scientifique que philosophique. Déjà que les entreprises sont frileuses vis-à-vis du changement, si en plus tout le monde se met à brandir le spectre de la singularité et à prophétiser la destruction de millions d’emplois, nous (européens) ne sommes pas prêt de combler notre retard sur les Américains et Chinois.

Certains ont décidé de faire commerce de l’IApocalypse (il est beaucoup plus facile de faire peur que de rassurer), c’est leur droit, mais je suis persuadé qu’ils ne mesurent pas réellement l’impact de leur discours sur la compétitivité à moyen terme. À force de crier au loup, ils sèment indirectement le doute dans l’esprit des patrons et responsables marketing, freinent l’adoption des IA, donc empêchent des gains de performance, donc grèvent la compétitivité. En d’autres termes : ce sont ceux qui dénoncent les risques des IA qui mettent en péril des emplois, pas les intelligences artificielles en elles-mêmes.

Une petite explication s’impose pour vous permettre d’y voir plus clair et de vous approprier le sujet le plus rapidement possible.

Une intelligence artificielle est aussi intelligente que les données utilisées pour son apprentissage

Comme expliqué dans mon article précédent (L’avènement du marketing augmenté), il y a deux grands cas d’usage des intelligences artificielles pour le marketing : le classement d’individus dans des segments (en fonction de leur profil ou comportement) et le traitement de tâches (personnalisation d’un email, ajustement d’une enchère sur un emplacement publicitaire…) en fonction d’éléments déclencheurs. Avec la multiplication des points de contact et la complexification des parcours client, les IA sont particulièrement utiles pour pouvoir automatiser certaines tâches répétitives (segmentation) et pouvoir réagir très rapidement pour des traitements automatisés, plus rapidement que des humains déjà bien occupés.

À la question : « est-ce qu’une IA est suffisamment intelligente pour faire le travail toute seule ?« , je réponds sans hésiter : non, elle ne fait pas le boulot toute seule, elle se contente de reproduire des classements et traitements qu’on lui a enseignés. N’oubliez pas que dans « intelligence artificielle » il y a « artificielle ». L’intelligence simulée d’une IA sera donc fonction de la finesse de l’analyse (pertinences des caractéristiques exploitées pour la classification, richesse du jeu de données…) et du nombre de cas de figure modélisés (la largeur de l’arbre de décision…).

Dans le cas d’une segmentation automatisée, si les caractéristiques de classification sont mal choisies ou si les données prises en compte sont incomplètes, le résultat ne sera pas satisfaisant. De même, dans le cas d’un dialogue automatisé, si vous ne fournissez pas un nombre suffisant d’équivalences de termes ou si vous ne détaillez pas assez de questions/réponses génériques, votre agent conversationnel ne va pas être d’une grande utilité (en moyenne, un chatbot est capable de traiter de façon autonome 10 à 20% des questions). Dans tous les cas de figure, c’est bien la richesse des données qui va conditionner la valeur d’une IA, pas les algorithmes utilisés.

Sans maitrise, la puissance n’est rien

Comme le disait for justement un fabricant de pneus dans sa publicité : la puissance ne sert pas à grand-chose si elle n’est pas maitrisée. Cette maxime s’applique bien à l’intelligence artificielle, car vous pouvez légitimement vous sentir grisé par la puissance de calcul qui est à votre disposition à travers les offres de cloud computing : des téraflops accessibles en quelques clics pour pouvoir absorber des téraoctets de données. Le problème est que si ces données ne sont pas pertinentes ou trop hétérogènes, toute cette puissance sera déployée pour pas grand-chose.

Vous pourriez me dire que c’est justement là où le deep learning est intéressant, car cette méthode d’apprentissage non-supervisée permet justement de faire des classements / traitements à partir de données en vrac et sans assistance humaines, mais cela reviendrait à abandonner tout contrôle sur des opérations de visibilité, d’acquisition de trafic ou de satisfaction client.

Je ne remets pas en cause la capacité des machines propulsées par du deep learning à améliorer la performance ou le ROI des campagnes, car elles sont effectivement capables de le faire, mais plutôt le danger de laisser une machine s’occuper de la formulation de vos messages publicitaires, de vos emails de conquête / relance ou des réponses aux questions qui vous sont posées sans un minimum de contrôle à priori. Comme expliqué dans mon panorama des solutions d’intelligence artificielle pour le marketing, il existe de nombreuses solutions pour améliorer vos performances, notamment de nombreux acteurs français, mais cette optimisation algorithmique des messages, offres, promotions… se fait potentiellement au détriment de l’image de marque et de la valeur perçue des produits. Comprenez par là que positionnement, image de marque ou valeur perçue sont des notions qui sont complètement étrangères aux machines, celles-ci se contentant de créer des micro-segments, personnaliser des messages, acheter des emplacements publicitaires, cibler des promotions… en fonction des données qui leur ont été fournies.

Dans la mesure où les solutions citées plus haut permettent de faire des classements / traitements à l’échelle industrielle, les erreurs se produiront également à l’échelle industrielle. Autant donc minimiser le risque en bâtissant des jeux de données de qualité et en privilégiant des processus d’apprentissage supervisés. En d’autres termes : troquer de la puissance (algorithmique) contre de la maitrise (des données).

Je vous propose d’illustrer mon propos avec la fonction d’auto-correction des claviers de smartphones : sous couvert de vous faire gagner quelques secondes sur la saisie des mots, ils peuvent parfois vous faire passer pour un analphabète ou créer des situations cocasses.

Si la fonction d’auto-correction de votre smartphone vous met la honte lors d’une conversation avec un(e) ami(e), ça fait une anecdote rigolote, mais dans le cas d’une campagne d’acquisition de trafic ou de fidélisation, une seule erreur peut potentiellement ruiner des années d’efforts pour construire une image de marque.

La GDPR vous forcera à abandonner vos données, mais pas celles des GAFA

Les IA sont donc des outils très puissants, mais à double tranchant. D’où l’intérêt de garder un minimum de contrôle, notamment en soignant vos données. Le problème est qu’au 25 mai 2018, la loi sur la régulation sur la protection des données entrera en vigueur et compliquera de façon drastique la collecte, la possession et l’exploitation des données des consommateurs (La GDPR signe-t-elle la fin de l’âge d’or de la publicité en ligne ?).

Non seulement vous aurez moins de données à votre disposition, mais pendant ce temps-là, les GAFA (qui ont déjà procédé à leur mise en conformité) poursuivent leur travail d’intégration verticale pour amasser toujours plus de données sur leurs utilisateurs et proposer des solutions clé-en-main aux annonceurs (Google introduces fully-automated ‘Smart’ display campaigns et Facebook’s dynamic creative can generate up to 6,250 versions of an ad).

L’écart va donc se creuser entre d’un côté des annonceurs dans l’incapacité de collecter, conserver et exploiter les données de leurs clients, sans aucune compétence en matière d’intelligence artificielle et de l’autre, des Google, Amazon, Facebook, Baidu, Tencent… qui vont accroitre encore plus leur domination avec des années d’historiques de données utilisateurs et les meilleures compétences du monde en matière de machine – deep learning. Autrement dit : on est dans la merde !

Moralité : Keep Calm & Collect Data

S’il n’y avait pas le spectre de la GDPR et de la ePR, la situation ne serait pas aussi tendue, mais l’échéance approche à grands pas. Voilà pourquoi je trouve particulièrement néfaste de débattre sur la singularité et de noyer les entreprises dans une querelle d’experts sur la date hypothétique de complétion de la première intelligence artificielle forte ou généraliste.

Je reformule pour être certain de bien me faire comprendre : nous ne pouvons pas nous permettre de perdre notre temps avec des débats stériles alors que les GAFAMI et BAT sont en train de préempter à la fois les compétences en matière d’intelligence artificielle et les jeux de données qui permettront aux machines de progresser de façon autonome.

Il y a urgence : il faut agir au plus vite pour dédramatiser le débat sur les IA, expliquer l’intérêt du machine learning aussi bien pour le marketing que pour d’autres fonctions en interne et mettre en place une stratégie data pérenne et ambitieuse. Et surtout, ne minimisez pas la tâche (The biggest headache in machine learning? Cleaning dirty data off the spreadsheets), car comme le dit le proverbe : « 80% du temps d’un data analyst consiste à nettoyer des données, les 20% restant à se plaindre du fastidieux travail de nettoyage des données« .