De l’importance des données (et des humains) pour le machine learning

J’étais la semaine dernière à Londres pour le Marketing Summit organisé par Adobe. Une édition 2017 résolument tournée vers le machine learning. Si personne ne peut contester l’importance que va prendre le machine learning dans les métiers de service (le « pourquoi ?« ), comme à chaque nouvelle innovation majeure, la plus grande confusion règne en ce qui concerne le périmètre exact (le « quoi ?« ) et la mise en oeuvre (le « comment ?« ). Que ce soit Adobe, SalesForce ou IBM, tous les grands éditeurs, et même les petits, nous servent du machine learning dans leur discours en nous expliquant que leur intelligence artificielle est plus intelligente que celle des autres. Le problème est qu’il n’y a pas de bonne ou mauvaise IA, tout dépend de la qualité des jeux de données et de l’interprétation des résultats par les équipes.

AI-cat

Mariage forcé entre marketing et IA

L’intelligence artificielle est assurément LE sujet dont tout le monde parle en ce moment et qui est en filigrane de tous les évènements, de SXSW jusqu’au Marketing Summit de la semaine dernière. La raison de cet engouement est toute simple : nous, professionnels du marketing, n’avons pas envie, mais besoin des intelligences artificielles. Il ne vous a pas échappé que la multiplication des supports pose de sérieux problèmes aux professionnels de la communication, et que la multiplication des canaux pose également de gros soucis aux marketeurs : à mesure que les cibles et clients se dispersent, les ressources et la puissance des annonceurs se diluent.

J’avais déjà abordé le sujet en début d’année (Les IA sont-elles l’avenir du marketing ? Certainement…) et reste convaincu que les IA et leur capacité de destruction créative sont à l’oeuvre : elles accélèrent la disparition des métiers à faible valeur ajoutée et ouvrent en même temps de nombreuses opportunités. Vous pouvez voir le verre à moitié vide (Intelligence artificielle : le Gong de fin pour les agences média ?) ou le verre à moitié plein (Artificial Intelligence Market Forecasts), mais dans tous les cas de figure, la part de travail effectué par des robots intelligences artificielles dans notre quotidien professionnel ne va faire qu’augmenter (Nearly 80 percent of US display ad spend will be programmatic in 2017).

AIMF-3Q16.jpg

La meilleure façon d’aborder cette situation de fait est de se dire que les IA sont justement la solution à la fragmentation de l’audience et la multiplication des supports : ce que nous avons perdu en puissance (la TV), nous devons le compenser en  précision. Et c’est justement là où les IA et plus particulièrement les outils dopés au machine learning vont se révéler particulièrement utiles.

Donc non, ce n’est pas la fin des agences média, mais plutôt la fin d’une époque pour les agences média qui abandonnent le travail manuel (coordination et confirmations faites par téléphone ou emails) pour se concentrer sur de l’automatisation. Mais dites-vous bien que dans tous les cas de figure, il faudra des humains pour paramétrer, surveiller, analyser, arbitrer…

Dans « intelligence artificielle », il y a « artificielle »

Comme énoncé dans l’introduction de l’article, une grande confusion règne dans ce que sont les intelligences artificielles, ce qu’elles peuvent faire et la meilleure façon de les exploiter. Pour résumer une longue explication, une intelligence artificielle est un outil informatique qui simule l’intelligence humaine. Cette définition s’applique donc aussi bien aux disques vocaux utilisés depuis des décennies qu’aux chatbots, c’est le même principe.

Diriez-vous qu’un marteau est bête ou intelligent ? Ni l’un ni l’autre, il est aussi intelligent (ou bête) que celui qui le manie. C’est la même chose pour une intelligence artificielle : l’important n’est pas le choix de l’IA, mais la façon dont vous allez l’exploiter. Dans un environnement intégré (clôt) comme les marketing cloud d’Adobe ou de SalesForce, ça fonctionne bien, mais dès que vous commencez à bricoler et à empiler des couches techniques, là ça se complique.

AI-control.jpg

J’attire votre attention sur le fait qu’il n’existe pas de solutions toutes prêtes, à part dans certains domaines très précis comme la reconnaissance naturelle du langage (NPL pour Natural Language Processing) ou la reconnaissance d’images. Exploiter une intelligence artificielle passe nécessairement par une longue phase d’apprentissage pour collecter les bonnes données, recruter les bonnes compétences, exploiter les bons algorithmes…

Une entreprise devra ainsi passer par différents stades d’intelligence artificielle :

  • les intelligences assistées qui permettent d’améliorer la productivité de tâches existantes (ex : real-time bidding) ;
  • les intelligences augmentées qui permettent de réaliser des tâches qui ne sont pas possibles uniquement avec du personnel humain (ex : personnalisation individuelle des messages) ;
  • les intelligences autonomes qui ne nécessiteront plus d’opérateurs humains (ex : les smart display campaigns de Google)

Encore une fois, le problème ne vient pas des IA en elles-mêmes (il n’y a pas de bonne ou mauvaise IA), mais des raccourcis grossiers dont abusent les vendeurs de solutions miracles. L’intelligence artificielle, et plus encore le machine learning, sont des disciplines complexes qui nécessitent un minimum de pédagogie et surtout beaucoup de préparation. En synthèse, cela exige une stratégie (cf. A Strategist’s Guide to Artificial Intelligence).

OConnell-Robot-Future.jpg

Dans « machine learning », il y a « learning »

Le machine learning est une des branches de l’intelligence artificielle. C’est une discipline qui est apparue dans les années 80 avec les premiers travaux de recherche sur les statistiques et les réseaux neuronaux. Pour vous la faire simple : le machine learning sert à développer des processus d’apprentissage permettant à une machine d’évoluer, sans que ses algorithmes ne soient modifiés, avec pour objectif la construction d’un modèle prédictif. Selon le contexte et les données disponibles, une machine peut apprendre de plusieurs façons (supervisée, non supervisée, renforcée, par transfert…) et selon plusieurs approches (arbres de décision, régression linéaire, réseaux neuronaux, réseaux bayésiens, machines à vecteurs…).

Les domaines d’applications du machine learning sont nombreux, mais tournent essentiellement autour de l’analyse de données et à leur restitution sous forme de classifications (avec des classes déjà connues), de clusters (avec des clusters empiriques), de prédictions, d’estimations de densité… Adapté aux métiers du marketing, le machine learning permet de mieux cibler les clients (micro-segments), d’améliorer l’impact (analyse en temps réel et arbitrages automatiques), de personnaliser les offres et messages, de rédiger des contenus personnalisés,  de recommander des produits, de calculer de façon plus fine la contribution de tel ou tel support durant une campagne…

Creative-engineering.jpg

Bref, le machine learning est un authentique accélérateur de performance s’appuyant sur l’analyse de larges jeux de données. Ça tombe bien, car la production de données a augmenté de façon exponentielle ces dernières années, et car les briques technologiques pour faire du big data sont devenues beaucoup plus abordables et mieux maitrisées. En synthèse : toutes les planètes se sont alignées pour faire exploser les usages du machine learning.

Le problème est que les algorithmes de machine learning ne sont directement applicables au marketing,  à la communication ou à la vente en ligne. Les techniques d’apprentissage non supervisé (deep learning) sont parfaits pour analyser de très grandes quantités de données hétérogènes et en extraire les corrélations les plus fortes, mais pas forcément pour vous dire quoi faire. Ces algorithmes servent à identifier des schémas (« patterns »), des signaux faibles à partir de corrélations, mais s’il n’y a pas assez de données ou si ce ne sont pas les bonnes données, alors les corrélations seront fausses. C’est là où à mon sens le marché fait fausse route : on nous promet monts et merveilles en nous vantant les mérites de telle ou telle IA, alors qu’elles utilisent quasiment les mêmes algorithmes (issus du milieu universitaire). La différence va plutôt se faire dans la richesse des jeux de données (« data sets »), la priorisation de tel algorithme sur tel autre (puisque l’on peut combiner les méthodes d’analyse) et la façon dont les équipes vont interpréter les résultats.

Pour bien appréhender le travail nécessaire à la mise en place d’une IA, je vous propose ce très bon retour d’expérience du Crédit Mutuel sur l’implémentation de l’IA d’IBM pour assister le service client : « non, l’IA Watson n’est pas magique ». On y apprend que la phase d’apprentissage à tout de même duré 10 mois et monopolisé entre 10 et 15 personnes (pas à plein temps, mais une sacré équipe tout de même). Les responsables du projet précisent qu’il a fallu faire intervenir des experts métiers pour ingurgiter 6.000 questions-types et en déduire 4.000 règles et des arbres de décisions à 2.00 branches qui doivent être régulièrement mis à jour (gloups !). Mais visiblement le jeu en vaut la chandelle, car l’objectif est d’accélérer le traitement des questions entrantes : « Si l’on fait gagner 5 minutes par jour à 20.000 chargés de clientèle sur le traitement des emails, on va rapidement rentabiliser l’investissement« . Effectivement, il y a un coût, qui sera rapidement remboursé par le gain de performance, mais les coûts et délais de mises en oeuvre sont non-négligeables.

Nous touchons ici le coeur du débat : il y a une limite dans le travail d’analyse des machines, au final, l’interprétation des résultats devra se faire sur la base de l’expérience ou de l’intuition. Vous aurez beau avoir à votre disposition la plus grosse puissance de calcul (chez IBM, Amazon ou Google), si vous vous trompez dans votre interprétation, alors tout ce travail sera réduit à néant. Hommes et machines doivent travailler de concert pour fournir les meilleurs résultats. Lire à ce sujet ce très bon article qui compare les IA à des micro-services : L’intelligence artificielle, brillante et stupide.

man-machine.jpg

Moralité : votre priorité n’est pas de choisir le meilleur algorithme, mais d’amasser suffisamment de données et de vous entourer des bonnes personnes, à la fois des spécialistes de l’apprentissage supervisé ou semi-supervisé, mais également des experts du domaine que vous souhaitez améliorer. Nous avons ici la démonstration que les IA vont effectivement détruire des emplois à faible valeur ajoutée, mais en créer d’autres, à forte valeur ajoutée, et surtout que l’enjeu se situe au niveau des données. Sous cet angle, on comprend mieux les acquisitions de Google il y a de nombreuses années (cf. Du contenu roi aux données reines publié en 2010), et la bataille en cours autour des données de santé (The Terrifying Black Market for your Private Medical Records).

2 commentaires sur “De l’importance des données (et des humains) pour le machine learning

  1. Merci beaucoup pour cet excellent article, j’adhère !
    Juste pour vous rapprocher de la perfection vous pouvez rectifier 2 coquilles qui se sont subrepticement glissées en remplaçant
    augmentée –> augmenté
    rembourser –> remboursé
    Belle journée
    Marie-Chantal
    Et vous pouvez même supprimer ce commentaire ensuite, je ne vous le reprocherai pas ;)

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s