Ça a commencé avec le lancement de Siri en 2011, puis celui d’Amazon Echo en 2015, puis avec la déferlante des chatbots en 2016, et maintenant on ne parle plus que de ça (sans mauvais jeu de mots). Popularisées par la recherche vocale, les interfaces naturelles sont l’évolution logique de nos claviers, souris et écrans tactiles de smartphones. Mais à peine les usages décollent-ils que la partie semble déjà gagnée par les GAFAM. Tout change, mais rien ne change en somme…

Je poursuis ma série de trois articles de la rentrée pour vous aider à mieux comprendre les enjeux de ce qui devrait être vos trois chantiers prioritaires : les smartphones, les interfaces naturelles et l’intelligence artificielle (à paraitre la semaine prochaine).

L’évolution logique des claviers, souris et écrans tactiles

Après 40 ans de bons et loyaux services, les interfaces mécaniques des ordinateurs ont été supplantées par leur équivalent tactile (les écrans de smartphones). Polyvalents et connectés en permanence, les smartphones se sont imposés comme le premier moyen de connexion au web. Mais à mesure que les pays en développement adoptent les terminaux mobiles, la façon de les utiliser évolue : The End of Typing: The Next Billion Mobile Users Will Rely on Video and Voice. Ces centaines de millions de nouveaux utilisateurs n’ont effectivement jamais eu accès à un ordinateur et ne maîtrisent pas les principes fondamentaux de l’informatique. De ce fait, les « nouveaux » mobinautes d’Inde, de Birmanie, d’Afrique… zappent le clavier tactile et passent directement aux commandes vocales.

Pour les mobinautes occidentaux, la situation est différente, mais les modes d’interactions évoluent également. La majeure partie des usages sur smartphones s’articulent ainsi autour de micro-moments, un contexte d’usage pour lesquels les interfaces naturelles favorisent la spontanéité, contrairement à des recherches « sérieuses » (ex : les effets secondaires d’une chimiothérapie) ou des achats impliquants (ex : simulation pour un crédit immobilier) qui eux, continuent d’être réalisés sur les ordinateurs. Croyez-le ou non, mais 1/5 des recherches faites sur Google le sont à travers une interface vocale : Google says 20 percent of mobile queries are voice searches.

Outre la recherche vocale, nous constatons également depuis l’année dernière la montée en puissance des chatbots et des recherches visuelles. Tous ces nouveaux usages, ou plutôt ces nouvelles modalités d’interaction, peuvent être regroupés sous la bannière des interfaces naturelles ou NUI (« natural user interfaces« ). Il existe une grosse littérature sur les NUI et la meilleure façon de les concevoir (Natural User Interfaces, What are they and how do you design user interfaces that feel natural?), aussi je me contenterais de passer rapidement en revue leurs différentes déclinaisons et les nouveautés.

Interfaces textuelles. J’ai déjà eu l’occasion de vous expliquer les enjeux de ces interfaces (Chatbots et assistants personnels façonnent le web de demain et Les chatbots ne sont qu’une étape intermédiaire vers les interfaces naturelles). Contrairement à ce que certains essayent de vous faire croire, la « mode » des chatbots n’est pas passée, au contraire, elle ne fait que commencer, car les chatbots se révèlent être un excellent compromis qui arrange à la fois les utilisateurs, les téléconseillers et les annonceurs. Ainsi, la moitié des utilisateurs préfèrent interagir immédiatement avec un chatbot plutôt que d’attendre qu’un téléconseiller se libère (No One Is Happier About Customer Service Chatbots Than the People They Are Designed to Replace). Popularisés par WhatsApp en Chine, les chatbots sont la nouvelle fonctionnalité-clé des applications de messagerie, un créneau sur lequel Facebook règne en maitre. Google tente bien de lutter en proposant une application tout-en-un (Google Allo arrives on the web, only pairs with Android phones at launch), mais Facebook creuse petit à petit son avance (Facebook’s AI assistant M expands to Australia, Canada, South Africa, and the U.K.).

Interfaces vocales. Là encore, je vous incite à (re)lire les articles que j’ai déjà publiés sur le sujet (Usages et enjeux des interfaces vocales et À quoi va ressembler l’ère post-smartphone ?). Il se passe indéniablement beaucoup de choses sur le créneau des interfaces vocales, et notamment des progrès technologiques réguliers, aussi bien chez Microsoft, que Google, qu’Apple ou Baidu. Non seulement la reconnaissance et la synthèse vocale progressent, mais il y a également de plus en plus de données disponibles (Mozilla is crowdsourcing 10,000 hours of audio so anyone can build voice apps), créant ainsi un cercle vertueux pour stimuler les usages sur smartphones comme sur enceintes connectées (j’en parle dans la seconde partie de cet article).

Interfaces gestuelles. La société Leap Motion avait préempté le créneau en lançant son capteur volumétrique en 2013. Depuis, elle cherche son salut auprès de fabricants de casques de réalité virtuelle (Leap Motion raises $50 million for key component of VR’s growth: hand-tracking tech). Si la technologie est maintenant parfaitement au point, passées les premières minutes d’utilisation qui sont bluffantes, on se demande à quels usages concrets correspondent les interfaces gestuelles. Il y a bien des expériences rigolotes (Alibaba debuts ‘smile to pay’ facial recognition payments at KFC in China), mais en dehors de la réalité virtuelle, dans la mesure où il faut un capteur spécifique, il ne va pas se passer grand-chose de significatif.

Interfaces visuelles. Contrairement aux interfaces gestuelles qui exigent un matériel bien précis, la recherche visuelle peut se faire à partir de n’importe quel smartphone équipé d’un appareil photo, soit 3 MM d’utilisateurs potentiels. Sur ce type d’interface, la société BlippAR était très clairement pionnier, il est logique que son application propose maintenant les fonctionnalités les plus avancées du marché (Blippar’s machine learning tech can identify cars better than you can et Blippar introduces ‘Halos’ facial recognition feature on its mobile app). Ceci étant dit, la recherche visuelle se généralise et est maintenant intégrée sur certaines applications mobiles (Pinterest adds visual search for elements in images and through your camera, Pinterest’s visual search technology is coming to its ads et Asos adds search-by-photo to its fashion ecommerce app). Microsoft est en embuscade (Microsoft’s new iPhone app narrates the world for blind people), mais le marché est en attente du lancement de la nouvelle application du roi de la recherche (Google Lens will let smartphone cameras understand what they see and take action).

Interfaces neuronales. Elon Musk, le patron de Tesla et SpaceX avait fait sensation il y a quelques mois en annonçant la création d’une société dédiée à la mise au point d’une interface neuronale directe (Elon Musk launches Neuralink, a venture to merge the human brain with AI). Depuis, le patron de Facebook s’est lui aussi déclaré comme intéressé (et motivé) par le sujet : Facebook Facebook is building brain-computer interfaces for typing and skin-hearing. À court terme, les interfaces neuronales vont avoir un impact énorme sur la médecine (Brain-scanning headsets could play a major role in health care et Paralyzed man can move his arms again thanks to brain-connected prosthesis), et à moyen terme sur l’apprentissage (Why you will one day have a chip in your brain). Certes, tout ceci n’est que conjecture, car nous sommes encore loin de maitriser la technologie (euphémisme, tant les difficultés sont nombreuses : Neuralink and the Brain’s Magical Future), mais le jeu en vaut la chandelle, car ça sera l’interface ultime (The Neural Interface is the Last Device).

Comme vous pouvez le constater, le champ d’application des interfaces naturelles va de choses très concrètes et parfaitement répandues (ex : la dictée vocale utilisée par des centaines de millions de mobinautes chinois) à des choses beaucoup plus avant-gardistes, voire futuristes. Dans tous les cas de figure, toutes ces interfaces nécessitent un ordinateur avec un minimum de puissance et de nombreux capteurs… un gros un smartphone ! Voilà pourquoi les grands acteurs du web concentrent leurs efforts sur les terminaux mobiles, car ils ont l’assurance de préparer l’avenir tout en sécurisant leurs revenus actuels.

La concurrence s’affronte sur le terrain des assistants personnels

Comme expliqué dans l’introduction de cet article, le concept d’assistant virtuel n’est pas neuf, car ils sont disponibles sur nos smartphones depuis au moins 5 ans (cf. Un assistant personnel dans votre smartphone avec Siri, Now et Gimbal publié en 2012). Certes, cette première génération d’assistants personnels était plutôt limitée, elle s’est d’ailleurs très rapidement fait supplanter par la seconde génération d’assistants personnels à commande vocale intégrés dans des objets connectés par Amazon et Microsoft : Siri usage and engagement dropped since last year, as Alexa and Cortana grew.

Très clairement, Amazon a prit tout le monde de vitesse avec son enceinte connectée Echo (qui équipe déjà plus de 10 M de foyers aux États-Unis, en Angleterre et en Allemagne) et sa célèbre assistante Alexa qui était la vedette de dernier salon CES. La concurrence a néanmoins réagi très vite puisque nous sommes quasiment déjà dans un marché de banalisation avec de nombreuses enceintes connectées disponibles chez Google, Apple, Sony, Anker, Harman Kardon, Xiaomi… Les BAT ne sont pas en reste avec Alibaba qui lance son enceinte connectée ET son assistant (Alibaba made an Echo competitor called the Tmall Genie), idem pour Tencent (In AI push, Tencent launches Alexa-style assistant) et Baidu (Baidu’s ‘Little Fish’ home robot could be China’s Echo). Toutes les conditions sont réunies pour que le créneau explose dans les prochaines années.

Les enceintes connectées sont donc le nouvel eldorado et les GAFAM-BATX se lancent dans une course de vitesse pour faire grossir le plus rapidement possible le nombre d’utilisateurs potentiels, notamment en lançant des licences globales d’intégration comme Amazon, Microsoft et dernièrement Google (Google announces three third-party speakers with Assistant, plus LG appliance integration).

Une fois cette masse critique d’utilisateurs atteinte, ils pourront réfléchir à la manière la plus efficace de gagner de l’argent et rembourser ainsi les investissements colossaux engloutis en R&D. Pour le moment, il apparait comme certain que la publicité ne sera pas un levier de monétisation viable, car trop intrusive. Pour le moment, les plus gros compétiteurs tâtonnent et prennent position sur le créneau des courses alimentaires : Amazon pushes Alexa ordering with $10 for first-time voice shoppers and Prime discounts et Walmart and Google partner on voice-based shopping.

Si la compétition s’intensifie sur le terrain des enceintes connectées, la vraie bataille se déroule sur les smartphones, ceux qui permettent de toucher du jour au lendemain des centaines de millions de clients. Parvenir à imposer son assistant personnel est une opération compliquée qui nécessite trois facteurs-clés de succès : la précision de la reconnaissance vocale (avec un taux d’erreur inférieur à 5 %), une masse critique d’utilisateurs (qui se chiffre en centaines de millions), et un écosystème de développeurs suffisamment dynamique pour proposer de nombreuses applications.

Quand je dis « opération compliquée », comprenez par là que c’est réellement très compliqué, même pour Samsung avec Ses ressources colossales qui est en train de se ridiculiser (Bixby feels more like a return of the old Samsung than a path to the future). Des débuts difficiles, surtout face à Google qui a su impliquer ses meilleurs éléments depuis de nombreuses années, et le résultat est éloquent : Google Home 6x better than Amazon Alexa in 3,000 question test.

Du coup, face à la menace, Amazon et Microsoft choisissent d’unir leurs forces pour garder la confiance de la communauté des développeurs et atteindre la fameuse masse critique : Microsoft and Amazon partner to integrate Alexa and Cortana digital assistants. Toutes ces manoeuvres peuvent vous sembler démesurées au vu des usages balbutiants, mais ne vous laissez pas tromper par les chiffres, les enjeux sont réellement gigantesques.

Ici se joue l’avenir de la recherche… et des services numériques

Au coeur de la bataille que se livrent les GAFAM et BATX, il y a donc les assistants personnels, ceux qui sont accessibles via des enceintes connectées, nos smartphones ou nos ordinateurs, hé oui ! Ces assistants numériques peuvent vous sembler être des gadgets, notamment les enceintes connectées, mais pourtant c’est un créneau qui se développe inexorablement (Gartner Predicts 75% of US Households will Have Smart Speakers by 2020) et concerne déjà des milliards de mobinautes (Virtual digital assistants to overtake world population by 2021). Les perspectives sont donc très intéressantes, mais ne rêvez pas, nous somme déjà face à un nouvel oligopole : Les assistants personnels sont les nouveaux navigateurs web, et les GAFAM en sont les maitres absolus.

Comme vous avez pu le comprendre, Google a engagé les moyens nécessaires pour remporter cette bataille face à Amazon et Microsoft, et réitérer la remontada opérée par Android face à Apple sur le marché des smartphones. Ils ne cherchent d’ailleurs pas à cacher leurs ambitions et annoncent clairement la couleur : Google annonce la mort du moteur de recherche traditionnel et l’avènement de l’Âge de l’assistance.

Mais ne vendons pas la peau de l’ours, même si Google bénéficie effectivement d’une longueur d’avance sur les smartphones, le phénomène de fragmentation joue très clairement en défaveur d’Android et laisse encore de la place aux nombreux concurrents en lice : Google set to dominate Apple, Amazon and Samsung in the race for the best voice assistant.

S’il est très compliqué de se projeter dans l’avenir et faire des prédictions, ce qui est certain, c’est que Google ne va pas ménager ses efforts pour assurer la survie d’un business à 55 MM$ par an (qui correspondent aux revenus publicitaires dégagés par son moteur de recherche éponyme). Mais au-delà de la recherche vocale, les GAFAM préparent plus généralement l’avenir des contenus et services numériques, l’ère post-PC.

Smartphone + interface visuelle + IA = réalité augmentée

Si vous cherchez à identifier un domaine d’application concret des interfaces naturelles qui va exploser dans les prochains mois, ne cherchez plus, il s’agit de la réalité augmentée.

Avant de poursuivre mon analyse, je tiens absolument à préciser deux choses :

Non, Pokemon Go n’est pas un jeu de réalité augmentée, c’est plutôt un MMTRG (« Mobile Multiplayer Trans-Reality Games« ) ;

Non, les Google Glass ne sont pas été un échec, c’est même une authentique réussite industrielle (Google Glass 2.0 Is a Startling Second Act).

Refermons cette parenthèse, car nous n’aborderons pas ici les jeux mobiles ou les accessoires périphériques, mais les usages sur smartphones qui représentent un potentiel largement supérieur. Je me suis déjà exprimé sur le sujet (Usages et enjeux de la réalité augmentée), et je confirme ce qui a été dit : nous envisagions de nombreux usages liés à des lunettes de réalité augmentée qui n’ont pas trouvé leur public, mais qui restent tout à fait viables grâce aux smartphones. Avec le recul, et à travers le prisme de la recherche visuelle, la réalité augmentée se révèle être un très bon outil d’aide à la décision : AR’s future is more than just games, it will change the way we make decisions et What Would Augment Reality?.

Les cas d’usages ci-dessus sont illustrés avec des lunettes, mais il est possible de les transposer très facilement sur les smartphones. D’autant plus qu’encore une fois, la compétition entre les GAFA profite largement à la démocratisation des briques technologiques. Ainsi, en à peine quelques semaines, Google et Apple ont successivement lancé leurs kits de développement (SDK) pour pouvoir créer des applications mobiles de réalité augmentée : Google ARcore gives Android users augmented reality without Tango et Apple shows off new AR apps just as Google launches ARCore.

Les observateurs avertis pourraient dire que les deux géants se sont réveillés tardivement, toujours est-il qu’ils ne comptent pas se laisser distancer, et certainement pas par Facebook ou Snapchat qui ont été les premiers à exploiter la réalité augmentée sur smartphone : Facebook’s AR Studio blows the market wide open, What Snapchat’s Dancing Hot Dog Means for the Future of AR et Snap is developing a second version of Spectacles which may include augmented reality. « Réalité augmentée » est selon moi un terme qui ne traduit pas bien la réalité immédiate de ce que l’on peut faire avec ces technologies. Je préfère largement utiliser celui de « média immersif », qui s’applique également à la réalité virtuelle.

Comme pour les interfaces vocales, le marché est balbutiant, avec une demande qui reste pour le moment anecdotique, mais c’est un écosystème qui se structure à toute vitesse. La preuve en est : les premières solutions publicitaires sont déjà là Blippar Brings App-Free Augmented Reality to Web Display Ads (d’autres exemples à découvrir dans leur showroom).

Est-il bien sérieux de penser que la réalité augmentée sur smartphone sera la seconde killer app des interfaces naturelles après la recherche vocale ? Oui j’en suis persuadé, même si je l’avais déjà annoncé en 2009 (Réalité augmentée, le nouvel eldorado des smartphones). La situation est maintenant très différente, car il y a des milliards d’unités en circulation, car il y a eu d’énormes progrès technologiques sur les parties matérielles et logicielles, notamment pour tout ce qui relève de la reconnaissance visuelle.

Ainsi, nous pourrions aisément envisager le remplacement des notices d’installation et d’utilisation par des applications mobiles. Vous noterez que cela a déjà été proposé, notamment chez ce constructeur automobile : Hyundai’s augmented reality app helps idiot-proof car maintenance.

Nous pourrions également mentionner l’application de ce fabricant de meubles qui sera disponible nativement dans une fenêtre de navigateur mobile : Wayfair’s augmented reality app moves onto a new smartphone.

Ces deux exemples vous donnent une bonne idée du potentiel de la réalité augmentée mobile, un potentiel qui sera largement sublimé par les capacités des derniers smartphones, capables de délivrer une bien meilleure expérience avec une combinaison d’assistant vocale + reconnaissance visuelle et réalité augmentée.

Moralité : Une innovation ne vient jamais seule, elle se cumule avec d’autres pour proposer une valeur d’usage supérieure à la somme de ces technologies prises individuellement. Nous ne faisons qu’explorer la surface de la partie immergée de l’iceberg de l’ère post-PC, la suite va être passionnante !

Dans tous les cas de figure, les interfaces naturelles sous toutes leurs formes (textuelles, vocales, visuelles…) vont très rapidement devenir des éléments indispensables de votre écosystème mobile, et assurément des compétences qu’il ne faudra pas trop tarder à acquérir.