Il y a deux semaines, Apple a annoncé la disponibilité prochaine de Siri sur MacOS (À la découverte de Siri). Et comme à chaque fois, le monde s’extasie devant tant d’audace et d’innovation de la part de la marque à la pomme. Saviez-vous que la recherche vocale était disponible sur le navigateur Chrome depuis deux ans (Chrome 35 launches with ‘OK Google’ voice search) ? Saviez-vous également que Cortana, l’assistante personnelle de Microsoft est disponible dans Windows 10 depuis le début de l’année dernière (Cortana Arrives on the Desktop & Here’s What She Can Do for You) ? Outre ma petite pique habituelle à la secte des adorateurs de la société qui facture 25 € un câble USB (minimum), je souhaite aujourd’hui attirer votre attention sur la montée en puissance des interfaces vocales, celles qui vont nous permettre de transformer un vieux rêve : des utilisateurs / consommateurs connectés et accessibles en permanence (pour de vraiment vrai).
Dès que l’on aborde le sujet de la recherche vocale, il y a forcément quelqu’un pour raconter son expérience malheureuse avec Siri. Si nous sommes tous d’accord pour dire que l’assistant personnel d’Apple avait des petits soucis de compréhension à son lancement, la technologie a beaucoup évolué, de même que la capacité des autres assistants à nous comprendre. Siri, Google Now, Cortana ou même Alexa ont fait des progrès considérables, en tout cas suffisamment pour conquérir le grand public.
Lors de sa dernière conférence annuelle des développeurs, le patron de Google a surpris tout le monde en lançant ce chiffre : 20% des requêtes faites sur Android aux US sont des recherches vocales (The continuing rise of voice search and how you can adapt to it). Ce chiffre monte même jusqu’à 25% pour les millennials. Des usages qui ne sont pas exclusifs à Google, puisque 1/4 des recherches faites avec Bing dans Windows 10 sont également des recherches vocales (One-Quarter Of Bing Searches Are Voice Search Queries).
Certes, les recherches vocales sont très basiques, comme en témoigne le graphique ci-dessous, mais nous parlons ici d’un très gros volume : 50 MM de recherches vocales par mois, soit plus de 10% du nombre total de requêtes. Avec un tel volume, nous pouvons difficilement parler d’un épiphénomène, c’est une tendance lourde.
La porte ouverte sur le salon, la cuisine, la voiture, la réalité virtuelle…
Vous pourriez penser que ces nombreuses recherches vocales ne sont que le fruit de la curiosité des utilisateurs face à un nouveau gadget, mais ça serait une très grave erreur d’interprétation. Je ne pense pas que les interfaces vocales soient plus performantes que le sempiternel couple clavier / souris de nos ordinateurs. En revanche, elles sont une redoutable alternative aux claviers tactiles des smartphones. Les interfaces vocales permettent non seulement de faire des recherches à une seule main, mais elles autorisent également des équations de recherche plus longue. Certes, la complexité des recherches vocales sera toujours limitée par la faculté de compréhension des interfaces, mais encore une fois, de très gros progrès ont été réalisés :
Comme vous pouvez le voir, les interfaces vocales de Google et Baidu atteignent des taux de pertinence proches de 95%. Passer de 20% à 5% d’échec est un énorme progrès, suffisant pour convertir les utilisateurs en masse. D’autant plus en Chine et plus généralement en Asie où les claviers ne sont pas du tout adaptés aux idéogrammes utilisés couramment.
Notez que les interfaces vocales ne se limitent pas qu’aux smartphones, elles sont également exploitées par une nouvelle génération de terminaux connectés que l’on croise dans le salon ou la cuisine des foyers : Le Echo d’Amazon et ses dérivés, le Home de Google et tous les produits domotiques de la maison (cf. The Voice UI has Gone Mainstream).
De façon assez logique, l’offre d’enceintes intelligentes est encore très limitée, car leur interface vocale doit être couplée à une intelligence artificielle capable de traiter de très nombreux cas de figure. Et en ce domaine, les prétendants sont très rares, et ceux déjà en place creusent l’écart (Google unveils Google Assistant, a virtual assistant that’s a big upgrade to Google Now).
Et ce n’est pas tout : les interfaces vocales vont également servir pour les casques de réalité augmentée et virtuelle. Le sujet n’a jamais vraiment été abordé, mais il est évident qu’une fois le casque sur la tête, les utilisateurs d’applications de réalité virtuelle sont très limités dans leurs possibilités. Grâce à une interface vocale, les utilisateurs vont pouvoir faire beaucoup plus de choses : des recherches de sites ou de médias, répondre à un coup de fil, passer d’une application à une autre…
Bon OK, la réalité virtuelle n’en est qu’à ses premiers balbutiements, mais il y a un autre support qui ne se prête pas du tout à une utilisation avancée : la télévision. Les TV connectées, et TV classiques connectées via des box, ont toujours souffert des limitations des télécommandes. Là encore, les interfaces vocales autorisent de nombreux autres usages : déclencher un enregistrement, effectuer une recherche, créer un pense-bête pour plus tard ou ajouter un produit à une liste de course. Les box et set-top boxes de dernière génération (Android TV, Apple TV, Kindle Fire) intègrent maintenant toute la recherche vocale dans leur télécommande.
Enfin, le dernier grand domaine d’application des interfaces vocales est la voiture. Tout le monde sait qu’il est extrêmement dangereux de regarder et/ou manipuler son smartphone tout en conduisant. Les interfaces vocales nativement disponibles apportent une solution pragmatique à ce problème d’attention, d’autant plus quand le smartphone est relié à l’ordinateur de bord (il peut prendre le contrôle du GPS, de la radio…). Pour cela il faut bien évidemment concevoir de nouvelles modalités d’interaction, mais tout le monde y travaille déjà d’arrache-pied : Google wants to change how we use the internet.
Pas de pages de résultats => pas de SEM ?
Comme expliqué précédemment, il ne suffit pas de brancher une interface vocale aux moteurs de recherche existants. Si Google a bâti sa renommée sur la pertinence de ses résultats, ce modèle ne pourra pas être répliqué pour les supports cités dans le paragraphe précédent (enceintes connectées, TV, voiture…) : un utilisateur d’interface vocale ne peut pas se contenter de résultats de recherche, il lui faut une réponse, pas un lien. Voilà pourquoi Google a tant investi dans son moteur d’analyse sémantique (le knowledge graph) et dans son système de cards : pour pouvoir donner la réponse ou l’information dès la page de résultat.
C’est seulement maintenant, avec tous ces éléments en tête que l’on mesure la valeur du bouton “I’m feeling lucky“. Peut-être avaient-ils tout prévu à l’avance… En tout cas, ce qu’ils n’avaient pas prévu, c’est que s’il n’y a pas de résultats de recherche, il ne peut plus y avoir de résultats sponsorisés. Du moins si, il est possible de trouver une façon d’intégrer de la publicité native, mais sous certaines conditions. C’est là où la dimension locale va prendre toute son importance, car la concurrence sera beaucoup moins forte : The voice search explosion and how it will change local search.
Tout est à revoir
Pour le moment, tout ceci doit vous sembler un peu flou, voire un peu trop optimiste. Laissez-moi simplement vous rappeler que vous avez une vision déformée de la réalité : il y a de fortes chances pour que vous passiez vos journées devant un ordinateur, vous appartenez donc à la minorité des travailleurs du savoir. Pour les autres utilisateurs, la très large majorité, le smartphone est le support numérique de référence. Tablettes et TV connectées viennent compléter leurs usages quotidiens du web, l’ordinateur restant un support qu’ils réservent à des occasions bien particulières (payer des impôts…).
Certes, les ordinateurs, les recherches effectuées sur un clavier et les pages de résultats ont encore de très belles années à vivre, mais c’est dès maintenant que vous devez préparer la transition vers ces nouveaux supports et usages, car tout sera différent : les canaux de distribution, les habitudes de consommation, les réflexes d’achat…
—
MàJ (20/06/2016) : Amazon semble avoir pris une grosse longueur d’avance avec son Echo qui s’améliore semaines après semaines (Amazon gives the Alexa ‘app store’ a makeover, now lets you add new Skills by voice).