Voice Search: cos’è e come funziona

,

La voice search, o ricerca vocale, è una modalità di ricerca che permette agli utenti di utilizzare comandi vocali (la voce) per ottenere informazioni online, attraverso il riconoscimento vocale (ASR) e gli assistenti virtuali.

Cos'è la Voice Search?

Consente quindi di parlare (“Ok Google..“) anziché digitare le query attraverso una tastiera. Le risposte vocali possono avere anche una componente visuale in base al device che si sta utilizzando.

Voice search: esempi

  • Ok Google, a che ora apre la farmacia?“, comoda mentre si è alla guida;
  • Alexa, vorrei preparare un primo veloce“, mentre stiamo cucinando e abbiamo le mani occupate;
  • Hey Siri, chi è il regista di Jurassic Park?“, in salotto durante un quiz televisivo.

L’audio che segue è un esempio di risposta vocale di Google Assistant.

L’evoluzione della voice search

Sempre più persone utilizzano uno o più smart speaker in casa per fare ricerche vocali ed interagire con la smart home (domotica), e presto, con la rivoluzione tecnologica in atto e la diffusione di IoT (Internet Of Things) e 5G potremo parlare con molti dei device che ci circondano. La velocità e la semplicità dell’utilizzo della voce e del linguaggio naturale renderanno la voice search,  i comandi vocali e gli assistenti vocali (Google Assistant, Amazon Alexa, Siri di Apple, Cortana, ad esempio) parte della nostra quotidianità.

Una vera e propria “voice search revolution“, descritta molto bene in questa panoramica di Giorgio Taverniti.

Per questi motivi, dopo aver definito cos’è la voice search, è importante approfondire i seguenti argomenti, soprattutto per riuscire a rendere i nostri contenuti delle risposte efficaci per le ricerche vocali.

Come funziona la voice search?

Nell’immagine vediamo l’utente che si interfaccia con uno smart device e fa una ricerca vocale parlando con l’assistente. Ottiene una risposta vocale e, se il dispositivo è dotato di schermo (ad esempio uno smartphone o uno smart display), anche degli elementi visuali che arricchiscono l’esperienza.

L'utente fa una ricerca vocale (voice search) all'assistente ed ottiene una risposta vocale e visuale

Un esempio di voice search con l’assistente virtuale

In questo caso, invece, l’utente detta la query al sistema (ad esempio facendo tap dallo smartphone sull’icona del microfono di Google Chrome) la quale, attraverso una componente di STT (Speech To Text), viene utilizzata per fare l’input nel campo di ricerca. Ciò che ottiene è una serp, cioè una pagina dei risultati di ricerca, dalla quale può scegliere un risultato e consultarlo.

L'utente detta la query di ricerca ed ottiene dei risultati da scegliere

Voice Search: voce e STT (Speech To Text) sostituiscono mani e tastiera

A livello di significato dei termini, possiamo definire anche questa una “ricerca vocale”: di fatto l’utente utilizza la voce in sostituzione della tastiera per avviare la ricerca.

Mentre nel secondo caso è l’utente che sceglie il risultato tra i tanti mostrati, nel primo caso è un’intelligenza artificiale (IA) che seleziona quello che soddisfa il bisogno dell’utente (user need): la miglior risposta alla domanda dell’utente. Siamo di fronte ad un cambio di paradigma: si tratta di una diversa concezione di ricerca, anche se gli ultimi sviluppi di Google Chrome e dell’app di ricerca di Google ci offrono una risposta vocale praticamente identica a quella dell’assistente.

In diversi test che abbiamo osservato nell’ultimo periodo, seguendo lo sviluppo del browser, dell’assistente e dell’app mobile, Google sembra darci la conferma che la voice search sarà una delle direzioni verso la quale punterà attraverso l’utilizzo di Google Assistant, che diventerà un unico riferimento per tutti i device e le interfacce, un unico riferimento verso il concetto di Ambient Computing (1).

I risultati della voice search

Facendo delle semplici  richieste agli assistenti vocali più diffusi (nei test svolti con il mio team abbiamo utilizzato Google Assistant, Alexa e Siri) ci si accorge molto rapidamente che, per la lingua italiana, la capacità di Google di dare risposte esaustive è estremamente superiore alla concorrenza e migliora di giorno in giorno.

Chiaramente si fanno sentire diversi fattori, come l’esperienza nell’interpretazione dell’intento di ricerca degli utenti, il motore di ricerca più utilizzato nel mondo, un sistema operativo ed un browser che raccolgono dati su milioni di utenti ogni giorno.

Spesso, su ricerche generiche, Alexa e Siri rispondono in modo poco preciso e a volte non del tutto pertinente. Amazon sta attuando delle iniziative per tentare di ridurre il gap, ad esempio “Alexa Answers”(2), ma la strada da percorrere è ancora tanta.

La voice search secondo Google

Spesso mi capita di sentire o leggere che “il risultato vocale è la lettura del risultato zero”. La ritengo un’affermazione poco precisa e superficiale, anche se la guida di Google dedicata alla ricerca afferma che i risultati zero (o “snippet in primo piano” o “featured snippet”) “sono particolarmente utili per le ricerche vocali o su dispositivi mobili”.

In realtà la risposta vocale viene data all’utente quando l’intento di ricerca viene riconosciuto, ed esiste una risposta adeguata in base al device che sta utilizzando. Chiaramente molto spesso corrisponde allo snippet in primo piano perché mira allo stesso obiettivo: offrire una risposta agli utenti.

Un esempio pratico

Cerchiamo su Google “cos’è il lievito madre” utilizzando vari dispositivi.

Voice Search: il risultato di Google Assistant facendo la ricerca vocale “cos’è il lievito madre“

Il risultato di Google Assistant per la ricerca vocale “cos’è il lievito madre“

La serp visualizzata da desktop offre una panoramica abbastanza ampia e variegata di informazioni: box delle ricette, Knowledge panel con i valori nutrizionali, definizioni, box video, FAQ (clicca qui per visualizzarla).

Da smartphone, i risultati di ricerca dall’app di Google e di una ricerca vocale su Google Assistant sono abbastanza allineati. Troviamo tutte le informazioni della versione desktop, ma organizzate in tab.

Cosa succede se poniamo la stessa domanda a Google Home (quindi un device privo di display)? Otteniamo la seguente risposta vocale: “Lievito naturale è un termine impropriamente utilizzato per definire un impasto di farina e acqua sottoposto a una contaminazione spontanea da parte di microrganismi presenti nelle materie prime, provenienti dall’aria”, estratta dalla pagina “Lievito naturale” di Wikipedia.

NOTA: non viene pronunciato il testo tra parentesi presente nella fonte. Google Assistant, infatti, tende ad omettere i contenuti tra parentesi come fossero delle “diramazioni” del topic principale non necessarie per la risposta vocale.

E se lo chiediamo a Google Nest Hub (quindi ad uno smart display)? Ci risponderà con una frase del tipo “Ecco alcune ricette che ho trovato” e nello schermo apparirà un feed di ricette, le quali possono non avere lo stesso ranking del box ricette della serp desktop o mobile.

Abbiamo visto un semplice esempio in cui la risposta vocale non viene “letta da un risultato zero”. Ma non solo. Notiamo come le risposte sono diverse in base al device: come dicevamo inizialmente, viene restituita la risposta più adeguata in base al dispositivo utilizzato.

Cos’è la Voice Search Optimization?

La Voice Search Optimization (VSO) comprende le attività volte a migliorare i contenuti per offrire agli utenti risposte vocali efficaci e la migliore esperienza conversazionale per le ricerche generiche.

Cos'è la Voice Search Optimization e come si mette in pratica

Cos’è la Voice Search Optimization

Chiaramente, parte di esse rappresentano un’estensione delle attività SEO: per generare una risposta vocale, un contenuto dev’essere correttamente indicizzato e deve avere una qualità tale da ottenere un buon posizionamento.

Vediamo alcune pillole di Voice Search Optimization.
Sono stati omessi aspetti legati, ed esempio, alla velocità e all’efficienza della versione mobile del sito web, o alla presenza di https, perché sono parte di una risorsa di qualità indipendentemente dalla ricerca vocale.

Come si ottimizzano i contenuti per la voice search

1. Keyword Research

Se l’utente utilizza la tastiera come sistema di input, tenderà ad esprimersi attraverso delle query simili ad una serie di tag, cercando, ad esempio “assistenti vocali”.
Se invece si rivolge ad un assistente vocale, userà il linguaggio naturale, cercando, ad esempio, “qual è il miglior assistente vocale?”. Ed è proprio partendo da queste query di ricerca che dobbiamo riconsiderare i nostri contenuti.
Esistono diversi tool che possiamo utilizzare per facilitare l’analisi delle query, ad esempio quello per eccellenza, la serp di Google con i box delle query correlate, quelle suggerite (disponibili anche via API) e il box PAA (People Also Asked), il Topic Research di SemRush, Infinity di SeoZoom e Answer The Public. Tutti questi sistemi partono da un topic ed espandono le query conversazionali.

Un esempio di Keyword Research per la voice search con Answer The Public cercando "lievito madre"

Keyword Research per la voice search con Answer The Public

2. Struttura dei contenuti

In ambito voice search, una strategia basata sui contenuti ha come obiettivo quello di offrire all’utente risposte alle domande che potrebbe porsi in tutte le fasi del customer journey. Così facendo, si aspira a diventare un solido riferimento per il pubblico al quale ci si rivolge.

Un esempio semplice di come si potrebbe intervenire per riuscire ad avere contenuti dedicati a tutte queste fasi consiste nel creare una sezione FAQ nella principali aree del sito web.

L'inserimento di una sezione FAQ nelle parti principali del sito web per valorizzare le query conversazionali

Struttura del sito web per la Voice Search Optimization

3. Dati strutturati

I dati strutturati, in una voice strategy, sono importanti principalmente per due motivi. Il primo è legato alla brand awareness, perché se vengono implementati con cura (attraverso l’attributo “name” della proprietà “WebSite” e “og:site_name” del protocollo Open Graph) l’assistente cita il nome del brand nella risposta vocale.

Il secondo, che è forse il meno noto, vede i dati strutturati come ponte tra la voice search e l’esperienza conversazionale. Possiamo ottenere infatti delle Google Actions (applicazioni vocali per Google Assistant) attraverso l’implementazione dei dati strutturati.

Nel video vediamo come, attraverso l’implementazione della proprietà “Recipe” con gli attributi “recipeIngredient” e “recipeInstructions”, riusciamo ad ottenere dei risultati in serp che si trasformano in esperienze vocali guidate dall’assistente su smart display.
Su questo tipo di device i dati strutturati diventano anche fondamentali per il ranking, poiché tenderà a visualizzare solo i risultati che possiedono questo tipo di implementazione.

Per approfondire consulta la documentazione ufficiale di Actions on Google.

Scopri anche il nuovo bottone “Cucina” per avviare le ricette nello smart display e la nuova funzionalità di Search Console dedicata alle ricette guidate da Google Assistant.

Speakable

Speakable è una proprietà di schema.org che identifica gli elementi di una pagina web che sono più adatti ad essere pronunciati da un assistente vocale. Si tratta di una funzionalità in versione “beta”, quindi in fase di sviluppo, che attualmente viene considerata negli Stati Uniti con dispositivi Google Home in lingua inglese e per le notizie di attualità.

Ha senso implementarlo in Italia? Considerando l’effort in termini di sviluppo (molto basso), se si possiede un sito web di notizie vale la pena fare un tentativo di anticipare i tempi ed eventuali nuovi risvolti applicativi.

4. Qualità dei contenuti (risposte)

Perché a volte Google Home non risponde (anche se attualmente accade molto più difficilmente)? Perché il web è ricco di contenuti, ma è povero di risposte! Questo aspetto spesso non emerge, ma è collegato ad una importante riflessione che chiunque si occupi di un progetto web dovrebbe fare: se vogliamo diventare protagonisti della voice search dobbiamo dare risposte alle domande degli utenti.
Questo non significa smettere di produrre contenuti dettagliatissimi di approfondimento, ma fare in modo che, prima di tutto, diano delle risposte. In questo modo, chi cerca semplicemente una risposta la può ottenere, e gli interessati ad approfondire, approfondiranno proseguendo la lettura.

Come si creano risposte ottimizzate per la voice search?

7 consigli:

  1. inserisci la risposta subito dopo aver riproposto la domanda;
  2. rendila breve, chiara ed esaustiva;
  3. la lunghezza, indicativamente, dev’essere di 300-320 caratteri (una lettura di circa 20 secondi);
  4. cerca di inserire domanda e risposta nell’area ATF (Above The Fold), considerando la versione mobile/AMP;
  5. usa un’immagine esplicativa a corredo;
  6. il contenuto complessivo dev’essere ben strutturato (usa i tag di intestazione – H1.. H6) e di elevata qualità e rilevanza;
  7. non usare parti di risposta tra parentesi (spesso vengono ignorate dall’assistente);

La voice search va oltre il sito web

Spesso la “voice search” viene inserita in contesti del tipo “come ottimizzare il sito web per la ricerca vocale”.
Secondo me dobbiamo andare oltre questo concetto considerando un la creazione di touchpoint vocali per comunicare con gli utenti e distribuire i contenuti. Le persone si abitueranno ad interagire con la voce all’interno dell’ambient computing, e cercheranno un assistente per farlo.

Quindi aggiungere ai 4 punti precedenti altri 6 focus fondamentali da integrare in quella che possiamo definire una Voice Strategy.

5. Google MyBusiness

Una scheda di Google MyBusiness ben curata e ottimizzata si trasforma in risposte vocali che possono portare gli utenti nei nostri punti fisici. Un esempio pratico? Qualche mese fa, in macchina, ho chiesto all’assistente vocale l’orario della farmacia perché mi serviva un farmaco. L’assistente mi ha comunicato che quella del paese era chiusa, quindi mi sono diretto a quella del paese vicino. Ma, passandoci davanti, mi sono accorto che invece era aperta. Se non fossi passato davanti avrebbe perso una vendita, a favore del competitor.

Voice search: un esempio di ricerca vocale che risponde con i dati di Google My Business

Voice search: un esempio di ricerca vocale che risponde con i dati di Google My Business

6. YouTube

Molto spesso Google Assistant, nei device dotati di schermo, e soprattutto per le ricerche vocali che richiedono un how-to (cioè una guida con le istruzioni), offre dei video tratti da YouTube. Nel caso si utilizzi uno smartphone, appare direttamente il box video. Diventa quindi fondamentale che i video caricati nel canale di YouTube siano ottimizzati, ben realizzati ed esaustivi.

Un esempio di ricerca vocale che risponde con un video di YouTube

Un esempio di ricerca vocale che risponde con un video di YouTube

Nell’immagine vediamo un esempio di voice search che restituisce un risultato composto di una parte testuale (che viene pronunciata dall’assistente) ed il video di YouTube. La parte testuale viene estratta proprio dalla descrizione del video.

7. Assistenti vocali per i siti web

In Voice Branding abbiamo creato un framework che permette di dare ai brand delle esperienze conversazionali (attraverso voce e digitazione) su un’ampia gamma di touchpoint. Il sito web, sotto forma di widget è uno di questi. Perché è importante? Perché dà continuità all’esperienza. L’utente, probabilmente, in futuro si aspetterà di avere questo tipo di interazione ovunque.

Nel video vediamo un esempio di interazione tra l’utente e l’assistente vocale inserito all’interno di un widget del sito web.

8. Applicazioni vocali (Google Actions, Alexa Skill, Samsung Bixby)

Attraverso i rispettivi ambienti di sviluppo (Actions on Google console, Alexa Skills Kit, Bixby Developers Portal) è possibile creare delle applicazioni vocali per Google Assistant, per Alexa e per Bixby, in modo da poter offrire esperienze conversazionali agli utenti nei diversi ambienti. In Voice Branding stiamo realizzando diverse integrazioni per la GDO, per l’e-commerce, per il settore food & beverage, customer care e diversi altri, in cui facciamo comunicare l’utente con il brand, anche con un livello di personalizzazione molto profondo.

Nel video vediamo un esempio di un prototipo di Google Action che interagisce attraverso la voce in uno scenario di customer care.

9. Estendiamo l’app mobile

Chi possiede un’app Android, attraverso le opportune integrazioni, può estenderla attraverso una Google Action in modo che possa essere avviata in determinate configurazioni attraverso la voce. Un esempio: “Hey Google, ordina una pizza da PizzaVB” potrebbe aprire l’app mobile di PizzaVB nella sezione dell’ordine. Oppure è possibile estrarre delle informazioni dall’app mobile attraverso un comando vocale e dare la risposta all’utente direttamente all’interno di Google Assistant con una call-to-action per proseguire, se necessario, all’interno dell’app. Per approfondire: la documentazione di Google sulle “azioni dell’app”.

10. Creiamo link all’interno dei siti web verso l’assistente

Attraverso quelli che vengono definiti “actions links” possiamo inserire dei bottoni all’interno del sito web che permettono di aprire direttamente l’assistente già in un determinato un contesto. Un esempio? All’interno di un catalogo di vini potrei farmi raccontare come viene preparato un particolare prodotto da una voce coinvolgente, quali sono gli abbinamenti migliori e come va servito. Per approfondire: la documentazione di Google sugli Action Links.

Per concludere, i motivi per i quali investire in voice search, settore che si conferma sempre più in rapida espansione, sono molti. Cerchiamo di riassumere i 5 motivi principali per i quali è vantaggioso investire nell’ottimizzazione per la ricerca vocale.

1. Si possono raggiungere più clienti

Il numero di ricerche vocali che avviene ogni mese, tramite assistenti e dispositivi mobile, è impressionante. Secondo uno studio di Adobe spiegato da Searchengineland, già nel 2019 il 48% degli utenti utilizzava la tecnologia di ricerca vocale per trovare rapidamente risposte a domande generali.
Sempre più persone, ad oggi, utilizzano la voce per cercare informazioni, prodotti e servizi. La voice search è ormai entrata a tutti gli effetti a fare parte dei touchpoint nel percorso di conversione e, attraverso una strategia di Voice Search Optimization, è possibile avvicinarsi agli utenti e aumentare le possibilità di generare lead. Se un sito web non è ottimizzato per le ricerche vocali, rischia di perdere visite, contatti e conseguentemente profitto.

2. La voice search continuerà ad espandersi

Le previsioni per la voice search sono più che rosee. La tendenza delle ricerche vocali è in continua crescita, gli smart speaker sono sempre più venduti e gli assistenti vocali sono ormai presenti in moltissimi device. Dagli smartphone agli smartband, dagli elettrodomestici alle automobili, la diffusione dell’utilizzo della voce nella nostra vita è un trend in continuo aumento. Investire nella voice search significa quindi potersi inserire in un settore che sta crescendo vertiginosamente e sfruttarne tutte le potenzialità sarà un’enorme occasione per business e imprese.

3. L’esperienza degli utenti diventa migliore

I clienti sono il cuore di un’attività e la ricerca vocale può migliorare la loro esperienza di ricerca e di acquisto. Effettuare una ricerca con la voce consente di ottenere le informazioni desiderate in modo rapido e semplice, anche mentre si stanno effettuando altre azioni, grazie alla libertà di non dover utilizzare le mani per digitare le query. Ottimizzare i contenuti per la ricerca vocale significa quindi aiutare i propri utenti a ricevere le risposte che cercano con facilità e senza perdita di tempo.

4. Il traffico verso il sito web e verso i punti fisici può crescere

Utilizzando l’applicazione di Google con una ricerca vocale si possono ottenere vari risultati come video, immagini e siti web, che possono poi venire visitati successivamente alla ricerca. Inoltre, come vedremo nel paragrafo dedicato alle notifiche push, quando un utente fa una domanda a Google Home può ricevere, oltre alla risposta, una notifica sullo smartphone contenente un link verso il sito web. In questo modo, se desidera maggiori approfondimenti, può continuare la navigazione. Infine, moltissime ricerche vocali vengono effettuate per trovare attività commerciali nei dintorni: per essere presenti nelle risposte degli assistenti, una strategia di voice search ottimizzata è fondamentale.

5. La brand awareness e le prestazioni della strategia migliorano

La brand awareness ne gioverà, nella scalata verso la “Top of Mind” e aumenterà la credibilità e le probabilità di conversione in un momento della sessione di ricerca più vicino alla conclusione (user trust).

 

Approfondimenti

Voice Search e notifiche push

Cosa accade dopo aver fatto una ricerca vocale su Google Home? Quella che segue è una notifica push inviata da Google Assistant allo smartphone dopo la ricerca.

Notifica push arrivata sullo smartphone dopo una ricerca vocale su Google Home

Notifica push arrivata sullo smartphone dopo una ricerca vocale su Google Home

Grazie alle Call To Action, l’utente potrà proseguire con l’assistente, e quindi visualizzare la risposta, oppure visitare direttamente il sito web.

Questa dinamica fa sì che la voice search effettuata da device privi di monitor e browser non si limiti a contribuire alla crescita della brand awareness, ma partecipi attivamente alla sessione di ricerca aprendo scenari completamente nuovi.

Il nuovo bottone “Cucina” per avviare le ricette nello smart display

Grazie ai dati strutturati, l’integrazione tra la ricerca e l’assistente, inoltre introduce sempre novità. Nell’immagine che segue vediamo il nuovo bottone “Cucina nel box ricette di Google, il quale avvierà l’esperienza vocale con Google Assistant su smart display.

Google ha introdotto nel box delle ricette il bottone per iniziare a cucinare con l'assistente vocale

Google ha introdotto nel box delle ricette il bottone per iniziare a cucinare con l’assistente vocale

Nel video che segue vediamo che l’interazione è immediata. Se sono in salotto e cerco una ricetta da preparare, posso inviarla allo smart display e passare all’interazione vocale con una grande semplicità.

Torna all’ottimizzazione dei dati strutturati per la voice search.

Contesto di ricerca e conversazione continua

Google Assistant, nei diversi test realizzati, ha fatto emergere una caratteristica davvero interessante rispetto agli altri assistenti. Riesce, infatti, a mantenere il contesto della conversazione durante la sessione di ricerca.

Cosa significa? Ritornando all’esempio della ricerca sul lievito madre, abbiamo visto il risultato che riceviamo chiedendo a Google Assistant “cos’è il lievito madre”. Se subito dopo procediamo chiedendo “..e come si prepara”, e successivamente “..e quanto costa” otterremo le seguenti risposte.

Voice Search: un esempio di come Google Assistant mantiene il contesto della conversazione

Un esempio di come Google Assistant mantiene il contesto della conversazione

Com’è semplice notare, non ho specificato il soggetto, eppure le risposta sono corrette perché l’informazione rimane implicita nel contesto della conversazione.

La capacità di mantenere tale contesto e la funzionalità di conversazione continua (che sarà disponibile sui device Google Home e che in Italia deve ancora arrivare), daranno alla voice search le sembianze di un vero e proprio dialogo.

Apple e il box dei suggerimenti di Siri

Non solo Google sta lavorando per integrare l’assistente nelle sue proprietà.

Durante la digitazione di una ricerca si iOS compare il suggerimento da parte di Siri

Ricerca su iOS e suggerimento di Siri (l’assistente virtuale di casa Apple)

Apple, infatti, ha iniziato a integrare un box con il risultato proposto da Siri in fase di digitazione delle ricerche su Safari e nella ricerca di sistema. Un primo passo verso la stessa direzione alla quale punta Google?

Un report sull’utilizzo della Voice Search

Scarica il report sull’utilizzo della voice search realizzato da Voicebot.ai e Magic+Co.

SCARICA IL REPORT

 

(1) Per Ambient Computing si intende un ecosistema in cui hardware, software e servizi si fondono attorno all’utente per assisterlo nelle sue attività quotidiane. Possiamo considerarlo una sorta di “sistema fluido”, nel quale l’utente non interagisce più con un device, ma con l’ambiente che lo circonda.
(2) Alexa Answers è un servizio di Amazon che permette a chiunque di rispondere a domande poste dagli utenti, a cui Alexa non sa ancora dare risposta, con l’obiettivo di contribuire a realizzare un infinito database di informazioni a disposizione di tutti tramite la voce di Alexa.