Google Duplex: un sistema di AI per realizzare attività del mondo reale al telefono

Un obiettivo di lunga data dell’interazione uomo-computer è stato quello di consentire alle persone di avere una conversazione naturale con i computer, come accadrebbe parlando con un altro essere umano.

 

Iconic Srl - Google Duplex - Assistente che prenota per te

 

Negli ultimi anni, abbiamo assistito a una rivoluzione nella capacità dei computer di comprendere e generare discorsi naturali, in particolare con l’applicazione di reti neurali profonde (ad esempio, la ricerca vocale di Google, WaveNet). Tuttavia, anche con i moderni sistemi di ultima generazione, è spesso frustrante dover parlare con voci computerizzate pre-impostate che non comprendono il linguaggio naturale.

In particolare, i sistemi telefonici automatizzati stanno ancora lottando per riconoscere parole e comandi semplici. Non si impegnano in un flusso di conversazione e costringono il chiamante ad adattarsi al sistema anziché al sistema che si sta adeguando al chiamante.

 

L’8 Maggio Google annuncia una rivoluzione nel settore dell’Intelligenza artificiale: Google Duplex, una nuova tecnologia per condurre conversazioni naturali per svolgere attività “reali” al telefono.

 

La tecnologia è diretta al completamento di compiti specifici, come la pianificazione di determinati tipi di appuntamenti. Per tali compiti, il sistema rende l’esperienza della conversazione il più naturale possibile, consentendo alle persone di parlare normalmente, come farebbero con un’altra persona, senza doversi adattare a una macchina.

Uno degli approfondimenti chiave della ricerca è stato quello di vincolare Duplex a domini chiusi, che sono abbastanza ristretti da poter essere esplorati in modo approfondito. Allo stato attuale, Duplex può effettuare conversazioni naturali solo dopo essere stato profondamente addestrato in tali contesti (domini). Non può condurre conversazioni generali.

Ecco Duplex in azione (video in inglese):

 

 

La tecnologia Google Duplex è costruita per sembrare naturale, per rendere confortevole la conversazione. Per Google è importante che utenti e aziende abbiano una buona esperienza con questo servizio, e la trasparenza è una parte fondamentale di questo processo: “Vogliamo essere chiari sull’intenzione dell’invito affinché le aziende comprendano il contesto. Sperimenteremo il giusto approccio nei prossimi mesi.” (

 

Condurre conversazioni naturali

 

Ci sono diverse sfide nel condurre conversazioni naturali: il linguaggio naturale è difficile da capire, il comportamento naturale è difficile da modellare, le aspettative di latenza richiedono un’elaborazione veloce e la generazione di un discorso dal suono naturale, con le intonazioni appropriate. Quando le persone parlano tra loro, usano frasi più complesse di quando parlano ai computer. Spesso si correggono a metà frase, sono più prolissi del necessario, o omettono parole e si affidano invece al contesto; esprimono anche una vasta gamma di intenti, a volte nella stessa frase.

Nel linguaggio spontaneo naturale le persone parlano più velocemente e meno chiaramente di quanto fanno quando parlano con una macchina, quindi il riconoscimento vocale è più difficile e ci si aspettano tassi di errore più elevati. Il problema è aggravato durante le telefonate, che spesso hanno rumori di sottofondo e problemi di qualità del suono. Nelle conversazioni più lunghe, la stessa frase può avere significati molto diversi a seconda del contesto. Ad esempio, al momento della prenotazione la prenotazione “Ok per 4” può significare l’orario della prenotazione o il numero di persone. Spesso il contesto pertinente potrebbe essere stato espresso diverse frasi prima, un problema che viene aggravato dall’aumentato tasso di errore delle parole nelle telefonate.

 

Iconic Srl - Google Duplex ed il processo decisionale

 

Duplex in dettaglio

 

Le conversazioni di Duplex Google Duplex suonano naturali grazie ai progressi nella comprensione, interazione, tempistica e conversazione.

Il cuore di Duplex è costituito da una rete neurale ricorrente (RNN) progettata per far fronte a queste sfide, costruita utilizzando la tecnologia TensorFlow Extended (TFX). Per ottenere la sua alta precisione, il team di Google ha addestrato la rete neurale di Duplex su un gruppo di dati di conversazioni telefoniche reali ed anonimizzate.

La rete neurale RNN utilizza l’output della tecnologia di riconoscimento vocale automatico (ASR) di Google, nonché le funzionalità dell’audio, la cronologia della conversazione, i parametri della conversazione (ad esempio il servizio desiderato per un appuntamento o l’ora corrente del giorno) e altro ancora. “Abbiamo addestrato il nostro modello di comprensione separatamente per ogni attività, ma sfruttando un corpus condiviso attraverso le attività. Infine, abbiamo utilizzato l’ottimizzazione iperparametrica di TFX per migliorare ulteriormente il modello.”

 

Iconic Srl - Google Duplex

 

Risultare naturali

 

Duplex  utilizza una combinazione di motori di sintesi vocale per controllare l’intonazione a seconda delle circostanze. Il sistema sembra anche più naturale grazie all’incorporazione delle disfluenze vocali (ad esempio “hmm” e “uh”). Questi vengono aggiunti quando si combinano unità sonore molto diverse o si aggiungono attese sintetiche, che consentono al sistema di segnalare in modo naturale che è ancora in elaborazione. (In modo analogo a quanto fanno le persone  quando raccolgono i loro pensieri).

Negli studi degli utenti che hanno interagito con Duplex, si è osservato che le conversazioni che utilizzano queste disfluenze suonano più familiari e naturali. Inoltre, è importante che la latenza (ritardo nella risposta) corrisponda alle aspettative di un interlocutore umano.

Ad esempio, dopo che le persone dicono qualcosa di semplice, ad esempio “ciao”, si aspettano una risposta immediata e sono più sensibili alla latenza. Quando si rileva che è necessaria una bassa latenza, vengono impiegati modelli più veloci e a bassa affidabilità (ad esempio riconoscimento vocale o endpoint). In casi estremi, non si attende nemmeno la risposta della rete neurale RNN, ma si utilizzano approssimazioni ancora più rapide (di solito associate a risposte più esitanti, come farebbe una persona se non capissero appieno la loro controparte). Questo permette di avere meno di 100 ms di latenza di risposta nelle situazioni in cui l’interlocutore umano si attende una risposta immediata.

È interessante notare che in alcune situazioni, i tecnici hanno scoperto che era utile introdurre più latenza (ovvero attese artificiali) per rendere la conversazione più naturale, ad esempio quando si è chiamati a risponde ad una frase davvero complessa.

 

Operatività e autonomia del sistema Duplex

 

Il sistema Google Duplex è in grado di effettuare conversazioni sofisticate e completa la maggior parte dei suoi compiti in modo completamente autonomo, senza coinvolgimento umano. Il sistema ha una capacità di auto-verifica che gli consente di riconoscere le attività che non è in grado di completare in modo autonomo (ad es., programmare un appuntamento insolitamente complesso). In questi casi, segnala il caso ad un operatore umano, che può così prendere in carico e completare l’operazione.

Per addestrare il sistema in un nuovo dominio, si utilizza un addestramento supervisionato in tempo reale. Questo è paragonabile alle pratiche di allenamento di molte discipline, in cui un istruttore supervisiona uno studente mentre sta facendo il suo esercizio, fornisce una guida secondo le necessità e fa in modo che l’attività venga eseguita al livello di qualità richiesto dall’istruttore.

Nel sistema Duplex, gli operatori esperti fungono da istruttori. Monitorando il sistema durante le telefonate in un nuovo dominio, gli istruttori possono influenzare il comportamento del sistema in tempo reale a seconda delle necessità. Il processo continua fino a quando il sistema non raggiunge il livello di qualità desiderato, a quel punto la supervisione si interrompe e il sistema può effettuare chiamate in modo autonomo.

 

Vantaggi per le aziende e gli utenti

 

Per gli utenti “privati“, Google Duplex aiuta a semplificare le attività quotidiane. Invece di fare una telefonata, l’utente interagisce semplicemente con l’Assistente Google, e la chiamata avviene completamente in background senza alcun coinvolgimento dell’utente.

Le aziende che faranno affidamento su sistemi di prenotazioni appuntamenti dotate del sistema Duplex potranno trarre grande vantaggio da questa nuova tecnologia, consentendo ai loro clienti di effettuare prenotazioni autonomamante tramite l’Assistente Google senza dover modificare in modo radicale le proprie procedure interne o formare dipendenti.

L’uso di Duplex potrebbe anche ridurre la mancata presentazione agli appuntamenti, includendo procedure automatizzate che ricordino ai clienti i loro appuntamenti imminenti in modo da consentire una facile conferma, cancellazione o riprogrammazione.

 

Iconic Srl - La comunicazione di Google Duplex

 

Un altro vantaggio per gli utenti business è che Duplex consente la comunicazione delegata con i fornitori di servizi in modo asincrono, ad esempio per ricevere prenotazioni durante le ore di chiusura o in fasce orarie in cui la disponibilità di tempo è limitata.

Duplex può anche aiutare privati ed aziende ad affrontare l’accessibilità e le barriere linguistiche, ad esempio consentendo a utenti con problemi di udito o utenti che non parlano la lingua locale di eseguire comunque attività telefoniche.

 

Conclusione

 

Permettere alle persone di interagire con la tecnologia con la naturalezza con cui interagiscono tra loro è stata delle principali sfide nel settore dell’informatica per molto tempo. Google Duplex fa un passo in questa direzione, rendendo l’interazione con la tecnologia tramite conversazioni naturali una realtà in scenari specifici. Google si augura che questi progressi tecnologici contribuiranno a migliorare in modo significativo l’esperienza delle persone nelle interazioni quotidiane con i computer.

 

Fonte: Google AI Blog (https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html)

 

Approfondimenti

 

Ti è piaciuto questo articolo? Puoi approfondire l’argomento leggendo altre risorse che parlano Siti Web, di Marketing e di tecnologia:

Benvenuto WordPress 5.0
Errori 404… cosa sono e perché evitarli
I vantaggi di Google My Business per la tua azienda
Cosa sono i ChatBot e che vantaggi possono offrirti
PrestaShop Day Milano 2018
Generad Data Protection Regulation: GDPR
Le live chat possono massimizzare le conversioni
Usa le Notifiche Push per far crescere il tuo business
Costruire una Landing Page di successo

 

Mozilla Scout: browser a controllo vocale
Gli Hashtag di Youtube
Condividi sui Social: