Clique e receba as novidades quentinhas no Telegram

Zo

A Microsoft desenvolveu uma nova forma para que seus bots mais populares, dotados com tecnologia de Inteligência Artificial (AI), possam falar e analisar vozes humanas ao mesmo tempo, uma habilidade que os engenheiros acreditam levar a conversas mais naturais. Os bots têm o poder de prever o que uma pessoa dirá a seguir, quando pausar e quando é apropriado interromper alguém.

Os principais assistentes virtuais ganharam vozes mais expressivas, semelhantes a humanos, e estão sendo treinados para  entender a emoção humana por meio da análise de voz.  Mas, apesar do pesado investimento dos gigantes da tecnologia, as trocas entre assistentes virtuais e pessoas hoje ainda podem ser bastante rudimentares, exigindo o uso de uma palavra de ativação para executar cada comando e ficam aquém dos padrões de fala casuais que definem a interação humana. Por exemplo, para ativar a Cortana é preciso dizer, “Hey Cortana”, assim como as assistentes da Amazon e do Google também é preciso ser invocada.

xiaoice-2

A nova maneira de falar estreia com a Xiaoice da Microsoft na China e Rinna no Japão. Xiaoice pode conversar com o Yeelight da Xiaomi, um alto-falante inteligente que parece idêntico ao Echo Dot da Amazon lançado há dois meses.

A Microsoft planeja estender o recurso de conversação para dispositivos adicionais nos próximos seis meses,  disse o diretor da Zo, o bot de AI da Microsoft , Ying Wang. Nos EUA, a Zo da Microsoft receberá o novo recurso para o Skype em breve, e também será expandido para Ruuh na Índia e Rinna bot na Indonésia. Nenhuma data ou período de tempo específico foi informado de quando os recursos seriam disponibilizados para os bots adicionais.

O modo mais natural de falar é chamado de “senso de voz full duplex” pela Microsoft e dá aos bots que comunicam via voz, a capacidade de continuar uma conversa contínua com apenas um único uso de uma palavra como “Hey, Cortana”, isso permite falar com as máquinas de uma maneira que pareça mais como um telefonema ou uma conversa normal.

Para a Inteligência Artificial aprender coisas como quando é apropriado interromper uma pessoa que está falando, o sentido de voz full duplex usa o conhecimento extraído das conversas que os bots da Microsoft tiveram com mais de 200 milhões de pessoas em todo o mundo nos últimos anos.

O fato de um bot escolher interromper uma pessoa depende da pergunta ou do comando que deram ao bot.

“Se a Xiaoice estiver contando uma história, ela não será facilmente interrompida por murmúrios ou conversas paralelas, a menos que haja uma intenção explícita do usuário em parar. Da mesma forma, no Yeelight, quando o Xiaoice está lidando com uma tarefa IoT de alto valor, como o status de carregamento de um robô, a Xiaoice optará por ignorar a intenção não explícita dos usuários, usando um comentário do tipo, ‘humm’ ou ‘uhum’, ” disse Wang.

Dar às máquinas formas mais naturais de falar com humanos não é apenas projetado apenas para facilitar a realização de tarefas, mas também, para tornar o bate-papo casual mais atraente, algo que a Microsoft mantém há muito tempo e pode levar a níveis mais altos de engajamento do usuário. Provavelmente, é por isso que a Amazon introduziu este recurso para a Alexa responder às perguntas de acompanhamento e, novamente, planeja hospedar o Prêmio Alexa para encontrar bots que possam manter uma conversa por 20 minutos.

O vice-presidente de Pesquisa e IA (Inteligência Artificial) da Microsoft, Harry Shum, disse que a empresa lançará bots como a Zo e Xiaoice em todos os países com uma população de mais de 100 milhões de pessoas.

Fonte: Venturebeat