O recurso mais atraente das interfaces de conversação é a facilidade em que o usuário possui ao utilizar computadores, smartphones, smartv entre outras inúmeras tecnologias onde a Inteligência Artificial de conversação pode ser implementada. Para estas interfaces deverão ser criados modos de interação de fácil operação, já que por meio do recurso de fala o usuário poderá ter maior liberdade para execução de outras tarefas que exijam a manipulação de entradas de dados de forma convencional e ainda, com o uso de sistemas de síntese de fala o usuário poderá receber informações de forma direta e objetiva.

Uma interface de API de voz oferece o privilégio de interagir com as máquinas em termos humanos. Pode- se dizer que é uma mudança de paradigma das comunicações anteriores. Ela permite que o usuário diga ao software o que fazer, assim, trazendo uma maior inclusão para pessoas com deficiência sendo elas visuais, locomotoras, dentre outras e até mesmo para quem busca uma maior automação dos seus aparelhos.

A área de IA com interface de conversação tem estado em constante alta, nas últimas cinco décadas, sendo considerada uma tecnologia auxiliar de importante avanço com uma melhor comunicação Homem-Máquina. Entretanto, anteriormente não era vista como uma forma confiável de comunicação. Isto porque a capacidade de processamento existente não era suficiente para fazer reconhecimento de fala em tempo real.

As APIS com interface para comando de voz

Com o grande avanço da tecnologia de IA de conversação, pode-se citar algumas APIs principais.

Alexa Voice Service (AVS)

Dispositivos com a Alexa

O Alexa é o serviço de voz criado pela Amazon em 2014 com base em nuvem que se conecta com o Amazon Echo, uma nova categoria de dispositivo da varejista online que foi projetado para se adequar a comandos da sua voz. O Alexa Voice Service (AVS) é o conjunto de serviços da Amazon construído em torno de seu assistente de IA controlado por voz para uso doméstico e outros ambientes. O AVS foi introduzido pela primeira vez com o Echo, o alto-falante inteligente da empresa, que permite a interação por voz com vários sistemas no ambiente e online. O Alexa está disponível para um número cada vez maior de outros dispositivos, incluindo smartphones, tablets e controles remotos.

Ele fornece um conjunto de recursos internos, chamados de habilidades, sendo elas, tocar músicas de vários provedores, responder perguntas, fornece previsões do tempo e consultar a Wikipedia. O Hurricane Center, por exemplo, é uma habilidade do Alexa que fornece informações constantemente atualizadas sobre sistemas de tempestades, com base em dados de agências governamentais. Existe também Virtual Librarian é essencialmente um mecanismo de recomendação que sugere livros, com base em indicações de prêmios, listas de best-sellers e análises de usuários. O Alexa Skills Kit , um kit de desenvolvimento de software ( SDK ), é disponibilizado gratuitamente para desenvolvedores e as habilidades estão disponíveis para download instantâneo na Amazon.com

Sendo totalmente integrado ao ambiente de comércio eletrônico da Amazon, o que significa que torna as compras rápidas e simples. O sistema pode operar como um hub de automação residencial, permitindo ao usuário controlar sistemas de aquecimento e iluminação, por exemplo. O Alexa também se conecta a serviços de mídia de streaming on-line e suporta If This Then That ( IFTTT ).

O sistema de inteligência artificial está disponível no Brasil a partir desse ano de 2019, onde possui 3 tipos de caixas de som com os recursos da Alexa.

Cloud Speech-to-Text

Cloud Speech-to-Text

O Cloud Speech-to-Text permite a fácil integração das tecnologias de reconhecimento de fala do Google nos aplicativos do desenvolvedor. Com ele os desenvolvedores convertem áudio em texto ao aplicar modelos de rede neural avançados em uma API fácil de usar. A API reconhece 120 idiomas e variantes para oferecer suporte à sua base de usuários global. Ele permite ativar o comando e o controle de voz, transcrever áudio de call centers e muito mais. Com a tecnologia de machine learming do Google essa API processa streaming em tempo real ou de áudios pré gravados, ou seja, ela retorna o texto no momento em que ele é reconhecido. Sendo possível a analise de áudios de curta ou longa duração

O Speech-to-Text tem três métodos principais para realizar o reconhecimento de fala. Eles estão listados abaixo:

O reconhecimento síncrono (REST e gRPC): envia dados de áudio para a API Speech-to-Text, executa o reconhecimento nesses dados e retorna os resultados depois que todo o áudio foi processado. As solicitações de reconhecimento síncrono são limitadas a dados de áudio de até um minuto de duração.

O reconhecimento assíncrono (REST e gRPC): envia dados de áudio para a API Speech-to-Text e inicia uma operação de longa duração. Usando essa operação, é possível pesquisar periodicamente resultados de reconhecimento. As solicitações assíncronas para dados de áudio de qualquer duração de até 480 minutos.

O reconhecimento de streaming (somente gRPC): realiza reconhecimento em dados de áudio fornecidos em um stream gRPC bidirecional. As solicitações de streaming são projetadas para fins de reconhecimento em tempo real, como captura de áudio ao vivo de um microfone. O reconhecimento em streaming oferece resultados provisórios enquanto o áudio está sendo capturado, permitindo que o resultado apareça, por exemplo, enquanto um usuário ainda está falando.

Siri

Logo Siri

A Siri é um aplicativo inteligente que auxilia o usuário a realizar tarefas em um aparelho por meio do recurso de voz. Trata-se de um aplicativo no estilo assistente pessoal utilizando processamento de linguagem natural para responder perguntas, executar tarefas e outras atividades. Por possuir uma tecnologia mais refinada, a Siri não necessita que o usuário diga palavras predeterminadas ou comandos específicos, já que a assistente consegue compreender frases de forma precisa.

Fundada por Dag Kittlaus, Cheyer Adam, Tom Gruber e Norman Winarsky, a Siri teve seus primeiros testes realizados em 2007, foi adquirida pela Apple em abril de 2010, porém, apenas começou a funcionar em 2011.  A Siri agora conta com o aplicativo de atalhos embutido no IOS 13. A visualização aprimorada da galeria permite fornecer atalhos pré configurados, esses atalhos também podem ser combinados com ações de outros aplicativos.

Cortana

Inicialização Cortana

A Cortana é um assistente pessoal digital que promete auxiliar os usuários de um sistema computacional a realizar diversas atividades. Não se pode visualizar a Cortana como um simples assistente que permite a realização de atividades através do comando de voz, apesar de essa parecer ser sua principal finalidade. Usado corretamente, esse assistente pode ajudar seu usuário a se manter sempre bem informado, permitindo-o realizar diversas atividades através de dispositivos e plataformas distintas.

Muito além do que serviços de lembrete, ou até mesmo uma interface interativa de pesquisa, a Cortana fornece uma arquitetura que permite facilmente a incorporação de outras atividades ou serviços, melhorando assim sua experiência. Trata-se de um recurso capaz de aprender com o usuário para melhor servi-lo.

Ela permite que o usuário interaja com o computador por qualquer uma de suas interfaces. Caberá ao desenvolvedor, dependendo do contexto, determinar qual ação será desencadeada, ou seja, o usuário pode interagir via texto ou voz e o desenvolvedor decidirá como irá tratar cada uma das interfaces de entrada. Além de prático e fácil de utilizar, a Cortana é compatível com qualquer versão do Windows 10 ou superior, além do Android.

Para o desenvolvedor, é possível a integração das funcionalidades da Cortana às suas aplicações, podendo essa interação ocorrer através de solicitações explícitas ou até mesmo com base no contexto do usuário (análise de seu comportamento).

Ao desenvolvedor, a Cortana oferece também suporte a uma série de ações pré-determinadas, sendo necessário somente fornecer à API uma ligação capaz de indicar como sua aplicação deve responder/completar a ação. O desenvolvedor pode, entretanto, a qualquer momento personalizar uma ação pré-definida (se julgar necessário), buscando assim atender às necessidades de sua aplicação.

Watson Text-to-Speech e Speech To Text

Watson

O Watson possui alguns serviços para integrar texto e voz como o Text to Speech e o Speech to Text.

Onde o Text to Speech transforma um texto em voz, o Speech to Text transforma voz em texto. Esses serviços são basicamente simples e diretos de utilizar e não necessitando de nenhum treinamento adicional. Para a utilização basta instanciá-los no Bluemix (plataforma em nuvem desenvolvida pela IBM) e escolher o idioma. No caso do Text to Speech, dependendo do idioma, também é possível escolher a voz do interlocutor (se masculino ou feminino). Está disponível em 27 vozes (13 neurais e 14 padrão) em 7 idiomas. As vozes selecionadas agora oferecem recursos de Síntese expressiva e transformação de voz. O uso geral desses serviços conta com um vocabulário baseado no diálogo cotidiano. Para alguns tipos de aplicação, esse vocabulário pode não ser suficiente e requerer refinamentos que o ajustem ao domínio da aplicação. Nesse caso, é possível ajustar o modelo de acordo com os termos e pronúncias utilizados naquele domínio.

Com isso pode se verificar a importância que as APIs vem possuindo nos últimos anos, onde podemos ver essa inteligência tomando amplamente destaque no mercado. Com este artigo foi possível identificar algumas das principais e mais desenvolvidas APIs de Voz, mais utilizadas em equipamentos do dia a dias como smartphones e smartvs.

O reconhecimento de voz contínuo é o mais complexo e difícil de ser implementado, pois deve ser capaz de lidar com todas as características e vícios de linguagem, como regionalidade e gírias tão utilizadas frequentemente, de forma natural. Vale ressaltar que as APIs citadas acima trabalham de forma online, sendo assim, para trabalhos futuros estarão direcionadas as pesquisas para APIs que utilizam o reconhecimento de voz de forma offline, para assim, trazer uma maior automação dos equipamentos mesmo desprovidos de internet no momento.

Autora: Laís Fochezatto Sabedot

Referências

Y. Dong and L. Deng, Automatic Speech Recognition. London: Springer-Verlag, 2015.

V. F. S. Alencar. 2005. Atributos e Domínios de Interpolação Eficientes em Reconhecimento de Voz Distribuído. Master’s thesis. Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, Brasil.l

https://developer.apple.com/siri/

https://docs.microsoft.com/pt-br/cortana/skills/

https://conversation-demo.ng.bluemix.net/

https://cloud.google.com/speech-to-text/

https://alexa.github.io/avs-device-sdk/