O Google Cloud anunciou recentemente no Google Cloud Next’ 18, as novas funções do Cloud Text-to-Speech, com novas vozes WaveNet – produto inovador de pesquisa de síntese de voz da DeepMind. A novidade reafirma os esforços do Google em tornar a inteligência artificial (AI) de qualidade cada vez mais acessível para todos.
Com as novidades do Cloud Text-to-Speech (conversão de texto para voz) os clientes têm acesso multilíngüe a falas geradas por meio do WaveNet, capazes de imitar entonações de voz e até mesmo aparentar estresse. São 17 novas vozes, dentre elas inglês (EUA), português e espanhol, que permitem a criação de aplicativos em idiomas variados. Hoje, a API oferece o total de 56 vozes (26 delas WaveNet, capazes de imitar vozes humanas e sons naturais, o que permite uma experiência melhor aos usuários) em 14 idiomas e variantes.
Outro destaque é o Audio ProfilesBeta. Dos fones de ouvido a alto-falantes e linhas telefônicas, agora os usuários podem otimizar o Cloud Text-to-Speech para reprodução em diferentes tipos de hardware, podendo selecionar a opção ideal para o seu uso.
O Cloud Speech-to-Text, ferramenta de conversão de voz para texto, também ganhou atualizações beta. Agora, a API permite o reconhecimento multicanal, diarização de alto-falante e detecção automática de idioma. As novas funções possibilitam a transcrição de vários canais de áudio com identificação de vozes, capaz de registrar quais palavras foram ditas por quem. Além disso, para as amostras de áudio que não são separadas em canais, como em uma palestra, por exemplo, o Google disponibiliza a diarização. Basta inserir o número de pessoas falantes como parâmetro à API e, por meio de aprendizagem de máquina, a ferramenta elabora uma categoria de cada palavra com um número e, na transcrição, consegue identificar o falante de maneira assertiva.