Na I / O 2018, o Google introduziu seis novas vozes para o Assistant baseadas no WaveNet da DeepMind. Isso permitiu que os usuários personalizassem a interação por voz em telefones Android, Página inicial do Google e agora Smart Displays. Google Assistant hoje está ganhando uma voz com sotaque australiano e britânico para ainda mais personalização.
Quando o Assistant foi lançado, ele apresentava uma voz – chamada “Holly” – antes de adicionar uma voz masculina no ano passado. Em maio, seis novas vozes elevaram o total para oito, para uma variedade muito maior. Em julho, o Google também lançou um novo esquema de nomeação baseado em cores para as vozes do assistente. Anteriormente, as variantes eram apenas chamadas de voz I (agora vermelha), voz II (laranja) etc.
As vozes de hoje seguem essa organização com “Sydney Harbour Blue” servindo como o nome oficial do sotaque australiano, enquanto a voz britânica é chamada “British Racing Green”.
Quando o Google introduziu o novo esquema de nomenclatura, havia uma pergunta de como isso os faria se destacar. A resposta parece estar escolhendo tons muito específicos, com os dois sendo realmente cores.
Ambas as vozes são femininas e podem ser selecionadas indo para Configurações e depois para a guia “Assistente”. O carrossel na página de voz do Assistente apresenta as duas novas opções à direita. Os usuários podem visualizá-los com uma forma de onda, observando o progresso da fala.
Essas novas vozes também são geradas pelo modelo de síntese de voz WaveNet do DeepMind. As redes neurais profundas geram formas de onda de áudio brutas que são mais realistas e naturais. O Sydney Harbour Blue e o British Racing Green começarão a ser lançados hoje e estão disponíveis para dispositivos definidos para inglês nos EUA.
Com esses ajustes, o novo modelo WaveNet produz um som mais natural. Nos testes, as pessoas deram às novas vozes do inglês WaveNet nos EUA uma pontuação média média de opinião (MOS) de 4.1 numa escala de 1-5 – mais de 20% melhor do que nas vozes comuns e reduzindo a diferença com a fala humana em mais de 70%.