Na história dos computadores, da Internet, dos telefones celulares e muito mais, existiram vários codecs de áudio, mas o rei indiscutível continua sendo o MP3. Com mais de 30 anos de existência, este codec de compressão enfrentou diversos rivais, mas ainda não consegue desbancá-lo. Existem opções melhores? Definitivamente sim, AAC e OGG são prova disso e ganharam muito terreno, mas A popularidade do MP3 continua esmagadora.
Hoje, um novo rival surge no horizonte e cavalga na Inteligência Artificial. Se chama ENCODEC, desenvolvido pela Meta, quer substituir o MP3 e promete compressão de áudio 10 vezes maior. Estaremos diante do codec de áudio que irá revolucionar o mercado e reivindicar a coroa para si?
Meta cria um modelo de IA que pode aposentar o MP3 de uma vez por todas. Irá revolucionar o mercado?
Meta acaba de apresentar o primeiros detalhes do ENCODEC (nome provisório), seu codec hipercompressor de áudio alimentado por IA. Foi desenvolvido pela equipe Fundamental AI Research (FAIR) e, embora pudesse ser usado para qualquer coisa, Ele foi projetado para melhorar as comunicações em situações de conectividade mínima. Um exemplo disso? Quando você está em uma chamada do WhatsApp e tem uma conexão ruim. Atualmente, a chamada seria ouvida entrecortada ou seria cancelada diretamente devido a problemas de conectividade, mas com o ENCODEC isso não acontecerá.
ENCODEC é capaz de alcançar uma taxa de compressão 10 vezes melhor que MP3 a 64 kbps, nenhuma perda perceptível de qualidade. MP3 é um codec de compactação com perdas e obter um arquivo 10 vezes menor sem perder nada é uma façanha. Além disso, ele já foi testado comprimindo um arquivo de áudio estéreo de 48KHz (qualidade de CD, o padrão da indústria musical) e os resultados foram alucinantes.
Como funciona o ENCODEC? Através de uma rede neural ponta a ponta que é responsável por desconstruir e reconstruir os sinais auditivos em três etapas:
- um codificador: que pega dados não compactados e os transforma em uma representação de maior dimensão e menor taxa de quadros.
- um quantificador: que é responsável por comprimir a representação anterior no tamanho desejado, mantendo as informações mais importantes para reconstruir o sinal original. O arquivo compactado resultante desta etapa é aquele que fica armazenado em disco ou enviado pela Internet.
- um decodificador: que converte o sinal comprimido em um formato de onda o mais semelhante possível à onda original.
Não é assim que funcionam os codecs de áudio tradicionais? Um pouco sim, mas não são exatamente iguais.
Discriminadores, a chave por trás da excelente compressão do ENCODEC
A maioria dos codecs (incluindo MP3, AAC e assim por diante) divide os sinais de áudio em frequências que são codificadas com mais eficiência. É utilizado um algoritmo, e sua base para que as alterações não sejam perceptíveis é o conhecimento da psicoacústica humana. Porém, algoritmos de codec clássicos são rígidoseles não alteram nada além de algumas configurações.
Pelo contrário, Os modelos de Inteligência Artificial aprendem e melhoram constantemente, adaptando-se às necessidades do momento e alcançando resultados muito mais eficientes. No caso do ENCODEC, o que serve para otimizar a compressão de um sinal de áudio são os discriminadores.
Os discriminadores comparam constantemente amostras de áudio reconstruídas com amostras reais, como se fosse um jogo de gato e rato. Seu objetivo? Comprima qualquer sinal da forma mais eficiente possívelde forma personalizada para cada frequência, sem seguir a mesma receita para tudo. O resultado? Que as amostras reconstruídas são perceptualmente muito semelhantes às originais, mas com um tamanho muito menor.
Um grande passo em frente e um futuro promissor, mas ainda há um caminho a percorrer
Não há dúvida de que o ENCODEC é excelente e tem votos suficientes a seu favor para substituir o MP3 no futuro. Na verdade, Meta garante que ainda pode ser melhorado e que poderá ser uma solução para múltiplas aplicações além das chamadas, por exemplo: o metaverso, videoconferência, streaming de filmes e jogosetc.
Porém, é a mesma empresa que garante que ainda há muito por fazer. Sendo um modelo experimental de IA, ENCODEC ainda requer muita energia para ser usado e compactar arquivos nos níveis mostrados.
O modelo ainda precisa ser polido e também será necessário que os chips neurais (NPU) dos telemóveis e dos computadores sejam mais potentes e eficientes. Somente depois disso o ENCODEC poderia competir com o MP3 no mercado consumidor.