O Google revelou um novo Al chamado Google Imagen. Esta maravilha da IA do Google é um gerador de texto para imagem. Embora ainda não esteja disponível para uso do público em geral. Mas as imagens que ele pode gerar por meio de textos simples são incríveis.
Os modelos de texto para imagem recebem entradas de texto como “um gato em um skate” e produzem uma imagem relevante. É algo que vem sendo feito há anos, mas recentemente melhorou em qualidade e acessibilidade.
Como funciona a imagem do Google?
Em primeiro lugar, o Google Imagen utiliza diferentes técnicas de difusão, que basicamente começam com uma imagem de ruído puro. Ele o refina lentamente, pouco a pouco, até que o modelo pense que não consegue fazê-lo parecer mais com um gato em um skate do que já é.
Esta é uma melhoria em relação aos geradores completos que às vezes erram tremendamente na primeira tentativa. O outro elemento é a melhoria da compreensão da linguagem através de grandes modelos de linguagem. Isso é feito usando a abordagem do transformador. Alguns outros avanços recentes levaram a modelos de linguagem convincentes como GPT-3 e outros.
Os aspectos técnicos funcionam mais ou menos assim:
O Google Imagen começa gerando uma imagem pequena (64×64 pixels) e depois faz duas passagens de “super-resolução” para aumentá-la para 1024×1024. Porém, isso não é como o upscaling normal, já que a IA cria novos detalhes com a imagem menor, usando o original como base.
A IA entende objetos mais simples e sua aparência. Por exemplo, gerar detalhes no olho de um gato será uma tarefa fácil, pois o modelo foi treinado para preencher pequenos detalhes.
Por que ainda não é público?
Ao anunciar o novo modelo de IA, a empresa compartilhou um artigo de pesquisa detalhando bastante. Mostra o uso de uma ferramenta de benchmarking chamada Drawbench para fazer comparações objetivas com os concorrentes do Imagen.
Ele contém muitas imagens hilariantes para você tirar conclusões. Embora as imagens do Google pareçam bastante inofensivas, o artigo lança alguma luz sobre sua “hostilidade”. O Google afirma que os modelos de IA codificam “vários preconceitos e estereótipos sociais, incluindo uma tendência geral para a geração de imagens de pessoas com tons de pele mais claros e uma tendência para imagens que retratam diferentes profissões se alinharem com os estereótipos de género ocidentais”.
O Google sempre pode filtrar palavras ou frases específicas e alimentar conjuntos de dados úteis. No entanto, dado o volume de dados tratados por estes dispositivos, nem tudo pode ser filtrado ou todas as falhas resolvidas.
Uma vez que os enormes requisitos de dados em escala dos algoritmos de texto para imagem levaram os acadêmicos a confiar significativamente em grandes conjuntos de dados extraídos da Web, em sua maioria sem curadoria”, reconhece o Google.
Estes conjuntos de dados tendem a representar preconceitos sociais, perspetivas opressivas e depreciativos ou de outra forma prejudiciais para grupos de identidade minoritários, de acordo com auditorias de conjuntos de dados.
Tendo tudo em mente, o Google diz que o Imagen ainda não está pronto para uso público. O que você acha da imagem? Você gostaria de usá-lo? Comente abaixo.