Notícias de dispositivos móveis, gadgets, aplicativos Android

Google Imagen é a IA mais recente que pode criar imagens a partir de texto

O Google revelou um novo Al chamado Google Imagen. Esta maravilha da IA ‚Äč‚Äč‚Äč‚Äčdo Google √© um gerador de texto para imagem. Embora ainda n√£o esteja dispon√≠vel para uso do p√ļblico em geral. Mas as imagens que ele pode gerar por meio de textos simples s√£o incr√≠veis.

Os modelos de texto para imagem recebem entradas de texto como ‚Äúum gato em um skate‚ÄĚ e produzem uma imagem relevante. √Č algo que vem sendo feito h√° anos, mas recentemente melhorou em qualidade e acessibilidade.

Como funciona a imagem do Google?

Em primeiro lugar, o Google Imagen utiliza diferentes técnicas de difusão, que basicamente começam com uma imagem de ruído puro. Ele o refina lentamente, pouco a pouco, até que o modelo pense que não consegue fazê-lo parecer mais com um gato em um skate do que já é.

Esta é uma melhoria em relação aos geradores completos que às vezes erram tremendamente na primeira tentativa. O outro elemento é a melhoria da compreensão da linguagem através de grandes modelos de linguagem. Isso é feito usando a abordagem do transformador. Alguns outros avanços recentes levaram a modelos de linguagem convincentes como GPT-3 e outros.

Os aspectos técnicos funcionam mais ou menos assim:

O Google Imagen come√ßa gerando uma imagem pequena (64√ó64 pixels) e depois faz duas passagens de ‚Äúsuper-resolu√ß√£o‚ÄĚ para aument√°-la para 1024√ó1024. Por√©m, isso n√£o √© como o upscaling normal, j√° que a IA cria novos detalhes com a imagem menor, usando o original como base.

A IA entende objetos mais simples e sua aparência. Por exemplo, gerar detalhes no olho de um gato será uma tarefa fácil, pois o modelo foi treinado para preencher pequenos detalhes.

N√≥s recomendamos:  O Google Nest Hello captura convenientemente um sorriso na vida real, cortando luzes de Natal

Por que ainda n√£o √© p√ļblico?

Ao anunciar o novo modelo de IA, a empresa compartilhou um artigo de pesquisa detalhando bastante. Mostra o uso de uma ferramenta de benchmarking chamada Drawbench para fazer compara√ß√Ķes objetivas com os concorrentes do Imagen.

Ele cont√©m muitas imagens hilariantes para voc√™ tirar conclus√Ķes. Embora as imagens do Google pare√ßam bastante inofensivas, o artigo lan√ßa alguma luz sobre sua ‚Äúhostilidade‚ÄĚ. O Google afirma que os modelos de IA codificam ‚Äúv√°rios preconceitos e estere√≥tipos sociais, incluindo uma tend√™ncia geral para a gera√ß√£o de imagens de pessoas com tons de pele mais claros e uma tend√™ncia para imagens que retratam diferentes profiss√Ķes se alinharem com os estere√≥tipos de g√©nero ocidentais‚ÄĚ.

O Google sempre pode filtrar palavras ou frases espec√≠ficas e alimentar conjuntos de dados √ļteis. No entanto, dado o volume de dados tratados por estes dispositivos, nem tudo pode ser filtrado ou todas as falhas resolvidas.

Uma vez que os enormes requisitos de dados em escala dos algoritmos de texto para imagem levaram os acad√™micos a confiar significativamente em grandes conjuntos de dados extra√≠dos da Web, em sua maioria sem curadoria‚ÄĚ, reconhece o Google.

Estes conjuntos de dados tendem a representar preconceitos sociais, perspetivas opressivas e depreciativos ou de outra forma prejudiciais para grupos de identidade minorit√°rios, de acordo com auditorias de conjuntos de dados.

Tendo tudo em mente, o Google diz que o Imagen ainda n√£o est√° pronto para uso p√ļblico. O que voc√™ acha da imagem? Voc√™ gostaria de us√°-lo? Comente abaixo.