Em uma tentativa de seguir a tendência atual e se juntar à liga de outros gigantes da tecnologia como Microsoft, Google e Baidu, na esfera da IA, a Meta, empresa-mãe da Facebookrevelou um modelo de IA de inteligência artificial chamado ImageBind que permite que as máquinas aprendam com vários sentidos simultaneamente.
O modelo de IA combina seis modalidades, incluindo texto, imagem/vídeo e áudio, bem como sensores que registram unidades de medição de profundidade, térmicas e inerciais, que calculam posição e movimento.
Ao conectar as coisas num instantâneo com a sua forma, som, temperatura e movimento, o modelo dá aos robôs um conhecimento mais profundo do mundo. Além de fornecer mídia mais rica e expandir as capacidades de pesquisa multimodal, o método multimodal pode auxiliar na análise, reconhecimento e moderação de conteúdo.
Modelo ImageBind AI da Meta
Ao contrário de outros sistemas de IA, o ImageBind gera um espaço de incorporação compartilhado em diversas modalidades sem a necessidade de treinamento em dados de todas as combinações possíveis de modalidades. A estratégia fornecerá aos investigadores os meios para criar sistemas novos e abrangentes, como aqueles que utilizam sensores 3D e IMU para criar ou utilizar mundos virtuais imersivos.
A pesquisa de imagens, vídeos, arquivos de áudio ou mensagens de texto utilizando uma combinação de texto, áudio e imagens usando o ImageBind também pode oferecer um novo método para explorar memórias.
“ImageBind faz parte dos esforços da Meta para criar sistemas multimodais de IA que aprendem com todos os tipos possíveis de dados ao seu redor. À medida que o número de modalidades aumenta, o ImageBind abre as comportas para que os pesquisadores tentem desenvolver sistemas novos e holísticos, como combinar sensores 3D e IMU para projetar ou experimentar mundos virtuais imersivos, – Meta.”
Este novo modelo de IA é um passo na direção do objetivo da Meta de criar um sistema de IA multimodal que possa aprender com diversos tipos de dados. Ele complementa os produtos de inteligência artificial de código aberto existentes da empresa, como Segment Anything (SAM) e modelos de visão computacional DINOv2. Versões futuras do ImageBind poderão aproveitar os recursos visuais do DINOv2 para aprimorar suas capacidades.
Levando a IA para o próximo nível com ImageBind
Como um avanço revolucionário em inteligência artificial, o ImageBind permite que os robôs aprendam simultaneamente em várias modalidades. ImageBind abre perspectivas interessantes para o desenvolvimento de sistemas de IA multimodais que possam analisar e gerar informações de maneira mais precisa e inventiva, aprendendo um único espaço de representação compartilhado para seis modalidades diferentes.
“O ImageBind pode superar modelos especializados anteriores treinados individualmente para uma modalidade específica, conforme descrito em nosso artigo. Mas o mais importante é que ajuda a avançar a IA, permitindo que as máquinas analisem melhor em conjunto muitas formas diferentes de informação.”
Além disso, é também um primeiro passo crucial para a criação de máquinas que possam avaliar muitos tipos de dados de forma holística, tal como as pessoas fazem. ImageBind tem uma ampla gama de usos potenciais intrigantes, desde a criação de imagens a partir de sons até a investigação de memórias usando uma combinação de texto, áudio e imagens. O futuro da IA agora parece ainda mais promissor graças ao ImageBind.
“Por exemplo, usando o ImageBind, o Make-A-Scene da Meta poderia criar imagens a partir de áudio, como criar uma imagem baseada nos sons de uma floresta tropical ou de um mercado movimentado. Outras possibilidades futuras incluem maneiras mais precisas de reconhecer, conectar e moderar conteúdo, e de impulsionar o design criativo, como gerar mídia mais rica de forma mais integrada e criar funções de pesquisa multimodais mais amplas, afirmou.