Imagine comprar um robô por um valor enorme para realizar tarefas domésticas, mas não conseguir realizá-las; como você vai se sentir? Por exemplo, se você pedir para ele pegar uma caneca na mesa da cozinha, ele pode não reconhecê-la. Isso ocorre porque o robô foi treinado e construído em uma fábrica para um determinado conjunto de tarefas e nunca viu os itens em sua casa antes.
Para resolver isso, Peng e seus colegas do Instituto de Tecnologia de Massachusetts (MIT) e outros pesquisadores da Universidade de Nova York e da Universidade da Califórnia em Berkeley criaram uma estrutura que permite aos humanos ensinar rapidamente a um robô o que desejam que ele faça, com um esforço mínimo.
Juntando-se a Peng como co-pesquisadores estão Aviv Netanyahu, um estudante de pós-graduação do EECS; Mark Ho, professor assistente do Stevens Institute of Technology; Tianmin Shu, pós-doutorado do MIT; Andreea Bobu, estudante de pós-graduação na UC Berkeley; e os autores seniores Julie Shah, professora de aeronáutica e astronáutica do MIT e diretora do Grupo de Robótica Interativa no Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL), e Pulkit Agrawal, professor do CSAIL.
Aumento de dados: uma nova técnica para treinar robôs que não conseguiram concluir uma tarefa
Os pesquisadores desenvolveram uma nova técnica chamada aumento de dados, que envolve ajustar um modelo de aprendizado de máquina que já foi treinado para executar uma tarefa para que possa realizar uma segunda tarefa semelhante. Os pesquisadores testaram essa técnica em simulações e descobriram que ela poderia ensinar um robô com mais eficiência do que outros métodos.
Sem exigir que o usuário possua conhecimento técnico, esta abordagem pode ajudar os robôs a aprenderem mais rapidamente em contextos desconhecidos. Isto poderia eventualmente abrir caminho para que robôs de uso geral executem com eficácia as tarefas diárias de idosos ou pessoas com deficiência em diversos contextos.
A aprendizagem por imitação é um método para treinar novamente um robô para executar uma determinada tarefa. Para educar o robô sobre o que executar, o usuário pode executar a tarefa adequada. Se um usuário instruir um robô a pegar uma caneca, mas usar apenas uma caneca branca como demonstração, o robô poderá presumir que todas as canecas são brancas. Uma xícara “Tim-the-Beaver-brown”, uma caneca vermelha ou uma caneca azul podem então não ser recolhidas.
Para isso, o sistema dos pesquisadores verifica qual objeto específico preocupa o usuário (uma xícara) e quais componentes não são necessários para a tarefa (por exemplo, a cor da caneca pode não ser relevante). Ao alterar estas noções visuais “sem importância”, explora estes dados para criar novos dados sintéticos. Este método é conhecido como aumento de dados.
Três etapas para ajustar um robô que não conseguiu concluir o desejado
A estrutura tem três etapas. Primeiro, ele exibe a tarefa que causou a falha do robô. Em seguida, usando a demonstração das atividades pretendidas pelo usuário, ele cria contrafactuais examinando todas as características do espaço para determinar o que teria que mudar para que o robô fosse bem-sucedido.
O sistema solicita comentários do usuário após exibir esses contrafactuais para identificar quais ideias visuais não influenciam o comportamento desejado. Em seguida, ele cria um grande número de novos exemplos aumentados usando esse feedback humano.
Ao mudar a cor, o sistema criaria exemplares exibindo a ação desejada com milhares de canecas distintas. Desta forma, o utilizador pode demonstrar a recolha de uma caneca. Ele ajusta o robô usando esses dados.
“Queremos que os robôs façam o que os humanos fazem e queremos que o façam de uma forma semanticamente significativa. Os humanos tendem a operar neste espaço abstrato, onde não pensam em todas as propriedades de uma imagem. No final das contas, trata-se realmente de permitir que um robô aprenda uma boa representação semelhante à humana em um nível abstrato, acrescentou Peng.”