O ponto fraco da Inteligência Artificial: Desenhar mãos

Entenda porque as AIs de imagem também ainda não lidam muito bem com dentes, dedos dos pés e barrigas “tanquinho”
Ilustração feita por IA de Mão humana e mão robótica se aproximando

Imagem criada por Decrypt usando o AI "MidJourney"

Os rápidos desenvolvimentos recentes em Inteligência Artificial (AI) estão entre os avanços tecnológicos mais significativos da década.

Atualmente, modelos de AI geradores de artes a partir de textos, como o MidJourney e o DALL-E, são tão sofisticados que, às vezes, as próprias limitações humanas dos usuários costumam ser o principal obstáculo quando as pessoas têm o primeiro contato com a tecnologia.

Publicidade

Quando você pode criar qualquer coisa, as pessoas relutam em decidir “o que criar”, levando-as a um estado apático.

No entanto, a AI também tem suas próprias batalhas. O exemplo perfeito é a criação de mãos realistas. A web está repleta de imagens geradas por AI estranhas e assustadoras de pessoas perfeitas como modelos, mas com poucos ou muitos dedos, além da falta de conexão entre os membros.

Por que um modelo capaz de gerar imagens realistas de um urso de smoking andando de bicicleta nos Alpes suíços ainda tem problemas com algo tão simples quanto uma mão? A resposta está longe de ser a mais fácil.

Primeiro, os próprios humanos nem sempre foram excepcionalmente habilidosos em desenhar mãos. Dominar o desenho realista da mão nos levou séculos, para dizer o mínimo. Apenas como exemplo, essas mãos de diferentes épocas não são realistas — e certamente não são bonitas.

Na verdade, os artistas humanos só conseguiram criar representações de mãos visualmente agradáveis ​​nos últimos 600 anos. Isso significa que apenas cerca de 0,3% de nossa história de arte de 200.000 anos apresenta mãos bonitas. Nesse sentido, vamos dar algum crédito às máquinas.

Por que a AI sofre para criar mãos perfeitas?

Existem algumas razões para a luta da Inteligência Artificial ​​com as mãos, mas elas podem ser divididas em duas categorias: biológicas e técnicas.

Publicidade
  • Razões biológicas:

A complexidade da mão decorre de uma característica biológica fundamental: é a parte do corpo com mais articulações em uma pequena área. Consequentemente, uma única mão pode ter dezenas de posições e representações diferentes, o que está longe de ser o ideal para identificar padrões.

Basicamente, uma AI luta para identificar o que torna uma mão uma mão. E as características básicas mais comuns (cor da pele, textura da pele, unhas, palma da mão e um número plural, mas não identificável, de dedos) não são suficientes para atender aos nossos critérios.

O que todas essas imagens têm em comum?

A inteligência artificial fez progressos significativos na geração de imagens realistas e, até certo ponto, conseguiu até mesmo com as mãos. Apesar de ter cinco, seis ou sete dedos, ainda podemos reconhecer que a AI cria mãos – pelo menos algo como cópias reconhecíveis delas.

No entanto, as mãos desempenham um papel tão crucial em nossas vidas e corpos que nossa percepção tem padrões extremamente elevados. É mais perturbador ver uma mão com seis dedos ou sem juntas do que, por exemplo, uma mulher sem umbigo ou uma pessoa com uma perna mais comprida que a outra.

Publicidade

Isso faz com que as mãos da Inteligência Artificial ​​caiam em um tipo de vale misterioso, onde parecem muito realistas para serem uma representação falsa, mas muito falsas para parecerem reais.

  • Motivos técnicos:

Tecnicamente falando, as imagens geradas por AI têm problemas para retratar com precisão qualquer coisa com padrões regulares definidos.

Por exemplo, imagens criadas por AI de uma pessoa descalça com abdômen “tanquinho” e uma boca sorridente com dentes visíveis provavelmente terão dedos demais, dentes demais ou talvez um número descomunal de definições abdominais.

Imagens geradas por Decrypt usando Stable Diffusion (Reprodução/Decrypt)

No entanto, essas inconsistências não nos incomodam tanto porque os dentes e o abdômen não desempenham um papel tão significativo em nossas vidas quanto as mãos. A maioria das pessoas prefere perder um dente em vez de um dedo e certamente pode viver sem um tanquinho — a menos que seja um fisiculturista.

A escassez de dados é outro problema. AIs ainda não foram treinadas com informações suficientes para se concentrar especificamente nas mãos.

O algoritmo geralmente entende que, quando um dedo está presente, normalmente há mais. Ainda assim, faltam os detalhes necessários para compreender verdadeiramente o comportamento, a localização e a função geral de cada articulação do dedo em cada uma das bilhões de imagens fornecidas para treinamento.

Publicidade

Por exemplo, esta imagem (número 2.120.079.006.880 do modelo de dados Laion-2b -en, usado para treinar a Stable Diffusion) é descrita como “homem com postura prejudicada, defeito de posição escoliose e ideal”, mas não adiciona informações para descrever o que é normal as mãos ficam assim: “sua mão está em uma posição relaxada, com os dedos ligeiramente próximos um do outro e curvados em direção ao corpo com o polegar não visível”

Imagem do conjunto de dados Laion-5b. Fonte: Stability.ai

A Stable Diffusion foi treinada usando o conjunto de dados Laion-5b . Por que você não tenta localizar e descrever adequadamente as mãos humanas em um conjunto de dados de 5,85 bilhões de imagens? Boa sorte.

O futuro das mãos de AI – e como lidar com o problema agora

Dado que o problema está parcialmente em um treinamento inadequado, é razoável supor que os modelos de geração de texto para imagem acabarão superando o desafio de criar mãos realistas.

Por exemplo, o Decrypt recebeu recentemente amostras da impressionante competência do MidJourney em gerar mãos realistas com sua versão mais recente.

Em alguns meses, a sexta iteração do algoritmo deve render resultados ainda mais realistas, dado o crescente investimento nessas tecnologias e a disponibilidade de hardware mais poderoso para processar grandes quantidades de dados.

Amostras de mãos geradas com MidJourney V5. Imagem criada por Decrypt usando AI

As mãos feias estão começando a ficar no passado – pelo menos para artistas de AI profissionais ou experientes. Já é possível gerar mãos realistas usando Stable Diffusion fornecendo orientação para o processo.

Publicidade

Stable Diffusion é um modelo de geração de imagem AI de código aberto semelhante ao MidJourney ou DALL-E.

A principal diferença é que, por causa de sua arquitetura aberta, a comunidade pode adaptá-la às suas necessidades, criando modelos personalizados focados em qualquer coisa, desde imagens futurísticas a desenhos animados e, é claro, imagens adultas sem censura.

Além disso, os usuários podem criar plugins compatíveis com Stable Diffusion para vários propósitos, como poses, mapas de profundidade, fusão de modelos e instruções de implementação para criar mãos realistas.

Atualmente, para gerar imagens com mãos perfeitas com Stable Diffusion, os usuários precisarão instalar e configurar o plug-in ControlNet, fornecer uma imagem de referência com mãos normais para o modelo Openpose instalado,e fornecer ao programa o prompt desejado para avaliar a imagem gerada.

Feito isso, os usuários precisam brincar com os parâmetros e praticar – muito. Mas esse método (que pode identificar mais de 20 pontos-chave diferentes em uma mão humana) se mostra mais eficaz do que o processamento interno de imagem, que envolvia instruir a máquina a modificar apenas a parte da mão e esperar o melhor resultado.

Se você não quer lidar com tudo isso, é claro, você pode usar o Photoshop e editar suas fotos com mãos horríveis. A Adobe vende software de AI para melhorar imagens há 30 anos; portanto, de certa forma, você também é tecnicamente um artista de AI se usar qualquer software de edição de imagem.

À medida que os modelos de AI continuam a evoluir e melhorar, a qualidade das mãos geradas e outros padrões complexos sem dúvida irão avançar. A combinação de maior investimento, disponibilidade de dados e capacidades de hardware, bem como a colaboração dentro da comunidade de código aberto, conduzirá a um progresso significativo neste campo.

*Traduzido com autorização do Decrypt.