Mark Zuckerberg usou dados pirateados para treinar IA da Meta, diz acusação

Uma recente ação judicial contra a Meta alega que Mark Zuckerberg e outros executivos aprovaram o uso de um polêmico conjunto de dados, mesmo após alertas internos
Imagem da matéria: Mark Zuckerberg usou dados pirateados para treinar IA da Meta, diz acusação

Foto: Shutterstock

Mark Zuckerberg aprovou o uso de livros pirateados para treinar a inteligência artificial (IA) da Meta, mesmo após sua equipe alertar que o material havia sido obtido ilegalmente, afirmam autores em uma nova petição judicial.

As acusações vêm de um processo por violação de direitos autorais apresentado por um grupo de autores, incluindo a comediante Sarah Silverman, Christopher Golden e Richard Kadrey, em um tribunal federal da Califórnia em julho de 2023.

Publicidade

O grupo afirma que a Meta usou indevidamente seus livros para treinar o modelo Llama, e busca uma indenização além de uma liminar para impedir a empresa de usar suas obras. O juiz responsável pelo caso rejeitou a maioria das alegações dos autores em novembro daquele mesmo ano, mas essas novas acusações podem dar novo fôlego à disputa legal.

“Mark Zuckerberg, CEO da Meta, aprovou o uso do conjunto de dados LibGen pela empresa, apesar de preocupações dentro da equipe executiva de IA da Meta (e outros membros da companhia) de que o LibGen era ‘um conjunto de dados que sabemos ser pirateado’”, afirmaram os advogados dos autores em uma petição apresentada na quarta-feira. Apesar desses alertas, a ação alega que, “após uma escalada”, Zuckerberg deu luz verde para a equipe de IA da Meta prosseguir com o uso do conjunto de dados controverso.

O LibGen, abreviação de Library Genesis, é uma plataforma online que fornece acesso gratuito a livros, artigos acadêmicos e outras publicações escritas sem obedecer às leis de direitos autorais. Operando como uma “biblioteca clandestina”, o site oferece esses materiais sem autorização de editores ou titulares de direitos. Atualmente, o LibGen hospeda mais de 33 milhões de livros e mais de 85 milhões de artigos.

A ação judicial afirma que a Meta tentou esconder o uso do material até o último momento possível. Apenas duas horas antes do prazo final para entrega de evidências, em 13 de dezembro de 2024, a empresa disponibilizou o que os autores descreveram como “os documentos internos mais incriminadores já produzidos até agora”.

Publicidade

Engenheiros da própria Meta pareciam desconfortáveis com o plano, segundo documentos judiciais. O grupo de autores alega que mensagens internas mostram que os engenheiros hesitaram em baixar o material pirateado, com um deles comentando que “fazer torrent em um laptop corporativo da [Meta] não parece certo (emoji de sorriso)”. Mesmo assim, a equipe prosseguiu não apenas baixando os livros, mas também removendo sistematicamente informações de direitos autorais para prepará-los para o treinamento da IA, segundo a ação.

Os documentos mais recentes do processo pintam um quadro de uma empresa plenamente ciente dos riscos: um memorando interno alertava que “reportagens sugerindo que usamos um conjunto de dados que sabemos ser pirateado, como o LibGen, podem enfraquecer nossa posição de negociação com os reguladores”. Apesar disso, a Meta seguiu em frente, tanto baixando quanto distribuindo (ou “semeando”) o conteúdo pirateado em redes de torrent em janeiro de 2024, de acordo com o processo.

Quando questionado sobre essas atividades em um depoimento, Zuckerberg pareceu se distanciar da decisão, afirmando que tal pirataria levantaria “muitos alertas vermelhos” e “parece algo ruim”.

Os documentos judiciais também sugerem que a abordagem da Meta em lidar com informações protegidas por direitos autorais priorizou o treinamento de modelos sobre as regras de copyright.

Publicidade

Segundo a petição, um engenheiro “filtrou […] linhas de copyright e outros dados do LibGen para preparar uma versão sem informações de gestão de direitos (CMI, em inglês) para treinar o Llama”. Essa remoção sistemática de informações de direitos autorais pode fortalecer as alegações dos autores de que a Meta tentou deliberadamente ocultar o uso de materiais pirateados.

Competição no meio de IA

As revelações surgem em um momento crucial para as ambições da Meta em IA. A empresa tem investido fortemente para competir com a OpenAI e o Google no setor de IA, com o Llama 3.2 sendo o modelo de linguagem de código aberto mais popular, e o Meta AI se destacando como um concorrente gratuito ao ChatGPT com funcionalidades similares.

A maioria dessas empresas de IA enfrenta batalhas legais devido às suas práticas questionáveis no treinamento de grandes modelos de linguagem. A Meta já foi processada por outro grupo de autores por violações de direitos autorais, a OpenAI enfrenta diversos processos por treinar seus modelos em materiais protegidos, e a Anthropic também lida com acusações de autores e compositores.

De modo geral, empreendedores de tecnologia e criadores têm se manifestado contra o uso não autorizado de materiais protegidos desde que a IA generativa ganhou popularidade. Atualmente, há dezenas de processos contra empresas de IA por usarem deliberadamente conteúdos protegidos para treinar seus modelos. Mas, como ocorre com muitas questões de ponta, será necessário esperar para ver o que os tribunais têm a dizer sobre tudo isso.

* Traduzido e editado com autorização do Decrypt.

  • Com Staking de Solana, você pode ganhar até 4,45% ao ano* + a valorização do ativo no longo prazo. Tenha renda passiva em cripto e receba recompensas a cada 3 dias. Abra sua conta no MB e comece já! *Consulte condições.