Mistral AI escolhe modelo de 'mistura de especialistas' para desafiar o ChatGPT

A startup de inteligência artificial Mistral AI, com sede em Paris, que recentemente obteve uma avaliação de US$ 2 bilhões, lançou o Mixtral. Trata-se de um modelo aberto de Large Language Model (LLM) que, segundo ela, supera o ChatGPT 3.5 da OpenAI em vários benchmarks (ou marcas de referência).

A Mistral obteve um investimento substancial da Série A da Andreessen Horowitz (a16z), uma empresa de capital de risco conhecida pelos seus investimentos estratégicos em setores tecnológicos transformadores, especialmente em IA. Outros gigantes da tecnologia como Nvidia e Salesforce também participaram da rodada de financiamento.

“Mistral está no centro de uma comunidade pequena, mas apaixonada, de desenvolvedores que cresce em torno da IA de código aberto”, disse a Andreessen Horowitz quando anunciou sua participação no financiamento.

“Os modelos ajustados pela comunidade agora dominam rotineiramente as tabelas de classificação de código aberto (e até superam os modelos de código fechado em algumas tarefas)”, acrescentou.

A Mixtral usa uma técnica chamada Mistura de especialistas (MoE, na sigla em inglês), que, segundo a empresa, torna o modelo mais poderoso e eficiente do que seu antecessor.

MoE é uma técnica de aprendizado de máquina na qual os desenvolvedores treinam ou configuram vários modelos de especialistas virtuais para resolver problemas complexos. Cada modelo especialista é treinado em um tópico ou campo específico.

Quando confrontado com um problema, o modelo escolhe um grupo de especialistas de um conjunto de agentes, e esses especialistas usam a sua formação para decidir qual o resultado que melhor se adapta aos seus conhecimentos.

O MoE pode melhorar a capacidade, eficiência e precisão do modelo para modelos de aprendizagem profunda — o molho secreto que diferencia o Mixtral dos demais, capaz de competir contra um modelo treinado em 70 bilhões de parâmetros usando um modelo 10 vezes menor.

“Mixtral tem 46,7B de parâmetros totais, mas usa apenas 12,9B de parâmetros por token”, disse a Mistral AI. “Ele, portanto, processa entrada e gera saída na mesma velocidade e pelo mesmo custo que um modelo de 12,9B”.

“O Mixtral supera o Llama 2 70B na maioria dos benchmarks com inferência 6x mais rápida e corresponde ou supera o [Chat] GPT 3.5 na maioria dos benchmarks padrão”, disse a empresa em seu blog oficial.

Polêmica sobre Open Source

O Mixtral também está licenciado sob a licença permissiva Apache 2.0. Isso permite que os desenvolvedores inspecionem, executem, modifiquem e até criem soluções personalizadas livremente com base no modelo.

Há um debate, no entanto, sobre se o Mixtral é 100% open source ou não, já que a Mistral diz que lançou apenas “open weights”, e a licença do modelo principal impede seu uso para competir com a Mistral AI.

A startup também não forneceu o conjunto de dados de treinamento e o código usado para criar o modelo, o que seria o caso de um projeto de código aberto.

A empresa afirma que o Mixtral foi ajustado para funcionar excepcionalmente bem em línguas estrangeiras além do inglês. “Mixtral 8x7B domina francês, alemão, espanhol, italiano e inglês”, com pontuação alta em benchmarks multilíngues padronizados, disse Mistral AI.

Uma versão chamada Mixtral 8x7B Instruct também foi lançada para um acompanhamento cuidadoso das instruções, alcançando uma pontuação máxima de 8,3 no benchmark MT-Bench. Isso o torna o melhor modelo de código aberto atual no benchmark.

O novo modelo da Mistral promete uma arquitetura revolucionária de MoE, boas capacidades multilíngues e acesso aberto completo. E considerando que isso aconteceu poucos meses após sua criação, a comunidade open source está passando por uma era emocionante e interessante.

Mixtral está disponível para download via Hugging Face, mas os usuários também podem usar a versão online.

*Traduzido com autorização do Decrypt.