Mãos humanas e robótica tocam as pontas dos dedos
Shutterstock

A startup de inteligência artificial Mistral AI, com sede em Paris, que recentemente obteve uma avaliação de US$ 2 bilhões, lançou o Mixtral. Trata-se de um modelo aberto de Large Language Model (LLM) que, segundo ela, supera o ChatGPT 3.5 da OpenAI em vários benchmarks (ou marcas de referência).

A Mistral obteve um investimento substancial da Série A da Andreessen Horowitz (a16z), uma empresa de capital de risco conhecida pelos seus investimentos estratégicos em setores tecnológicos transformadores, especialmente em IA. Outros gigantes da tecnologia como Nvidia e Salesforce também participaram da rodada de financiamento.

Publicidade

“Mistral está no centro de uma comunidade pequena, mas apaixonada, de desenvolvedores que cresce em torno da IA ​​de código aberto”, disse a Andreessen Horowitz quando anunciou sua participação no  financiamento.

“Os modelos ajustados pela comunidade agora dominam rotineiramente as tabelas de classificação de código aberto (e até superam os modelos de código fechado em algumas tarefas)”, acrescentou.

A Mixtral usa uma técnica chamada Mistura de especialistas (MoE, na sigla em inglês), que, segundo a empresa, torna o modelo mais poderoso e eficiente do que seu antecessor.

MoE é uma técnica de aprendizado de máquina na qual os desenvolvedores treinam ou configuram vários modelos de especialistas virtuais para resolver problemas complexos. Cada modelo especialista é treinado em um tópico ou campo específico.

Publicidade

Quando confrontado com um problema, o modelo escolhe um grupo de especialistas de um conjunto de agentes, e esses especialistas usam a sua formação para decidir qual o resultado que melhor se adapta aos seus conhecimentos.

O MoE pode melhorar a capacidade, eficiência e precisão do modelo para modelos de aprendizagem profunda — o molho secreto que diferencia o Mixtral dos demais, capaz de competir contra um modelo treinado em 70 bilhões de parâmetros usando um modelo 10 vezes menor.

“Mixtral tem 46,7B de parâmetros totais, mas usa apenas 12,9B de parâmetros por token”, disse a Mistral AI. “Ele, portanto, processa entrada e gera saída na mesma velocidade e pelo mesmo custo que um modelo de 12,9B”.

“O Mixtral supera o Llama 2 70B na maioria dos benchmarks com inferência 6x mais rápida e corresponde ou supera o [Chat] GPT 3.5 na maioria dos benchmarks padrão”, disse a empresa em seu blog oficial.

Publicidade
Fonte: Mistral AI

Polêmica sobre Open Source

O Mixtral também está licenciado sob a licença permissiva Apache 2.0. Isso permite que os desenvolvedores inspecionem, executem, modifiquem e até criem soluções personalizadas livremente com base no modelo.

Há um debate, no entanto, sobre se o Mixtral é 100% open source ou não, já que a Mistral diz que lançou apenas “open weights”, e a licença do modelo principal impede seu uso para competir com a Mistral AI.

A startup também não forneceu o conjunto de dados de treinamento e o código usado para criar o modelo, o que seria o caso de um projeto de código aberto.

A empresa afirma que o Mixtral foi ajustado para funcionar excepcionalmente bem em línguas estrangeiras além do inglês. “Mixtral 8x7B domina francês, alemão, espanhol, italiano e inglês”, com pontuação alta em benchmarks multilíngues padronizados, disse Mistral AI.

Uma versão chamada Mixtral 8x7B Instruct também foi lançada para um acompanhamento cuidadoso das instruções, alcançando uma pontuação máxima de 8,3 no benchmark MT-Bench. Isso o torna o melhor modelo de código aberto atual no benchmark.

Publicidade

O novo modelo da Mistral promete uma arquitetura revolucionária de MoE, boas capacidades multilíngues e acesso aberto completo. E considerando que isso aconteceu poucos meses após sua criação, a comunidade open source está passando por uma era emocionante e interessante.

Mixtral está disponível para download via Hugging Face, mas os usuários também podem usar a versão online.

*Traduzido com autorização do Decrypt.

VOCÊ PODE GOSTAR
Logo da Coinbase proximo a moedas douradas de Bitcoin

Reguladores dos EUA arquivam ação judicial contra Coinbase

CEO da Coinbase, Brian Armstrong, disse que a medida é uma “grande vitória” para a corretora
montagem com símbolo do Bitcoin e bandeira da República Centro-Africana

República Centro-Africana lança memecoin, mas levanta suspeita do mercado

O presidente Faustin-Archange Touadéra disse que $CAR busca unir a população, impulsionar a economia e posicionar o país no cenário global
Michael Saylor posa para foro à frente do logo da Strategy

Strategy vai levantar US$ 2 bilhões para comprar mais Bitcoin

A antiga MicroStrategy revelou seu mais recente plano para levantar fundos: vender US$ 2 bilhões em títulos conversíveis em ações
Tela de computador que mostra moeda de bitcoin em meio a traços matrix

Hacker admite ter invadido conta no X da SEC para manipular preço do Bitcoin

Eric Council admitiu culpa por ajudar a hackear a conta da SEC no X para enganar o mercado sobre a aprovação dos ETFs de Bitcoin