Mãos humanas e robótica tocam as pontas dos dedos
Shutterstock

A startup de inteligência artificial Mistral AI, com sede em Paris, que recentemente obteve uma avaliação de US$ 2 bilhões, lançou o Mixtral. Trata-se de um modelo aberto de Large Language Model (LLM) que, segundo ela, supera o ChatGPT 3.5 da OpenAI em vários benchmarks (ou marcas de referência).

A Mistral obteve um investimento substancial da Série A da Andreessen Horowitz (a16z), uma empresa de capital de risco conhecida pelos seus investimentos estratégicos em setores tecnológicos transformadores, especialmente em IA. Outros gigantes da tecnologia como Nvidia e Salesforce também participaram da rodada de financiamento.

Publicidade

“Mistral está no centro de uma comunidade pequena, mas apaixonada, de desenvolvedores que cresce em torno da IA ​​de código aberto”, disse a Andreessen Horowitz quando anunciou sua participação no  financiamento.

“Os modelos ajustados pela comunidade agora dominam rotineiramente as tabelas de classificação de código aberto (e até superam os modelos de código fechado em algumas tarefas)”, acrescentou.

A Mixtral usa uma técnica chamada Mistura de especialistas (MoE, na sigla em inglês), que, segundo a empresa, torna o modelo mais poderoso e eficiente do que seu antecessor.

MoE é uma técnica de aprendizado de máquina na qual os desenvolvedores treinam ou configuram vários modelos de especialistas virtuais para resolver problemas complexos. Cada modelo especialista é treinado em um tópico ou campo específico.

Publicidade

Quando confrontado com um problema, o modelo escolhe um grupo de especialistas de um conjunto de agentes, e esses especialistas usam a sua formação para decidir qual o resultado que melhor se adapta aos seus conhecimentos.

O MoE pode melhorar a capacidade, eficiência e precisão do modelo para modelos de aprendizagem profunda — o molho secreto que diferencia o Mixtral dos demais, capaz de competir contra um modelo treinado em 70 bilhões de parâmetros usando um modelo 10 vezes menor.

“Mixtral tem 46,7B de parâmetros totais, mas usa apenas 12,9B de parâmetros por token”, disse a Mistral AI. “Ele, portanto, processa entrada e gera saída na mesma velocidade e pelo mesmo custo que um modelo de 12,9B”.

“O Mixtral supera o Llama 2 70B na maioria dos benchmarks com inferência 6x mais rápida e corresponde ou supera o [Chat] GPT 3.5 na maioria dos benchmarks padrão”, disse a empresa em seu blog oficial.

Publicidade
Fonte: Mistral AI

Polêmica sobre Open Source

O Mixtral também está licenciado sob a licença permissiva Apache 2.0. Isso permite que os desenvolvedores inspecionem, executem, modifiquem e até criem soluções personalizadas livremente com base no modelo.

Há um debate, no entanto, sobre se o Mixtral é 100% open source ou não, já que a Mistral diz que lançou apenas “open weights”, e a licença do modelo principal impede seu uso para competir com a Mistral AI.

A startup também não forneceu o conjunto de dados de treinamento e o código usado para criar o modelo, o que seria o caso de um projeto de código aberto.

A empresa afirma que o Mixtral foi ajustado para funcionar excepcionalmente bem em línguas estrangeiras além do inglês. “Mixtral 8x7B domina francês, alemão, espanhol, italiano e inglês”, com pontuação alta em benchmarks multilíngues padronizados, disse Mistral AI.

Uma versão chamada Mixtral 8x7B Instruct também foi lançada para um acompanhamento cuidadoso das instruções, alcançando uma pontuação máxima de 8,3 no benchmark MT-Bench. Isso o torna o melhor modelo de código aberto atual no benchmark.

Publicidade

O novo modelo da Mistral promete uma arquitetura revolucionária de MoE, boas capacidades multilíngues e acesso aberto completo. E considerando que isso aconteceu poucos meses após sua criação, a comunidade open source está passando por uma era emocionante e interessante.

Mixtral está disponível para download via Hugging Face, mas os usuários também podem usar a versão online.

*Traduzido com autorização do Decrypt.

You May Also Like
Imagem da matéria: Nigéria quer R$ 50 bilhões da Binance por "perdas" geradas ao país

Nigéria quer R$ 50 bilhões da Binance por “perdas” geradas ao país

Autoridades nigerianas alegam que a corretora de criptomoedas influenciou o aumento das taxas de câmbio através da especulação da Naira (NGN)
Homem guardando bolo de dólares no bolso interno do paletó

Americano lucra R$ 8,7 milhões com insider trading após bisbilhotar conversa de esposa

Tyler Loudon se aproveitou de informações sigilosas da esposa e comprou ações de uma companhia que seria adquirida por uma das maiores petroleiras do mundo
Presidente do Banco Central da Nigèria, Olayemi Cardoso, posa para foto

Binance é usada para canalizar fundos “ilícitos” e “suspeitos”, diz presidente do BC da Nigéria

Olayemi Cardoso afirmou que a Binance movimentou ano passado US$ 26 bilhões em fundos não rastreáveis
Bandeira com o logotipo da Coinbase se mov eao ar l ivre

Coinbase apoia ETF de Ethereum da Grayscale: ‘Virtualmente idêntico a ETFs de Bitcoin’

Citando a configuração técnica e a capitalização de mercado do Ethereum, a Coinbase acredita que a SEC deveria aprovar um ETF spot de ETH