ChatGPT agora pode assistir e interagir com você em tempo real

Na quinta-feira, a OpenAI revelou os tão aguardados recursos de vídeo do ChatGPT, permitindo que os usuários apontem seus celulares para objetos e obtenham análises em tempo real feitas por inteligência artificial. Essa funcionalidade, apresentada pela primeira vez em maio, estava aguardando lançamento desde então.

Anteriormente, era possível inserir texto, gráficos, voz ou fotos estáticas para interagir com o GPT. Agora, com o recurso lançado na quinta-feira, o GPT pode assistir em tempo real e fornecer feedback de forma conversacional. Por exemplo, durante testes, este modo foi capaz de resolver problemas de matemática, sugerir receitas, contar histórias e até se tornar o novo melhor amigo da minha filha, interagindo com ela enquanto fazíamos panquecas, oferecendo sugestões e incentivando seu aprendizado por meio de jogos.

O lançamento ocorre apenas um dia depois de o Google apresentar sua própria abordagem com um assistente de IA equipado com câmera, alimentado pelo recém-lançado Gemini 2.0. A Meta também está explorando esse campo com sua IA, que pode “ver” e interagir através de câmeras de celulares.

Os novos recursos do ChatGPT, no entanto, não estão disponíveis para todos. Apenas assinantes dos planos Plus, Team e Pro podem acessar o que a OpenAI chama de “Modo Avançado de Voz com visão”. A assinatura Plus custa US$ 20 por mês, enquanto o plano Pro custa US$ 200.

“Estamos entusiasmados em anunciar que estamos trazendo vídeo para o Modo Avançado de Voz, permitindo integrar vídeo ao vivo e também compartilhamento de tela em tempo real às suas conversas com o ChatGPT”, disse Kevin Weil, Diretor de Produto da OpenAI, em um vídeo divulgado na quinta-feira.

A transmissão fez parte da campanha “12 Dias de OpenAI”, que promete 12 anúncios consecutivos. Até agora, a OpenAI já lançou seu modelo o1 para todos os usuários, apresentou o plano ChatGPT Pro por US$ 200 mensais, introduziu ajustes de reforço para modelos personalizados, lançou o aplicativo de vídeo generativo Sora, atualizou o recurso canvas e disponibilizou o ChatGPT para dispositivos Apple via a funcionalidade Apple Intelligence.

A empresa demonstrou um pouco do que o recurso pode fazer durante a transmissão ao vivo de quinta-feira. A ideia é que os usuários possam ativar o modo de vídeo, na mesma interface do modo avançado de voz, e começar a interagir com o chatbot em tempo real. O chatbot possui uma excelente compreensão visual e é capaz de fornecer feedback relevante com baixa latência, tornando a conversa mais natural.

Chegar a esse ponto não foi um caminho tranquilo. A OpenAI prometeu inicialmente esses recursos “dentro de algumas semanas” no final de abril, mas o lançamento foi adiado após uma controvérsia envolvendo a imitação da voz da atriz Scarlett Johansson — sem sua permissão — no modo avançado de voz. Como o modo de vídeo depende do modo de voz, isso aparentemente atrasou a implementação.

Enquanto isso, o Google não ficou parado. O Project Astra chegou esta semana às mãos de “testadores confiáveis” no Android, prometendo um recurso semelhante: uma IA que fala vários idiomas, acessa buscas e mapas do Google e lembra conversas por até 10 minutos.

Contudo, esse recurso ainda não está amplamente disponível, com um lançamento mais amplo previsto para o início do próximo ano. O Google também tem planos mais ambiciosos para seus modelos de IA, conferindo-lhes a capacidade de executar tarefas em tempo real, mostrando comportamento “agente” além das interações audiovisuais.

A Meta também está competindo por espaço na próxima era das interações com IA. Seu assistente, Meta AI, foi apresentado em setembro. Ele oferece capacidades semelhantes às dos novos assistentes da OpenAI e do Google, com respostas de baixa latência e entendimento de vídeo em tempo real.

No entanto, a Meta está apostando no uso da realidade aumentada para impulsionar sua oferta de IA, com óculos inteligentes “discretos” que contam com uma pequena câmera embutida nas armações. A Meta chama esse projeto de Project Orion.

Os usuários do ChatGPT Plus podem experimentar os novos recursos de vídeo tocando no ícone de voz ao lado da barra de chat e, em seguida, ativando o botão de vídeo. O compartilhamento de tela requer mais um toque no menu de três pontos (conhecido como “hambúrguer”).

Para os usuários corporativos e educacionais do ChatGPT que desejam experimentar os novos recursos de vídeo, janeiro será o mês ideal. E os assinantes da União Europeia? Esses terão que assistir de fora, pelo menos por enquanto.

* Traduzido e editado com autorização do Decrypt.

Com Staking de Solana, você pode ganhar até 4,45% ao ano* + a valorização do ativo no longo prazo. Tenha renda passiva em cripto e receba recompensas a cada 3 dias. Abra sua conta no MB e comece já! *Consulte condições.