Apresentando Gemini 2.0: nosso novo modelo de IA para a era dos agentes!



Uma nota do CEO do Google e da Alphabet, Sundar Pichai:



A informação está no cerne do progresso humano. É por isso que nos concentramos por mais de 26 anos em nossa missão de organizar as informações do mundo e torná-las acessíveis e úteis. E é por isso que continuamos a expandir as fronteiras da IA ​​para organizar essas informações em todas as entradas e torná-las acessíveis por meio de qualquer saída, para que possam ser realmente úteis para você.

Essa era a nossa visão quando introduzimos o Gemini 1.0 em dezembro passado . O primeiro modelo construído para ser nativamente multimodal, Gemini 1.0 e 1.5 impulsionaram grandes avanços com multimodalidade e contexto longo para entender informações em texto, vídeo, imagens, áudio e código, e processar muito mais disso.

Agora, milhões de desenvolvedores estão construindo com Gemini. E ele está nos ajudando a reimaginar todos os nossos produtos — incluindo todos os 7 deles com 2 bilhões de usuários — e a criar novos. NotebookLM é um ótimo exemplo do que a multimodalidade e o contexto longo podem permitir para as pessoas, e por que ele é amado por tantos.

No último ano, investimos no desenvolvimento de modelos mais agentes, o que significa que eles podem entender mais sobre o mundo ao seu redor, pensar vários passos à frente e agir em seu nome, com sua supervisão.

Hoje, estamos animados para lançar nossa próxima era de modelos construídos para esta nova era de agentes: apresentando o Gemini 2.0, nosso modelo mais capaz até agora. Com novos avanços em multimodalidade — como saída de imagem e áudio nativa — e uso de ferramentas nativas, ele nos permitirá construir novos agentes de IA que nos aproximem de nossa visão de um assistente universal.

Estamos colocando o 2.0 nas mãos de desenvolvedores e testadores confiáveis ​​hoje. E estamos trabalhando rapidamente para colocá-lo em nossos produtos, liderando com Gemini e Search. A partir de hoje, nosso modelo experimental Gemini 2.0 Flash estará disponível para todos os usuários Gemini. Também estamos lançando um novo recurso chamado Deep Research , que usa raciocínio avançado e recursos de contexto longo para atuar como um assistente de pesquisa, explorando tópicos complexos e compilando relatórios em seu nome. Ele está disponível no Gemini Advanced hoje.

Nenhum produto foi mais transformado pela IA do que a Pesquisa. Nossas Visões Gerais de IA agora alcançam 1 bilhão de pessoas, permitindo que elas façam tipos de perguntas totalmente novos — rapidamente se tornando um dos nossos recursos de Pesquisa mais populares de todos os tempos. Como próximo passo, estamos trazendo os recursos avançados de raciocínio do Gemini 2.0 para as Visões Gerais de IA para abordar tópicos mais complexos e perguntas de várias etapas, incluindo equações matemáticas avançadas, consultas multimodais e codificação. Começamos os testes limitados esta semana e os lançaremos de forma mais ampla no início do ano que vem. E continuaremos a levar as Visões Gerais de IA para mais países e idiomas ao longo do próximo ano.

Os avanços do 2.0 são sustentados por investimentos de uma década em nossa abordagem diferenciada de full-stack para inovação em IA. Ele é construído em hardware personalizado como o Trillium, nossas TPUs de sexta geração. As TPUs alimentaram 100% do treinamento e inferência do Gemini 2.0, e hoje o Trillium está geralmente disponível para os clientes para que eles também possam construir com ele.

Se Gemini 1.0 era sobre organizar e entender informações, Gemini 2.0 é sobre torná-las muito mais úteis. Mal posso esperar para ver o que essa próxima era trará.

-Sundar

Apresentando Gemini 2.0: nosso novo modelo de IA para a era dos agentes

Por Demis Hassabis, CEO do Google DeepMind e Koray Kavukcuoglu, CTO do Google DeepMind em nome da equipe Gemini

No ano passado, continuamos a fazer um progresso incrível em inteligência artificial. Hoje, estamos lançando o primeiro modelo da família Gemini 2.0 de modelos: uma versão experimental do Gemini 2.0 Flash. É nosso modelo de trabalho pesado com baixa latência e desempenho aprimorado na vanguarda da nossa tecnologia, em escala.

Também estamos compartilhando as fronteiras da nossa pesquisa de agentes ao apresentar protótipos habilitados pelos recursos multimodais nativos do Gemini 2.0.


Gêmeos 2.0 Flash

O Gemini 2.0 Flash se baseia no sucesso do 1.5 Flash, nosso modelo mais popular até agora para desenvolvedores, com desempenho aprimorado em tempos de resposta igualmente rápidos. Notavelmente, o 2.0 Flash supera até mesmo o 1.5 Pro em benchmarks importantes, com o dobro da velocidade. O 2.0 Flash também vem com novos recursos. Além de oferecer suporte a entradas multimodais como imagens, vídeo e áudio, o 2.0 Flash agora oferece suporte a saídas multimodais como imagens geradas nativamente misturadas com texto e áudio multilíngue de texto para fala (TTS) direcionável. Ele também pode chamar nativamente ferramentas como o Google Search, execução de código, bem como funções definidas pelo usuário de terceiros.



Nosso objetivo é colocar nossos modelos nas mãos das pessoas com segurança e rapidez. No mês passado, compartilhamos versões iniciais e experimentais do Gemini 2.0, recebendo ótimos comentários dos desenvolvedores.

O Gemini 2.0 Flash está disponível agora como um modelo experimental para desenvolvedores por meio da API Gemini no Google AI Studio e Vertex AI com entrada multimodal e saída de texto disponíveis para todos os desenvolvedores, e geração de texto para fala e imagem nativa disponível para parceiros de acesso antecipado. A disponibilidade geral seguirá em janeiro, junto com mais tamanhos de modelo.

Para ajudar os desenvolvedores a criar aplicativos dinâmicos e interativos, também estamos lançando uma nova Multimodal Live API que tem áudio em tempo real, entrada de streaming de vídeo e a capacidade de usar várias ferramentas combinadas. Mais informações sobre o Flash 2.0 e a Multimodal Live API podem ser encontradas em nosso blog do desenvolvedor .
Gemini 2.0 disponível no aplicativo Gemini, nosso assistente de IA

Também a partir de hoje, os usuários Gemini globalmente podem acessar uma versão otimizada para chat do Flash experimental 2.0 selecionando-a no menu suspenso do modelo no desktop e na web móvel, e ela estará disponível no aplicativo móvel Gemini em breve. Com este novo modelo, os usuários podem experimentar um assistente Gemini ainda mais útil.

No início do ano que vem, expandiremos o Gemini 2.0 para mais produtos do Google.

Desbloqueando experiências de agente com Gemini 2.0

Os recursos de ação da interface de usuário nativa do Gemini 2.0 Flash, juntamente com outras melhorias como raciocínio multimodal, compreensão de contexto longo, acompanhamento e planejamento de instruções complexas, chamada de função composicional, uso de ferramentas nativas e latência aprimorada, todos trabalham em conjunto para permitir uma nova classe de experiências de agente.

A aplicação prática de agentes de IA é uma área de pesquisa cheia de possibilidades empolgantes. Estamos explorando essa nova fronteira com uma série de protótipos que podem ajudar as pessoas a realizar tarefas e fazer as coisas. Isso inclui uma atualização do Projeto Astra, nosso protótipo de pesquisa explorando capacidades futuras de um assistente de IA universal; o novo Projeto Mariner, que explora o futuro da interação humano-agente, começando com seu navegador; e Jules, um agente de código alimentado por IA que pode ajudar os desenvolvedores.

Ainda estamos nos estágios iniciais de desenvolvimento, mas estamos animados para ver como testadores confiáveis ​​usarão esses novos recursos e quais lições podemos aprender para que possamos torná-los mais amplamente disponíveis em produtos no futuro.



Projeto Astra: agentes usando compreensão multimodal no mundo real

Desde que apresentamos o Projeto Astra no I/O, temos aprendido com testadores confiáveis ​​que o usam em telefones Android. O feedback valioso deles nos ajudou a entender melhor como um assistente de IA universal poderia funcionar na prática, incluindo implicações para segurança e ética. As melhorias na versão mais recente construída com Gemini 2.0 incluem:Melhor diálogo: o Projeto Astra agora tem a capacidade de conversar em vários idiomas e em idiomas mistos, com melhor compreensão de sotaques e palavras incomuns.
Novo uso da ferramenta: com o Gemini 2.0, o Projeto Astra pode usar a Pesquisa Google, o Lens e o Maps, tornando-o mais útil como um assistente na sua vida cotidiana.
Melhor memória: Melhoramos a capacidade do Project Astra de lembrar coisas enquanto mantém você no controle. Agora ele tem até 10 minutos de memória em sessão e pode lembrar mais conversas que você teve com ele no passado, então ele é mais personalizado para você.
Latência aprimorada: com novos recursos de streaming e compreensão de áudio nativa, o agente pode entender a linguagem com latência próxima à de uma conversa humana.

Estamos trabalhando para levar esses tipos de recursos para produtos do Google, como o aplicativo Gemini , nosso assistente de IA e para outros fatores de forma, como óculos. E estamos começando a expandir nosso programa de testadores confiáveis ​​para mais pessoas, incluindo um pequeno grupo que em breve começará a testar o Projeto Astra em protótipos de óculos.




Projeto Mariner: agentes que podem ajudar você a realizar tarefas complexas

O Project Mariner é um protótipo de pesquisa inicial construído com Gemini 2.0 que explora o futuro da interação humano-agente, começando com seu navegador. Como um protótipo de pesquisa, ele é capaz de entender e raciocinar sobre informações na tela do seu navegador, incluindo pixels e elementos da web como texto, código, imagens e formulários, e então usa essas informações por meio de uma extensão experimental do Chrome para concluir tarefas para você.

Quando avaliado em relação ao benchmark WebVoyager , que testa o desempenho do agente em tarefas web reais de ponta a ponta, o Project Mariner alcançou um resultado de última geração de 83,5% trabalhando como uma configuração de agente único.

Ainda é cedo, mas o Projeto Mariner mostra que está se tornando tecnicamente possível navegar em um navegador, mesmo que hoje em dia não seja sempre preciso e lento concluir tarefas, o que melhorará rapidamente com o tempo.

Para construir isso com segurança e responsabilidade, estamos conduzindo pesquisas ativas sobre novos tipos de riscos e mitigações, enquanto mantemos os humanos informados. Por exemplo, o Project Mariner só pode digitar, rolar ou clicar na aba ativa do seu navegador e pede aos usuários uma confirmação final antes de tomar certas ações sensíveis, como comprar algo.

Testadores confiáveis ​​estão começando a testar o Projeto Mariner usando uma extensão experimental do Chrome agora, e estamos iniciando conversas com o ecossistema da web em paralelo.


Jules: agentes para desenvolvedores

Em seguida, estamos explorando como os agentes de IA podem auxiliar os desenvolvedores com o Jules — um agente de código experimental alimentado por IA que se integra diretamente a um fluxo de trabalho do GitHub. Ele pode resolver um problema, desenvolver um plano e executá-lo, tudo sob a direção e supervisão de um desenvolvedor. Esse esforço faz parte da nossa meta de longo prazo de construir agentes de IA que sejam úteis em todos os domínios, incluindo codificação.

Mais informações sobre esse experimento em andamento podem ser encontradas em nossa postagem do blog do desenvolvedor .


Agentes em jogos e outros domínios

O Google DeepMind tem um longo histórico de uso de jogos para ajudar modelos de IA a se tornarem melhores em seguir regras, planejamento e lógica. Na semana passada, por exemplo, apresentamos o Genie 2 , nosso modelo de IA que pode criar uma variedade infinita de mundos 3D jogáveis ​​— tudo a partir de uma única imagem. Com base nessa tradição, criamos agentes usando o Gemini 2.0 que podem ajudar você a navegar no mundo virtual dos videogames. Ele pode raciocinar sobre o jogo com base apenas na ação na tela e oferecer sugestões sobre o que fazer em seguida em uma conversa em tempo real.

Estamos colaborando com desenvolvedores de jogos líderes como a Supercell para explorar como esses agentes funcionam, testando sua capacidade de interpretar regras e desafios em uma ampla gama de jogos, desde títulos de estratégia como "Clash of Clans" até simuladores de fazenda como "Hay Day".

Além de atuarem como companheiros virtuais de jogos, esses agentes podem até mesmo acessar a Pesquisa Google para conectar você ao vasto conhecimento sobre jogos na web.




Além de explorar capacidades de agente no mundo virtual, estamos experimentando agentes que podem ajudar no mundo físico aplicando as capacidades de raciocínio espacial do Gemini 2.0 à robótica. Embora ainda seja cedo, estamos animados com o potencial de agentes que podem ajudar no ambiente físico.

Você pode aprender mais sobre esses protótipos de pesquisa e experimentos em labs.google .


Construir de forma responsável na era dos agentes

O Gemini 2.0 Flash e nossos protótipos de pesquisa nos permitem testar e iterar novos recursos na vanguarda da pesquisa de IA que eventualmente tornarão os produtos do Google mais úteis.

À medida que desenvolvemos essas novas tecnologias, reconhecemos a responsabilidade que elas acarretam e as muitas perguntas que os agentes de IA abrem para a segurança e proteção. É por isso que estamos adotando uma abordagem exploratória e gradual para o desenvolvimento, conduzindo pesquisas em vários protótipos, implementando iterativamente o treinamento de segurança, trabalhando com testadores confiáveis ​​e especialistas externos e realizando avaliações de risco extensivas e avaliações de segurança e garantia.

Por exemplo:Como parte do nosso processo de segurança, trabalhamos com nosso Comitê de Responsabilidade e Segurança (RSC), nosso antigo grupo de revisão interna, para identificar e entender riscos potenciais.
Os recursos de raciocínio do Gemini 2.0 permitiram grandes avanços em nossa abordagem de red teaming assistida por IA, incluindo a capacidade de ir além da simples detecção de riscos para agora gerar automaticamente avaliações e dados de treinamento para mitigá-los. Isso significa que podemos otimizar o modelo de forma mais eficiente para segurança em escala.
À medida que a multimodalidade do Gemini 2.0 aumenta a complexidade das saídas potenciais, continuaremos avaliando e treinando o modelo em entradas e saídas de imagem e áudio para ajudar a melhorar a segurança.
Com o Projeto Astra, estamos explorando potenciais mitigações contra usuários que compartilham informações confidenciais com o agente sem querer, e já criamos controles de privacidade que facilitam a exclusão de sessões pelos usuários. Também continuamos pesquisando maneiras de garantir que os agentes de IA atuem como fontes confiáveis ​​de informações e não tomem ações não intencionais em seu nome.
Com o Project Mariner, estamos trabalhando para garantir que o modelo aprenda a priorizar instruções do usuário em relação a tentativas de terceiros de injeção rápida, para que ele possa identificar instruções potencialmente maliciosas de fontes externas e evitar o uso indevido. Isso evita que os usuários sejam expostos a fraudes e tentativas de phishing por meio de coisas como instruções maliciosas ocultas em e-mails, documentos ou sites.

Acreditamos firmemente que a única maneira de desenvolver IA é ser responsável desde o início e continuaremos a priorizar tornar a segurança e a responsabilidade um elemento-chave do nosso processo de desenvolvimento de modelos à medida que avançamos em nossos modelos e agentes.

Gemini 2.0, agentes de IA e muito mais

Os lançamentos de hoje marcam um novo capítulo para o nosso modelo Gemini. Com o lançamento do Gemini 2.0 Flash e a série de protótipos de pesquisa explorando possibilidades agênticas, alcançamos um marco emocionante na era Gemini. E estamos ansiosos para continuar a explorar com segurança todas as novas possibilidades ao nosso alcance enquanto construímos em direção à AGI.
Fonte: blog.google

Comentários