O Google anunciou hoje o lançamento do Gemini, seu mais recente avanço em inteligência artificial (IA). O Gemini é um grande modelo de linguagem (LLM) multimodal que supera o GPT-4, o chatbot ChatGPT da OpenAI.
Esse novo modelo é capaz de compreender e combinar diferentes tipos de informação, como texto, áudio, imagem, vídeo e linguagens de programação. O CEO do Google DeepMind, Demis Hassabis, destaca que o objetivo do Gemini é ser menos um software inteligente e mais algo útil e intuitivo.
Além disso, o Gemini é o modelo mais flexível já criado pelo Google, podendo ser disponibilizado em data centers e dispositivos móveis, como celulares. Ele vem em três tamanhos diferentes:
- Gemini Ultra: modelo e capaz de lidar com “tarefas altamente complexas”;
- Gemini Pro: modelo ideal para escalar grandes conjuntos de tarefas;
- Gemini Nano: menor versão e mais eficiente para atividades diretas em dispositivos portáteis.
O Gemini 1.0 já está disponível no Google Bard em 170 países, incluindo o Brasil, porém apenas no idioma inglês. Em breve, ele será incorporado ao chatbot e mais idiomas serão adicionados.
O Gemini também estará presente no Google Pixel 8 Pro e futuramente será disponibilizado na busca do Google, no Chrome e em outros serviços e produtos da empresa. No celular da Google, o Gemini Nano poderá executar tarefas no aplicativo de gravação de áudio e na função Smart Reply do Gboard no WhatsApp.
O Gemini foi projetado para ser nativamente multimodal, o que o permite compreender e raciocinar sobre diferentes tipos de informações desde o início. Ele pode extrair insights de centenas de milhares de documentos e fornecer respostas contextuais a perguntas complexas.
Segundo o Google, o Gemini obteve êxito em 30 de 32 benchmarks acadêmicos, superando especialistas humanos em diversas áreas, como matemática, física, história, direito, medicina e ética.
Em comparação com o GPT-4, o Gemini Ultra se destaca em capacidades de texto, raciocínio, matemática e programação. Além disso, em testes multimodais, o Gemini se mostrou mais confiável em relação a imagens, vídeos e áudios.