Google a récemment lancé Gemini, son modèle d’intelligence artificielle le plus avancé à ce jour. Le modèle a suscité un grand intérêt dans le domaine de l’IA, avec des démonstrations suggérant qu’il surpasse GPT-4, le modèle concurrent d’OpenAI.
Un timing opportun
Le lancement de Gemini intervient à un moment opportun pour Google. OpenAI, le développeur de GPT-4, est encore en convalescence après des luttes internes qui ont entraîné le licenciement et la réintégration du PDG Sam Altman en quelques jours seulement. Il est probable que ce timing avantage Google, laissant à OpenAI moins de temps pour réagir à la nouvelle.
Un scepticisme prudent
Malgré l’excitation générée par le lancement de Gemini, il est important de prendre du recul et de considérer les déclarations de Google avec un certain scepticisme. La société a déployé une campagne promotionnelle intensive sur YouTube, Twitter et son blog, mettant en avant les capacités impressionnantes de l’IA. Cependant, il est essentiel de garder à l’esprit que Google est une entreprise à but lucratif et présentera ses produits sous leur meilleur jour.
Un modèle multimodal
Sundar Pichai, PDG de Google, a partagé une vidéo sur YouTube démontrant les capacités de Gemini. La vidéo met en avant le caractère multimodal du modèle, qui peut comprendre différents types d’entrées, principalement audio et visuelles. Gemini peut identifier précisément des objets, transcrire des paroles en texte et générer des réponses cohérentes à des requêtes complexes.
Gemini est disponible en trois tailles différentes : Ultra, Pro et Nano. Ultra, le modèle le plus complexe, est destiné principalement aux centres de données. Pro est idéal pour des tâches spécifiques à grande échelle, tandis que Nano est conçu pour des tâches “sur l’appareil”, une version local donc comme annoncé pour le Pixel 8 Pro.
Des performances impressionnantes
Les benchmarks de Google montrent que Gemini a obtenu un score exceptionnel de 90 % dans le benchmark MMLU, dépassant le score de GPT-4 de 86,4 %. Ce benchmark mesure la compréhension linguistique multitâche massive dans des domaines tels que les mathématiques, la physique, le droit et l’éthique. Hassabis affirme également que Gemini surpasse GPT-4 de 59,4 à 56,8 % dans le nouveau benchmark MMMU, évaluant les compétences de raisonnement délibéré dans des tâches multidisciplinaires de niveau collégial.
Une concurrence toujours présente
Malgré ces performances impressionnantes, il est crucial de noter que Gemini n’est pas sans concurrence. Certains scores sont si proches de ceux de GPT-4 qu’ils peuvent être négligeables. Par exemple, GPT-4 a obtenu un score supérieur dans le benchmark “HellaSwag”, axé sur le raisonnement de bon sens pour des tâches quotidiennes.
Gemini est déjà en cours de déploiement sur diverses plates-formes, avec une intégration dans Bard, l’assistant de chatbot de Google, en anglais dans plus de 170 pays. Google prévoit également d’intégrer Gemini dans d’autres produits, notamment Search, Ads, Chrome et Duet AI. Une API Gemini Pro sera disponible pour les utilisateurs professionnels à partir du 13 décembre.