Nous vous proposons cette excellente contribution de Libération
La course aux IA s’accélère. Il y a tout juste un an, Sam Altman, à la tête d’Open AI, lançait ChatGPT, une intelligence conversationnelle capable de trouver une réponse à de nombreuses questions. La technologie avait fait basculer notre monde dans une projection concrète ce que pourrait être un futur entouré de «super-intelligences», charriant dans le même temps son lot de questionnements quant aux limites à fixer et leur influence, sur le travail notamment. Ce mercredi, Google a fait fi de ces interrogations et a décidé de presser encore le développement de ces outils en lançant Gemini, un nouveau modèle censé ringardiser ChatGPT. «C’est notre modèle d’IA le plus conséquent, le plus doué et aussi le plus général», a assuré Eli Collins, un vice-président de Google DeepMind, le laboratoire de recherche en IA du groupe californien, lors d’une présentation à la presse. Sundar Pichai, le DG de la firme, a précisé dans une vidéo d’annonce les intérêts de Google : «On a toujours vu notre mission comme sans limite de temps. On doit être capables d’organiser les informations de ce monde et de les rendre utiles et universelles pour tout le monde.»
Let’s go hands-on with #GeminiAI.
— Google (@Google) December 6, 2023
Our newest AI model can reason across different types of inputs and outputs — like images and text. See Gemini’s multimodal reasoning capabilities in action ↓ pic.twitter.com/tikHjGJ5Xj
«C’est un canard !»
Concrètement, Google cherche à développer une IA omnisciente. Une technologie capable de tout voir, de tout entendre, de tout comprendre – pas seulement du texte comme c’est le cas pour ChatGPT, mais aussi des images, du code et du son – et d’en faire ensuite l’analyse pour ses utilisateurs. Dans des vidéos de démonstration publiées sur YouTube ce jeudi, on voit un homme tracer un trait arrondi sur un post-it à la caméra. Gemini lui répond avec une voix fluide, à peine robotisée : «C’est un trait. Les contours sont lisses et fluides sans angles.»
L’homme dessine ensuite des yeux, des pattes et de l’eau. «Ça m’a l’air d’être un oiseau. L’oiseau nage dans l’eau. Il a un long cou et un bec. C’est un canard ! Un canard est un type de sauvagine de la famille des anatidés. Les canards sont étroitement liés aux oies et aux cygnes.» Il est ensuite capable d’en donner la traduction dans toutes les langues et de le placer sur une carte. Un test qui peut paraître anodin, voire presque enfantin, mais qui nous éclaire en réalité sur le potentiel de cette intelligence capable de voir ce que nous voyons, de le commenter et de justifier son raisonnement. «Sur les tests que nous avons faits sur des sujets précis – notamment dans l’industrie –, Gemini est aussi forte que les meilleurs experts du sujet», assure Eli Collins.
«Notre vision»
Le déploiement de Gemini apparaît déjà comme une revanche pour la multinationale de Mountain View. Il y a un an, elle avait été prise de court par ChatGPT, dont le succès avait été aussi phénoménal qu’inattendu. Le développement dans le secret de cette technologie plus puissante à bien des égards avant son lancement dans un spot vidéo teinté d’émotion quelques jours à peine après l’anniversaire de sa rivale ressemble à une réponse. Google dispose désormais de nombreux atouts pour devenir leader du marché des IA. L’entreprise va donner accès le 13 décembre à une première version de sa technologie à ses clients dans le cloud (informatique à distance), dont les développeurs qui se servent de sa plateforme Vertex AI pour créer leurs propres applications d’IA.
Le Google Pixel 8 Pro, sorti en octobre, sera le premier smartphone de la firme à être équipé de l’IA. Après une mise à jour, il pourra notamment aider à produire des réponses rapides à notre place dans WhatsApp, en consultant l’historique des messages, et en y suggérant du contenu en fonction. Gemini sera aussi capable de faire un résumé rapide des notes vocales ou de les retranscrire. «C’est une étape de plus vers notre vision : vous amener le meilleur collaborateur d’IA au monde», a souligné mercredi Sissie Hsiao, vice-présidente de Google chargée de Bard, l’outil d’IA conversationnelle de Google. Il faudra attendre 2024 pour le déploiement de nouvelles fonctionnalités, comme l’aide avancée à la résolution de problèmes de maths. Mais, selon Sundar Pichai, voilà Google déjà entré les deux pieds dans le futur. «Cette nouvelle ère de modèles représente l’un des plus grands efforts scientifiques et techniques que nous ayons entrepris en tant que société», a-t-il déclaré dans un communiqué.