Grok 4 vient de crever le plafond de l'IA - voici pourquoi cela change tout

1er août

Présentation de Grok 4, le modèle d'IA le plus puissant au monde. Regardez le livestream dès maintenant : https://t.co/59iDX5s2ck
- xAI (@xai) 10 juillet 2025

La situation s'est rapidement aggravée. Il y a trois semaines, Elon Musk et xAI ont présenté Grok 4 à un monde qui ne se doutait de rien, et les résultats continuent de faire réfléchir les chercheurs en IA les plus chevronnés. Imaginez une IA qui raisonne à travers les problèmes comme une équipe de docteurs caféinés qui réfléchissent à 3 heures du matin. Maintenant que l'engouement initial est retombé et que les développeurs ont mis Grok 4 à l'épreuve, permettez-moi de vous expliquer pourquoi ce modèle représente bien plus qu'une nouvelle version : c'est un aperçu d'un avenir où l'IA deviendra un véritable partenaire intellectuel.

https://x.com/xai/status/1943158495588815072

Le lancement qui a battu l'Internet (et quelques records)

xAI a dévoilé Grok 4 le 9 juillet 2025, lors d'un livestream qui a attiré 1,5 million de téléspectateurs - pas mal pour une présentation technique nocturne.¹ Le moment était... intéressant, puisqu'il arrivait juste un jour après que Grok 3 ait fait les gros titres pour toutes les mauvaises raisons avec des résultats controversés.² Mais xAI a décidé que la meilleure défense était une attaque écrasante.

Musk a présenté deux variantes : Grok 4 standard et Grok 4 Heavy, ce dernier déployant plusieurs agents d'IA qui recoupent le travail de chacun comme un groupe d'étude où tout le monde a fait la lecture.³ L'accès fonctionne via l'application Grok, le site Web ou l'API, avec Heavy exclusif aux abonnés SuperGrok Heavy à 300 $/mois - un point de prix qui dit que "nous sommes sérieux à ce sujet."⁴ Pour les curieux : https://x.ai/grok pour un accès général, https://x.ai/api pour les développeurs.

Des fonctionnalités qui font ressembler les autres IA à des calculatrices

Grok 4 dispose d'une fenêtre contextuelle de 256 000 mots-clés (c'est à peu près l'équivalent d'un roman qu'il peut traiter en une seule fois), d'une analyse d'images, d'appels de fonctions et de modes vocaux si naturels que vous pourriez oublier que vous parlez à du silicium.⁵ Mais c'est là que ça devient piquant : l'utilisation d'outils natifs. xAI a entraîné cette bête avec l'apprentissage par renforcement à manier un interpréteur de code et des extensions de son esprit semblables à celles d'un navigateur web.

La recherche en temps réel dans X, sur le Web et dans les actualités permet d'actualiser les réponses - plus d'excuses du type "je n'ai plus de connaissances". Les capacités multimodales permettent de mélanger de manière transparente l'analyse de texte et l'analyse visuelle, tandis que le mode vocal ajoute l'analyse de scène par le biais de votre caméra.⁶ Pour les entreprises qui s'inquiètent de la conformité : SOC 2 Type 2, GDPR et CCPA sont tous cochés. C'est comme avoir un assistant de recherche plein d'esprit qui ne dort jamais, ne se plaint jamais des heures supplémentaires et comprend votre terrible écriture.

La sauce secrète : Quand la force brute rencontre la finesse

Derrière la magie de Grok 4 se cache le supercalculateur Colossus de xAI, un monstre de 200 000 GPU qui fait ressembler la plupart des centres de données à des calculatrices de poche.⁷ Mais la puissance brute ne dit pas tout. xAI a révolutionné son approche en adaptant l'apprentissage par renforcement au calcul de pré-entraînement, en se concentrant sur des données vérifiables issues des mathématiques, du codage et des domaines scientifiques, ce qui a permis de multiplier l'efficacité par 6, transformant la puissance de calcul en une intelligence raffinée.⁸

La véritable innovation ? Ils ont consacré autant d'argent à l'apprentissage par renforcement post-entraînement qu'au pré-entraînement lui-même.⁹ Grok 4 Heavy pousse l'approche plus loin avec le calcul parallèle du temps de test - plusieurs agents d'IA s'attaquant simultanément à des problèmes avant de comparer leurs notes. Imaginez que vous passiez d'un inventeur de garage solitaire à un orchestre synchronisé de lauréats du prix Nobel, chacun vérifiant le travail des autres.

Le bilan des infrastructures

Le supercalculateur Colossus possède 200 000 GPU, ce qui est juste... Je n'arrive même pas à me faire à l'idée de ce chiffre. La plupart des entreprises sont ravies lorsqu'elles parviennent à faire fonctionner un cluster de quelques centaines de GPU. Mais 200 000 ? La production de chaleur à elle seule équivaudrait à faire fonctionner une petite centrale électrique.

Et ce, avant même de penser à les connecter correctement, à les alimenter en données, à s'assurer que votre réseau électrique ne vous lâche pas.... Chaque détail compte : la façon dont vous disposez les racks, le type de refroidissement que vous utilisez (et oui, vous avez besoin d'un refroidissement sérieux car ces choses chauffent), ainsi que tous les cauchemars en matière de réseau et de distribution d'énergie qui en découlent. Si l'une des pièces de ce puzzle est défectueuse, vous brûlez de l'argent avec du matériel peu performant. Les entreprises qui cherchent à construire leur propre infrastructure d'IA, qu'il s'agisse de 10 GPU ou de 10 000 000, ont besoin d'une expertise dans tous les domaines, de la distribution d'énergie aux connexions complexes par fibre optique qui permettent aux données de circuler à la vitesse de la lumière. C'est là que le déploiement d'une infrastructure professionnelle fait la différence entre les spécifications théoriques et les performances réelles. Comme l'équipe d'Introl le sait pour avoir déployé d'innombrables clusters d'IA, le diable est vraiment dans les détails - une infrastructure appropriée peut faire la différence entre des GPU fonctionnant à 95 % d'efficacité et le fait de laisser 30 % de vos performances sur la table.

Des chiffres qui font pleurer de joie les statisticiens

Jetons un coup d'œil aux tests de référence qui font vibrer la communauté de l'IA. Sur le test ARC-AGI-2, notoirement brutal, où les modèles doivent démontrer un raisonnement abstrait avec un minimum d'exemples, Grok 4 (Thinking mode) revendique le trône avec 15,9 % à environ 4 $ par tâche.¹⁰ Cela double presque les 8,6 % de Claude Opus 4, et avant de vous moquer de "seulement 15,9 %", rappelez-vous que la plupart des modèles peinent à dépasser les 5 % sur ce test.¹¹ C'est comme regarder quelqu'un résoudre des Rubik's cubes les yeux bandés alors que tous les autres sont encore en train de comprendre quel côté est rouge.

Les expériences de mise à l'échelle révèlent quelque chose de fascinant. Avec le calcul d'entraînement seul, Grok 4 atteint environ 50 % sur le dernier examen de l'humanité (sous-ensemble de texte uniquement). Si l'on ajoute des outils, il atteint 50,7 %.¹² La mise à l'échelle du temps de test plafonne à près de 50 %, ce qui prouve que des stratégies d'inférence plus innovantes - et pas seulement l'utilisation de plus de calcul pour résoudre les problèmes - permettent de réaliser des percées.

Sur AIME25 (American Invitational Mathematics Examination), Grok 4 Heavy obtient un score parfait de 100 %, laissant Claude 4 Opus (75,5 %) et Gemini 2.5 Pro (88,0 %) dans la poussière.¹³ Même sans outils, Grok 4 standard obtient un score de 91,7 %, c'est-à-dire mieux que la plupart des participants humains à des concours de mathématiques.

Mais voici le clou du spectacle : le dernier examen de l'humanité (jeu complet). Le gantelet de plus de 2 500 questions portant sur les STIM et les sciences humaines sépare la mémorisation du véritable raisonnement.¹⁴ Grok 4 Heavy obtient un score de 44,4 %, doublant presque les 25,4 % de Gemini 2.5 Pro et plus que le double des 21,0 % de o3.¹⁵ Lorsque votre IA surpasse les autres par de telles marges, vous n'êtes pas en train d'itérer - vous êtes en train de révolutionner.

Des performances réelles qui comptent

Au-delà des critères académiques, Grok 4 domine les tests pratiques. Sur Vending-Bench (oui, il s'agit d'un véritable test d'optimisation des opérations des distributeurs automatiques), il atteint une valeur nette de 4 694 dollars avec 4 569 unités vendues, soit plus du double des 2 077 dollars de Claude Opus 4 et le quintuple des performances humaines avec 844 dollars.¹⁶

Autres victoires : USAMO'25 (61,9 %), GPQA Diamond (88 %), LiveCodeBench (79,4 %) et MMLU-Pro (87 %).¹⁷ Les évaluateurs indépendants d'Artificial Analysis couronnent Grok 4 avec un 73 sur leur indice d'intelligence, devançant o3 d'OpenAI et Gemini 2.5 Pro de Google (tous deux à 70).¹⁸ Pas mal pour un modèle qui est apparu il y a seulement trois semaines.

Le verdict de la communauté : enthousiaste, sceptique et tout ce qu'il y a entre les deux

Depuis son lancement, X (anciennement Twitter) est devenu un terrain d'essai pour les capacités de Grok 4. Les développeurs disent avoir collé des bases de code entières pour les déboguer, avec des résultats qui surpassent ceux d'outils spécialisés comme Cursor.¹⁹ Un utilisateur l'a qualifié de "la chose la plus proche de l'AGI à ce jour", tandis que les scientifiques interrogent des problèmes de matériaux non résolus et reçoivent de nouvelles idées qui se vérifient.²⁰ Après trois semaines d'utilisation réelle, des modèles ont émergé : le modèle excelle dans les tâches de raisonnement complexes, mais montre des bizarreries intéressantes dans les applications créatives.

Mais il n'y a pas que des ovations. Les utilisateurs notent des limitations de vitesse à 75 tokens/seconde (respectable mais pas fulgurant), et la modération du contenu reste minimale - Grok 4 est moins filtré que ses concurrents, ce qui a suscité des débats sur la neutralité de l'IA par rapport à la sécurité.²¹ Certains apprécient les réponses brutes et sans fard ; d'autres s'inquiètent d'une éventuelle utilisation abusive. La démocratie en action.

Ce que cela signifie pour demain (Spoiler : tout change)

C'est là que mon optimisme s'emballe. Grok 4 transcende la catégorie des chatbots : c'est un avant-goût de l'IA en tant que partenaire intellectuel. Lorsqu'une IA obtiendra des résultats de niveau doctoral aux concours de mathématiques et aidera les scientifiques à explorer des problèmes non résolus, nous assisterons à l'aube de la découverte augmentée.

Pour la science: Imaginez que les chercheurs du monde entier aient accès à une IA qui comprend véritablement les mathématiques complexes et peut proposer de nouvelles hypothèses. La découverte de médicaments, la modélisation du climat et la science des matériaux sont accélérées.

Pour l'ingénierie: Au-delà du débogage, nous parlons d'une IA qui comprend les architectures des systèmes et peut suggérer des optimisations que les humains n'auraient jamais envisagées. C'est comme avoir Dijkstra et Turing en numérotation rapide.

Pour l'éducation: Un tutorat personnalisé qui s'adapte non seulement aux erreurs des élèves, mais aussi à leur façon de penser. Chaque apprenant reçoit un mentor patient et brillant adapté à son style cognitif.

Pour les entreprises: De la planification stratégique à l'analyse de marché, les capacités de raisonnement de Grok 4 peuvent transformer la prise de décision en une compréhension nuancée des données.

Les mises en garde (parce que l'honnêteté vaut mieux que le battage médiatique)

Soyons réalistes : aucune IA n'est parfaite, et Grok 4 a une marge de progression. La vitesse de 75 jetons/seconde ne permettra pas de gagner des courses contre des serveurs d'inférence spécialisés. Les hallucinations, bien que réduites, n'ont pas entièrement disparu (un défi pour l'ensemble du secteur). Le filtrage minimal du contenu soulève des inquiétudes valables quant aux possibilités d'utilisation abusive.

xAI ne nous a rien dit sur ses données d'entraînement, et ce n'est pas génial. Nous savons tous comment cela se passe : les biais des données sont amplifiés lorsque l'on passe à une échelle aussi grande. Tous les acteurs de l'IA observent la xAI comme des faucons en ce moment. Comment gèrent-ils l'aspect éthique à mesure que Grok 4 se répand ? Cela va être très important.

La route à suivre : Les choses vont devenir bizarres

Au cours de la présentation, xAI a montré certains de ses projets, et une chose m'a complètement époustouflé. Ils ont mentionné la connexion de Grok au logiciel de dynamique des fluides de Tesla - le même CFD que les ingénieurs de Tesla utilisent pour l'aérodynamique et la gestion thermique sur les véhicules réels.²²

J'ai dû réfléchir à cela pendant une minute. Nous nous sommes habitués à une IA qui connaît des faits, répond à des questions et écrit du code. Mais l'intégration de la CFD représente quelque chose de différent. C'est une chose d'avoir une IA capable d'expliquer le fonctionnement de la dynamique des fluides. C'est une toute autre chose lorsque cette IA peut utiliser un logiciel de CFD pour concevoir des objets qui se déplacent dans l'air et dissipent la chaleur. Il ne s'agit pas d'un progrès progressif, mais d'une capacité entièrement nouvelle.

OpenAI, Anthropic et Google ne vont pas rester à l'écart. Mais Grok 4 a changé la donne : nous sommes passés du statut d'"assistant utile" à celui de "partenaire de raisonnement". Ce changement me rappelle ce dont parle Ray Kurzweil à propos de l'explosion de l'intelligence : chaque percée permet à la suivante de se produire de plus en plus rapidement. Nous assistons à ce phénomène en temps réel.

À vous de jouer : Qu'allez-vous construire ?

J'ai donc réfléchi : que se passera-t-il lorsque l'IA sera capable de raisonner au niveau d'un doctorat dans tous les domaines ? Quels sont les problèmes qui semblaient impossibles à résoudre et qui s'ouvrent soudain au grand jour ? Que découvrons-nous lorsque nos outils peuvent penser en même temps que nous ? Et honnêtement, quels types de garde-fous devons-nous mettre en place lorsque l'IA devient aussi intelligente ?

Si vous êtes un développeur, vous êtes déjà en train de planifier ce que vous allez construire avec ces API. Les chercheurs sont probablement en train de s'amuser en pensant à ce qui est soudainement possible. Et si vous êtes assis ici et que vous vous demandez ce que signifie la capacité de Grok 4, je comprends. Il faut du temps pour assimiler le concept.

Mais voilà : Grok 4 a atterri dans nos mains, que nous soyons prêts ou non. L'IA nous a dit : "Voici ce qui est possible aujourd'hui, trouvez ce que vous voulez en faire."

Alors... qu'allez-vous faire avec ? L'API Grok se trouve à l'adresse suivante https://x.ai/apiet il existe toute une communauté sur X où les développeurs et les chercheurs repoussent déjà les limites. Après trois semaines, nous voyons des applications que personne n'avait prévues au moment du lancement. L'opportunité est énorme, ne la gâchons pas.

Références

Scott Rosenberg, "Elon Musk's xAI debuts Grok 4, 'smartest AI in the world'", Axios, 10 juillet 2025, https://www.axios.com/2025/07/10/grok4-grok-xai-elon-musk.
"Musk dévoile la mise à jour Grok 4 un jour après que le chatbot xAI ait fait des remarques antisémites", CBS News, 10 juillet 2025, https://www.cbsnews.com/news/elon-musk-grok-4-ai-chatbot-x/.
"Elon Musk's xAI launches Grok 4 alongside a $300 monthly subscription," TechCrunch, July 9, 2025, https://techcrunch.com/2025/07/09/elon-musks-xai-launches-grok-4-alongside-a-300-monthly-subscription/.
"L'entreprise xAI d'Elon Musk lance Grok 4 avec un abonnement mensuel de 300 dollars", TechCrunch.
xAI, "Grok 4 Release Announcement", présentation livestream, 9 juillet 2025.
xAI, "Grok 4 Release Announcement".
"Grok 4 Release : xAI Claims #1 AI Model Crown in Independent Testing", Gear Musk, 10 juillet 2025, https://gearmusk.com/2025/07/10/xai-unveils-grok-4/.
xAI, "Grok 4 Release Announcement".
"Musk's Grok-4 Crushes Benchmarks, Beats OpenAI & Google in RL", Analytics India Magazine, 10 juillet 2025, https://analyticsindiamag.com/global-tech/musks-grok-4-crushes-benchmarks-beats-openai-google-in-rl/.
"Prix ARC", X (anciennement Twitter), 10 juillet 2025, https://twitter.com/arcprize/status/[specific-id].
François Chollet, "ARC-AGI : A New Frontier in AI Reasoning", Organisation du Prix ARC, 2025.
xAI, "Grok 4 Release Announcement".
"Les modèles d'IA Grok 4 d'Elon Musk établissent de nouveaux records de référence", Beebom, 10 juillet 2025, https://beebom.com/elon-musk-grok-4-ai-models-set-new-benchmark-records/.
"xAI établit des records de référence en matière d'IA avec le nouveau modèle Grok 4 optimisé pour le raisonnement", SiliconANGLE, 10 juillet 2025, https://siliconangle.com/2025/07/10/xai-sets-ai-benchmark-records-new-reasoning-optimized-grok-4-model/.
xAI, "Grok 4 Release Announcement".
xAI, "Grok 4 Release Announcement".
xAI, "Grok 4 Release Announcement".
"Comparaison des modèles d'IA en termes d'intelligence, de performance et de prix", Artificial Analysis, consulté le 11 juillet 2025, https://artificialanalysis.ai/models.
Témoignages d'utilisateurs, X (anciennement Twitter), 10-11 juillet 2025.
Témoignages d'utilisateurs, X (anciennement Twitter), 10-11 juillet 2025.
"Quoi de neuf dans Grok 4 ? Release Facts, Benchmarks, and Value", SmythOS, 10 juillet 2025, https://smythos.com/developers/ai-models/whats-new-in-grok-4-release-facts-benchmarks-and-value/.
xAI, "Grok 4 Release Announcement".

Blake Crosley