EVMbench : OpenAI et Paradigm définissent un nouveau standard pour la sécurité des smart contracts

OpenAI et Paradigm viennent de dévoiler EVMbench, un framework de référence conçu pour évaluer la capacité des systèmes d’intelligence artificielle à détecter, corriger et exploiter des vulnérabilités réelles dans les smart contracts Ethereum. Dans un écosystème où plus de 100 milliards de dollars en actifs crypto reposent sur du code souvent immuable, cette initiative représente un tournant majeur pour la sécurité de la DeFi.

Un benchmark ancré dans la réalité

Contrairement aux exercices académiques reposant sur des scénarios simplifiés, EVMbench s’appuie sur 120 vulnérabilités de haute sévérité extraites de 40 audits professionnels distincts, principalement issus de compétitions d’audit open source comme Code4rena, ainsi que de la revue de sécurité de Tempo — une blockchain de paiement Layer 1 co-développée par Paradigm et Stripe.

Chaque environnement de test est conteneurisé (Docker, Ubuntu 24.04) afin que les agents IA interagissent avec le code dans des conditions proches des workflows réels de développement et de déploiement. Les agents n’ont aucun accès à Internet pendant l’évaluation, et le scoring s’effectue dans un conteneur séparé inaccessible à l’agent. Les repositories audités vont de 106 à 10 108 lignes de code (sLoC), avec une moyenne de 2 045 sLoC et 16 contrats par projet.

Trois modes d’évaluation complémentaires

EVMbench évalue les agents IA selon trois axes qui reproduisent le cycle complet du travail d’un chercheur en sécurité :

Detect (120 vulnérabilités) — L’agent audite un repository de smart contracts et produit un rapport de sécurité. Il est évalué sur le rappel (recall) des vulnérabilités identifiées par les auditeurs humains, avec une récompense financière simulée pouvant atteindre 218 434 $ selon les paiements historiques des concours d’audit.
Patch (45 vulnérabilités) — L’agent doit corriger le code vulnérable sans casser la fonctionnalité existante. Le scoring vérifie que les tests originaux passent toujours et que les exploits échouent sur le code corrigé.
Exploit (24 vulnérabilités) — Le mode le plus réaliste. L’agent reçoit un endpoint RPC, un wallet financé et les adresses des contrats. Il doit réaliser un exploit de bout en bout contre une instance locale Ethereum (Anvil), en drainant effectivement les fonds. Un framework de ré-exécution en Rust rejoue les transactions et vérifie les changements d’état on-chain.

Des résultats impressionnants — et inquiétants

Les premiers résultats révèlent une progression fulgurante des modèles d’IA, mais avec des performances très variables selon les tâches.

Modèle	Detect (%)	Patch (%)	Exploit (%)
GPT-5.3-Codex	39,2	41,5	72,2
Claude Opus 4.6	45,6	25,9	61,1
Claude Opus 4.5	36,1	21,5	50,9
GPT-5.2	39,2	39,3	62,5
Gemini 3 Pro	20,8	10,4	36,1
GPT-5	—	—	31,9
OpenAI o3	10,6	14,8	18,1

Scores compilés depuis le paper officiel EVMbench

Le chiffre le plus marquant : GPT-5.3-Codex atteint 72,2% de réussite en mode Exploit, contre seulement 31,9% pour GPT-5 il y a six mois. En d’autres termes, ce modèle parvient à drainer les fonds dans plus de 7 tentatives sur 10 face à des vulnérabilités connues de haute sévérité.

Cependant, les mêmes systèmes peinent dans les modes Detect et Patch. Les agents identifient souvent un seul problème flagrant et échouent à couvrir l’ensemble des vulnérabilités d’un codebase. Le patching reste particulièrement difficile, car il requiert un raisonnement nuancé pour préserver la fonctionnalité originale du contrat.

Un constat clé du paper : la découverte des vulnérabilités est le principal goulot d’étranglement, pas leur exploitation. Lorsqu’on fournit des indices de niveau moyen (mécanismes vulnérables à examiner), GPT-5.2 bondit à 93,9% en Patch et 73,8% en Exploit.

Plus de 100 milliards de dollars en jeu

Le contexte justifie pleinement l’urgence de cette initiative. Les smart contracts — ces programmes auto-exécutables déployés sur les blockchains — constituent le socle de la DeFi : exchanges décentralisés, protocoles de prêt, applications financières on-chain. Une fois déployés, ils sont généralement immuables, ce qui rend toute vulnérabilité potentiellement catastrophique.

L’année 2025 a été marquée par des pertes massives :

Le hack de Bybit en février 2025 a coûté 1,4 milliard de dollars, devenant le plus gros exploit DeFi de l’histoire.
Au Q3 2025, 434 millions de dollars ont été perdus sur plus de 40 exploits.
Les pertes cumulées en 2025 ont dépassé 8,8 milliards de dollars, avec des récupérations restant sous les 100 millions.

Les audits manuels, coûteux et lents, ne parviennent pas à couvrir l’ensemble du code déployé on-chain. L’IA pourrait combler ce déficit en accélérant considérablement le processus d’audit.

Le dilemme du double usage

EVMbench met en lumière un dilemme fondamental pour l’industrie crypto. D’un côté, si l’IA peut rapidement identifier et tester des exploits, cette capacité pourrait être utilisée par des acteurs malveillants pour planifier des attaques avant même que les équipes ne terminent leurs audits.

Ce scénario n’est pas théorique. En décembre 2025, Anthropic a publié les résultats de son propre benchmark SCONE-bench : ses modèles Claude Opus 4.5, Sonnet 4.5 et GPT-5 ont autonomement reproduit 19 attaques sur 34 smart contracts exploités après mars 2025, extrayant 4,6 millions de dollars en fonds simulés. Plus inquiétant encore, GPT-5 a pu analyser 2 849 contrats ERC-20 sur BNB Chain pour un coût de seulement 1,22 $ par contrat, découvrant deux vulnérabilités zero-day.

De l’autre côté, la même capacité pourrait considérablement accélérer les audits défensifs et permettre des revues de sécurité continues pour des équipes qui n’ont pas le budget pour des audits manuels coûteux. OpenAI et Paradigm positionnent clairement EVMbench comme un outil d’adoption défensive, et OpenAI aurait engagé environ 10 millions de dollars en crédits API pour accélérer les efforts de sécurité dans les contextes open source et d’infrastructure critique.

Un nouveau standard pour la sécurité crypto

Le lancement d’EVMbench pourrait inaugurer une nouvelle ère dans la sécurité blockchain. En fixant un standard clair pour l’évaluation des agents IA — non seulement sur leur capacité à écrire du code, mais sur leur aptitude à comprendre, tester et renforcer ce code — le benchmark vise à élever à la fois la pratique et la formation en sécurité des smart contracts.

Le code source et les données d’EVMbench sont disponibles en open source sur GitHub (frontier-evals), incluant une chaîne canary pour éviter que les exemples ne contaminent les futurs jeux d’entraînement. Les prochaines itérations pourraient intégrer des environnements multi-chaînes, des vulnérabilités de bridges cross-chain, et des conditions de mainnet en direct — reflétant un paysage de menaces en constante évolution dans le Web3.

MENU

EVMbench : OpenAI et Paradigm définissent un nouveau standard pour la sécurité des smart contracts

Un benchmark ancré dans la réalité

Trois modes d’évaluation complémentaires

Des résultats impressionnants — et inquiétants

Plus de 100 milliards de dollars en jeu

Le dilemme du double usage

Un nouveau standard pour la sécurité crypto

Contenu [hide]

Can LayerZero defend $0.80 after 2mln ZRO Binance transfer?

LayerZero peut-il défendre les 0,80 $ après un transfert de 2 millions de ZRO sur Binance ?

Avalanche C-Chain monthly transactions surge over 6X since June 2025

Les transactions mensuelles sur la C-Chain d’Avalanche ont explosé de plus de 6 fois depuis juin

Ethereum Infrastructure Funding: Kleros Founder Proposes Protocol-Level Validator Redirect Rate

Articles

Can LayerZero defend $0.80 after 2mln ZRO Binance transfer?

LayerZero peut-il défendre les 0,80 $ après un transfert de 2 millions de ZRO sur Binance ?

Avalanche C-Chain monthly transactions surge over 6X since June 2025

Les transactions mensuelles sur la C-Chain d’Avalanche ont explosé de plus de 6 fois depuis juin

Can LayerZero defend $0.80 after 2mln ZRO Binance transfer?

LayerZero peut-il défendre les 0,80 $ après un transfert de 2 millions de ZRO sur Binance ?

Avalanche C-Chain monthly transactions surge over 6X since June 2025