En 2023, AutoGPT devait tout automatiser. En 2024 c'était Devin. En 2025 on a eu Claude Computer Use. En 2026, où en est-on vraiment ?
Ce qu'un agent IA est en 2026
Un agent = un LLM + une boucle d'exécution + des outils + un objectif. À chaque tour, il observe, décide, agit, réobserve. Jusqu'à succès ou abandon.
Les agents qui marchent aujourd'hui sont spécialisés, pas généralistes. La promesse "agent qui fait tout" reste une chimère ; la réalité "agent qui refactore un module PHP" est solide.
Les agents qui marchent en production
- Claude Code : refactoring, exploration de codebase, correction de bugs circonscrits. Je l'utilise quotidiennement.
- Cursor Composer : édition multi-fichiers dirigée. Fiable sur 10-30 fichiers, vacille au-delà.
- Perplexity : recherche + synthèse. Agent implicite (il décide quelles sources lire).
- Browser agents (Anthropic computer use, Browserbase) : remplissage de formulaires, scraping complexe, tâches administratives web simples.
Là où ça coince encore
- Tâches à long horizon : au-delà de 30-50 tours, la dérive s'accumule et l'agent se perd.
- Ambiguïté humaine : "fais-moi un truc sympa" n'aboutit jamais.
- Prise de décision stratégique : choisir entre deux architectures produit demande du jugement qu'un agent n'a pas.
- Erreurs silencieuses : un agent qui pense avoir réussi alors que la tâche est ratée est le pire des cas.
Les patterns qui améliorent tout
Plan then execute
Avant d'agir, l'agent rédige un plan structuré. Le humain valide. Puis exécution. Gains : transparence + possibilité d'arrêter tôt si le plan est mauvais.
Verifier séparé
Un second modèle vérifie la sortie du premier. Divise par 2-3 les erreurs silencieuses sur les tâches où "ça a l'air bon" = piège.
Boucle bornée
Toujours un max_iterations strict. Sans borne, un agent en dérive peut facturer 200 € avant que vous vous en rendiez compte.
Human in the loop
Sur les actions irréversibles (envoi mail, paiement, suppression), demander confirmation. Non négociable.
Mon cadre de décision
Avant de déployer un agent autonome en production, je me pose 3 questions :
- Le coût d'une erreur est-il borné ? (si non → pas d'agent)
- Existe-t-il un oracle pour vérifier le résultat ? (si non → pas d'agent)
- Le ROI couvre-t-il le coût de supervision humaine inévitable ? (si non → pas d'agent)
Conclusion
Les agents sont en production, mais dans des domaines étroits et supervisés. 2026 n'est pas l'année de l'AGI qui lance votre SaaS pendant que vous dormez. C'est l'année où des agents ciblés divisent par 3 le temps de certaines tâches — ce qui est énorme.
Vous voulez déployer un agent sur votre process ? Parlons-en.