Article
Entraîner un agent IA qui apprend entre les sessions
L'objectif que je me suis fixé
Je voulais construire un agent qui ne se contente pas d'assister. Un agent qui agit.
L'idée était simple : configurer des automatisations pour récupérer des données, laisser l'agent analyser ce qu'il trouve, lui faire proposer les prochaines étapes, envoyer ces propositions quelque part pour révision, et à travers cette boucle de feedback — s'améliorer progressivement. À un certain stade, une fois que ses propositions correspondraient systématiquement à ce que je considère comme de bonnes décisions, il arrêterait d'attendre une approbation et commencerait à exécuter de manière autonome.
Pas un chatbot. Pas un copilote. Un système autonome qui gagne son autorité par sa précision démontrée.
C'était l'objectif. J'en ai décrit une partie dans mon article précédent sur les modèles IA locaux. Ceci est le chapitre suivant.
CE QUE J'AI CONSTRUIT — ET CE QU'IL NE POUVAIT PAS FAIRE
La première version était simple par choix. Mais le plus intéressant n'était pas ce qu'elle faisait. Le plus intéressant, c'était ce qu'elle ne pouvait pas faire.
L'agent tourne selon un calendrier, récupère des données, les analyse, et envoie un rapport dans Slack. Pour m'assurer que la sortie soit cohérente, j'ai créé un schéma — un format approuvé contre lequel l'agent se vérifie avant d'envoyer quoi que ce soit. Si quelque chose ne correspond pas, il se corrige. Il boucle jusqu'à ce que la sortie passe. Si quelque chose l'empêche de terminer le processus — comme un appel LLM échoué — il n'envoie pas une sortie dégradée. Il envoie une alerte dans Slack à la place.
J'ai aussi ajouté des exemples positifs. Des sorties approuvées des exécutions précédentes que l'agent peut utiliser comme référence pour produire la suivante.
Ça semblait être un système solide. Et pendant un moment, je le pensais.
CE QUI CONTINUAIT À ME DÉRANGER
Chaque session repart de zéro.
Le schéma est là. Les exemples sont là. Mais l'agent ne sait pas avec quoi il a galéré hier. Il ne sait pas quelle règle il continue de violer. Il ne sait pas ce qu'il a déjà compris.
Et ça change tout.
La boucle d'autocorrection fonctionne au sein d'une seule session. Entre les sessions, rien ne s'accumule. Donc l'incohérence que j'observais n'était pas un problème de configuration. Ce n'était pas un problème de prompting.
Le problème n'était pas technique. Il était structurel.
AUTOCORRECTION VS AUTO-AMÉLIORATION
C'est là que j'ai réalisé quelque chose d'important.
L'autocorrection signifie que l'agent détecte ses propres erreurs avant d'envoyer la sortie. Ça se passe au sein d'une seule exécution, contre un schéma fixe. La session se termine, et tout ce que l'agent a appris — disparaît.
L'auto-amélioration signifie que l'agent construit quelque chose d'une exécution à l'autre. Chaque session laisse une trace que la suivante peut utiliser. Les erreurs deviennent des règles. Les règles deviennent du contexte. Le contexte façonne la prochaine sortie avant même que la génération ne commence.
Le premier est un filtre de qualité. Le second est quelque chose qui se rapproche davantage de l'apprentissage.
Et cette distinction ne concerne pas seulement les agents IA. C'est la différence entre les systèmes qui répètent et ceux qui évoluent. Entre les gens qui corrigent leurs erreurs et ceux qui cessent de faire les mêmes. La plupart des organisations ont de l'autocorrection. Très peu ont une véritable auto-amélioration. Le mécanisme semble similaire vu de l'extérieur. L'architecture en dessous est complètement différente.
Ce que j'avais, c'était un bon filtre de qualité. Ce qui me manquait, c'était la couche d'accumulation en dessous.
CLAUDE CODE A-T-IL DÉJÀ UNE MÉMOIRE PERSISTANTE ?
C'est une question légitime — et une que j'ai dû résoudre moi-même.
Claude Code a un fichier appelé CLAUDE.md. Il se charge automatiquement au début de chaque session. Quand on dit à l'agent de se souvenir de quelque chose pour les prochaines exécutions, il peut l'écrire dedans. Et la prochaine fois, ce sera là. C'est de la vraie persistance. Ce n'est pas une illusion.
Donc quand Claude Code confirme qu'il se souviendra de quelque chose — il ne ment pas.
Le problème, c'est ce que « là » signifie réellement en pratique.
Rejoindre la Bibliothèque
Accès complet à mes pensées, histoires personnelles, observations et ce que j'entends des gens que je rencontre.
Rejoindre la Bibliothèque — €29,99 par anRésumé
Questions fréquentes sur le sujet de l'article
Quelle est la différence entre l'autocorrection et l'auto-amélioration d'un agent IA ?
Qu'est-ce que CLAUDE.md et quelles sont ses limites pour les agents IA ?
Pourquoi chaque session d'agent IA repart-elle de zéro ?
Qu'est-ce qu'une couche de mémoire structurée pour les agents IA ?
Peut-on faire tourner des agents IA autonomes en local ?
Que faut-il pour construire un agent IA qui gagne son autonomie ?
Articles connexes
Je construis un système d'IA pour prédire le S&P 500. Il tourne sur ma propre machine, utilise des données publiques gratuites — yfinance, FRED, le jeu de données Shiller — et évalue chaque prévision face à la réalité. Cette série documente la construction elle-même : les décisions, la méthodologie, les erreurs. Ce que je partagerai finalement du système en fonctionnement est une question séparée, et honnête.
Avant d'enseigner quoi que ce soit à l'IA, il faut voir ce qu'elle vous cache.
Dès que d'autres personnes ont eu besoin d'y accéder, le problème a complètement changé. Il ne s'agissait plus de savoir si l'agent pouvait apprendre. Il s'agissait de savoir qui avait le droit de lui enseigner.
Plus d'articles
Hier, je n'arrivais pas à m'arracher à l'ordinateur. Quand j'ai levé la tête, il était huit heures et demie du soir. J'étais resté seul à l'étage pendant environ trois heures.
L'IA va-t-elle prendre mon travail ? Un formateur certifié Google m'a dit en juin 2024 que ma profession cesserait d'exister. Vingt-deux mois plus tard, mon intitulé de poste n'a pas changé — mais quatre-vingt-dix pour cent de ce que je fais dans la journée est différent. J'ai délégué plus de ma réflexion à des agents IA que je ne l'aurais cru possible. Je n'ai pas peur. Voici pourquoi, et ce que cela signifie pour quiconque se pose la même question.
Une heure. Cinquante-cinq minutes. Voilà le temps qu'il m'a fallu pour construire ce qu'une société tchèque de logiciels avait chiffré à plus de 50 000 €. Je l'ai construit avec Claude Code. Pas un prototype. Pas une preuve de concept. Un outil fonctionnel — celui dont l'entreprise avait réellement besoin. Le soir même, il tournait sur un environnement de test. Ce n'est pas à propos de Claude Code. C'est à propos de ce que Claude Code met à nu.
J'ai mené environ cent cinquante entretiens pratiques au cours des quatre dernières années. Cinquante pour des postes de spécialistes en données. Une centaine pour des spécialistes en publicité et en marketing de performance. Dans la quasi-totalité des cas, il s'agissait de s'asseoir face à un candidat devant une tâche pratique — quelque chose de proche d'un problème réel que nous devons effectivement résoudre dans l'entreprise. Pas de théorie. Pas de trivialités. De la résolution de problèmes. Avec le temps, j'ai commencé à percevoir un schéma récurrent.
Voici ce que j'ai appris sur l'IA locale versus le cloud, et pourquoi je suis passé à Claude Code.
Je n'ai jamais vu un écart de connaissance aussi profond que celui lié à l'intelligence artificielle.
Cette réaction est très probable.
Quatre jours en Catalogne. Sans ordinateur, sans IA, presque sans réseaux sociaux. J'ai acheté ce carnet pour y noter ce à quoi je penserais et ce que je rencontrerais et apprendrais durant le voyage.
