Bonjour, je suis Richard. Sur ce blog, je partage des réflexions, des histoires personnelles — et ce sur quoi je travaille. J’espère que cet article vous apportera quelque chose de précieux.
Entraîner un agent IA qui apprend entre les sessions
Comment les agents IA apprennent entre les sessions
L'objectif que je me suis fixé
Je voulais construire un agent qui ne se contente pas d'assister. Un agent qui agit.
L'idée était simple : configurer des automatisations pour récupérer des données, laisser l'agent analyser ce qu'il trouve, lui faire proposer les prochaines étapes, envoyer ces propositions quelque part pour révision, et à travers cette boucle de feedback — s'améliorer progressivement. À un certain stade, une fois que ses propositions correspondraient systématiquement à ce que je considère comme de bonnes décisions, il arrêterait d'attendre une approbation et commencerait à exécuter de manière autonome.
Pas un chatbot. Pas un copilote. Un système autonome qui gagne son autorité par sa précision démontrée.
C'était l'objectif. J'en ai décrit une partie dans mon article précédent sur les modèles IA locaux. Ceci est le chapitre suivant.
CE QUE J'AI CONSTRUIT — ET CE QU'IL NE POUVAIT PAS FAIRE
La première version était simple par choix. Mais le plus intéressant n'était pas ce qu'elle faisait. Le plus intéressant, c'était ce qu'elle ne pouvait pas faire.
L'agent tourne selon un calendrier, récupère des données, les analyse, et envoie un rapport dans Slack. Pour m'assurer que la sortie soit cohérente, j'ai créé un schéma — un format approuvé contre lequel l'agent se vérifie avant d'envoyer quoi que ce soit. Si quelque chose ne correspond pas, il se corrige. Il boucle jusqu'à ce que la sortie passe. Si quelque chose l'empêche de terminer le processus — comme un appel LLM échoué — il n'envoie pas une sortie dégradée. Il envoie une alerte dans Slack à la place.
J'ai aussi ajouté des exemples positifs. Des sorties approuvées des exécutions précédentes que l'agent peut utiliser comme référence pour produire la suivante.
Ça semblait être un système solide. Et pendant un moment, je le pensais.
CE QUI CONTINUAIT À ME DÉRANGER
Chaque session repart de zéro.
Le schéma est là. Les exemples sont là. Mais l'agent ne sait pas avec quoi il a galéré hier. Il ne sait pas quelle règle il continue de violer. Il ne sait pas ce qu'il a déjà compris.
Et ça change tout.
La boucle d'autocorrection fonctionne au sein d'une seule session. Entre les sessions, rien ne s'accumule. Donc l'incohérence que j'observais n'était pas un problème de configuration. Ce n'était pas un problème de prompting.
Le problème n'était pas technique. Il était structurel.
AUTOCORRECTION VS AUTO-AMÉLIORATION
C'est là que j'ai réalisé quelque chose d'important.
L'autocorrection signifie que l'agent détecte ses propres erreurs avant d'envoyer la sortie. Ça se passe au sein d'une seule exécution, contre un schéma fixe. La session se termine, et tout ce que l'agent a appris — disparaît.
L'auto-amélioration signifie que l'agent construit quelque chose d'une exécution à l'autre. Chaque session laisse une trace que la suivante peut utiliser. Les erreurs deviennent des règles. Les règles deviennent du contexte. Le contexte façonne la prochaine sortie avant même que la génération ne commence.
Le premier est un filtre de qualité. Le second est quelque chose qui se rapproche davantage de l'apprentissage.
Et cette distinction ne concerne pas seulement les agents IA. C'est la différence entre les systèmes qui répètent et ceux qui évoluent. Entre les gens qui corrigent leurs erreurs et ceux qui cessent de faire les mêmes. La plupart des organisations ont de l'autocorrection. Très peu ont une véritable auto-amélioration. Le mécanisme semble similaire vu de l'extérieur. L'architecture en dessous est complètement différente.
Ce que j'avais, c'était un bon filtre de qualité. Ce qui me manquait, c'était la couche d'accumulation en dessous.
CLAUDE CODE A-T-IL DÉJÀ UNE MÉMOIRE PERSISTANTE ?
C'est une question légitime — et une que j'ai dû résoudre moi-même.
Claude Code a un fichier appelé CLAUDE.md. Il se charge automatiquement au début de chaque session. Quand on dit à l'agent de se souvenir de quelque chose pour les prochaines exécutions, il peut l'écrire dedans. Et la prochaine fois, ce sera là. C'est de la vraie persistance. Ce n'est pas une illusion.
Donc quand Claude Code confirme qu'il se souviendra de quelque chose — il ne ment pas.
Le problème, c'est ce que « là » signifie réellement en pratique.
Accès complet à mes pensées, histoires personnelles, observations et ce que j'entends des gens que je rencontre.
Rejoindre la BibliothèqueRésumé
Si vous avez des pensées, des questions ou des retours, n’hésitez pas à m’écrire à mail@richardgolian.com.