Richard Golian

Né en 1995. Diplômé de l’Université Charles de Prague. Responsable de la performance chez Mixit. Plus de 10 ans dans le marketing basé sur les données.

English Castellano Slovenčina

Gérer l'abonnement Choisir un abonnement

RSS
Newsletter
Nouveaux articles dans votre boîte mail

Article

Entraîner un agent IA qui apprend entre les sessions

Comment les agents IA apprennent entre les sessions
Richard Golian
Richard Golian · 875 lectures
Bonjour, je suis Richard. Sur ce blog, je partage des réflexions, des histoires personnelles — et ce sur quoi je travaille. J’espère que cet article vous apportera quelque chose de précieux.

L'objectif que je me suis fixé

Je voulais construire un agent qui ne se contente pas d'assister. Un agent qui agit.

L'idée était simple : configurer des automatisations pour récupérer des données, laisser l'agent analyser ce qu'il trouve, lui faire proposer les prochaines étapes, envoyer ces propositions quelque part pour révision, et à travers cette boucle de feedback — s'améliorer progressivement. À un certain stade, une fois que ses propositions correspondraient systématiquement à ce que je considère comme de bonnes décisions, il arrêterait d'attendre une approbation et commencerait à exécuter de manière autonome.

Pas un chatbot. Pas un copilote. Un système autonome qui gagne son autorité par sa précision démontrée.

C'était l'objectif. J'en ai décrit une partie dans mon article précédent sur les modèles IA locaux. Ceci est le chapitre suivant.

CE QUE J'AI CONSTRUIT — ET CE QU'IL NE POUVAIT PAS FAIRE

La première version était simple par choix. Mais le plus intéressant n'était pas ce qu'elle faisait. Le plus intéressant, c'était ce qu'elle ne pouvait pas faire.

L'agent tourne selon un calendrier, récupère des données, les analyse, et envoie un rapport dans Slack. Pour m'assurer que la sortie soit cohérente, j'ai créé un schéma — un format approuvé contre lequel l'agent se vérifie avant d'envoyer quoi que ce soit. Si quelque chose ne correspond pas, il se corrige. Il boucle jusqu'à ce que la sortie passe. Si quelque chose l'empêche de terminer le processus — comme un appel LLM échoué — il n'envoie pas une sortie dégradée. Il envoie une alerte dans Slack à la place.

J'ai aussi ajouté des exemples positifs. Des sorties approuvées des exécutions précédentes que l'agent peut utiliser comme référence pour produire la suivante.

Ça semblait être un système solide. Et pendant un moment, je le pensais.

CE QUI CONTINUAIT À ME DÉRANGER

Chaque session repart de zéro.

Le schéma est là. Les exemples sont là. Mais l'agent ne sait pas avec quoi il a galéré hier. Il ne sait pas quelle règle il continue de violer. Il ne sait pas ce qu'il a déjà compris.

Et ça change tout.

La boucle d'autocorrection fonctionne au sein d'une seule session. Entre les sessions, rien ne s'accumule. Donc l'incohérence que j'observais n'était pas un problème de configuration. Ce n'était pas un problème de prompting.

Le problème n'était pas technique. Il était structurel.

AUTOCORRECTION VS AUTO-AMÉLIORATION

C'est là que j'ai réalisé quelque chose d'important.

L'autocorrection signifie que l'agent détecte ses propres erreurs avant d'envoyer la sortie. Ça se passe au sein d'une seule exécution, contre un schéma fixe. La session se termine, et tout ce que l'agent a appris — disparaît.

L'auto-amélioration signifie que l'agent construit quelque chose d'une exécution à l'autre. Chaque session laisse une trace que la suivante peut utiliser. Les erreurs deviennent des règles. Les règles deviennent du contexte. Le contexte façonne la prochaine sortie avant même que la génération ne commence.

Le premier est un filtre de qualité. Le second est quelque chose qui se rapproche davantage de l'apprentissage.

Et cette distinction ne concerne pas seulement les agents IA. C'est la différence entre les systèmes qui répètent et ceux qui évoluent. Entre les gens qui corrigent leurs erreurs et ceux qui cessent de faire les mêmes. La plupart des organisations ont de l'autocorrection. Très peu ont une véritable auto-amélioration. Le mécanisme semble similaire vu de l'extérieur. L'architecture en dessous est complètement différente.

Ce que j'avais, c'était un bon filtre de qualité. Ce qui me manquait, c'était la couche d'accumulation en dessous.

CLAUDE CODE A-T-IL DÉJÀ UNE MÉMOIRE PERSISTANTE ?

C'est une question légitime — et une que j'ai dû résoudre moi-même.

Claude Code a un fichier appelé CLAUDE.md. Il se charge automatiquement au début de chaque session. Quand on dit à l'agent de se souvenir de quelque chose pour les prochaines exécutions, il peut l'écrire dedans. Et la prochaine fois, ce sera là. C'est de la vraie persistance. Ce n'est pas une illusion.

Donc quand Claude Code confirme qu'il se souviendra de quelque chose — il ne ment pas.

Le problème, c'est ce que « là » signifie réellement en pratique.

Continuer

Rejoindre la Bibliothèque

Accès complet à mes pensées, histoires personnelles, observations et ce que j'entends des gens que je rencontre.

Rejoindre la Bibliothèque — €29,99 par an

Résumé

Je voulais construire un agent IA autonome qui s'améliore dans le temps — pas seulement un qui se corrige au sein d'une seule session. Cet article explique la différence entre autocorrection et auto-amélioration, pourquoi la mémoire intégrée de Claude Code a ses limites pour des agents qui tournent quotidiennement, et comment une couche de mémoire structurée change ce qui est possible.

Questions fréquentes sur le sujet de l'article

Quelle est la différence entre l'autocorrection et l'auto-amélioration d'un agent IA ?
L'autocorrection signifie que l'agent détecte ses erreurs au sein d'une seule session — vérifiant sa sortie contre un schéma et bouclant jusqu'à ce qu'elle passe. Quand la session se termine, tout ce qui a été appris est perdu. L'auto-amélioration signifie que l'agent construit des connaissances d'une session à l'autre : les erreurs deviennent des règles, les règles deviennent du contexte, et le contexte façonne la sortie future avant même que la génération ne commence. Dans l'article, cette distinction est identifiée comme le fossé critique dans les architectures actuelles d'agents IA — et la clé pour construire des systèmes qui évoluent véritablement.
Qu'est-ce que CLAUDE.md et quelles sont ses limites pour les agents IA ?
CLAUDE.md est un fichier que Claude Code charge automatiquement au début de chaque session, fournissant une mémoire persistante entre les exécutions. Quand on dit à l'agent de se souvenir de quelque chose, il l'écrit dans ce fichier. La persistance est réelle — pas une illusion. Cependant, dans l'article, la limite est identifiée : CLAUDE.md est un fichier statique et non structuré. Il ne s'organise pas, ne distingue pas les entrées pertinentes des obsolètes, et ne gère pas sa propre croissance. Pour un agent qui tourne quotidiennement sur des semaines, le fichier devient du bruit plutôt qu'un signal.
Pourquoi chaque session d'agent IA repart-elle de zéro ?
Parce que les modèles IA actuels n'ont pas de mécanisme intégré pour accumuler de l'expérience entre les sessions. La fenêtre de contexte est remplie de nouveau à chaque fois. Dans l'article, ceci est identifié comme le problème structurel — pas technique : l'agent ne sait pas avec quoi il a galéré hier, quelles règles il continue de violer, ou ce qu'il a déjà compris. La boucle d'autocorrection fonctionne au sein d'une session. Entre les sessions, rien ne persiste sauf si c'est explicitement stocké.
Qu'est-ce qu'une couche de mémoire structurée pour les agents IA ?
Une couche de mémoire structurée se situe à côté des fichiers de mémoire statique et organise l'expérience accumulée en catégories que l'agent peut consulter sélectivement. Au lieu de tout charger dans la fenêtre de contexte à chaque fois, l'agent ne récupère que ce qui est pertinent pour la tâche en cours. Dans l'article, c'est la solution en construction : un système où les erreurs deviennent des règles, les règles deviennent du contexte, et le comportement de l'agent s'améliore de manière mesurable d'une session à l'autre au lieu de se réinitialiser à chaque fois.
Peut-on faire tourner des agents IA autonomes en local ?
Oui, mais avec des limitations significatives. Dans l'article et son prédécesseur sur les modèles IA locaux, l'installation utilisait un Mac Mini avec Ollama et n8n. Les pipelines basiques fonctionnaient : récupération de données, analyse simple, alertes Slack. Mais les limitations de la fenêtre de contexte des modèles locaux rendaient l'analyse complexe impossible. Pour des agents autonomes qui doivent traiter des volumes de données réels et maintenir la qualité dans le temps, les modèles cloud avec des fenêtres de contexte plus grandes se sont avérés nécessaires.
Que faut-il pour construire un agent IA qui gagne son autonomie ?
Dans l'article, le principe est que l'autonomie doit être gagnée par une précision démontrée — pas accordée par défaut. L'architecture commence par une révision humaine de chaque action proposée. À mesure que les propositions de l'agent correspondent systématiquement à de bonnes décisions, il obtient progressivement la permission d'agir de manière indépendante. Cela nécessite non seulement de bonnes performances au sein d'une session, mais une véritable amélioration dans le temps — c'est pourquoi la couche de mémoire structurée est essentielle.
Richard Golian

Si vous avez des pensées, des questions ou des retours, n’hésitez pas à m’écrire à mail@richardgolian.com.

NEWSLETTER
Ce sur quoi j'écris, ce sur quoi je travaille, ce que j'ai appris.
Envoyé le premier dimanche du mois. Désabonnement à tout moment.

Articles connexes

Construire un système d'IA qui prédit la bourse et s'évalue lui-même

Je construis un système d'IA pour prédire le S&P 500. Il tourne sur ma propre machine, utilise des données publiques gratuites — yfinance, FRED, le jeu de données Shiller — et évalue chaque prévision face à la réalité. Cette série documente la construction elle-même : les décisions, la méthodologie, les erreurs. Ce que je partagerai finalement du système en fonctionnement est une question séparée, et honnête.

26 avril 2026·611 lectures
Ce que l'IA vous cache

Avant d'enseigner quoi que ce soit à l'IA, il faut voir ce qu'elle vous cache.

11 April 2026·667 lectures
Quand votre agent IA rejoint l'équipe

Dès que d'autres personnes ont eu besoin d'y accéder, le problème a complètement changé. Il ne s'agissait plus de savoir si l'agent pouvait apprendre. Il s'agissait de savoir qui avait le droit de lui enseigner.

2026-04-08·823 lectures

Plus d'articles

Prévision des ventes par IA : 9 pièges

Hier, je n'arrivais pas à m'arracher à l'ordinateur. Quand j'ai levé la tête, il était huit heures et demie du soir. J'étais resté seul à l'étage pendant environ trois heures.

25 avril 2026·581 lectures
L'IA va-t-elle prendre mon travail ?

L'IA va-t-elle prendre mon travail ? Un formateur certifié Google m'a dit en juin 2024 que ma profession cesserait d'exister. Vingt-deux mois plus tard, mon intitulé de poste n'a pas changé — mais quatre-vingt-dix pour cent de ce que je fais dans la journée est différent. J'ai délégué plus de ma réflexion à des agents IA que je ne l'aurais cru possible. Je n'ai pas peur. Voici pourquoi, et ce que cela signifie pour quiconque se pose la même question.

23 avril 2026·364 lectures
Devis de 50 000 € vs. deux heures avec Claude Code

Une heure. Cinquante-cinq minutes. Voilà le temps qu'il m'a fallu pour construire ce qu'une société tchèque de logiciels avait chiffré à plus de 50 000 €. Je l'ai construit avec Claude Code. Pas un prototype. Pas une preuve de concept. Un outil fonctionnel — celui dont l'entreprise avait réellement besoin. Le soir même, il tournait sur un environnement de test. Ce n'est pas à propos de Claude Code. C'est à propos de ce que Claude Code met à nu.

18 avril 2026·718 lectures
L'IA nous rend-elle plus bêtes ?

J'ai mené environ cent cinquante entretiens pratiques au cours des quatre dernières années. Cinquante pour des postes de spécialistes en données. Une centaine pour des spécialistes en publicité et en marketing de performance. Dans la quasi-totalité des cas, il s'agissait de s'asseoir face à un candidat devant une tâche pratique — quelque chose de proche d'un problème réel que nous devons effectivement résoudre dans l'entreprise. Pas de théorie. Pas de trivialités. De la résolution de problèmes. Avec le temps, j'ai commencé à percevoir un schéma récurrent.

14 avril 2026·670 lectures
Limites des modèles IA locaux : d'Ollama à Claude

Voici ce que j'ai appris sur l'IA locale versus le cloud, et pourquoi je suis passé à Claude Code.

3 April 2026·1 473 lectures
Le monde change plus vite que ce que la plupart des gens réalisent

Je n'ai jamais vu un écart de connaissance aussi profond que celui lié à l'intelligence artificielle.

26 avril 2025·2 987 lectures
Tout avec des agents d'IA ou totalement hors ligne.

Quatre jours en Catalogne. Sans ordinateur, sans IA, presque sans réseaux sociaux. J'ai acheté ce carnet pour y noter ce à quoi je penserais et ce que je rencontrerais et apprendrais durant le voyage.

10 mai 2026·322 lectures
NEWSLETTER
Ce sur quoi j'écris, ce sur quoi je travaille, ce que j'ai appris.
Envoyé le premier dimanche du mois. Désabonnement à tout moment.