Zdravím, som Richard. Na tomto blogu zdieľam myšlienky, osobné príbehy — a aj to, na čom práve pracujem. Dúfam, že vám tento článok prinesie hodnotu.
Trénovanie AI agenta, ktorý sa učí medzi jednotlivými sessions
Ako sa AI agenti učia medzi jednotlivými sessions
Autor: Richard Golian
Cieľ, ktorý som si stanovil
Chcel som postaviť agenta, ktorý nielen asistuje, ale aj samostatne koná.
Myšlienka bola jednoduchá: nastaviť automatizácie na získavanie dát, nechať agenta analyzovať, čo nájde, navrhovať ďalšie kroky, posielať tieto návrhy na schválenie — a cez tento spätnoväzbový cyklus sa postupne zlepšovať. V určitom bode, keď by sa jeho návrhy dlhodobo zhodovali s tým, čo považujem za dobré rozhodnutia, by prestal čakať na schválenie a začal konať samostatne.
Nie chatbot. Nie kopilot. Autonómny systém, ktorý si zaslúži dôveru tým, že ju opakovane preukazuje.
To bol cieľ. O častiach tohto projektu som písal v predchádzajúcom článku o lokálnych AI modeloch. Toto je ďalšia kapitola.
ČO SOM POSTAVIL — A ČO NEDOKÁZAL
Prvá verzia bola jednoduchá. Zaujímavé nebolo to, čo robila. Zaujímavé bolo to, čo nedokázala.
Agent beží podľa harmonogramu, získava dáta, analyzuje ich a posiela report do Slacku. Aby bol výstup konzistentný, vytvoril som schému — schválený formát, voči ktorému sa agent overuje pred každým odoslaním. Ak niečo nesedí, opraví sa. Cyklus opakuje, kým výstup neprejde. Ak mu niečo bráni dokončiť proces — napríklad zlyhané volanie LLM — nepošle ochudobnený výstup. Namiesto toho pošle upozornenie do Slacku.
Pridal som aj pozitívne príklady. Schválené výstupy z predchádzajúcich behov, na ktoré sa agent môže odvolávať pri tvorbe ďalšieho.
Zdalo sa to ako solídny systém. A chvíľu som si aj myslel, že je.
ČO MA STÁLE TRÁPILO
Každá session začína od nuly.
Schéma je tam. Príklady sú tam. Ale agent nevie, s čím mal včera problém. Nevie, ktoré pravidlo stále porušuje. Nevie, čo už dávno vyriešil.
A to mení všetko.
Cyklus sebakorrektúry funguje v rámci jednej session. Medzi jednotlivými sessions sa nič nehromadí. Nekonzistentnosť, ktorú som videl, nebola problém konfigurácie. Nebol to problém inštrukcií.
Problém nebol technický. Bol štrukturálny.
SEBAKOREKCIA VS SEBAZDOKONAĽOVANIE
Tu som si uvedomil niečo dôležité.
Sebakorekcia znamená, že agent zachytí vlastné chyby pred odoslaním výstupu. Deje sa to v rámci jedného behu, voči pevnej schéme. Session skončí — a čokoľvek sa agent naučil, zmizne.
Sebazdokonaľovanie znamená, že agent buduje niečo naprieč behmi. Každá session zanechá stopu, ktorú môže využiť ďalšia. Chyby sa stávajú pravidlami. Pravidlá sa stávajú kontextom. Kontext formuje ďalší výstup ešte pred tým, ako začne generovanie.
Prvé je filter kvality. Druhé sa podobá viac na učenie.
A tento rozdiel nie je len o AI agentoch. Je to rozdiel medzi systémami, ktoré opakujú, a systémami, ktoré sa vyvíjajú. Medzi ľuďmi, ktorí opravujú chyby, a ľuďmi, ktorí tie isté chyby prestanú robiť. Väčšina organizácií má sebakorekciu. Skutočné sebazdokonaľovanie má málokto. Mechanizmus vyzerá zvonku podobne. Architektúra pod ním je úplne iná.
Mal som dobrý filter kvality. Chýbala mi vrstva akumulácie pod ním.
MÁ CLAUDE CODE UŽ PERSISTENTNÚ PAMÄŤ?
Dobrá otázka — a taká, ktorú som si musel zodpovedať sám.
Claude Code má súbor CLAUDE.md. Načíta sa automaticky na začiatku každej session. Keď poviete agentovi, aby si niečo zapamätal do budúcna, môže to zapísať tam. A nabudúce to tam bude. To je skutočná persistencia. Nie ilúzia.
Takže keď Claude Code potvrdí, že si niečo zapamätá — neklamal.
Problém je v tom, čo „tam" v praxi znamená.
Plný prístup k mojim myšlienkam, osobným príbehom, zisteniam a tomu, čo sa dozviem od ľudí, s ktorými sa stretávam.
Vstúpte do knižniceZískajte celý článok e-mailom a neváhajte odpovedať, ak o ňom chcete ďalej diskutovať.
Zhrnutie
Ak máte nejaké otázky alebo spätnú väzbu, pokojne mi napíšte na mail@richardgolian.com.