Richard Golian

Narodený roku 1995. Absolvent Univerzity Karlovej. Vedúci výkonnostného oddelenia v Mixit. 10+ rokov v marketingu postavenom na dátach.

#mojacesta #mojarodina #health #vnimanie #filozofia #digital #umelainteligencia #temnota #bezpecnost #financie #politika #slovensko

English Castellano Français

Správa predplatného Výber predplatného

RSS
Newsletter
Nové články do e-mailu
Richard Golian

Zdravím, som Richard. Na tomto blogu zdieľam myšlienky, osobné príbehy — a aj to, na čom práve pracujem. Dúfam, že vám tento článok prinesie hodnotu.

Trénovanie AI agenta, ktorý sa učí medzi jednotlivými sessions

Ako sa AI agenti učia medzi jednotlivými sessions

Autor: Richard Golian

Cieľ, ktorý som si stanovil

Chcel som postaviť agenta, ktorý nielen asistuje, ale aj samostatne koná.

Myšlienka bola jednoduchá: nastaviť automatizácie na získavanie dát, nechať agenta analyzovať, čo nájde, navrhovať ďalšie kroky, posielať tieto návrhy na schválenie — a cez tento spätnoväzbový cyklus sa postupne zlepšovať. V určitom bode, keď by sa jeho návrhy dlhodobo zhodovali s tým, čo považujem za dobré rozhodnutia, by prestal čakať na schválenie a začal konať samostatne.

Nie chatbot. Nie kopilot. Autonómny systém, ktorý si zaslúži dôveru tým, že ju opakovane preukazuje.

To bol cieľ. O častiach tohto projektu som písal v predchádzajúcom článku o lokálnych AI modeloch. Toto je ďalšia kapitola.

ČO SOM POSTAVIL — A ČO NEDOKÁZAL

Prvá verzia bola jednoduchá. Zaujímavé nebolo to, čo robila. Zaujímavé bolo to, čo nedokázala.

Agent beží podľa harmonogramu, získava dáta, analyzuje ich a posiela report do Slacku. Aby bol výstup konzistentný, vytvoril som schému — schválený formát, voči ktorému sa agent overuje pred každým odoslaním. Ak niečo nesedí, opraví sa. Cyklus opakuje, kým výstup neprejde. Ak mu niečo bráni dokončiť proces — napríklad zlyhané volanie LLM — nepošle ochudobnený výstup. Namiesto toho pošle upozornenie do Slacku.

Pridal som aj pozitívne príklady. Schválené výstupy z predchádzajúcich behov, na ktoré sa agent môže odvolávať pri tvorbe ďalšieho.

Zdalo sa to ako solídny systém. A chvíľu som si aj myslel, že je.

ČO MA STÁLE TRÁPILO

Každá session začína od nuly.

Schéma je tam. Príklady sú tam. Ale agent nevie, s čím mal včera problém. Nevie, ktoré pravidlo stále porušuje. Nevie, čo už dávno vyriešil.

A to mení všetko.

Cyklus sebakorrektúry funguje v rámci jednej session. Medzi jednotlivými sessions sa nič nehromadí. Nekonzistentnosť, ktorú som videl, nebola problém konfigurácie. Nebol to problém inštrukcií.

Problém nebol technický. Bol štrukturálny.

SEBAKOREKCIA VS SEBAZDOKONAĽOVANIE

Tu som si uvedomil niečo dôležité.

Sebakorekcia znamená, že agent zachytí vlastné chyby pred odoslaním výstupu. Deje sa to v rámci jedného behu, voči pevnej schéme. Session skončí — a čokoľvek sa agent naučil, zmizne.

Sebazdokonaľovanie znamená, že agent buduje niečo naprieč behmi. Každá session zanechá stopu, ktorú môže využiť ďalšia. Chyby sa stávajú pravidlami. Pravidlá sa stávajú kontextom. Kontext formuje ďalší výstup ešte pred tým, ako začne generovanie.

Prvé je filter kvality. Druhé sa podobá viac na učenie.

A tento rozdiel nie je len o AI agentoch. Je to rozdiel medzi systémami, ktoré opakujú, a systémami, ktoré sa vyvíjajú. Medzi ľuďmi, ktorí opravujú chyby, a ľuďmi, ktorí tie isté chyby prestanú robiť. Väčšina organizácií má sebakorekciu. Skutočné sebazdokonaľovanie má málokto. Mechanizmus vyzerá zvonku podobne. Architektúra pod ním je úplne iná.

Mal som dobrý filter kvality. Chýbala mi vrstva akumulácie pod ním.

MÁ CLAUDE CODE UŽ PERSISTENTNÚ PAMÄŤ?

Dobrá otázka — a taká, ktorú som si musel zodpovedať sám.

Claude Code má súbor CLAUDE.md. Načíta sa automaticky na začiatku každej session. Keď poviete agentovi, aby si niečo zapamätal do budúcna, môže to zapísať tam. A nabudúce to tam bude. To je skutočná persistencia. Nie ilúzia.

Takže keď Claude Code potvrdí, že si niečo zapamätá — neklamal.

Problém je v tom, čo „tam" v praxi znamená.

Čítajte ďalej:

Plný prístup k mojim myšlienkam, osobným príbehom, zisteniam a tomu, čo sa dozviem od ľudí, s ktorými sa stretávam.

Vstúpte do knižnice
alebo len tento článok

Získajte celý článok e-mailom a neváhajte odpovedať, ak o ňom chcete ďalej diskutovať.

Visa Mastercard Apple Pay Google Pay

Zhrnutie

Chcel som postaviť autonómneho AI agenta, ktorý sa časom zlepšuje — nielen takého, ktorý sa opravuje v rámci jednej session. Tento článok vysvetľuje rozdiel medzi sebakorekciou a sebazdokonaľovaním, prečo má zabudovaná pamäť Claude Code limity pre agentov, ktorí bežia denne, a ako vrstva štruktúrovanej pamäte mení to, čo je možné.
Richard Golian

Ak máte nejaké otázky alebo spätnú väzbu, pokojne mi napíšte na mail@richardgolian.com.

Newsletter

Nové články do e-mailu