Článok
Trénovanie AI agenta, ktorý sa učí medzi jednotlivými sessions
Cieľ, ktorý som si stanovil
Chcel som postaviť agenta, ktorý nielen asistuje, ale aj samostatne koná.
Myšlienka bola jednoduchá: nastaviť automatizácie na získavanie dát, nechať agenta analyzovať, čo nájde, navrhovať ďalšie kroky, posielať tieto návrhy na schválenie — a cez tento spätnoväzbový cyklus sa postupne zlepšovať. V určitom bode, keď by sa jeho návrhy dlhodobo zhodovali s tým, čo považujem za dobré rozhodnutia, by prestal čakať na schválenie a začal konať samostatne.
Nie chatbot. Nie kopilot. Autonómny systém, ktorý si zaslúži dôveru tým, že ju opakovane preukazuje.
To bol cieľ. O častiach tohto projektu som písal v predchádzajúcom článku o lokálnych AI modeloch. Toto je ďalšia kapitola.
ČO SOM POSTAVIL — A ČO NEDOKÁZAL
Prvá verzia bola jednoduchá. Zaujímavé nebolo to, čo robila. Zaujímavé bolo to, čo nedokázala.
Agent beží podľa harmonogramu, získava dáta, analyzuje ich a posiela report do Slacku. Aby bol výstup konzistentný, vytvoril som schému — schválený formát, voči ktorému sa agent overuje pred každým odoslaním. Ak niečo nesedí, opraví sa. Cyklus opakuje, kým výstup neprejde. Ak mu niečo bráni dokončiť proces — napríklad zlyhané volanie LLM — nepošle ochudobnený výstup. Namiesto toho pošle upozornenie do Slacku.
Pridal som aj pozitívne príklady. Schválené výstupy z predchádzajúcich behov, na ktoré sa agent môže odvolávať pri tvorbe ďalšieho.
Zdalo sa to ako solídny systém. A chvíľu som si aj myslel, že je.
ČO MA STÁLE TRÁPILO
Každá session začína od nuly.
Schéma je tam. Príklady sú tam. Ale agent nevie, s čím mal včera problém. Nevie, ktoré pravidlo stále porušuje. Nevie, čo už dávno vyriešil.
A to mení všetko.
Cyklus sebakorrektúry funguje v rámci jednej session. Medzi jednotlivými sessions sa nič nehromadí. Nekonzistentnosť, ktorú som videl, nebola problém konfigurácie. Nebol to problém inštrukcií.
Problém nebol technický. Bol štrukturálny.
SEBAKOREKCIA VS SEBAZDOKONAĽOVANIE
Tu som si uvedomil niečo dôležité.
Sebakorekcia znamená, že agent zachytí vlastné chyby pred odoslaním výstupu. Deje sa to v rámci jedného behu, voči pevnej schéme. Session skončí — a čokoľvek sa agent naučil, zmizne.
Sebazdokonaľovanie znamená, že agent buduje niečo naprieč behmi. Každá session zanechá stopu, ktorú môže využiť ďalšia. Chyby sa stávajú pravidlami. Pravidlá sa stávajú kontextom. Kontext formuje ďalší výstup ešte pred tým, ako začne generovanie.
Prvé je filter kvality. Druhé sa podobá viac na učenie.
A tento rozdiel nie je len o AI agentoch. Je to rozdiel medzi systémami, ktoré opakujú, a systémami, ktoré sa vyvíjajú. Medzi ľuďmi, ktorí opravujú chyby, a ľuďmi, ktorí tie isté chyby prestanú robiť. Väčšina organizácií má sebakorekciu. Skutočné sebazdokonaľovanie má málokto. Mechanizmus vyzerá zvonku podobne. Architektúra pod ním je úplne iná.
Mal som dobrý filter kvality. Chýbala mi vrstva akumulácie pod ním.
MÁ CLAUDE CODE UŽ PERSISTENTNÚ PAMÄŤ?
Dobrá otázka — a taká, ktorú som si musel zodpovedať sám.
Claude Code má súbor CLAUDE.md. Načíta sa automaticky na začiatku každej session. Keď poviete agentovi, aby si niečo zapamätal do budúcna, môže to zapísať tam. A nabudúce to tam bude. To je skutočná persistencia. Nie ilúzia.
Takže keď Claude Code potvrdí, že si niečo zapamätá — neklamal.
Problém je v tom, čo „tam" v praxi znamená.
Vstúpte do knižnice
Plný prístup k mojim myšlienkam, osobným príbehom, zisteniam a tomu, čo sa dozviem od ľudí, s ktorými sa stretávam.
Vstúpte do knižnice — €29,99 ročneZískajte celý článok e-mailom a neváhajte odpovedať, ak o ňom chcete ďalej diskutovať.
Zhrnutie
Súvisiace články
Staviam AI systém na predpovedanie indexu S&P 500. Beží na mojom vlastnom počítači, používa verejne dostupné dáta zdarma — yfinance, FRED, Shillerov dataset — a každú predpoveď hodnotí oproti realite. Táto séria dokumentuje samotný vývoj: rozhodnutia, metodiku, chyby.
Predtým, než AI niečo naučíte, musíte vidieť, čo pred vami skrýva.
V momente, keď k nemu potrebovali prístup ďalší ľudia, problém sa úplne zmenil. Už nešlo o to, či sa agent dokáže učiť. Šlo o to, kto ho smie učiť.
Ďalšie články
Včera večer som sa nevedel odtrhnúť od počítača. Keď som zdvihol hlavu, bolo pol deviatej. Na poschodí som už asi tri hodiny sedel sám.
Hodina. Päťdesiatpäť minút. To je čas, ktorý mi trvalo postaviť niečo, čo mi česká softvérová firma nacenila na viac ako 50 000 €. Postavil som to s Claude Code. Nie prototyp. Nie proof of concept. Funkčný nástroj — ten, ktorý firma reálne potrebovala. Ešte ten večer bežal na testovacom prostredí. Toto nie je o Claude Code. Je to o tom, čo Claude Code odhaľuje.
Za posledné štyri roky som viedol zhruba stopäťdesiat praktických pohovorov. Päťdesiat na pozície dátových špecialistov. Sto na špecialistov reklamy a výkonnostného marketingu. Takmer každý z nich znamenal sadnúť si s kandidátom nad praktickou úlohou — niečím blízkym reálnemu problému, ktorý v firme naozaj potrebujeme riešiť. Žiadna teória. Žiadne kvízy. Aplikované riešenie problémov. Postupom času som si začal všímať vzorec.
Toto som sa naučil o lokálnej vs cloudovej AI a prečo som prešiel na Claude Code.
Čo by mohlo situáciu zmeniť?
Deje sa to každý deň. Deje sa to práve teraz.
To, čo nás kedysi posilňovalo, nás dnes oslabuje.
Štyri dni v Katalánsku. Bez počítača, bez AI, takmer bez sociálnych sietí. Kúpil som si tento zápisník, aby som doň písal to, o čom budem premýšľať, a to, na čo na tejto ceste narazím a čo sa naučím.
„Neospravedlniteľné, neobhájiteľné. Na toto sa nesmie nikdy zabudnúť.“
