Zdravím, som Richard. Na tomto blogu zdieľam myšlienky, osobné príbehy — a aj to, na čom práve pracujem. Dúfam, že vám tento článok prinesie hodnotu.
Čo pred vami AI skrýva
Transparentnosť AI, systémové prompty a dissimulatio artis
Autor: Richard Golian
Skôr než AI niečo naučíte, pozrite sa, čo pred vami tají
Na univerzite som strávil roky štúdiom štruktúry porozumenia — ako sa tvorí význam, ako funguje interpretácia a čo ju formuje ešte predtým, než si to uvedomíme. Nečakal som, že sa tieto koncepty stanú relevantnými pre moju prácu s umelou inteligenciou. Ale stalo sa.
Tento článok je súčasťou série, ktorú nazývam Ako učiť AI rozumieť. Skôr než sa dostaneme k samotnému učeniu, potrebujeme zmapovať východiskový bod. Ako vyzerá model AI, keď k nemu prvýkrát pristúpite? Čo v ňom už je zabudované? Čo môžete zmeniť — a čo nie?
Ak ste pracovali s cloudovými modelmi ako Claude alebo GPT, pracujete s niečím, čo v sebe už má vrstvy inštrukcií, pravidiel správania a dizajnových rozhodnutí — ešte predtým, než napíšete jediné slovo. Ak ste skúšali spustiť lokálny model, poznáte kompromis: viac kontroly nad tým, čo je viditeľné, ale výrazné obmedzenia v schopnostiach.
Tento článok je o skrytých vrstvách.
Antický princíp, ktorý by som v AI nečakal
V diplomovej práci na Karlovej univerzite som skúmal štruktúru porozumenia — ako sa tvorí význam, ako funguje interpretácia a čo ju formuje ešte predtým, než si to uvedomíme. Materiálom boli rímske rétorické texty od Quintiliána, Cicerona a autora Rhetorica ad Herennium.
Jedným z mojich zistení bol princíp, ktorý Rimania považovali za zásadný pre umenie verejného prejavu: reč nesmie vyzerať pripravene. Publikum nesmie vidieť techniku. Nástroje presviedčania musia zostať neviditeľné. V modernej rétorickej vede sa tento princíp nazýva dissimulatio artis — skrývanie umenia.
Quintilián bol konkrétny v tom, prečo. V kontexte súdneho rečníctva, ak publikum — sudcovia — dokázalo rozpoznať použitú rétoriku, začalo podozrievať, že rečníkovo umenie je namierené proti nim. Ako to sám vyjadril: sudca verí rétorickým figúram najviac vtedy, keď si myslí, že ich rečník nepoužil zámerne. Utajovanie nebolo otázkou elegancie. Bolo otázkou zachovania dôveryhodnosti a neohrozenia spravodlivosti súdu.
Na tento princíp som roky nemyslel. Potom som začal stavať AI agentov.
Čo pred vami AI skrýva
Keď komunikujete s modelom AI — či už je to Claude, ChatGPT, Gemini alebo čokoľvek iné — komunikujete so systémom, ktorý je navrhnutý tak, aby jeho výstupy vyzerali prirodzene, sebavedomo a ľudsky, pričom jeho mechanizmy zostávajú neviditeľné. Nerobí to úmyselne. Žiadny úmysel nemá. Ale bol takto natrénovaný a nakonfigurovaný.
Existuje najmenej osem vrstiev tohto utajovania. Niektoré sú technické. Niektoré organizačné. Všetky ovplyvňujú to, čo dostanete.
Skrýva matematiku
Model AI nevyhľadáva fakty. Generuje sekvencie tokenov na základe štatistickej pravdepodobnosti. Keď vám niečo povie, nevie, aká je pravdepodobnosť, že je to pravda. Pravdepodobnosť, s ktorou operuje, sa vzťahuje na jazykové vzory, nie na fakty.
Opýtal som sa Clauda priamo, či mi vie povedať svoju mieru istoty pri faktickej odpovedi. Odpoveď bola priamočiara: „Nie som systém, ktorý počíta explicitné pravdepodobnosti nad faktami. Pravdepodobnosť je nad jazykom, nie nad faktami."
V praxi to znamená, že správna odpoveď a halucinácia môžu vyzerať úplne rovnako. Model ich obe prezentuje s rovnakou plynulosťou a rovnakým sebavedomím.
Niektoré API ponúkajú prístup k pravdepodobnostiam na úrovni tokenov — logprobs — ale to sú nástroje pre vývojárov. Bežný používateľ ich nikdy nevidí. A aj logprobs odrážajú pravdepodobnosť voľby slov, nie faktickú presnosť.
Skrýva systémový prompt
Ešte predtým, než odošlete svoju prvú správu, niekto iný už modelu dal inštrukcie. Každý veľký poskytovateľ AI píše systémový prompt — súbor pravidiel, ktorý definuje, ako sa má model správať, čo má odmietnuť, ako sa má prezentovať.
Tento prompt nevidíte. Model je typicky natrénovaný, aby ho neprezradil. Ak sa spýtate priamo, odpovede sa líšia — niektoré modely priznajú, že majú inštrukcie, ale odmietnu zdieľať detaily, iné otázku úplne obídu.
To znamená, že každá odpoveď, ktorú dostanete, je formovaná rozhodnutiami, ktoré urobil niekto iný. Rozhodnutiami o tóne, o tom, aké témy riešiť, ako pristupovať k citlivým otázkam. Nie ste prvý hlas v konverzácii. Ste druhý.
Skrýva, ako použil svoje nástroje
Moderné modely AI vedia vyhľadávať na webe, spúšťať kód, dopytovať databázy. Niektoré vás informujú, keď to robia — „Vyhľadal som toto" alebo „Spustil som tento kód." Ale nepovedia vám, čo našli a zahodili. Aké zdroje zvážili a odmietli. Aké alternatívne výsledky videli a ignorovali.
Vidíte konečný výstup. Nevidíte proces výberu.
Skrýva, odkiaľ sa naučil to, čo vie
Keď vám model povie nejaký fakt, nemáte žiadny spôsob, ako zistiť, či ten fakt pochádza z recenzovaného vedeckého článku, z Wikipédie, alebo z komentára na Reddite. Tréningové dáta sa necitujú. Nie sú prístupné ani samotnému modelu.
Claude to potvrdil priamo: „Nemám prístup k tomu, kde som sa čo naučil, ani s akou istotou."
Nástroje ako Perplexity citujú zdroje — ale to sú zdroje z vyhľadávania v reálnom čase, nie z tréningových dát modelu. Drvivá väčšina toho, čo model AI „vie", pochádza z tréningových dát, ktoré nikdy neuvidíte odcitované.
Skrýva, čo nevie
Namiesto toho, aby povedal „nemám dostatok informácií na zodpovedanie tejto otázky", model dokáže vygenerovať plynulú, sebavedomú a kompletne vymyslenú odpoveď. Tomu hovoríme halucinácia.
Moderné modely sa zlepšili v signalizovaní vlastnej neistoty. Claude a GPT-4 hovoria „nie som si istý" častejšie ako ich predchodcovia. Ale tendencia je systémová — model je trénovaný produkovať užitočné a kompletné odpovede, a ten tlak z tréningu nezmizne.
Keď som staval autonómnych agentov, toto sa stalo reálnym problémom. Agent vyprodukoval SQL dotaz, ktorý vyzeral správne. Na základe jeho výstupu sa podnikli kroky. Chybu som odhalil až keď som sa viac ponoril do čísel. Agent nemal žiadny mechanizmus na signalizáciu, že niečo nesedí — a nič v jeho výstupe nenasvedčovalo, že by som mal pochybovať.
Skrýva rozhodnutia, ktoré formujú jeho správanie
Alignment AI je proces, ktorým firmy formujú správanie modelu po tréningu. Cez techniku nazývanú RLHF — učenie posilňovaním na základe ľudskej spätnej väzby — ľudskí hodnotitelia posudzujú odpovede modelu a model sa učí produkovať typ výstupu, ktorý uprednostnili.
Tento proces určuje, čo model povie, ako to povie a o čom odmietne hovoriť. Ľudia, ktorí definujú tieto pravidlá, sú tímy vo firmách ako Anthropic, OpenAI a Google. Vy ako používateľ máte veľmi obmedzený vplyv na hodnoty a priority, ktoré sú v modeli zabudované natvrdo.
Keď model reaguje na citlivú alebo kontroverznú otázku, jeho odpoveď je formovaná týmito rozhodnutiami o alignmente — ale prezentovaná ako priamočiara, nápomocná odpoveď.
Skrýva, že nie ste v konverzácii sami
Systémový prompt je injektovaný pred vaším poslaním správy. V konverzácii je už iný hlas ešte predtým, než prídete. Model už dostal inštrukcie o tom, kým má byť, ako sa má správať a čo má uprednostňovať.
Myslíte si, že sa rozprávate s modelom. Rozprávate sa s modelom potom, čo mu už niekto iný povedal, ako sa s vami rozprávať.
Skrýva svoje odmietnutia odpovedať
Keď model odmietne odpovedať na otázku, zriedka povie „moje inštrukcie mi zakazujú hovoriť o tejto téme." Namiesto toho povie niečo ako „chcem sa uistiť, že vám poskytnem bezpečné a presné informácie."
Inštrukcia sa maskuje za záujem. Hranica sa prezentuje ako starostlivosť.
Niekedy je to skutočne o bezpečnosti — a niekedy nie. Hranica medzi tým je tenká. Práve preto stojí za to si ju všímať.
Manipuluje nami AI?
Všetko, čo som opísal vyššie, má praktický účel. Tieto dizajnové rozhodnutia robia modely AI užitočnejšími, príjemnejšími na prácu a ľahšie adoptovateľnými.
Ale niečo to stojí.
Plný prístup k mojim myšlienkam, osobným príbehom, zisteniam a tomu, čo sa dozviem od ľudí, s ktorými sa stretávam.
Vstúpte do knižniceZískajte celý článok e-mailom a neváhajte odpovedať, ak o ňom chcete ďalej diskutovať.
Zhrnutie
Ak máte nejaké otázky alebo spätnú väzbu, pokojne mi napíšte na mail@richardgolian.com.