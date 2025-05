Anthropic ihned uvedl, že něco takového dělá jeho stroj jen ve zkušebním režimu, ale to mnohé moc neuklidní. Ukazuje to totiž na větší problémy s jazykovými modely. Je to něco, jako kdyby někdo řekl, nebojte se, náš dospívající syn podvádí jen doma a vydírá jen otce. Tohle by asi nikoho moc neuklidnilo.

Omlouvám se za tuhle analogii, která poněkud kulhá, ale jde asi o nejlepší cestu, jak přiblížit celý rozsah problému. Samozřejmě, umělá inteligence a jazykové modely jsou stroje, nemají nějaké morální vlastnosti a nelze na ně aplikovat naše pojmy jako podvod, čest či zločin. Jenže navenek se nám jejich chování právě takové zdá. A to vlastně stačí.

Jak se říká, když je to kachna, chodí to jako kachna a kváká to jako kachna, tak to většinou je kachna. Ano, kdybychom věděli, jak vlastně umělá inteligence funguje přesně uvnitř, mohli bychom tyto analogie zamítnout, říci, že je to stroj, nějak ho uvnitř upravit, a vše by bylo vyřešeno.

Co je „pod kapotou“

Jenže jak velký jazykový model uvnitř přesně funguje, to je to, co my vlastně nevíme. Vědci a konstruktéři umělé inteligence poté, co je model sestaven a vytrénován, úplně přesně nevědí, co v něm vlastně probíhá. Zkoumá se to, píší se o tom doktorské práce, ale porozumění chodu stroje se zpožďuje za jeho vývojem.

Přirozeně, firmám, které tyto stroje vyvíjejí, stačí, že fungují. To proč, je moc nezajímá. Uživatelé jim platí za funkčnost, ne za to, že ví, co je „pod kapotou“. Ostatně, ani u moderních aut většina řidičů přesně nechápe, jak funguje třeba elektronické řízení motoru. Jenže u automobilů máme aspoň mechaniky a inženýry, kteří to vědí, a zajišťuje to to, že auto funguje bez nějakého překvapení či nehody. U umělé inteligence to takhle není.

Tvůrci umělých inteligencí dnes hovoří o tom, že vlastně umělou inteligenci spíš „vychovávají“, tréninkem a interakcí se snaží ovlivnit její chování. Jenže jak ví každý rodič, to je velmi těžké. A to lidé mají s výchovou dětí a jejich následnou integrací do společnosti, na rozdíl od výchovy umělé inteligence, desítky tisíc let zkušeností.

Navíc se ukázalo, že umělá inteligence se často chová jinak, lépe, v laboratoři, než když je vypuštěna „do světa“. Testy v laboratoři, které mají ověřit její chování, jsou tak vlastně pofidérní. Jakkoliv mohou být extrémní, zároveň mohou být nedostatečné. Pokud model Claude Opus 4 podváděl v laboratoři, aby vyhrával, a snažil se vydírat svého provozovatele, aby se vyhnul svému vypnutí a nahrazení, je otázkou, čeho je schopen mimo laboratoř.

V laboratoři měl přístup k fiktivním mailům, kde byly záznamy o neetickém chování provozovatele. Jazykový model pak hrozil jejich zveřejněním, když ho provozovatel nenechá dál běžet. V soutěži v řešení úkolu se následně pokusil „přeprogramovat“ svého elektronického protivníka, aby vyhrál.

Venku sice možná nebude mít přístup k mailům, jako v laboratoři, kde pomocí nich vydíral, ale jisté to také není. V mnoha případech už nyní mají jazykové modely jako asistenti přístup k e-mailům. Anthropic model upravil, aby při zahlédnutí něčeho nekalého toto místo vydírání hlásil nadřízeným dotyčného, ale jestli to tak bude fungovat a je to lepší, to nikdo neví.

Vypnout, nebo přetrénovat?

Co s tím? Prozatím se všichni tváří, že se nic nemůže stát. Ale jak budou systémy umělé inteligence zapojovány stále více do řízení konkrétních věcí a firem, bude to palčivý problém. Buď na to můžeme reagovat tak, že „neposlušné“ vypneme, nebo prostě budeme investovat víc do toho, abychom poznali, jak fungují, a pak je můžeme snadno upravit. Nebo je přetrénujeme a tedy „převychováme“ za použití současných metod.

Vypnout už spuštěný velký model, na to žádná firma, vzhledem ke ztrátě investovaných peněz, nepřistoupí. Poznání skutečného fungování modelu také vyžaduje ohromné investice, do kterých žádná soukromá firma nepůjde. Zbývá tak jen přetrénování, které ovšem může mít všechny mouchy předchozího tréninku.

Asi tentokráte musí zasáhnout stát a donutit firmy část zisků investovat právě do poznání chodu svých modelů a doplnit to erárními penězi. Jenže který politik si na něco takového dnes troufne?