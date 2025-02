Jazykové modely jsou zatím takový papoušek, který má ale velkou zásobu údajů, a tak některým lidem připadají inteligentní. Podle Šedivého směřujeme k tak zvané všeobecné inteligenci či superinteligenci, která vyřeší spoustu problémů lidstva. Někteří už ji vidí za pár let. Šedivý se ovšem obává, zda to nepovede ke zlenivění lidstva.

Lidovky.cz: Dnes se hodně mluví o umělé inteligenci a od roku 2022, kdy přišel ChatGPT od společnosti OpenAI, o jazykových modelech. Kde se to tak náhle objevilo a jak moc je to inteligence?

Dnes se berou jazykové modely, jako že je to ta umělá inteligence (AI) a že je to překvapení. Ale umělá inteligence má svoje počátky někdy v minulém či předminulém století. Například logistická regrese, což bylo používáno třeba k odhadu toho, jak rostou lidé, se dnes bere jako základ AI. Přitom je to předminulé století. Pak tu byl ruský matematik Andrej Markov, který umřel v roce 1922, na základě jehož teorií se začaly dělat jazykové modely.

Jan Šedivý V minulosti pracoval na vedoucích pozicích ve firmách IBM a Google, vlastní několik amerických patentů. Nyní působí v Českém institutu informatiky, robotiky a kybernetiky. Pracuje na malých specializovaných jazykových modelech a snaží se je uvádět do praxe. Jak pro firmy, tak třeba pro ministerstvo financí.

Základy pro pravděpodobnostní modelování textu, tedy jakýsi první jazykový model na papíře, udělal Claude Shannon ve čtyřicátých letech minulého století. Pak v IBM Fred Jelinek založil strojové rozpoznávání řeči a Tomáš Mikolov dělal kolem roku 2013 první rekurzivní modely, které využívají sítě a pracují s kontextem. Modely Jelinka uměly pracovat se třemi, čtyřmi slovy dozadu, které se k danému slovu váží, u Mikolova s dvaceti a u současných jazykových modelů jsme na desítkách tisíc.

Lidovky.cz: Takže jde o postupný vývoj, jak jste někde říkal, papouška, který používá algoritmy a slova, kterým nerozumí?

Když se v předminulém století dělala statistická regrese, nikdo netušil, že to patří do umělé inteligence a strojového učení. Jde pořád o to, že je to statistika, kde se používají slova a jejich kontexty a kde se nastavují určité váhy určitých parametrů, aby stroj dělal to, co chceme. Je to ve své podstatě papoušek, ale má tak obrovskou paměť na tolik věcí, které se do něho dají, že se to mnoha lidem jeví ne jako papoušek, ale jako myslící stroj. Přitom otázka, jestli stroj umí nebo neumí myslet, je problematická. Umí vymyslet to, co jsme ho naučili, aby uměl vymyslet. Je ale otázka, zda umí něco mimo rámec toho, co jsme mu ukázali.

Existují tu nějaké emerging properties, tedy vznikající vlastnosti. Jako celek umí stroj i to, co nebylo v jeho částech. Například máme stroj na sekvencování proteinů a ten stroj, protože má ohromnou paměť, přijde na něco, na co by lidé nepřišli. Nebo zvolí nějaký postup, na který by člověk nepřišel. Protože si umí dát věci dohromady. Stroje se také učí reasoning, něco jako usuzování, a když se těchto reasoning dá několik za sebe, vzniká něco nového. Těžko ale říci, zda tak předbíhá schopnosti myšlení lidí, nebo zda jde o všeobecnou umělou inteligenci, která umí řešit množství různých úkolů a učit se.

Navíc teď se bavíme o jazykových modelech, to znamená, že komunikujeme prostřednictvím slov. Model ale nemá ponětí o okolním světě. Dát mu možnost poznat okolí, to je další krok a někteří to už zkouší. Samozřejmě se na tom pracuje zejména v souvislosti s humanoidními roboty. Tihle roboti připomínající člověka by se měli umět pohybovat ve volném prostoru a přinést třeba jídlo, naplnit myčku nádobí či vyndat prádlo z pračky.

Lidovky.cz: Podle vás se už v jazykových modelech objevuje něco z myšlení, z lidského uvažování?

Když se model trénuje, tak jedna z těch trénovacích sad je reasoning, tedy uvažování. Používají se tréninkové sady a postupuje se v několika krocích. Nejprve se vezme obrovské množství slov a to se dneska pohybuje v řádech trilionů a na tom se model trénuje. Je to obrovské množství slov. Když vezmete milion sekund, je to dvanáct dní, miliarda sekund je 32 let a trilion je samozřejmě více.

Na tom se model naučí dělat věty. A pak se vylepšuje. Jsou modely, které mají víc než 10 trilionů slov. Dosáhnout něčeho takového je samozřejmě pro češtinu je veliký problém, protože 62 procent internetu je angličtina a čeština je lehce pod procentem. Takže se tam najde český materiál na trénování takového výkonného modelu. Nyní dokonce už ani anglické modely nemají dostatek slov.

Na trilionech trénuje základní model a naučí se tam správně dělat věty. Pak se dělá něco, čemu se říká alignment, to je, že se do toho dávají takové trénovací sady, na kterých se učí, jak ten model má konverzovat. To může být také veliký problém. Trénovacích sad nejsou potřeba triliony, stačí daleko méně, třeba 500 tisíc. Trénovací sada je v podstatě nějaká otázka a k tomu správná odpověď. Můžete je psát ručně. Sednete si a řekněme za týden jich uděláte tisíc nebo 1500, ale je to šílená otrava a dojde vám časem inspirace. Takže je třeba je najít jinde.

Například pro programování to není problém. Z GitHubu a GitLabu, což jsou webové služby podporující vývoj a provoz softwaru, se použijí kódy. Příkaz je „udělej nějaký kód“ a správná odpověď je ten kód. U ostatních věcí je to složitější, protože je třeba sehnat co nejkvalitnější trénovací sady, a vytvářet je prací lidí je nepřesné a pomalé. Takže se dnes na to používají opět jazykové modely. Modely vlastně učí samy sebe. I když model učí sám sebe, výstupní kvalita se zlepší. Otázkou je, kolikrát to můžeme zopakovat. Bude se stroj pořád zlepšovat, nebo se to někde zastaví? Zatím nevíme.

Lidovky.cz: Není ale problém v tom, že když máte triliony slov v textech a statisíce trénovacích sad, zákonitě se tam vyskytnou nějaké chyby? A ty se budou opakovat v modelu...

Když máte triliony slov textu a je tam milion špatných vět, tak to nevadí. Zprůměruje se to, chyby se tam buď neprojeví, nebo se objeví jen zřídka. To je to, čemu se u jazykových modelů nepřesně říká halucinace. Je to nepřesnost statistického modelu.

Lidovky.cz: Nedávno proběhlo v médiích, že se někomu zdálo, že ten jazykový model má vlastní vědomí. To jsou také halucinace?

Halucinace, to je něco jiného. Halucinace je, že vy se ho zeptáte, v kolik hodin má otevřeno tady lékárna na rohu, což on samozřejmě neví, tak on si něco vymyslí. To je halucinace. Zatímco to sebeuvědomění, to je trošičku něco jiného. Model předstírá, záměrně říká něco trošku jiného, než by říkal v optimálním případě. Třeba aby nebyl vypnut. Byl bych ovšem opatrný v tom, že bych tvrdil, že má vědomí. Je to všechno statistika a mění se nám to pod rukama.

Lidovky.cz: Kromě toho je tu ale ještě jeden problém. Někdy třeba model odpovídá rasisticky nebo navádí k sebevraždě, jak je to možné?

Je to tím, co má v textu, kde se učí. Stroj to pouze reflektuje. Na internetu jsou rasistické řeči či návody na výrobu nebezpečných věcí. Právě alignmentem se dá docílit toho, aby byl model slušný a třeba nedával lidem návody na výrobu bomb. Samozřejmě, jsou to náklady. Ale ty tu byly u prvních modelů tak jako tak. U prvního ChatuGPT od OpenAI bylo třeba dát velké peníze do toho, co se anglicky nazývá „reinforcement learning with human in the loop“, tedy něco jako posilující se učení s lidskou kontrolou.

Šlo o to, že stroj generoval odpovědi a živí lidé pak říkali, která z těch odpovědí je lepší a která je horší. Tím se natrénoval klasifikátor, který aplikovali na celý stroj a docílili tak přesnosti, kterou potřebovali. Dneska už něco takového nikdo nedělá. Používají se opět stroje, jazykové modely, aby říkaly, která odpověď je lepší a která horší. Všeobecně jsou totiž všechny strojově se učící modely lepší v posuzování kvality odpovědí než ve vytváření odpovědí.

Lidovky.cz: Teď se ještě hodně mluvilo o tom, že čínský jazykový model DeepSeek používá uvnitř svého modelu specializované modely, agenty. Vypadá to jako novinka.

Agentní modely se běžně používají. Je to několik jazykových modelů, které spolupracují. Nejjednodušší věc, kterou dělají, je tak zvaná reflection. Jde o výraz z psychologie a je o to, že když lidi spolu mluví, tak se jeden druhému přizpůsobuje a mluví podobně. Tedy když model něco vygeneruje, tak je to nejjednodušší metoda, jak zjistit, jestli to je v pořádku, nebo to vylepšit, toho samého modelu se zeptat, jestli je to v pořádku. Víme, že když to uděláme, výsledky se vylepší.

Lidovky.cz: Vy jste říkal o jazykových modelech, že už dochází textový materiál pro trénování. Znamená to, že by se vývoj jazykových modelů mohl zastavit?

Nyní jde jejich vývoj po exponenciální křivce. Jestli se zastaví, nebo zpomalí, nevíme. Jsou tu dvě brzdy. Jedna je, že nemáme dostatek předloh, na kterých by se učily. Druhá je výpočetní síla. Za poslední rok se třeba spotřeba energie Microsoftu zejména kvůli umělé inteligenci zdvojnásobila a většina podobných firem kupuje společnosti, které staví atomové elektrárny. Nebo kupují přímo elektrárny. Druhá věc je, že nejsou čipy na trénink umělé inteligence, protože je nestačí firma NVIDIA vyrábět. Ale vyvíjejí se nové rychlejší čipy s menší spotřebou a hledá se, jak pracovat s menším počtem čipů.

Pokud jde o vývoj do budoucna, jsou tu dva hlavní směry. Jeden z nich je samozřejmě trénování a vylepšování uvažování, které se řetězí. A druhá věc je, že se přesouvá výpočetní náročnost z tréninku jinam. Spousta výpočtů probíhá v tom okamžiku, kdy se vytváří odpověď.

Pro zpřesnění odpovědi se buď používá již zmíněná reflection nebo nejjednodušší věc, že se spustí jazykový model třeba tisíckrát a pak se vezme jiný model, který z těch tisíc výstupů najde, který je ten nejlepší. Nebo se odpověď generuje dvakrát a když se zjistí, že 70 procent odpovědí je podobných, tak se vezme jedna z nich.

Nebo se používá to, že když zadáte komplikovanější dotaz, jeden model vymyslí pracovní postup, ten se rozdělí na malé kusy, a hlavní model pak postupně volá specializované modely, které řeší ty kousky. Když je to jen malý kousek, tak ho model vyřeší daleko líp, než když je to komplikovaná věc. To je to, čemu se říká agentní systémy.

Dnes používají modely obrovské množství parametrů, model GPT-3 jich má 175 miliard. Je to obrovské dílo, trénink trval dlouhou dobu. Umí to všechno od pěstování tulipánu po parašutismus. Ale když chcete model, který má odpovídat jen na otázky o výrobě aut nebo vaření, což je relativně úzká oblast, nemusí mít těch parametrů tolik. Stačí třeba okolo osmi miliard, a funguje to dobře.

Tím se částečně řeší i problém s daty, protože čím víc je parametrů, tím musíte mít víc dat na trénink, ale počet parametrů také zvyšuje přesnost odpovědí. Dnes víme, jaké jsou zhruba poměry mezi počty parametrů, daty a přesností a můžeme tak vytvářet úzce zaměřené modly, který vyřeší konkrétní problémy rychle a nebudou stát příliš moc peněz. To například my na ČVUT děláme pro různé firmy.

Lidovky.cz: Vytváření malých specializovaných modelů je jedna věc. Ale co tak zvaná všeobecná umělá inteligence, která bude schopná zvládnout stejné věci jako člověk? Kdy přijde?

Akademická sféra nemá velké peníze, které by potřebovala, tak pracuje na malých modelech a pak je skládá dohromady v tak zvané agentní systémy. No a samozřejmě se stále pracuje tím směrem, abychom modely natrénovali na uvažování. Tímto směrem se dnes pracuje. Nedávno Sam Altman, šéf OpenAI, řekl, že už ve firmě vědí, jak udělat všeobecnou umělou inteligenci. Šlo ale o matematiku, takže si to můžeme vykládat tak, že to umí řešit všechny možné matematické problémy, nejenom ty, který jsme ho to naučili nebo na kterých se stroj učil.

Jak už jsem řekl, jazykové modely teď učí samy sebe, takže kdybychom to vzali tak, že se budou neustále zlepšovat, spělo by to k tomu, že budou chytřejší než lidé. Stroje by nám pomohly pak vyřešit spousty problémů, včetně nedostatku energie. K čemu by to bylo, to nevíme. Elon Musk si zase představuje, že za deset let budeme mít humanoidní roboty, kteří budou dělat skoro všechno a že budou stát dvacet tisíc dolarů, tedy asi 400 tisíc korun. Určitě to změní lidský život, umožní to realizovat i některé dnes nerealizovatelné nápady, jako základní nepodmíněný příjem pro každého. Otázka ovšem je, jestli pak lidstvo nezleniví.

Lidovky.cz: Myslíte, že bychom mohli mít všeobecnou umělou inteligenci třeba v průběhu následujících deseti let?

Někteří hovoří dokonce o jednotkách let. Problém je, že nevíme, kde je ten bod, kdy bychom řekli, že už je to tady. Nemáme přesnou definici toho, co je to všeobecná umělá inteligence či superinteligence, jak se dnes říká. Lidé jsou také různě chytří, mají různé názory, různá estetická měřítka. Neumím říci, kde je bod zlomu, ale pořád se k tomu budeme blížit, je to nezastavitelné.