DeepSeek je čínský startup založený v roce 2023 a financovaný investičním fondem High-Flyer, jedním z největších kvantitativních fondů v Číně. Během velmi krátké doby DeepSeek vzbudil neuvěřitelnou pozornost, která vedla k ohromnému dennímu propadu akcií jedné společnosti – konkrétně šlo o akcie společnosti NVIDIA, dosavadního světového lídra v oblasti umělé inteligence, jež klesly o 600 miliard dolarů. Příchod DeepSeeku na scénu ovšem nebyl náhodný. Načasování spadalo právě na inaugurační den staronového amerického prezidenta Donalda Trumpa.

K vydání modelu umělé inteligence firmy DeepSeek bylo údajně potřeba pouze 6 milionů dolarů a tým o velikosti asi 20 lidí, přičemž tento model vykazoval výsledky srovnatelné (a někdy i lepší) s konkurenčním modelem od OpenAI O1, nicméně s výpočetními náklady, které byly o 97 % nižší. A takový koktejl pro vyvolání totální paniky v AI komunitě bohatě stačí.

Do vývoje AI se totiž investují stovky miliard dolarů. Ve stejný týden, kdy se objevil DeepSeek, byl oznámen projekt Stargate s prvotní investicí 100 miliard dolarů a s předpokládaným rozšířením na 500 miliard. Stargate má v podstatě vybudovat novou infrastrukturu pro OpenAI. Microsoft do AI každý rok investuje cca 80 miliard dolarů, Meta, Google a další jsou na tom podobně, startupy do trénování svých modelů investují desítky či stovky milionů dolarů – a najednou se tu objeví někdo, kdo tvrdí, že to vše lze zvládnout jen za zlomek nákladů?

Srovnání výkonu AI.

Samozřejmě to byla lež, problémů to ale nadělalo hromadu. Zavládla panika, investoři, vývojáři, podnikatelé a vlastně celá tech-komunita přemýšleli, co se to vlastně stalo. A hlavně je zajímalo, co to bude znamenat pro budoucnost AI a pro USA.

Zásadní inovace

Ale zpátky k inovaci našich čínských nepřátel. Abychom pochopili, co celý AI svět tak vyděsilo, musíme si říct, že nová architektura modelu DeepSeek spočívá v zásadní inovaci, která kombinuje přístup Mixture-of-Experts (MoE) s technikou Multi-Head Latent Attention (MLA). Díky MoE je model schopen dynamicky aktivovat pouze specifické, „expertní“ podsystémy, relevantní pro daný úkol, což výrazně snižuje výpočetní náročnost a paměťové požadavky.

Zároveň MLA efektivně komprimuje a optimalizuje tok informací, takže se klíčová data zpracovávají rychleji a přesněji. Tato kombinace tak DeepSeeku umožnila nejen snížit náklady na trénink na zlomek cenových úrovní západních konkurentů, ale také dosáhnout vynikajících výsledků v oblasti matematického uvažování, logiky a programování. Inovace v aktivaci expertů a optimalizaci výpočetních toků představují klíčový faktor, díky kterému je model tak výkonný a efektivní.

Dovolím si teď malé technické okénko. DeepSeek využívá MoE architekturu, díky níž má model obrovskou kapacitu (například 671 miliard parametrů), ale při výpočtech je aktivována jen menší podmnožina těchto parametrů (přibližně 37 miliard). Takový selektivní výběr umožňuje efektivně využít výpočetní zdroje a zároveň dosahovat vysoké přesnosti, protože to snižuje potřebnou výpočetní zátěž a provozní náklady – na rozdíl od konkurentů, kteří využívají „plný model“ pro každý výpočet. Představit si to můžeme tak, že místo abyste v knihovně hledali recept na špagety po celé budově, paní knihovnice vás zavede jen do oddělení kuchařek.

Jednou z hlavních inovací DeepSeeku je explicitní trénink modelu R1, aby „myslel nahlas“. To znamená, že při řešení komplexních úloh model generuje postupný řetězec myšlení – tedy krok za krokem dokládá svůj logický proces. Zvyšuje tím svou transparentnost a umožňuje uživatelům lépe porozumět, jak model dospěl k danému výsledku. Transparentnost pak zvyšuje důvěru uživatelů a zároveň umožňuje lepší diagnostiku chyb, což je oproti mnoha proprietárním modelům, kde je řetězec myšlení skrytý, technologický posun. Nyní při zadání dotazu přesně vidíte, co model dělá a jak „přemýšlí“.

Čínská krádež s požehnáním vlády

Na Twitteru (nyní X) se v návaznosti na nástup DeepSeeku rozhořely debaty o budoucnosti AI, vlivu OpenAI a samozřejmě hlavně o tom, zda vůbec lze ospravedlnit současné náklady na výrobu AI modelů v USA. Už během prvních desítek hodin se však začalo říkat, že všechno bude asi jinak. Celé to znělo až příliš krásně: jako pohádka o pár lidech z kanceláře, kteří dokážou vytvořit něco, co celé Spojené státy ne. Navíc údajné „umístění“ aplikace v App Storu, stahování ovlivněné boty otevírá prostor pro spekulace o ne zcela čistých metodách propagace.

Společnost OpenAI také obvinila DeepSeek, že mohl neoprávněně využít jejich technologii pomocí distilace, což je metoda, při které se „vstřebávají“ znalosti z většího modelu do menšího. OpenAI tvrdí, že to by porušovalo jejich podmínky použití, jelikož není dovoleno používat výstupy OpenAI k vytvoření konkurenčních produktů. Zdá se, že DeepSeek to dost pravděpodobně udělal. Je to zároveň obrovská ironie, protože jak už její název napovídá, OpenAI původně měla být neziskovou organizací vyvíjející open source AI pro „dobro lidstva“, ale stala se pravým opakem, navíc sama trénovala a možná stále trénuje své modely na datech, která jim nepatří.

Ale pojďme dál. Podle nových tvrzení odborníků potřeboval DeepSeek více než miliardu dolarů na dostatečnou výpočetní techniku. Touto poznámkou se ale dostáváme k další Pandořině skříňce, týkající se vývoje AI: možnému obcházení zákazu exportu nejvýkonnějších čipů do Číny.

Společnost NVIDIA totiž dosahuje až 25 % obratu právě z exportu svého zboží do Singapuru, jenomže ze Singapuru toto zboží jde s největší pravděpodobností do Číny – no a to je samozřejmě už od roku 2022 zakázáno. Investiční fond High-Flyer, respektive jeho prostřednictvím DeepSeek podle všeho nakoupil velké množství techniky již před tímto zákazem, což ale naznačuje, že celá firma se vývojem AI zabývá už delší dobu. Znamenalo by to, že její náklady určitě zmíněných 6 milionů dolarů přesáhly.

Takže si to můžeme shrnout: model DeepSeek je nejspíš postaven na technologii vyvinuté u OpenAI – v podstatě se jedná o klasickou čínskou krádež a následnou úpravu. Navíc na trénování modelu měli k dispozici ultravýkonné čipy od NVIDIA (které se do Číny nikdy dostat neměly). A tak se příběh o dokonalém pokroku za pár dolarů a díky pár lidem jeví jako pouhá pohádka.

Nakonec, když se tohoto modelu zeptáte, co je zač, odpoví vám, že je LLM mode z dílny OpenAI. Že k této krádeži došlo s požehnáním čínské vlády, víme také v podstatě s jistotou. Taková technologie se v Číně neobejde bez dozoru. Zároveň se zkuste DeepSeeku zeptat, kdo je v Číně medvídek Pú (prezident Si Ťin-pching) nebo třeba co se stalo na náměstí Nebeského klidu. Model začne psát odpověď, vzápětí ho ale zarazí naprogramovaná cenzura.

Svět se mění, Evropa civí

DeepSeek ukázal, že lze dosáhnout konkurenceschopných výsledků s výrazně nižšími náklady na provoz a omezenými zdroji. Využil pokrok OpenAI a svou chytrostí jej posunul na novou úroveň. Opět se tak do popředí musí dostat debata o closed source a open source. Pokud model vlastní jen jedna firma a pouze ona ví, jak funguje, a poté jej prodává, to je closed source. Oproti tomu open source, otevřený model, si může stáhnout, používat či případně upravovat podle své vůle kdokoli. Hlavním tahounem open source je META, tedy Facebook a jeho Llama.

Spojené státy mají výhodu obrovského technologického náskoku, kontroly výroby technicky nejnáročnějších čipů a přístupu ke kapitálu, Čína jim ovšem připomněla, že to nestačí. Stále jsou třeba nová řešení. Funguje tak celý startupový svět: že malé firmy udělají víc než jejich větší konkurenti. A to si Američané opět připomněli.

AI války jedou na plné obrátky a je v našem zájmu, aby USA nadále vyhrávaly. Snad si také uvědomíme, že i EU potřebuje technologickou revoluci, nikoli jen nové AI zákony a regulace. Víc technologických firem, víc riskování, víc pokroku, úspěchů i neúspěchů. Svět se rychle mění, ale my zatím jen koukáme.

Autor je startupista, zabývá se modulárními řešeními a umělou inteligencí, vybudoval startupy Shipvio a Ringil.