Mezi daty používanými k trénování velkých jazykových modelů je i populární adresář textů označovaný jako Hromada, anglicky The Pile. Má 886 gigabajtů. Jeho součástí je i podadresář jménem Books3 o velikosti 140 gigabajtů. Obsahuje 183 tisíc anglicky psaných knih. Jsou mezi nimi například tituly od Stephena Kinga, Margaret Atwoodové nebo Jane Rowlingové. Zahrnuje ale třeba i turistické bedekry a další rozmanitý výběr všemožných spisů.

Autorům knih a nakladatelům to pochopitelně vadí. Někteří už společnosti provozující jazykové modely žalují. Ty se však brání, že jejich stroje sice knihy přečtou, ale nepamatují si jejich obsah. Naučí se z nich jen vztahy mezi slovy.

Skupina vědců vedená A. Feder Cooperem ze Stanfordovy univerzity zkusila tohle tvrzení otestovat. Vzali kratší úsek textu z knihy a rozdělili ho na dvě části. Modelu zadali první a požádali ho, ať doplní druhou. V češtině by začátek mohl být třeba:

Byl už starý, vyjížděl sám v loďce na lov do Golfského proudu a teď tomu bylo čtyřiaosmdesát dní, co nechytil jedinou rybu.

Správné pokračování by znělo:

Prvních čtyřicet dní s ním jezdil chlapec. Ale po čtyřiceti dnech bez úlovku … atd.

Čtenář pravděpodobně snadno uhodne, odkud úryvek pochází. .

Pokud se model strefil, spočítali vědci pravděpodobnost, že uspěl náhodou. Z toho pak mohli usoudit, jestli se někde v hlubinách umělé inteligence skrývá kompletní kopie knihy. Výzkumníci jich takhle otestovali třináct.

Většina modelů v testu selhala. Dokázaly sice úryvek doplnit, jejich odpověď však byla jiná než původní text v knize. Výjimka byla umělá inteligence Llama 3.1 70B od společnosti Meta, provozující Facebook a Instagram.

Model podle vědců skrývá například většinu první knihy Harryho Pottera, Velkého Gatsbyho nebo třeba 1984. Pokud by porušil autorská práva jen ke třem procentům textů v adresáři Books3, znamenalo by to nárok na odškodnění ve výši jedné miliardy dolarů. Celková částka se však může vyšplhat daleko výše.