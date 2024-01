Tým Andrewa Gritsevskiye ze slavné Cavendishovy laboratoře na Cambridgeské univerzitě přišel s novým a zajímavým způsobem měření. Navrhují předkládat umělým inteligencím hádanky složené z kombinace textu a obrázků.

V češtině by se dala vzít třeba fotka prezidenta Petra Pavla, znaménko plus a obrázek klíče od domu. Správná odpověď by zněla „petrklíč“.

Gritsevskiy a spol. ovšem nechávali jazykové modely hádat v angličtině. V jednom zadání dostaly obrázek herečky Sharon Stone(ové) znaménko minus a údaj 6,35 kilogramu. Odpověď mělo být město v Americkém státě Massachusetts.

AI si musela uvědomit, že poslední položka znamená tradiční jednotku hmotnosti stone (kámen), používanou hlavně k vyjadřování tělesné hmotnosti. Odpovídá totiž 6,35 kilogramu.

Řešení proto bylo „Sharon“. Jedna taková obec opravdu leží zhruba čtyřicet minut autem od Bostonu. Má necelých 18 600 obyvatel.

Kromě měst nechávali vědci stroje podobným způsobem hádat například jména filmů, mořské živočichy, hudební skladatele nebo vánoční písně. Kategorií bylo dohromady třináct.

Hádanky byly navíc rozdělené na tři stupně obtížnosti: snadná, střední a těžká. Obtížnost hodnotili lidé. Jednotlivých hádanek bylo dohromady 333. Pro člověka mohly být až směšně jednoduché i velice obtížné.

Jazykové modely vyšly z testu vesměs poměrně bídně. Badatelé je předhodili celkem osmi z nich. Nejlepší výsledky měl model GPT. Celkem dokázal vyřešit 24 procent rébusů. V nejsnazší kategorii to bylo 33, v prostřední 13,2 a v těžké jen 7,1.

Nejhůř dopadl model jménem InstructBLIP s celkovou úspěšností jen 0,6 procenta. I když se navíc umělé inteligenci povede hádanku rozlousknout, má často problém zpětně vysvětlit, jak ke své odpovědi dospěla.