SAN FRANCISCO Vyhledávač Google uvedl do provozu novou gigantickou databázi, která obsahuje na pět set miliard slov. Tu vytvořil naskenováním více než pěti milionů knih, které vyšly od roku 1500 do 2008 anglicky, ale i francouzsky, německy, španělsky, čínsky, hebrejsky a také třeba rusky. Těchto pět milionů svazků tvoří ovšem pouhá 4 procenta všech dosud publikovaných knih. Mnoho knih je ještě chráněno autorským právem, který ovšem Google legálně obešel tím, že nepublikoval celé knihy ani pasáže, ale pouze slova a krátké fráze. Obří rozměry tohoto gigantického skladu slov přiblíží fakt, že kdyby člověk četl rychlostí dvě stě slov za minutu, trvalo by mu celých 80 let, než by přečetl jen slova databáze z knih publikovaných po roce dva tisíce. Nesměl by se ale rozptylovat jídlem, pitím ani třeba spánkem.
Profesoři z Harvardu nový program, který je k dispozici zdarma na internetu, označili jako průlomový ve zkoumání kulturních změn posledních století. A ačkoli je tato databáze určena především učencům, její jednoduché používání pravděpodobně osloví i širší veřejnost.
Pokud chcete například srovnat frekvenci používání různých slov během posledních čtyř století, můžete si udělat vlastní průzkum na stránce ngrams.googlelabs.com.
„Nová databáze slov otvírá naprosto nové možnosti v literárním studiu,“ říká Erez Lieberman Aiden, matematik a bioinženýr z Harvardu a spolutvůrce databáze. Jimmy Carter a Marilyn Monroe Ze studie, kterou nedávno uveřejnil časopis Science, vyplývá, že se dá z jednoduchých spojení slova „sláva“ zjistit i jeho změny během století. Zjišťuje se, že dnes je sláva mnohem pomíjivější než kdykoli předtím.
Lidé se stávají slavnými v mnohem nižším věku a během kratší doby a stejně tak rychle budou slavní zapomenuti. Herci se stávají slavnými okolo třicítky, spisovatelé kolem čtyřicítky a politici zřídkakdy před padesátkou. Můžete zjistit, že v tištěných knihách nedosahují Mickey Mouse nebo Marilyn Monroe zdaleka takové popularity jako třeba bývalý americký prezident Jimmy Carter.
Když si zadáme anglické názvy měst Praha, Bratislava a Varšava, zjistíme, že zatímco výraznější zmínky o Bratislavě se v literatuře objevují až okolo roku 1955, linka Prahy se rýsuje už mnohem dříve, od roku 1819. Varšava se objevuje kolem roku 1870 a dosahuje obrovské intenzity v roce 1980. Zhruba od pádu komunismu začíná křivka Prahy strmě stoupat a stoupá dosud, zatímco Varšavu i Bratislavu nechává daleko za sebou.
***
DIGITÁLNÍ HYPERKNIHOVNA
Google digitalizoval celkem 5 195 769 knih - 4 procenta všech dosud publikovaných knih. Nejstarší knihy pocházejí z roku 1500. Digitální databáze Googlu obsahuje 500 miliard slov v šesti jazycích. * Angličtina 361 miliard slov * Francouzština 45 miliard * Španělština 45 miliard * Ruština 35 miliard * Čínština 13 miliard * Hebrejština 2 miliardy