To vše umožňuje nová metoda internetového vyhledávání, kterou vyvinuli vědci z Fakulty informatiky Masarykovy univerzity. Software MUFIN je unikátní i ve světovém měřítku a za svoji práci brněnský tým včera získal jako první v republice prestižní cenu IBM Shared University Research.
Jak systém funguje | |||
Demonstrační verze je zpřístupněna na http://mufin.fi.muni.cz/imgsearch Software MUFIN porovnává vlastnosti objektů a na základě společných určí podobné objekty. Experti na systému pracovali několik let. | |||
A jak vše funguje? Na rozdíl od běžných internetových vyhledávačů, které pracují hlavně s textovými popisky a komentáři obrázků či fotografií, MUFIN dokáže porovnávat samotný obsah objektů prostřednictvím jejich vlastností. Do textových vyhledávačů stačí zadat slovo, část věty, a „vysypou“ se desítky odkazů. Zadat obrázek a čekat, že se objeví další jemu podobné, byla dosud spíše oblast sci-fi.
Technologii využijí i biologové MUFIN (Multi-Feature Indexing Network) to dokáže, a nepotrvá asi dlouho a obdobně bude možné pracovat i se zvukovými soubory či videozáznamy. „Většina našich konkurentů se především snaží aplikovat existující technologie založené na textovém vyhledávání. Samozřejmě, je jednodušší využít to, co už mám, pro jiný účel.
Nicméně tyto pokusy nejsou příliš úspěšné a kvalita takového vyhledávání je výrazně horší,“ tvrdí řešitel projektu Pavel Zezula z Masarykovy univerzity.
Jeho tým se proto vydal jinou cestou. „Z obrázku vyextrahujeme určité vlastnosti, jako je barevné spektrum, textura či rozložení tvarů. Na základě analyzovaných vlastností pak program určí pro každý obrázek bod ve vícedimenzionálním prostoru a porovnává jeho vzdálenost s ostatními. Čím blíže jsou tyto body, tím podobnější si budou i k nim přiřazené obrázky,“ popsal Zezula.
Novou technologii čeká i široké užití v praxi. Biologové mohou vyhledávat podobné DNA sekvence, v oblasti biometrických měření půjde porovnávat otisky prstů nebo rozpoznávat obličeje, lze také pracovat s geografickými daty. Software je možné použít pro čištění dat, například při vyhledávání přebytečných kopií a odhalování plagiátů. „Do několika týdnů bychom měli současnou databázi rozšířit na sto milionů obrázků, výhledově na miliardu,“ plánuje Zezula.
Na vývoji metody pracují vědci Masarykovy univerzity od poloviny 90. let. Zásadní posun přinesly poslední dva roky, kdy se tým z jižní Moravy zapojil do mezinárodního projektu vedeného výzkumnou laboratoří IBM v Haifě.