Pátek 19. dubna 2024, svátek má Rostislav
130 let

Lidovky.cz

Počítače se učí mluvit i rozumět

Česko

Počítačové systémy ovládané pouze lidskou řečí dlouho existovaly jen v představách autorů sci-fi. Zdá se, že se jejich vize začínají vyplňovat. Křišťálový disk si z letošního veletrhu Invex odnesla mimo jiné technologie NovaVoice - řešení pro převod mluvené řeči na text. Funguje přesně tak, jak byste očekávali: namísto používání klávesnice mluvíte do mikrofonu a text se v reálném čase objevuje na obrazovce. V základu diktujete do Microsoft Wordu, kde přibude nový panel pro práci s programem, ale není problém systém převést i na jiné programy.

Při tvorbě programu bylo použito velké množství řečníků, takže program není závislý na jednom specifickém mluvčím, jak tomu bývalo v minulosti. U konkrétního uživatele ale probíhá systém specifického učení, takže lze při dlouhodobějším používání dosáhnout spolehlivosti až 97 procent. U netrénovaných mluvčích se hodnoty pohybují kolem devadesáti procent, což znamená, že každé desáté slovo (hlavně vlastní jména) je nutno opravit ručně.

NovaVoice obsahuje specifické slovníky podle prostředí, kde bude nasazen, aby pokryl co možná nejvíc odborných termínů daného odvětví. V současnosti existují řešení pro zdravotnictví, krajské úřady a soudnictví. Právě zde by mohl ušetřit nejvíc času a zefektivnit české soudnictví. Testuje se u vybraných soudů v Praze a Plzni, jeho další rozšíření bude záviset především na finanční situaci.

Správné převedení mluvené řeči do textu je však jen jednou složkou problému. Daleko náročnější bude naučit počítače chápat, co vyřčenými slovy myslíme.

Právě to by měla umět Týna, virtuální asistentka na lince zákaznické podpory T-Mobile. Až do konce roku funguje pouze v testovacím režimu, takže se s ní setkají jen vybraní zákazníci. Týna se představuje jako hlasový automat, svůj požadavek jí však nesdělujete pomocí volby čísel na klávesnici, ale přirozeným jazykem. Není přitom předepsaná žádná norma, jak má takový dotaz vypadat. Věta je pak rozložena na fonémy, základní jednotky lidské řeči, analyzována softwarem firmy Nuance Communications a porovnávána s databází více než 20 tisíc slov a slovních spojení.

Následně se v žádosti identifikuje požadovaný objekt (např. „roaming“) a akce (např. „aktivovat“). Podle zástupců společnosti T-Mobile je Týna v 80 procentech případů schopna vyřešit problém a navést volajícího na požadovanou oblast hlasového automatu, zbývající zákazníci mají možnost kdykoli přejít na klasický automat nebo se nechat přepojit na operátora.

Dříve býval syntetický hlasový výstup něčím, s čím jsme se mohli setkat jen zřídka. Stroje však na nás začnou mluvit čím dál častěji, a to i v případech, kdy bychom to nečekali. Příkladem může být i populární videoserver YouTube. Býval často kritizován za nízkou úroveň komentářů. Teď máte proto možnost nechat si před odesláním svůj příspěvek přečíst - a ještě jednou tak zvážit jeho přínos. Taková funkce by jistě neškodila ani mnoha českým serverům.

O autorovi| ONDŘEJ POHL, Autor je vedoucí sekce Svět techniky serveru Lidovky.cz

Autor: