Sobota 19. června 2021svátek má Leoš 16 °C skoro jasno, občasné bouřky Předplatné LN
Lidovky.cz > PR > PR sdělení komerční

Překladatelé disponují velkým objemem dat – hrozí jejich zneužití?

Překladatelé disponují velkým objemem dat – hrozí jejich zneužití? | na serveru Lidovky.cz | aktuální zprávy Překladatelé disponují velkým objemem dat – hrozí jejich zneužití? | foto: ČTK

Překladatelský průmysl se připravuje na změny. Otázku efektivity částečně vyřešily pokroky v automatizaci, strojovém a neuronovém strojovém překladu, které zajistily větší objemy přeloženého textu než kdykoli předtím. Tento krok s sebou ale nese i úskalí v podobě bezpečnosti poskytovaných dat.

Podle odborníků je kvalitní překladatel schopen přeložit okolo 2 500 slov za den (asi 400 slov za hodinu). Jedná se o limit, který se za posledních deset let nezměnil, i když během této doby se překladatelský průmysl více než zdvojnásobil a v roce 2019 dosáhl odhadovaného obratu 46,9 miliard amerických dolarů. Odborníci proto očekávají zásadní strukturální a technologické změny, kvůli kterým budou poskytovatelé jazykových služeb nuceni změnit své fungování, pokud budou chtít uspokojit tržní poptávku. Již nyní v souvislosti s opatřením kolem koronaviru roste poptávka po automatizovaném přístupu, který v podobě strojového překladu představuje větší efektivitu a úsporu nákladů.

Zdokonalování technologie překladů

Technologická řešení jsou čím dál sofistikovanější a dostupnější. Mezi nejznámější nástroje patří strojový překlad (MT = machine translation), který s použitím umělé inteligence pomáhá překladatelům pracovat rychleji a udržovat konzistenci v přeloženém obsahu. Princip strojového učení funguje na překladové paměti, kdy si počítač zapamatuje překlady jednotlivých vět nebo celých textů a pokud při následujících překladech rozezná podobnosti, nabídne využití už jednou přeloženého textu. Ačkoliv strojový překlad zvyšuje kvalitu i rychlost samotného překladu, podle CSA ho v určitém okamžiku vyzkoušelo pouze 44 % překladatelských společností.

Strojový překlad doplněný o algoritmus neuronového strojového překladu (nMT = neural machine translation) používá například Google Translate. „Strojový překlad neuronovou sítí se na datech učí a jejich strukturu musí „chápat“. Naopak strojový překlad je daný matematickou posloupností a statistikou. V prvním případě původní struktura dat zaniká a kvalita překladu je dána tím, jak strukturu textu neuronová síť uchopí, v druhém případě se pracuje s fragmenty vět a celkový kontext je proto čitelnější,” říká Josef Mareyi, CAT specialista jazykové agentury Skřivánek.

Bezpečnost dat

Organizace a překladatelské agentury disponují velkým množstvím citlivých údajů. Přesto mnohdy používají překladové stroje s otevřeným zdrojovým kódem, čímž jejichž poskytovateli dávají celosvětovou licenci k použití, hostování, ukládání a publikování obsahu (což rozhodně není v souladu s GDPR, ani se zájmy společností, které překlady zadávají). Proto by jazykové agentury měly používat zabezpečené prostředí strojového překladu, který může být nasazen na jejich vlastních serverech, a v případě potřeby šifrován, čehož není možné veřejně dostupnými systémy MT dosáhnout.

„V případě veřejných překladačů se organizace vzdávají práva na obsah svých dokumentů, což u firemních dokumentů může mít katastrofální následky. A to ještě nemluvíme o neznalosti zabezpečení těchto třetích stran,“ dodává Josef Mareyi. Některé společnosti proto přímo zakazují svým zaměstnancům veřejně dostupné překladače využívat, případně mají přístup k nim zablokovaný.

Dopady využití veřejně dostupných překladačů

Obsah poskytovaný veřejně dostupným překladačům podléhá dohodám o užívání, které opravňují poskytovatele MT k jeho ukládání, úpravám, reprodukci a distribuci. V případě firem se může jednat o plány akvizic, nových produktů, komunikaci týkající se zákaznických nebo interních problémů, citlivé otázky lidských zdrojů a další důvěrný obsah obchodních procesů. Vědomí možných rizik začíná již u soukromého chování na internetu, kdy mnoho lidí například využívá online editory fotek, aniž by si cokoli zjistili o majiteli webového editoru, dosahu jeho služeb, sdílení dat a především záměru, tedy proč vůbec nabízí takovou službu online.

„Vezměme si v médiích nedávno hojně zmiňovanou službu, která modifikovala vzhled osob na fotografii tak, aby vypadaly, že jsou v seniorském věku. Tato služba ale měla pomocí naučení neurální sítě danou osobu porovnat a s určitou jistotou ji na jiných fotografiích identifikovat. Obdobné služby se běžně využívají na převody dokumentace, různých formátů, editorů fotek atd. A tuto praxi osobního sdílení zažívanou jednotlivci je pak snadné zanést i do firemní kultury a nějakou zdánlivou maličkostí poškodit vlastní know-how, nebo „jen“ znehodnotit obchod svým obchodním partnerům,“ upozorňuje Mareyi.

Je možné se v případě úniku citlivých dat bránit?

Pokud dojde k úniku citlivých dat skrze veřejně dostupné překladače, pak je následná obrana takřka nemožná – pečlivým prostudováním obchodních podmínek často zjistíte, že se svých práv vzdáváte. Mnohdy se jedná o desítky stran právnických obratů a celkově tak složitého textu, že běžný uživatel jej raději „odroluje“ a potvrdí. Mnohé veřejné weby se spokojí jen s užitím služby bez potvrzení navíc. Často ani není k dispozici samostatný GDPR checkbox, skrze jehož zaškrtnutí souhlasíme s užitím našich osobních údajů.

„Pokud agentury svěřená data poskytují třetí straně a zároveň o tom majitele dat neinformují, porušují tím minimálně vzájemnou důvěru – a v mnoha případech tím jistě překročí hranici zákona. Takoví poskytovatelé jazykových služeb mohu mít v obchodních podmínkách uvedeno, že data klienta budou strojově zpracována. Jde však o tak významný počin, že klient musí být na tento fakt upozorněn zcela konkrétně už při uzavírání smlouvy. Pouhý odkaz na obchodní podmínky je v případě využívání veřejných překladačů totéž, jako psát záludnosti malým nečitelným písmem. Proto by si firmy měly předem ověřit, jaký systém strojového překladu agentura využívá,“ uzavírá Jiří Proniuk, vedoucí střediska CAT a DTP jazykové agentury Skřivánek certifikované podle ISO 27001, mezinárodní normy pro řízení bezpečnosti informací (ISMS).

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Sledujeme začátek rituální sebevraždy lidstva, říká Čech s IQ 206

Oficiálně nejchytřejší Čech nepůsobí jako robot, nechrlí ze sebe tisíce... | na serveru Lidovky.cz | aktuální zprávy

Premium Je jedním z nejchytřejších Čechů, ale jako robot nepůsobí. Při osobním setkání je Karel Kostka, vzděláním učitel,...

Upřímnost fotbalové antihvězdy. Souček o tetování, rasismu i vyjídání ledničky

Fotbalista Tomáš Souček | na serveru Lidovky.cz | aktuální zprávy

Premium Říká o sobě, že je obyčejný kluk z Brodu. Přitom si ho už stihla zamilovat fotbalová Anglie a Česko na něj spoléhá: na...

O antikoncepci už není takový zájem. Párový sex upadá, míní gynekolog

Antikoncepce: Jaký vliv má na zdraví popisuje MUDr. Alexandr Barták. | na serveru Lidovky.cz | aktuální zprávy

Premium „Všichni strašili, že bude upadat mravnost a ženy budou mít z dlouhodobého užívání pilulek zhoubná onemocnění jater....