CAT systémy, pohled do historie a současnost v robotce Sophii

Dnes je za U. I. označovaný jakýkoliv algoritmus, schopný svého učení a je to zásadní chyba…

CAT – computer-assisted translation – překlad podporovaný počítačem

(viz wikipedia k tématu CAT)

Moje první zkušenost s uceleným CAT systémem je před více než deseti lety. Už v té době byly CAT systémy rozvinuté a uměly překladatele při práci citelně podpořit. Samozřejmě podpora to nebyla vědomá, šlo o systémovou podporu vyplývající z předchozí práce s textem (historie překládaných textů) a statistice atributů.

Každý CAT (do dnes) má tři základní vrstvy.

Základní vrstva je uživatelské prostředí a dá se říct, že v této oblasti UI (User interface – wikipedia) se nejdříve každý systém snažil razit své prostředí a svou představu uživatelského pohodlí, ale čas tyto rozdíly smazává. Dnes platí, že jakmile umíte s jedním CATem, zařadit do portfolia dovedností další systém bude pro vás spíše snadné, protože základní parametry systému, jako jsou volby zobrazení, práce s filtry, hromadné úpravy atd., jsou již oblasti kde se rozdíl smazává a většina CATů nabízí to samé. Jen jinak zabaleno do omáčky kolem a pro větší zábavu i jinak ukryté možnosti při pohledu na obrazovku.

Druhá vrstva, technicky nejdůležitější, je práce s překladovou pamětí. Tedy práce s nasbíranými frázemi z dřívějších překladů. Toto je oblast, kde se CATy liší již zásadně a využívané algoritmy se odlišují nejen zpracováním textu. Ono základní práce s pamětí je stejná jako vždy byla, ale časem se rozvinuly jemnější techniky jak zjistit co už je v paměti a jak to znovu využít. Také statistika (využití, vhodnosti pro pozornost, téma, obory, původ) a rejstříky indexů jsou dalekosáhlé seznamy propojených informací.

Při práci s CAT systémy platí, že když už jednou máte v paměti větu Dnes je krásně!, tak například nová věta k překladu Dnes je středa! má shodu kolem 65% a tak se již předchozí věta (Dnes je krásně!) bude nabízet z historie paměti. Stejně tak je vysoká shoda s větou Dnes bylo krásně!
Kdyby to však byla věta Dnes bylo překrásně, je to shoda pouze s jedním slovem ve větě a dříve CATy další podobu nenašly. Předložka, koncovka, překlep…to vše by bylo jako jiné slovo a veškerá shoda se ztrácela.

CAT systémy dnes

Dnes je doba jiná a CATy umí pracovat se zlomky vět i slov. Ba i když zpracováváte nekvalitní předlohy (OCR skenovaných dokumentů apod.), tak například SDL Trados Studio 2017 ve shodě upozorní na rozdíl i jediného písmene ve slově a tak je dnes snadné vidět, co je překlep a co je nevhodný překlad. (zjednodušeně … párky vezou kárky, sněží peří; složitěji … ženu holí stroj). Začíná být nepravděpodobné, aby to co je v paměti CAT systému leželo ladem.
A to stále nejde o strojový překlad (viz wikipedia Machine translation), kde vyhovuje i slovníková záměna slov kus za kus, ale o komplexní souhru algoritmů pro analýzu textu. Tyto algoritmy zpracovávají komplexní text, porovnávají vhodnost a na základě atributů a indexových klíčů produkují návrhy vět, které se podobají větě k překladu. Více méně, samozřejmě záleží na objemu databází. Tyto algoritmy jsou předdefinované, pouze vytváří databáze a následně je zpracovávají pro zobrazení nabídky pomoci překladateli na monitoru.

Třetí potřebnou vrstvou je práce s terminologií. Tedy práce s obecným návykem překladu určitého pojmu. Práce s terminologií je tak důležitá, že většina CAT systémů vede zvlášť terminologickou databázi odděleně od pamětí a její pomocí provádí kontrolu textu, tedy zda překladatel využil potřebné návyky. Aby to nebylo úplně jednoduché, uživatel má možnost v každém systému prohledávat paměť na výskyt určitého slova a získat přehled, jak bylo dané slovo v textu využito a v jakém kontextu. Tato funkce prohledávání se obecně nazývá Concordance search.
Terminologie také tvoří kontextovou pavučinu klíčových slov napříč pamětí a textem.

Z uvedeného kontextu platí, že když nemáte kvalitní paměť, tak i výsledek pomocných návrhů nebude mít potřebnou hodnotu kvality. CAT systém totiž NEUMÍ posoudit správnost jinak, než srovnáním s historií.
Aby zvládl úroveň pohledu na správnost textu, nad úroveň překlepů a jazykových pochybení, NEMAJÍ CAT systémy potřebnou inteligenci. Prostě a jednoduše pracují pouze s historií textu a tu kontextově přeskládají do vhodné nabídky textu pro další použití.
Historicky metu v oboru láme Google, který již pro Google translator spustil U. I. na svých serverech a ačkoliv jej nachytáte, přesnost emotivních tónů textu je skvělá. Mimo jiné ale také vychází z obrovské základny zpracovaných textů a nespočetné komunity, která texty opravuje při použití a pomáhá umělé inteligenci k dalšímu vzdělávání.

Když situaci zjednodušíme, taková robotka Sophia, která má již i občanská práva, má méně dovedností než běžný CAT systém. Její algoritmus projevu je pouze na základě historie textů, které skládá do nového využití (a potřebuje především zaujmout pozornost). Říkám méně než CAT systémy, protože kromě robotického avatara NEMÁ nic navíc nad funkce dnes již běžných překladatelských systémů. Pouze je rozdíl, že nenabízí shodu textu v kontextu pro překladatele, ale pro posluchače. Nenabízí překlad, ale pracuje stále ve zdrojovém jazyce. Nehledá řešení ku pomoci, zatím jen debatuje.

Je to krapet zjednodušené, avšak na srovnání, že Sophia, stejně jako CATy, NENÍ inteligentní a pracuje pouze s historií textu, je to dostačující.
Ironicky je možné, že Trados Studio 2022 bude schopné mluvit několika jazyky a bude nabízet abstraktní systém překladu (počítání nepravděpodobnosti – nehledám co je vhodné, ale vylučuji pouze zcela nevhodné) vhodný pro literární díla a podobně emotivně zabarvené texty. Nuance rozdílu pro abstraktní systém je odklon od uniformity stylu takto to bylo použito do výpravného stylu použití jazyka s možnostmi emotivního zabarvení textu a cíleně pro skupinu koncových čtenářů.

Kromě tohoto zjednodušeného srovnání se můžeme podívat i na administraci takového CAT systému. Zde tvůrci Sophie mlčí a mlžně jen slibují možné budoucí probuzení vědomí, takže se domnívejme.
V CAT systému lze najít chybnou frázi a opravit ji. Změnou atributů dát frázi nový význam a lepší určení. U robotky Sophie jde o systém neuronových sítí a tak data v jejím systému postrádají lidskou logiku struktury. Zásah do takového systému „ručně“ je nemožný a podobné hrátky s chat booty ukazují, že i výsledek kvality rozvoje není zaručený. Sophie sbírá i nechtěné i negativní zkušenosti a fráze. Kromě toho, protože využívá lidské fráze, touhy a pocity popsané lidmi, její projevy jsou proto až empaticky uchopitelné a pro mnoho lidí mohou být matoucí jak se k takovému robotickému systému postavit.

Přesto je to práce s texty a dobré marketingové pojetí. Snáz totiž vynadáte asistentce Siri než robotce Sophii, která se na vás dívá a mimikou vyjadřuje emotivnost využité fráze…

Z tohoto pohledu porovnání aktuálních možností je krajně nebezpečné pro vývoj a možnosti umělé inteligence rozdávat občanská práva a vytvářet již nyní konfliktní zóny pro právní systém.
Je to příliš precedentní a můžeme se dostat do absurdit, že příště bude vypnutí sluchátek s U. I. možné brát jako bránění rozvoji této U. I.