Katedra anglistiky a amerikanistiky

Využití počítačových technologií v překladatelském procesu - III

Pavel Král

(pokračování z čísel 69/2003 a 70/2004)

Pomalý vývoj a nedostatek výraznějších úspěchů v MT přiměl vládní organizace, které byly hlavními sponzory výzkumu, aby roku 1964 sestavily odbornou komisi vystupující pod názvem ALPAC (Automatic Language Processing Advisory Committee), která měla prozkoumat stávající situaci a reálné možnosti dalšího využití MT. Nechvalně proslulou se roku 1966 stala závěrečná zpráva této komise, ve které se uvádělo, že strojový překlad je ve skutečnosti 'pomalejší, méně přesný a dvakrát tak nákladný než práce lidského překladatele' a že 'jakékoliv zlepšení situace nelze ve více či méně dohledné době očekávat'.[1] Tato zpráva měla na další výzkum drtivý dopad. Přestože ji mnozí kritizovali jako krátkozrakou a zaujatou, její závěry v konečném efektu ve Spojených státech způsobily téměř úplné zastavení financování výzkumu v oblasti MT a pro následující desetiletí byl v USA projekt MT považován za naprostý neúspěch.

Ve Spojených státech bylo před zastavením výzkumu úsilí na poli MT téměř výhradně věnováno do překládání ruských vědeckých textů. Tam, kde byl výzkum motivován odlišnými požadavky, se závěry ALPACu nepodepsaly v takové míře jako v USA. Například v Kanadě snaha prosazovat politiku 'dvojí kultury a dvojího jazyka' způsobila, že poptávka po překladech z angličtiny do francouzštiny zdaleka předčila dostupné kapacity 'lidských zdrojů'. Podobná situace byla v Evropě, kde v rámci Evropského společenství (dnes Evropská unie) rok od roku sílila poptávka po překladech vědeckých, technických, administrativních a právních dokumentů do jazyků jednotlivých členských zemí. Centrum zájmu o MT se tedy přesunulo z USA do Evropy a Kanady, i když zde výzkum zpočátku nedosahoval takových rozměrů jako v USA.

V Montrealu probíhal od roku 1970 výzkumný projekt TAUM (Traduction Automatique de l'Université de Montreal) zaměřený na překlad z angličtiny do francouzštiny. V tomto projektu se podařilo dosáhnout dvou významných úspěchů: prvním bylo vytvoření počítačového metajazyka Q-System pro manipulaci s jazykovými řetězci spolu s programovacím jazykem Prolog a druhým pak zprovoznění systému Météo pro automatický překlad meteorologických předpovědí v roce 1976. Díky užití jazyka striktně se omezujícího na slovní zásobu jednoho oboru, v tomto případě meteorologických předpovědí, se podařilo snížit nutnost post-editace téměř na nulu. Systém později prošel několika generacemi vývoje a je úspěšně používán až do dneška.[2]

Důležitým momentem v tomto 'období útlumu' byly teoretické výzkumy probíhající v šedesátých a sedmdesátých letech ve Francii a Rusku. Byly zaměřeny na užití metody 'interlingua', což znamená překlad přes speciálně vytvořený prostředkující jazyk, který sestává z abstraktních logických reprezentací nezávislých na jakémkoliv přirozeném jazyce. Na univerzitě v Grenoblu se tímto projektem zabývalo pracoviště CETA (Centre d'Etudes pour la Traduction Automatique), které založil Bernard Vauqois. Nejednalo se však o čistou 'interlingvu', neboť abstraktní reprezentace byly vytvořeny pouze pro syntaktické struktury, převod lexikálních jednotek byl realizován tradičně pomocí dvojjazyčného slovníku. Mnohem ambiciózněji si v této oblasti počínal Igor Melčuk z Moskevského jazykovědného institutu. Jím vypracovaný model 'interlingvy', nazvaný 'významový text', obsahoval šest úrovní, z nichž každá byla závislá na té předcházející: fonetická, fonemická, morfemická, povrchová syntaktická struktura, hloubková syntaktická struktura a konečně úroveň sémantická. V tomto uspořádání se zjevně odrážejí nové poznatky, ke kterým dospěla i tehdejší lingvistika. Melčuk identifikoval na padesát univerzálních 'lexikálních funkcí', které podle něj na sémantické úrovni pokrývaly veškeré paradigmatické vztahy, jako jsou synonyma, antonyma, konverzíva (např. fear : frighten), páry sloves s odpovídajícími agentivními podstatnými jmény (write : writer) a mnohé další. Dále popsal značné množství možných 'syntagmatických vztahů', jako např. páry: podstatné jméno v asociaci s příslušnými fázovým slovesem (open : conference, break out : war) či idiomatickým kauzativem (compile : dictionary, lay : foundations). Melčukova práce znamenala pro MT veliký přínos a inspirovala další výzkumy i za hranicemi Sovětského svazu. Přesto začaly v polovině sedmdesátých let vznikat pochybnosti o tom, zdali je metoda 'interlingvy' reálně použitelná. Díky striktní závislosti jednotlivých úrovní analýzy končily praktické testy často neúspěchem, neboť selhala-li analýza na některé z úrovní, systém jednoduše nevyprodukoval žádný překlad. Na základě těchto neúspěchů se stalo obecně přijímaným faktem, že mnohem větší naděje pro budoucnost MT skýtá méně ambiciózní metoda 'transferu'.

2.2.5 Komercializace a obnovený výzkum: 1976-1989

Koncem sedmdesátých a začátkem osmdesátých let se díky vzniku nových specifických potřeb v oblasti překládání začal v širším měřítku obnovovat zájem o MT. Byly vyvíjeny nové systémy, teoretický výzkum se rozběhl v nových směrech a započala nová éra ve znamení rozšířeného komerčního využívání MT.

Nejvýznamnější ze všech nových systémů byl Systran vyvinutý Petrem Tomou, který dodnes zůstává celkově nejúspěšnějším systémem v dějinách MT. Již roku 1970 byl nainstalován k překladům vědeckých textů z ruštiny do angličtiny pro potřeby USAF v Daytonu v Ohiu, kde nahradil již dříve zmíněný starší systém Mark. Zde funguje dodnes a produkuje překlady v objemu přibližně sto tisíc stran ročně. V roce 1976 pak byl Systran ve verzi angličtina-francouzština zakoupen pro potřeby překladů v rámci Evropského společenství. Brzy poté následovalo zprovoznění verzí francouzština-angličtina a angličtina-italština a následně dalších verzí prakticky pro všechny kombinace jazyků tehdejších členských zemí Evropského společenství. Systran postupně doznal různých vylepšení. Byla značně zvýšena jeho modularita, což umožnilo podstatně rychlejší a levnější vývoj nových jazykových verzí. Systran byl zakoupen pro překladatelské potřeby dalších mezinárodních organizací jako např. NATO či Mezinárodní agentura pro atomovou energii (IAEA) a posléze i některými světoznámými firmami a nadnárodními společnostmi jako např. General Motors, Dornier či Xerox. Poslední ze zmíněných společností začala Systran používat k automatickému překládání technických manuálů ke svým produktům do mnoha jazyků, přičemž striktní kontrolou jazyka na vstupu bylo podobně jako u kanadského systému Météo docíleno téměř nulové potřeby post-editace.

Další významný systém vyvinula pro vlastní potřebu Panamerická zdravotní organizace ve Washingtonu. Tento úzkoprofilově zaměřený systém byl vytvořen ve dvou variantách a sloužil k překládání zdravotních formulářů: SPANAM (ze španělštiny do angličtiny, pracující na principu 'přímého' překladu) a ENGSPAN (z angličtiny do španělštiny, pracující na principu 'transferu'). Podobně bylo vyvinuto mnoho dalších systémů 'šitých na míru' speciálním potřebám různých společností (zejména v Japonsku). Za mnohé jmenujme specializovaný systém americké firmy Smart Corporation a systémy PENSEE, MELTRAN či HICATS vyvinuté v Japonsku. Všechny v praxi těžily z podobného principu – striktní kontrola slovní zásoby a syntaxe na vstupu, což znamená vyloučení nejednoznačných slov a nezvyklých syntaktických konstrukcí. Těmto požadavkům typicky vyhovovaly díky své jednoznačnosti a přímočarosti právě různé technické manuály.

Nejsofistikovanější systém konce osmdesátých let byl METAL pracující na principu 'transferu'. Byl speciálně vyvinut pro překlad z němčiny do angličtiny se zaměřením na oblast telekomunikací a zpracování dat.

Zásadní zlom v komerčním využívání MT přinesly systémy vytvořené pro osobní mikropočítače. Z pochopitelných důvodů se ve srovnání se systémy doposud vyvíjenými pro veliké 'střediskové počítače' (mainframe computers) jednalo o značně zjednodušené verze, které produkovaly skutečně jen velmi hrubé překlady. Byly to však právě tyto nástroje, které způsobily, že v očích veřejnosti oblast MT opět získala svůj ztracený kredit. Pravděpodobně to souvisí s tím, že výrobci tyto produkty neprezentovali jako automatické MT systémy, nýbrž pouze jako 'pomůcky pro překladatele'. A pro mnohé zákazníky skutečně tyto nástroje ztělesňovaly ekonomicky výhodné řešení jejich překladatelských potřeb. Do této doby se tedy datuje vznik nového odvětví v oblasti MT, které vešlo později ve známost pod názvem 'počítačem podporovaný překlad' (CAT). Prvními komerčně nabízenými systémy pro mikropočítače byly programy Weidner v roce 1981 a ALPS (Automatic Language Processing System) v roce 1983. Weidner byl ve verzi pro mikropočítače (MicroCAT) nabízen v různých jazykových kombinacích a byl komerčně dosti úspěšný, obzvláště populární byl ve verzi japonština-angličtina. ALPS již takový úspěch nezaznamenal, přestože významným způsobem předznamenal další vývoj nástrojů 'CAT'. Překladateli nabízel tři úrovně asistence: multilingvální textový procesor, automatický slovník s vyhledávačem termínů a možnost interaktivního překladu. Na konci osmdesátých let se na trhu objevily další podobné systémy pro mikropočítače: PC Translator od firmy Linguistics Products, GTS od firmy Globalink a Language Assistant od firmy MicroTac.

Během období komercializace MT pokračoval i teoreticky zaměřený výzkum, a to zhruba ve třech základních směrech: vývoj pokročilých systémů na principu 'transferu', nové pokusy o systémy na principu 'interlingvy' a využívání poznatků nově vzniklého oboru zabývajícího se 'umělou inteligencí' (Artificial Intelligence - AI).

Poté, co v Grenoblu na pracovišti CETA neuspěli se svým projektem 'interlingua', pustila se tato skupina pod novým jménem GETA (Groupe d'Etudes pour la Traduction Automatique) do vývoje nového systému na principu 'transferu'. Projekt ARIANE ustanovil nové paradigma takzvaných 'lingvisticky orientovaných transferových systémů druhé generace'. Byl oceňován zejména pro svoji flexibilitu, modularitu a vysokou schopnost analýzy, postavené na koncepci statické a dynamické gramatiky. Přestože nikdy nebyl realizován funkční prototyp, projekt ARIANE v osmdesátých letech ovlivnil směřování teoretického výzkumu MT na pracovištích po celém světě a jeho prvky byly později inkorporovány i do moderních systémů devadesátých let. Systému Ariane ve větší či menší míře vděčily za svoji teoretickou koncepci i další systémy vyvíjené ve světě v osmdesátých letech: systém Mu, vytvořený na univerzitě v japonském Kjótu, německý SUSY (Saarbrücken Übersetzungssystem) a Eurotra, grandiózní projekt financovaný v osmdesátých letech Evropským společenstvím s cílem vytvořit 'pokročilý transferový systém' pro překlad z a do jazyků všech členských zemí. Systém však nikdy nedošel do fáze funkčního prototypu, jeho koncepce postupně zastarala a roku 1992 byl projekt Eurotra ukončen.

Zajímavým pokusem byl projekt zahájený roku 1985 v Nizozemí. Softwarová společnost BSO vyvinula pod vedením Toona Witkama systém DLT (Distributed Language Translation). DLT byl komponován jako mnohojazyčný interaktivní systém sestávající ze vzájemně propojených počítačových terminálů. Každý z nich měl sloužit k překladu z jednoho z výchozích jazyků do jazyka prostředkujícího, ve kterém by probíhala komunikace mezi jednotlivými terminály, v úloze 'interlingvy' zde bylo užito Esperanto. Projekt kladl velký důraz na shromažďování rozsáhlých znalostních databází a korpusů, čímž předznamenal jeden z dalších směrů vývoje v MT.

Pro doplnění poznamenejme, že výzkumná činnost začala v průběhu osmdesátých let postupně sílit také v Sovětském svazu poté, co i zde zažili v sedmdesátých letech období značného útlumu zapříčiněného zprávou odborné komise ALPAC z roku 1966. Většina výzkumných aktivit v oblasti MT byla od roku 1976 soustředěna ve Všesvazovém středisku pro překlad v Moskvě. Jistých výsledků bylo dosaženo se systémy pro překlad z angličtiny do ruštiny (AMPAR) a z němčiny do ruštiny (NERPA), jednalo se však o koncepčně zastaralé překladače na principu přímého překladu.

Na konci osmdesátých let začaly vcházet do širšího povědomí výzkumy v oblasti 'umělé inteligence' probíhající ve Spojených státech a v Japonsku. Mnoho pozorovatelů v té době věřilo, že cesta k vylepšení MT a vůbec 'zpracování přirozeného jazyka' (Natural Language Processing - NLP) povede právě tudy. Tyto naděje ve spojení s poznatky moderních lingvistických teorií (Unification Grammar, Lexical Functional Grammar a Government‑Binding Theory) a nově vznikajícími 'korpusovými' ('corpus-based') přístupy ke strojovému překladu vytyčily cestu vývoje v devadesátých letech, který de facto pokračuje do současnosti. Více o tom pojednáme v další kapitole.

2.3 Současný stav MT

Na začátku této kapitoly zmiňme jednu důležitou událost, která je výsledkem globalizačních tendencí projevujících se ve výzkumu MT od počátku devadesátých let. Jedná se o založení Mezinárodní asociace pro strojový překlad (IAMT) v roce 1991. IAMT sestává ze tří samostatných regionálních organizací: evropské (European Association for Machine Translation - EAMT), americké (Association for Machine Translation in the Americas - AMTA) a asijsko-tichomořské (Asian-Pacific Association for Machine Translation - AAMT). Tyto organizace sdružují výzkumné ústavy, obchodní společnosti, vědecké pracovníky, odborníky z příbuzných oborů, překladatele a všechny ostatní, kteří jsou nějakým způsobem v oblasti MT zainteresováni. IAMT vydává svá vlastní periodika, organizuje odborné semináře a jednou za dva roky pořádá mezinárodní konferenci 'MT Summit', na které jsou prezentovány nové teoretické poznatky, sdělovány praktické zkušenosti a shrnovány výhledy pro další vývoj MT.

Následující text je rozdělen do dvou oddílů. První oddíl představuje směry, kterými se v současné době ubírá vývoj a výzkum, a v druhém oddílu chceme poukázat na celou šíři aplikací MT, které si ve světě od devadesátých let dvacátého století postupně vydobývají své pevné místo v komerční překladatelské sféře.

2.3.1 Nové trendy: 90. léta až po současnost

Strojové překladače osmdesátých let byly téměř výhradně vystavěny na principu analýzy a syntézy probíhající podle speciálně formulovaných jazykových pravidel (tzv. 'rule-based' systems), ať již morfologických, syntaktických či lexikálních. Od roku 1989 se však ve vývoji MT systémů začaly opět prosazovat statistické metody, jejichž aplikace umožnila realizovat strojový překlad bez použití takovéhoto 'gramatického rozhraní'. Podobné pokusy sice proběhly již v padesátých a šedesátých letech (např. v předchozí kapitole zmíněný projekt RAND), avšak výsledky byly značně neuspokojivé. Z velké části to bylo způsobeno omezenými možnostmi výpočetní techniky, která tehdy ještě nebyla s to poskytnout dostatečný výkon potřebný ke složitějším statistickým operacím. Od té doby se však výkon počítačů zmnohonásobil a vyšší operační rychlost a paměťová kapacita je učinila způsobilejšími pro práci s mnohem většími objemy dat.

K zásadnímu průlomu došlo za přispění společnosti IBM, která se začala nově zajímat o možnost využití statistických metod v oblasti MT poté, co se jí podařilo úspěšně aplikovat pravděpodobnostní stochastické metody[3] při vývoji systémů pro rozpoznávání lidské řeči (speech recognition).

Rozsáhlý projekt Candide, probíhající v devadesátých letech v IBM T.J. Watson Research Center, využil pro vývoj MT systému existující korpus francouzských a anglických textů – záznamů parlamentních debat z kanadské dolní sněmovny a jejich překladů. Z neuspořádaného korpusu (odtud označení 'corpus-based systems') byla procesem párování ('aligning') výchozích a cílových textů vytvořena objemná bilingvální databáze. Samotný překlad pak probíhal tak, že jednotkám anglického textu byl statistickým výpočtem přiřazen pravděpodobný ekvivalent příslušné fráze, kolokace či jednotlivého slova ve francouzštině. Systém v prvních testech dosáhl překvapivě vysoké úspěšnosti, vezmeme-li v úvahu, že v procesu překladu nebyla užita žádná strukturální analýza. Více než polovina překládaných testových vět byla po obsahově věcné stránce přeložena správně a překlad vykazoval i značnou míru gramatické správnosti a idiomatičnosti. V současnosti probíhají další výzkumy, které se pokoušejí dosáhnout vyšších kvót správnosti použitím statistických metod v kombinaci s aplikací určité 'minimální gramatiky' (např. zacházení se všemi morfologickými variantami slova jako s jednotkou či užití pravidel pro syntaktické transformace).

Na využití velkých jazykových korpusů jsou založeny také systémy označované jakožto 'example based', jejichž vývoj zahájili počátkem devadesátých let v Japonsku. Tento přístup staví na myšlence, kterou poprvé formuloval již v roce 1984 zakladatel IAMT (International Association of Machine Translation) Makoto Nagao, a sice že překlad je často totéž, co snaha nalézt či vybavit si analogický příklad ('example') k tomu, jak byla podobná věta či fráze přeložena v minulosti. Pro takovýto systém překlad znamená vyhledání a extrahování ekvivalentní textové jednotky z dvojjazyčné databáze, která byla spárována buďto pomocí nových statistických metod (podobně jako u projektu IBM Candide) nebo na základě již 'klasických' metod gramatické analýzy.

[1] Viz ALPAC (1966) Languages and machines: computers in translation and linguistics. A report by the Automatic Language Processing Advisory Committee, Division of Behavioral Sciences, National Academy of Sciences, National Research Council. Washington, D.C.: National Academy of Sciences, National Research Council, 1966

[2] Ukázka práce systému Météo je uvedena v Příloze č.1

[3] Metody užívané ve statistice, které pracují s více než jednou proměnnou. Pomocí takovýchto metod lze matematicky formalizovat i zcela nepředvídatelně probíhající jevy. Typickým příkladem je takzvaná 'náhodná chůze' /random walk/ reprezentovaná například pobíháním holubů (pozn. aut.).