Vstupy právě pro kočku (Ing. Miroslav Herold, CSc.)

18.6 2015
Efektivita nasazení produktů CAT – překladu podporovaného počítačem – je v přímé závislosti na tom, jak velký rozsah textů zabývající se danou tématikou překladového projektu, které již byly v minulosti přeloženy, se podaří do systému zavést. Prakticky všechny produkty CAT jsou k tomuto účelu vybaveny funkcemi. Nutnou podmínkou však zůstává elektronický tvar textu jak výchozího, tak i cílového. Zejména u překladů starších, nebo kde výchozím textem je kniha, se tak dostáváme do problému pořízení elektronické verze tištěných textů. To je doménou scannerů na straně hardware a na ně navazujících aplikací pro rozpoznávání textu – OCR.

Druhou funkcí, která zrychluje překlad jsou spřažené slovníky, které selektivně nabízí překladateli termíny cílového jazyka v závislosti na právě překládané větě. Při dostatečně výkonném procesoru je tedy optimální co nejobsáhlejší spřažený slovník. A zde opětně vstupuje na scénu OCR, neboť zejména úzce specializované slovníky či glosáře jsou často pouze v tištěném tvaru.

Konfigurace použitá pro testování (vzhledem k uváděným časům): TOSHIBA 4000CDS, procesor Pentium II 233 MHz, 98 MB RAM, 4,2 GB HD.

Scanner MUSTEK ScanExpress 12000P

ScanExpress je představitelem scanneru cenově dostupného prakticky každému překladateli (cena bez DPH 2890,- Kč). Připojení přes paralelní port EPP/SPP. Pro OCR lze bez postižení rychlosti použít i starší počítače mající pouze SPP, vyzkoušeno přepnutím Toshiby. Optické rozlišení 600x1200 bodů/palec, maximální interpolace 9600x9600. Přitom interpolované rozlišení při OCR zůstane nevyužito. Rovněž tak pro OCR zůstane nevyužita barevná hloubka 36 bitů na 1 pixel. Jeho snímací prvek (CCD) a konstrukční uspořádání dovoluje snímání i z brožovaných knih bez jakýchkoli problémů. Je pouze nutné hřbet knihy přitlačit ručně, protože víko samo nevyvine dostatečný přítlak na srovnání hřbetu knihy.

Základní okno (viz Obr.1), které lze nastavit jako automaticky spouštěné při startu systému, nabízí základní nastavení a přímé kopírování na připojenou tiskárnu, odeslání do faxovacího programu nebo do souboru k dalšímu zpracování.

V ceně produktu je jednoduchý OCR program TextBridge. Umožňuje předběžné snímání, nastavení výřezu (viz Obr. 2) a export do více formátů, mezi jiným i RTF. Nepodporuje však východoevropská písma. Rozšíření SW na východoevropská písma, které je k dispozici za minimální příplatek, ani nebylo od firmy vyžádáno, protože těžiště recenze OCR systému je v nejnovější verzi produktu Recognita Plus.

I když snímání grafiky není předmětem recenze, neodolal jsem a vyzkoušel vysokou rozlišovací schopnost zařízení. Na Obr. 3 je ukázka miniaturního výřezu z poštovní známky. Tento scanner i se zcela běžným SW (PaintShop Pro 6) umožňuje detailní studium filatelistických kuriozit – odlišných detailů rytiny a pod.

Scanner fungoval po celou dobu recenze bez jakýchkoli technických/softwarových potíží.

Recognita Plus verze 5.0

Přehled rozšířených a nových funkcí

Rozpoznávání kombinuje technologie obrysové analýzy a Self Assertion. Tím se eliminuje nutnost mohutných knihoven vzorů písem. Na to navazuje Predictive Optical Word Recognition Plus, což je matematická pravděpodobnostní infrastruktura dále zlepšující výsledky rozpoznávání.

Program nyní nabízí šest úrovní nastavení přesnosti/rychlosti. Šestý stupeň je k dispozici jen pro vybranou podmnožinu jazyků.

Počet jazyků rozpoznaných programem je nyní 114, včetně jazyků používajících azbuky. V jednom dokumentu může být zadáno i více jazyků.

Zlepšené rozpoznání textů na šedém nebo barevném podkladě.

V plném formátu dokumentu je možné zobrazit i barevné obrazy, které jsou součástí snímaného dokumentu. Definované zóny mohou být velmi dobrou pomůckou pro DTP – zachovávají přesné rozložení výchozího dokumentu. Vedle toho je produkt schopen snímat i Braillovo písmo nebo čárové kódy (zůstalo však neotestováno).

Obsah jakéhokoliv souboru funkce Učení lze po vyvolání upravovat.

Odstranění úhlového natočení textu ve snímaném dokumentu.

Rozpoznaný text lze z Recognity přetahovat do dalších aplikací myší. Funkce Uložit bez náhledu umožňuje spustit rozpoznávání, přejít do režimu na pozadí, a pracovat v jiné aplikaci. Po skončení se lze vrátit a pokračovat ve zpracování.

Předmětem učení mohou být i znaky mimo znakovou sadu.

Kontrolu nasnímaného a rozpoznaného textu umožňuje dynamické kukátko – viz Obr. 5A a 6.

Pro snímání z knih lze definovat dvoustránkové šablony.

Pokud v aplikaci Maintenance Setup (název zůstal nepřeložen) nastavíme propojení, lze do dokumentů MS Office a mnoha dalších aplikací přímo vkládat rozpoznaný text. Z hlediska urychlení však na testovací konfiguraci nebyl patrný přínos. Od okamžiku klenutí na ikonku Recognity do dokončeného vložení dvou odstavečků uplynulo 5:07 minut. Způsobeno především skutečností, že pracujeme-li v textové procesoru stačí scanner vychladnout a Recognita se také nějakou chvíli zavádí. Pro obvyklý postup je tedy časově efektivnější plánovaně nejprve vše nasnímat a potom začít s přípravou výsledného dokumentu v MS Office.

Praktické poznatky a připomínky

Snímání z kvalitní předlohy – xeroxové kopie výtisku laserové tiskárny. Délka dokumentu 6808 slov, t.j. 50642 znaků včetně mezer. Dokument dvojjazyčný (GB, CZ), nerozdělený do sloupců, pouze oddělovačem v řádce. Výsledný elektronický dokument tabulka WORD97 (t.j. jeden z nejvhodnějších formátů pro další zavedení do produktů CAT, kam se musí zavádět podklady se 100% spolehlivostí) byl i překontrolován pravopisně pro oba jazyky. Celková doba na zpracování 4:32 hodin, t.j. 25 slov/minutu. Dosažena vynikající hodnota průměrné znakové chybovosti 0,28%.

Předloha – xeroxová kopie strojopisného originálu, celostránková tabulka, 1 jazyk (viz Obr. 4). Za 22 minut provedeno načtení, rozpoznání, oprava a přenesení do Excelu, včetně definitivních úprav formátu – vodorovné/svislé centrování buněk, výběrové rámování.

Snímání vícejazyčného dokumentu (šestijazyčný slovník CZ, GB, D, R, F, E), průměrná (šedý podklad) kopie, včetně obrázku. (viz Obr. 5) Odhlédaje od grafiky, takovýto typ dokumentu je pro OCR naprosto nevhodný. Jazyky jsou totiž nastaveny jako atribut celého dokumentu, z čehož vyplývá hned několik problémů:A) Pokud zadané jazyky jsou z více kódových stránek, program nás varuje, že není schopen zobrazit všechny kódové stránky najednou. Navrhuje řešit editorem s UNICODE (MS Office 97 a výše). Ztrácí se tím vlastnost WYSIWYG. Znamená to tedy, že opravy se přesouvají do Office. B) Způsob přiřazení znaků k jazyku je neprůhledný. Korektor musí být tudíž znalý všech zastoupených jazyků a při opravě neustále přepínat mezi různými národními klávesnicemi a kontrolami pravopisu. Obr. 5A ukazuje, že i dobře načtená řádka (v kukátku) se vlivem zmatku mezi kódovými stránkami zobrazí naprosto nevhodně jak v Recognitě (nahoře), tak i ve Wordu (dole). Výsledek: Pokud dokument takovéhoto charakteru nejde rozdělit zónami na vícechodé snímání po jednotlivých jazycích nebo maximálně dvojicích z jedné kódové stránky, bude rychlejší takto komplikovaný dokument pro další jazyky dopsat manuálně.

Jeden z největších nepřátel úspěšného snímání a rozlišení textu je cyklostylová či jiná kopie strojopisného originálu. Kopírka ještě zvýrazní nerovnoměrnost otisku typů psacího stroje a tak do nekonečna opravujeme znaky s narušenou siluetou, t.j znaky, kde došlo k přerušení čáry písma, které okem někdy téměř nepostřehneme, a pokud postřehneme, automaticky písmeno vnímáme podle celkového tvaru. OCR, i přes funkci Učení, má s tím velké potíže. Tato miniaturní přerušení se totiž u jednoho znaku mohou vyskytovat na mnoha různých místech. Tak se může stát, že stránku, kterou okem čteme bez jakýchkoliv potíží, budeme upravovat třeba i 15 či více minut.

Snímání nekvalitní strojopisné kopie jednojazyčné, 1A4. Vzhledem k nízké kvalitě kopie zapnut 5 stupeň přesnosti. Samotné načtení a následné rozpoznávání trvalo skoro 20 minut a jediný výsledek byl, že tento typ kopie (díky „chlupaté“ struktuře znaků psaných přes kopírák) je pro OCR i při velmi dokonalých algoritmech zcela nevhodný (viz Obr.5C). Velmi průměrná písařka (100 úhozů za minutu) takovouto stránku v jednom jazyce opíše za tutéž dobu.

Shrnutí testů 1 až 5: Pro využití v projektech CAT je nutné mít kopie tištěných textů. Přínosy jakýchkoli jiných druhů kopií jsou při nejlepším značně sporné, a to i při využití nejmodernější technologie OCR.

Při snímání většího počtu (stalo se při 5, 8 a 9 stránkách) stránek za sebou Recognita občas totálně shodí systém. Při opakovaném stratu NU hlásí, že soubor WINDOWS/TEMP/wrf2388 má přiděleno příliš málo prostoru. Zřejmě nesoulad mezi OS a aplikací.

Výsledky funkce Učení, která je velkým přínosem při rozeznávání delších dokumentů z jednoho zdroje, je zapotřebí po skončení daného typu dokumentu uložit a při snímání dokumentu dalšího založit jiný soubor. Na jiném typu písma může totiž působit předchozí soubor negativně.

Pokud snímáme typický tištěný slovník ve dvou sloupcích, Recognita zcela automaticky sloupce rozezná a správně zařadí i vícenásobné výrazy cílového jazyka. (viz Obr. 6)

Při rozpoznávání i dobře čitelného dokumentu se velmi často a bezdůvodně přepíná mezi patkovým a bezpatkovým písmem – dá se ale odstranit buď přímo v Recognitě nebo pohodlněji (v případě dlouhého dokumentu) následně ve WORDU.

Pro některé obtížnější dokumenty bylo nutné snímat přes obslužný program scanneru a uložit do pojmenovaného souboru, který byl následně zpracován. Rozhraní TWAIN pro přímé propojení Recognity totiž neumožňuje pro tento scanner nastavit vyšší rozlišení než 300 dpi.

Zvláštní kapitolou je lokalizace. Textoví šotci se vyskytují přímo v hejnech. Většina je z kategorie spíše humorných překlepů nebo překladů dodávaných evidentně někým, jehož mateřštinou není čeština a rodilého čtenáře spíše pobaví. Ve většině případů se s určitou dávkou fantazie dá najít informační význam. Na příklad (chyby podtrženy):

Obdržíte nabídky na povýšení produktů za …

Angliština; změit; Menu ikomy; jazyky Turčína; Malčina (při nejlepší vůli se takový jazyk nepodařilo dešifrovat);

Anglická záložka „Paragraphs“ přeložena jako „Paragrafy“, místo „Odstavce“;

Častou chybou je neshoda v rodě mezi seznamem a nadpisem (na příklad Textové okno má jednu z voleb „Prekryvný“;

Neshoda mezi slovesem a podstatným jménem (Načíst souboru učení).

Závěr

Recognita Plus v 5.0 nabízí skutečně mnoho funkcí, jak starších zdokonalených, tak i zcela nových. Svojí paletou funkcí, tak i cenou je však zaměřen spíše na organizační jednotky (agentury) s větším počtem dokumentů jednoho typu. Ty totiž teprve plně využijí vlastností urychlujících práci – šablon, pojmenovaných souborů učení a pojmenovaných uživatelských slovníků. V této oblasti se také může dosáhnout dobré návratnosti investice, která se může měřit i na pouhé měsíce. U těchto uživatelů se totiž produkt může zaplatit úsporou na honorářích překladatelů, nejen při nasazení CAT technologie, ale i snímáním předloh s velkým počtem tabulek, v nichž se překládá menší část textu. Dalším kandidátem výrazných úspor nákladů jsou obrazové katalogy vydávané ve více jazycích, pokud již od počátku nejsou v elektronickém formátu. Recognita dokonale zachovává grafické uspořádání originálu a tím i vzájemnou relaci textu – který se bude překládat - a grafických prvků. U dalších jazykových mutací se tudíž uspoří na DTP. Je však na každém uživateli, aby si před spuštěním většího projektu pečlivě ozkoušel několik různých metod. To platí především o dokumentech se zastoupením více jazyků z různé kódové stránky.

Pro překladatele na volné noze, jehož odběratelé mu platí v českých cenách, je produkt cenově příliš vysoko a návratnost bude dlouhá. Pro menší objemy snímaných podkladů totiž vystačí s jednoduššími a také podstatně levnějšími OCR produkty, které pracují s češtinou. Mnohdy jsou dokonce již v ceně scanneru. Odlišná situace bude u velkého projektu, kdy se vyplatí naskenování několika velmi specializovaných slovníků.

Výrobce uvádí jako minimální konfiguraci jakékoliv Pentium a 32 MB RAM. Recenzní počítač (parametry viz úvod) je značně nad touto specifikací. Přesto při nutnosti načtení více jak 50 stránek bych okamžitě hledal něco podstatně výkonnějšího.

U produktu této cenové kategorie bychom očekávali lokalizaci s minimálním počtem chyb. I když na chybu překladu, která by uživatele vyloženě zaváděla jsem nenarazil, tento druh “českého” popisu bychom spíše čekali u bakelitového fotoaparátu z Dálného východu.



Tabulka textů k obrázkům:

Číslo obrázku
Název souboru TIFF
Text u obrázku

1
OB-OCR-1
Základní komunikační okno scanneru – přímé kopírování nebo faxování

2
OB-OCR-2
Nastavení rozlišovací schopnosti a výřezu

3
OB-OCR-3
Detail rytiny poštovní známky

4
OB-OCR-4
Hlavní okno Recognity po načtení a rozpoznání textu při procesu přezkoušení a učení

5
OB-OCR-5J
Šestijazyčný technický slovník s ilustracemi – příklad nevhodného podkladu pro snímání a OCR

5A
OB-OCR-5A
Zmatek způsobený zadáním jazyků z více kódových stránek

5C
OB-OCR-5C
Výsledek rozpoznání nevalné strojopisné kopie

6
OB-OCR-6
Správné rozdělení textu do sloupečků tabulky, vyvolané kukátko zobrazující nasnímaný tvar. Současně ukázka těžkostí s cyklostylovanými kopiemi

7
OB-OCR-7
Detail funkce Učení ilustrující přerušenou siluetu znaku




O produktech:

MUSTEK ScanExpress 12000P

Scanner, optické rozlišení 600 x 1200 dpi

Interpolace: 9600 x 9600 dpi

Barevná hloubka: 36 bitů

Výrobce: Mustek

zapůjčila firma L2K spol. s r.o.,

Bulharská 44/974, 101 00 Praha 10,

WWW stránky: http://www.L2K.cz

Cena bez DPH: 2890,- Kč



Recognita Plus 5.0

OCR software vyšší cenové kategorie

Vyrábí: Caere - Recognita Corporation

recenzní exemplář poskytl autorizovaný zástupce Conquest a.s., Nuselská 46, 140 00 Praha 4, tel.: 6719 3100, WWW stránky: http://www.conquest.cz

Cena bez DPH: 13 390,- Kč

IMG-jpg-OB-ocr-1.jpg -  Stáhnout
IMG-jpg-OB-ocr-2.jpg -  Stáhnout
IMG-jpg-OB-ocr-3.jpg -  Stáhnout
IMG-jpg-OB-ocr-4.jpg -  Stáhnout
IMG-jpg-OB-ocr-5A.jpg -  Stáhnout
IMG-jpg-OB-ocr-5C.jpg -  Stáhnout
IMG-jpg-OB-ocr-5J.jpg -  Stáhnout
IMG-jpg-OB-ocr-6.jpg -  Stáhnout
IMG-jpg-OB-ocr-7.jpg -  Stáhnout
Žádné komentáře. Buďte první.

Přidat komentář

European Commission International Federation of Translators Asociace konferenčních tlumočníků v ČR Komora soudních tlumočníků ČR Česká komora tlumočníků znakového jazyka Obec překladatelů Svaz českých knihkupců a nakladatelů Filozofická fakulta Univerzity Karlovy v Praze Filozofická fakulta UMB v Banskej Bystrici Svět knihy Opus arabicum Slovenská spoločnosť prekladateľov odbornej literatúry Pražský Literární Dům iLiteratura STAR Group Paraple Centrum

O JTP

JTP je nezávislá, dobrovolná, profesní organizace profesionálních tlumočníků a překladatelů otevřená všem, kteří chtějí podpořit její činnost. JTP byla založena v roce 1990, aby hájila profesní, pracovně právní a sociální zájmy svých řádných členů, napomáhala jim k dalšímu vzdělávání, propagovala je na trhu práce a informovala je o pracovních příležitostech. JTP dbá na povznesení společenské prestiže profese i kvality překladu a tlumočení. JTP je členem Mezinárodní federace překladatelů FIT.


Více

Kontakt

Senovážné náměstí 23,
Praha 1, 110 00

Tel.: 224 142 312
Tel.: 224 142 517
E-mail: JTP@JTPunion.org


NÁVŠTĚVNÍ DOBA:
středa 11.00 - 15.00 hod.
 

Napište nám

Jen vám chceme připomenout, že náš web používá cookies. Pokud si jejich nastavení nezměníte, bereme to jako souhlas s jejich užíváním. Přenastavit je samozřejmě můžete kdykoliv (další informace).