FineReader 9.0 Professional Edition (Ing.Miroslav HEROLD, CSc.)

18.6 2015
Společnost Nupseso, která se již několikátý rok účastní výstavy softwaru u příležitosti Jeronýma, představila letos další verzi OCR programu, FineReader 9.0 (dále jen FR9). Předchozí verze byly v ToP recenzovány, zaměřím se tedy hlavně na nové funkce a vlastnosti.

Přehled novinek oproti verzi 8.0

Inteligentní zpracování dokumentů
● FR9 používá novou technologii Adaptive Document Recognition Technology, která umožňuje analyzovat vícestránkové dokumenty vcelku, nikoliv stránku za stránkou. Tím se zachová původní logické uspořádání dokumentu – vícesloupcový text, ale také záhlaví a zápatí, písma, styly, poznámky pod čárou a číslované nadpisy tabulek a vyobrazení.
● Odpovídající písma a styly – modul rozpoznání písma identifikuje písma použitá v naskenovaném dokumentu a vyhledá z písem dostupných na uživatelském počítači písmo nejvíce podobné originálu.
● Rozpoznání mnoha jazyků – tato verze podporuje celkem 179 jazyků.
Snadné použití
● Automatické zjištění jazyka v převáděném dokumentu – uživatel FR9 již nemusí před spuštěním OCR manuálně zadávat jazyk. Program sám je schopen jazyk stanovit.
● Zlepšené rozhraní – okna, panely nástrojů, klávesové zkratky, skenování, OCR i ukládání lze upravit podle potřeb či osobních preferencí uživatele.
● Funkce QuickTasks – FR9 přidá do rozbalovacích nabídek Průzkumníka Windows, které se otevírají pravým tlačítkem myši nad jménem souboru, funkce pro přímý převod do Wordu, Excelu nebo prohledávatelného PDF formátu. Převod souboru se spustí jedním klepnutím myši. Totéž je k dispozici v Total Commanderu.
● Verze FR8 umožňovala spuštění FR přímo z dokumentu MS Word. Nyní je totéž možné i MS Excel i MS Outlook.
● Podpora vícejádrových procesorů – dovoluje uživateli provádět více kroků zpracování dokumentu najednou.
Podpora formátů PDF/A, DOCX a XLSX
● PDF/A – používá se k dlouhodobému ukládání dokumentů v archívech a knihovnách.
● DOCX a XLSX – provedená integrace s Microsoft Office 2007 umožňuje ukládání rozpoznaných dokumentů v těchto formátech.
Podpora Windows Vista – FR9 je certifikován k používání pod tímto operačním systémem.

Praktické poznatky a připomínky

Instalace

V případě malého HD se doporučuje instalovat pouze jazyky rozpoznávání, které budou skutečně využívány, protože velikost prostoru na HD závisí, kromě jiného, na jejich počtu. Při 6 jazycích instalace – včetně manuálu a výukového programu - zabírala cca 212 MB diskového prostoru. Soubory podporující rozpoznávání jednoho jazyka jsou různě náročné: angličtina včetně rozšiřujících slovníků (právo + medicína) 2,14 MB, čeština 2,16 MB, němčina (+ právo + medicína) 4,34 MB, ruština 3,99 MB. Má-li uživatel dostatečný prostor na HD, lze nainstalovat třeba 25 evropských jazyků, a při tom se nepřekročí celkových 300 MB, což je u disků s kapacitou desítek GB zanedbatelné.

Testování

• Automatické rozpoznání jazyka – vedle angličtiny a němčiny, jejichž PDF soubory jsem vytáhl z archivu, byly použity stránky z Internetu stažené do obrazového formátu JPG (francouzština, italština a španělština).
V jednojazyčných dokumentech funguje rozpoznání jazyka pro uvedené jazyky bezchybně. Na vyhledání dokumentů v méně obvyklých jazycích nebyl čas. Příjemným překvapením bylo úspěšné rozpoznání jazyka textu ve 4jazyčném dřevařském slovníku (viz Obr. 2). Podmínkou je rozumné uspořádání vstupního dokumentu. Testovaný slovník má sloupcové uspořádání, FR9 automaticky zvolí typ Tabulka. Každému sloupci automaticky přiřadí odpovídající jazyk.
Totéž platí o dokumentech, kde jednotlivé jazyky jsou po odstavcích. Seskupením odstavců podle jazyků opět docílíme správného rozpoznání.
Pokud se v jednom bloku nachází více jazyků (viz Obr. 3), FR9 varuje uživatele a vybídne k manuálnímu nastavení jazyka/ů. Počet červeně podtržených (nejsou ve slovníku kontroly pravopisu) slov je však značně vyšší než v předchozím případě. Stejně jako ve Wordu, musí se projít ručně.
• Texty nepravidelně rozmístěné mezi obrázky (vztažky v technické literatuře atp.) jsou v novém algoritmu převáděny na typ Textové pole, lze s nimi tedy snáze manipulovat než s typem Rám v minulé verzi. FR9 dovoluje také měnit barvu písma/pozadí, u pozadí lze nastavit průhlednost. Texty nad fotografiemi lze tedy rozpoznat = lze je normálně vyhledávat = a při tom fotografie pod nimi není nikterak narušena.
• Výše uvedené řešení znamená, že zmizely nepříjemnosti, kdy v minulé verzi se krátký text v některém dolním rohu převedl na další sloupec s výškou řádky např. 500 bodů. Pak stačilo při překladu přidat jen několik málo písmen a rozházelo to celou stránku.

Testování bylo zaměřeno spíše na problémy při úpravách načteného dokumentu a jeho exportu. S rozpoznáváním samotným nejsou – stejně jako u předchozích verzí – takřka žádné problémy. Ani barevný tisk na podkladě jiné barvy - tradičně slabé místo OCR aplikací - nedělá potíže. Nutno poznamenat, že použité podklady byly buď standardní výtisk, dokumenty formátu PDF nebo sejmuté obrazovky z počítače ukládané jako JPG. Vybledlé strojopisné kopie na starém průklepovém papíru se v našem oboru už naštěstí nevyskytují, nebyly tedy ani testovány.

Nové rozhraní (viz obr. 1)

• Uživatel dostává přehledněji uspořádané rozhraní, s větším počtem ovládacích prvků.
• Každé z dílčích oken dovoluje jemně ovládat zvětšení, při manuálním výběru rozpoznávané oblasti lze nastavit skutečně velmi přesně.
• Dílčí okno rozpoznaného textu obsahuje řadu formátovacích funkcí (styly, řez/velikost písma, horní/dolní index, barvu/velikost písma, atd.), takže do Wordu/Excelu lze exportovat skutečně takřka hotový dokument.

Korektory pravopisu
představují zvláštní kapitolu skýtající občas překvapení, u zvídavých dokonce badatelské záchvěvy. Když uvidíte mezi nabídkami za neznámé slovo třeba „nečište, žídlo, nelište“, začnete skoro jistě přemýšlet, jak se tento tvar zrodil. Obvyklý postup moderních korektorů již není obrovský korpus všech přípustných slov daného jazyka – to platilo před mnoha lety, ale dlouhý seznam vzorů (mnohonásobně delší, než si pamatujeme ze střední školy) a k nim příslušných přípon, popř. předpon. Tak a teď zkuste vymyslet původ třeba výše uvedených šotků. Nutno však přiznat, že při testovacím rozpoznávání jsem u netechnických slov nenarazil na nerozpoznané slovo, k němuž by nebylo k mání odpovídající správné znění.
V angličtině je kuriózních nabídek podstatně méně, jediná, která mne trkla, bylo „premizes“.

Závěr
FineReader 9.0 je mnohem více než pouhá OCR aplikace. Funkce nyní pokrývají široké pole zpracování rozpoznaného textu, nejen co do druhu výstupních písem, ale i na úrovni odstavcových stylů. Možnost přímého výstupu do Excelu nabízí překladateli možnost elegantního převodu ať již ofocených, naskenovaných nebo v PDF formátu dodaných terminologických zdrojů = slovníků nebo glosářů = do terminologické databáze CAT programů. Jak TRADOS, tak DejaVue, či další programy podporují přímý import buď z XLS nebo CSV formátu.
Korektory pravopisu prakticky všech evropských jazyků usnadňují práci i s dokumenty, jejichž korektor nemáme v MS Office nainstalován.

Cena: 4080,- Kč bez DPH
Podrobnější informace: http://www.nupseso.cz/Software

IMG-jpg-finereader9_001.jpg -  Stáhnout
IMG-jpg-finereader9_002.jpg -  Stáhnout
IMG-jpg-finereader9_003.jpg -  Stáhnout
Žádné komentáře. Buďte první.

Přidat komentář

European Commission International Federation of Translators Asociace konferenčních tlumočníků v ČR Komora soudních tlumočníků ČR Česká komora tlumočníků znakového jazyka Obec překladatelů Svaz českých knihkupců a nakladatelů Filozofická fakulta Univerzity Karlovy v Praze Filozofická fakulta UMB v Banskej Bystrici Svět knihy Opus arabicum Slovenská spoločnosť prekladateľov odbornej literatúry Pražský Literární Dům iLiteratura STAR Group Paraple Centrum

O JTP

JTP je nezávislá, dobrovolná, profesní organizace profesionálních tlumočníků a překladatelů otevřená všem, kteří chtějí podpořit její činnost. JTP byla založena v roce 1990, aby hájila profesní, pracovně právní a sociální zájmy svých řádných členů, napomáhala jim k dalšímu vzdělávání, propagovala je na trhu práce a informovala je o pracovních příležitostech. JTP dbá na povznesení společenské prestiže profese i kvality překladu a tlumočení. JTP je členem Mezinárodní federace překladatelů FIT.


Více

Kontakt

Senovážné náměstí 23,
Praha 1, 110 00

Tel.: 224 142 312
Tel.: 224 142 517
E-mail: JTP@JTPunion.org


NÁVŠTĚVNÍ DOBA:
středa 11.00 - 15.00 hod.
 

Napište nám

Jen vám chceme připomenout, že náš web používá cookies. Pokud si jejich nastavení nezměníte, bereme to jako souhlas s jejich užíváním. Přenastavit je samozřejmě můžete kdykoliv (další informace).