ČTE!                Pomoc                O projektu ČTE!                České archivy                Zahraniční archivy                O digitalizaci                E-mail

O digitalizaci textů

Digitalizaci textů provádí každý různým způsobem. Někteří lidé texty přepisují, někteří skenují stránky a někteří nakonec převádí naskenované stránky do textového formátu. Pomineme-li snadné přepisování, lze rozlišit dva základní způsoby digitalizace:

1. digitalizace textů bez převodu grafiky na písmena
2. digitalizace textů včetně převodu grafiky na písmena

První postup je podstatně jednodušší, stačí mít pouze PC a skener. Skenují se jednotlivé stránky nebo dvoustránky, ukládají se ve jednoduše ve formátech tif, gif, png, apod. Z těchto jednotlivých stránek lze pomocí některého ze softwarů vygenerovat jeden soubor - např. DjVu, lit, apod.

Druhý postup je složitější v tom, že po skenování následuje převod grafických (obrázkových) znaků na písmena. Jde o tzv. OCR (neznamená to však "Ordo Cisterciensium reformatorum" (řád reformovaných cisterciáků), ale "optical character reading" nebo česky "optické čtení písma"). Převod lze provést manuálně (bez softwaru) nebo pomocí některého ze softwarů, které podporují české znaky - např. Recognita. Diskuse o digitalizaci, OCR a prohlížečích probíhá v archivu Athenea.

Výhody při NEpřevádění obrázků do textu
- omezení chyb a překlepů způsobených přepisem či OCR - toto je velmi důležité např. pro historiky
- nedojde ke ztrátě grafické informace a ztrátě informace o vzhledu a stavu původního vydání knihy - to je zase podstatné např. v literatuře o přírodních vědách (obrázky), matematice (vzorce), apod.


Výhody při provedení následného OCR:
- text lze prohledávat fuletxtově (jakékoliv slovo v textu)
- lze provádět lingvistické experimenty - hledat frekvence, kolokace, apod.
- je možné si text nechat přečíst v PC speciálním softwarem, jako např. pro český jazyk vytvořený CSVoice


Přehled formátů a prohlížečů pro e-texty:
1. TXT a HTML jsou nejjednodušší formáty, nepotřebují žádný speciální prohlížeč, stačí např. Notepad, lynx, apod.

2. Formát - PDF (Adobe System Incorporated)
Klasický postskriptový formát, nutný je standardní prohlížeč Acrobat Reader (lze zdarma stáhnout zde).

3. Formát DjVu (LizardTech, Inc.)
Nový formát s mimořádnou kompresí dat, ale současně vynikajícím zachováním kvality textu i při velkém zvětšení (200%, 300%). Výborně se hodí pro uchovávání historických dokumentů, použit byl např. v Národní knihovně pro digitalizaci arabských manuskriptů. Formát DjVu vyvinula firma AT&T, v roce 2000 jej odkoupila firma LizardTech, Inc. Prohlížeč "DjVu Browser Plug-in" pro tento formát lze stáhnout ZDE. Software "DjVu Solo 3.1" pro vytváření souborů (nekomerční využití) je na stejné stránce ZDE.

4. Formát - LIT (Microsoft)
Firma Microsoft představila vlastní formát pro elektronické texty - LIT. Pro ten je nutné mít speciální prohlížeč: Microsoft Reader (lze zdarma stáhnout zde).
Kromě tohoto prohlížeče nabízí Microsoft také konvertor textů z formátu Word do LIT - tzv. Microsoft Word Add-In (lze zdarma stáhnout zde).



České Texty Elektronicky * 2000, 2001, 2002
xvitap@centrum.cz
Created: 10/10/99 ** Last updated: 10/03/02