31. Optické rozpoznávání znaků

Opakování

bitmapa (jpg, png - GIMP)/vektorová grafika (svg - Inkscape)
Google Lens

Zápis (praxe-zapis.html) - doplnit html značky:

31. Optické rozpoznávání znaků
	
Optical character recognition (OCR) = rozpoznání textu z obrázků nebo fotek, resp. převod bitmapových obrazů do písmen, číslic, znaků
	
Postup:
	
1. získání bitmapových dat skenováním, fotografováním
	
2. vytvoření vektorových (křivkových) obrysů objektu (trasování) a porovnávání se vzory znaků (přiřazení objektu kódu znaku)
	
Software pro základní rozpoznání - např. OneNote, profi - Adobe Acrobat, ABBYY FineReader (ošetření konců řádků, slovníková kontrola, učení - využití AI)

Úvod - praktické ukázky optického rozpoznávání

automatizované zasílání pokut řidičům, kteří překročili rychlost - dotaz na princip
- optické rozpoznání spz z fotky u radaru (převod bitmapy do textu = OCR) - slouží k nalezení majitele auta v databázi (problém 0 a O)
podpisové listiny se jmény podporovatelů v prezidentských volbách byly zaneseny po počítače s chybami - z voleb byli vyřazeni kandidáti, kteří nedosáhli stanoveného počtu podpisů
- OCR software špatně rozpoznával jména a vyřazoval je ze seznamů podporovatelů kandidátů (např. háček dělal na d místo e - Ďedek)
samořiditelná auta - strojní vidění - rozpoznávání informací z objektů v okolí (např. čtení dopravních značek)
pdf dokument je v bitmapové podobě - nelze jej textově kopírovat - řešením je OCR

OCR = optické rozpoznávání textu z bitmapových obrázků - obecný postup:

získání bitmapových dat - skenování, fotografování
a) porovnávání bitmapových objektů s bitmapovými vzory písmen, číslic, dalších znaků (velká chybovost)
b) přesnější metoda - převod bitmapy do vektorů (vektorizace, trasování) - určení obrysu spojité oblasti pixelů se stejnou barvou, přesněji se stejným jasem a pak porovnávání grafických vektorových objektů se vzory písmen, číslic, dalších znaků

Demonstrace převodu bitmapa > vektor v Inkscapu

importovat do Inkscapu obrázek smile.jpg
Inkscape - Cesta - Vektorizovat bitmapu (Trace bitmap)
- změnit Práh a sledovat náhled (popř. zapnout Live updates)
- po potvrzení Použít přesunout vektorizovaný obrázek pod bitmapu
- porovnat kvalitu bitmapy a vektoru při zvětšení
- editace vektoru - Cesta - Rozdělit na části, u objektů nastavit barvy, tloušťky čar, editovat uzly (tvar křivek)

Rozpoznání textu = OCR

v základní podobě OCR podporuje i MS Office - např. v rámci MS OneNote - návod
úspěšnost optického rozpoznávání znaků závisí na kvalitě předlohy (obrázku) a také na použitém fontu (sadě písma) - písmo patkové se rozpoznává lépe než bezpatkové, hůře se rozpoznává písmo skloněné nebo psané
cvičení - test OCR - zkopírujte do schránky cvičný text níže s kritickými kombinacemi znaků (např. I l 1, l t, ď):
- Čekal tam doteď na Ilju a Alexandra, ale dostavila se jen Žanda, šéfka AI.
text vícekrát vložte v Inkscapu s různým formátováním (normální, skloněné, tučné, podtržené písmo) a fonty (Arial, Times) formou textového objektu v rámečku
exportujte textový objekt do obrázku (Soubor - Export) cvicny-text.png s 100 dpi
vložte tento obrázek do OneNote a přes pravé tl. na obrázku proveďte - Kopírovat text z obrázku
text vložte pod obrázek a analyzujte výsledky - správnost převedeného textu

OCR souvislého textu

vložte do OneNote obrázek zlaty_osel.png
pravé tl. na obrázku - Kopírovat text z obrázku
vložte text ze schránky pod obrázek a analyzujte - chyby, konce řádků (zkopírovat do Wordu)
v GIMPu snižte rozlišení obrázku, uložte obrázek, vložte jpg do OneNote a vygenerujte znovu text - porovnejte počet chyb

Specializovaný OCR software

ABBYY FineReader - inteligentní převod složitějších dokumentů - správné rozpoznání konců řádků/odstavců, rozlišení písmen "I", "l", "1" podle kontextu, spojení rozdělených slov, formuláře, tabulky, kontrola pravopisu, zdokonalování čtení učením, různé výstupní formáty (pdf, docx, html)
Tesseract - open source OCR pro vývoj vlastních aplikací, podpora mnoha jazyků, demo
Hunspell - kontrola pravopisu

Titulky (teorie viz kap. 21. Multimédia 2)

titulky na optických nosičích nebo v TV vysílání jsou v grafické podobě - pro získání textu je třeba provést OCR
cvičení převodu titulků:
zjištění čísla titulkové stopy:
- "c:\programy\ffmpeg\bin\ffmpeg.exe" -i bladerunner.m2ts
demux titulků z videa (ripnutého z BD) do samostatného souboru (místo x dosaďte číslo české titulkové stopy = 18)
- "c:\programy\ffmpeg\bin\ffmpeg.exe" -i bladerunner.m2ts -map 0:x -c copy bladerunner.sup
OCR - převod do text. souboru pomocí SubtitleEdit (využívá se open source OCR Tesseract)
- Soubor - Import - Blu Ray subtitle file for OCR - načíst bladerunner.sup
- Nastavení - Metoda OCR - porovnání bitových obrázků, slovník - čeština
  - Zahájit OCR - velká chybovost
- Vylepšení - Metoda OCR - Tesseract, Jazyk: czech (podle potřeby doinstalovat)
  - provést rozpoznávání v dialogu
  - opravit chyby
  - výsledné titulky uložit jako bladerunner.srt a odevzdat do zadání