UneDose | Jak funguje Image-to-Text (aka optické rozpoznávání znaků)

William Charles
0
2452
547

reklama

Vytahování textu z obrázků nebylo nikdy jednodušší než dnes díky technologii optického rozpoznávání znaků (OCR).

OCR nám umožňuje provádět různé druhy užitečných věcí, například hledat obrázky pomocí textových dotazů, reprodukovat dokumenty bez jejich ručního psaní a dokonce převádět ručně psaný text na digitální text Jak převést obrázek pomocí rukopisu na text pomocí OCR Jak převést obrázek s rukopisem na text pomocí OCR Chcete-li převést obrázek ručně psaného textu na digitální text, který můžete upravovat a hledat, potřebujete nástroj OCR (optické rozpoznávání znaků). Zkuste jeden z těchto nástrojů OCR pro digitalizaci rukopisu. .

Co je to optické rozpoznávání znaků? Jak to vlastně funguje? Může to vypadat jako černá magie, ale na konci tohoto článku budete mít solidní pochopení toho, jak počítače rozpoznávají písmena a slova.

Jak funguje optické rozpoznávání znaků

Abychom pochopili, jak se text získává z obrázku, musíme nejprve pochopit, jaké obrázky jsou a jak jsou uloženy v počítačích.

A pixel je jedna tečka určité barvy. An obraz je v podstatě soubor pixelů. Čím více obrazových bodů v obrázku, tím vyšší je jeho rozlišení. Počítač neví, že obrázek rozcestníku je skutečně rozcestník - prostě ví, že první pixel je tato barva, další pixel je tato barva a zobrazí všechny jeho pixely, abyste viděli.

To znamená, že text a netext se neliší od počítače, a proto je optické rozpoznávání znaků tak obtížné. S ohledem na to, jak to funguje.

Krok 1: Předběžné zpracování obrazu

Než bude možné text vytáhnout, je třeba určitým způsobem masírovat obrázek, aby se extrakce usnadnila a s větší pravděpodobností uspěla. Tomu se říká předzpracování a různá softwarová řešení používají různé kombinace technik.

Mezi běžnější techniky předběžného zpracování patří:

Binarizace
Každý jednotlivý pixel v obrázku je převeden na černou nebo bílou. Cílem je objasnit, které pixely patří k textu a které pixely patří do pozadí, což urychluje skutečný proces OCR..

Deskew
Protože dokumenty jsou zřídkakdy skenovány s dokonalým zarovnáním, znaky mohou skončit šikmo nebo dokonce vzhůru nohama. Cílem je identifikovat vodorovné textové čáry a poté otočit obrázek tak, aby tyto řádky byly ve skutečnosti vodorovné.

Odvápnit se
Ať už byl obraz binarizovaný nebo ne, může existovat šum, který může narušovat identifikaci znaků. Odstranění šumu odstraní tento šum a pokusí se vyhladit obraz.

Odstranění linky
Identifikuje všechny řádky a značky, které pravděpodobně nejsou znaky, a poté je odebere, takže skutečný proces OCR nebude zmaten. Je to zvláště důležité při skenování dokumentů pomocí tabulek a rámečků.

Územní
Rozdělí obrázek na odlišné části textu, například identifikuje sloupce v dokumentech s více sloupci.

Image Credit: WayneRay / Wikimedia

Krok 2: Zpracování obrázku

Nejprve se proces OCR nejprve pokusí stanovit základní linii pro každý řádek textu v obrázku (nebo pokud byl předem upraven na zóny, bude procházet každou zónou po jedné). Každý identifikovaný řádek znaků je zpracováván jeden po druhém.

Pro každý řádek znaků software OCR identifikuje mezery mezi znaky hledáním vertikálních řádků netextových pixelů (což by mělo být zřejmé při správné binarizaci). Každý kus pixelů mezi těmito netextovými řádky je označen jako “žeton” to představuje jeden znak. Proto se tento krok nazývá tokenizace.

Jakmile jsou všechny potenciální znaky v obraze tokenizovány, může software OCR pomocí dvou různých technik identifikovat, jaké znaky tyto tokeny skutečně jsou:

Rozpoznávání vzorů
Každý token je porovnáván mezi jednotlivými pixely proti celé sadě známých glyfů - včetně čísel, interpunkčních znamének a dalších speciálních symbolů - a vybere se nejbližší shoda. Tato technika je známá také jako maticové párování.

Zde je několik nedostatků. Za prvé, tokeny a glyfy musí mít podobnou velikost, jinak se žádný z nich nebude shodovat. Za druhé, tokeny musí být v podobném písmu jako glyfy, které vylučují rukopis. Ale pokud je známo písmo tokenu, rozpoznávání vzorů může být rychlé a přesné.

Extrakce funkcí
Každý token je porovnáván s odlišnými pravidly, která popisují, jaký druh charakteru to může být. Například dvě svislé čáry stejné výšky spojené jednou vodorovnou čarou budou pravděpodobně velkým písmenem H.

Tato technika je užitečná, protože není omezena na určitá písma nebo velikosti. Může být také více rozlišován při rozpoznávání jemných rozdílů mezi velkým písmenem I, malým písmenem L a číslem 1. Nevýhodou? Programování pravidel je mnohem složitější než prosté srovnání pixelů v tokenu s pixely v glyfu.

Krok 3: Další zpracování obrázku

Po dokončení veškerého porovnávání tokenů by software OCR mohl jen zavolat den a předložit výsledky. Ale obvykle je třeba udělat trochu víc mazlení, abyste se ujistili, že se vám nezautáčejí oči nad bláznivými výsledky.

Lexikální omezení
Všechna slova jsou porovnána s lexikonem schválených slov a všechna slova, která se neshodují, jsou nahrazena nejbližšími vhodnými slovy. Slovník je jedním příkladem lexikonu. To může pomoci opravit slova s chybnými znaky, jako je “trn” namísto “th0rn”.

Optimalizace specifické pro aplikaci
Pokud se OCR používá ve výklencích, například pro lékařské nebo právní dokumenty, lze použít speciální druh OCR, který je speciálně navržen pro toto nastavení. V těchto případech může software OCR hledat matematické rovnice, pojmy specifické pro dané odvětví atd.

Přirozený jazyk
Tato pokročilá technika opravuje věty pomocí jazykového modelu, který popisuje, jak pravděpodobně budou určitá slova následována jinými slovy. Je to podobné technologii, která předpovídá, jaké slovo chcete napsat na mobilní klávesnici.

Pokud se to povede dobře, může to vést k pozoruhodně čitelnému textu.

Doporučené nástroje pro optické rozpoznávání znaků

Nyní, když víte, jak OCR funguje, by mělo být snadné vidět, že ne všechny nástroje OCR jsou si rovny. Přesnost vašich výsledků bude do značné míry záviset na tom, jak dobře software implementuje různé OCR techniky diskutované v tomto článku.

Důrazně doporučujeme OneNote za to, což je jen jeden z důvodů, proč bere Evernote za psaní poznámek Evernote vs. OneNote: Která aplikace pro psaní poznámek je pro vás ta pravá? Evernote vs. OneNote: Která aplikace pro psaní poznámek je pro vás ta pravá? Evernote a OneNote jsou úžasné aplikace pro psaní poznámek. Je těžké si mezi nimi vybrat. Abychom vám pomohli s výběrem, porovnali jsme vše od rozhraní po organizaci organizace. Co pro vás nejlépe funguje? . Pokud jste ochotni zaplatit za prémiové řešení, zvažte OmniPage. Podívejte se na naše srovnání softwaru OneNote vs. OmniPage pro OCR Free vs placeného OCR: Microsoft OneNote a Nuance OmniPage Porovnané zdarma vs placeného OCR Software: Microsoft OneNote a Nuance OmniPage Porovnán software OCR skeneru umožňuje převádět text v obrázcích nebo PDF do upravitelného textu dokumenty. Je bezplatný nástroj OCR jako OneNote dost dobrý? Pojďme to zjistit! . U mobilních dokumentů si budete chtít prohlédnout tyto aplikace OCR pro zařízení Android 6 Nejlepší aplikace OCR pro Android pro extrahování textu z obrázků 6 Nejlepší aplikace pro OCR pro Android pro extrahování textu z obrázků Potřebujete digitalizovat jakýkoli tištěný text, abyste mohli udržovat měkká kopie? Pokud ano, potřebujete pouze nástroj pro optické rozpoznávání znaků (OCR). .

Jak používáte OCR? Máte nějaké oblíbené nástroje OCR, které jsme nezmínili? Dejte nám vědět v komentářích níže!