UneDose | Jaký je nejlepší bezplatný program OCR nebo ICR pro přepis rukopisu?

Mark Lucas
0
2434
90

reklama

Javier se ptá:
Jsem spisovatel povídek a příběhů. Hledám bezplatný program OCR (Optical Character Recognition) nebo Inteligentní rozpoznávání znaků (ICR) pro skenování mých starých rukopisů z obrázků nebo fotografií, abych je mohl převést do souborů aplikace Microsoft Word.

Jsou k dispozici nějaké bezplatné a přesné programy? Bohužel nemám skener, ale mám přístup k digitální kameře s rozlišením 20 megapixelů.

Kannonova odpověď:

Jak jste již zmínili, existuje několik druhů technologií rozpoznávání znaků, které mohou automaticky převádět ručně psané nebo psané psaní na digitální znaky. Úroveň přesnosti těchto druhů softwaru se mezi různými implementacemi velmi liší. Někteří převádějí na bázi dopis-pro-dopis a jiní mohou převádět celá slova. Existují tři obecné kategorie tohoto softwaru:

Optické rozpoznávání znaků (OCR)
Inteligentní rozpoznávání znaků (ICR)
Inteligentní rozpoznávání slov (IWR)

Optické rozpoznávání znaků

Po pravdě řečeno, OCR je obecný pojem a často jsou všechny metody uvedené v tomto článku označovány jako OCR - Wikipedia však dává OCR svou vlastní klasifikaci, ale moderní implementace mají tendenci spojovat dohromady více metod. Co to tedy dělá? OCR převádí jednotlivá písmena psaná nebo ručně psaná na digitální znaky. Software se tedy podívá na dokument a poté se pokusí jej převést na prostý text uhodnutím, co je každá postava.

Software není dokonalý. Software OCR může nesprávně interpretovat jednotlivé znaky s podobným vzhledem, což má za následek chybně napsaná slova a nepřesné výstupy. Uživatelé mohou většinu času kopírovat text generovaný programem OCR do textového procesoru a automaticky opravovat pravopisné chyby. Chyby se často objeví jako podobné znaky. Například dopis “d” může být zastoupena jako “cl”.

Ale pokud jde o ručně psané texty, OCR si nedělá moc dobře. Většina bezplatných implementací je tragicky špatná. Existují nějaké komerční produkty, které to dokážou opravdu ručně psaná transkripce nehtů, ale jejich tvorba je pro širokou veřejnost zcela mimo dosah. Například existuje software OCR pro čtení od společnosti Lexmark. Tento software pouze pro podniky stojí tisíce dolarů.

Inteligentní rozpoznávání znaků

ICR je podmnožinou OCR, která se specializuje na převod ručně psaného textu na jednotlivé digitální znaky. Vzhledem k tomu, že vaše poznámky a rukopisy jsou psány rukou, je program ICR nejužitečnější. Nejsem si však jistý, jak přesně dokážou převádět texty psané v cizích jazycích, například ve španělštině. Stejně jako v případě OCR mohou uživatelé vylepšovat kvalitu výstupních textů tak, že je zkopírují do textového procesoru se zapnutou korekcí pravopisu a ručně korekturou.

Inteligentní rozpoznávání slov

Nejnovějším vývojem OCR a ICR je software Inteligentní rozpoznávání slov. Spíše než rozpoznávání jednotlivých znaků se pokouší překládat celá ručně psaná slova. Podobně jako OCR a ICR, inteligentní rozpoznávání slov často překládá slova a vyžaduje, aby uživatel ručně opravil všechny chyby.

Co je nejlepší software OCR zdarma?

Tesseract

K dispozici je spousta možností. Tesseract je pravděpodobně nejlepší open source (a zdarma) software OCR tam. Podle mého vědomí se zaměřuje pouze na jednotlivé postavy, nikoli na celá slova.

Protože používáte aplikaci Microsoft Word (která má nejlepší a nejpřizpůsobivější kontrolu pravopisu Jak kontrolovat pravopis a gramatiku v aplikaci Microsoft Word Jak pravopisnou a gramatickou kontrolu v aplikaci Microsoft Word, můžete přizpůsobit vestavěné nástroje kontroly pravopisu a gramatiky v aplikaci Microsoft Word. můžete dokonce použít automatické opravy k urychlení psaní. v podnicích), stačí zkopírovat celý text do aplikace Word a poté spustit kontrolu pravopisu k odstranění překlepů.

Tesseract je vlastně OCR engine, který běží z příkazového řádku. Pokud nejste ochotni se vypořádat s obtížemi ovládat nástroj příkazového řádku, pravděpodobně budete chtít nainstalovat něco uživatelsky příjemnějšího. K dispozici je ke stažení “front-end” (nebo grafické uživatelské rozhraní), které vám umožní použít Tesseract jako nástroj pro přetažení: PDF OCR X. Nejprve nainstalujte softwarový balíček a poté jej spusťte. Zobrazí se okno:

Pak stačí jen přetáhnout soubor obrázku do okna. Po načtení obrázku spusťte OCR transkripční software. Může to chvíli trvat.

Bohužel se ukázalo naprosto nedostatečné pro zpracování vašeho textu. Jak vypadá po extrahování textu z dokumentu:

Microsoft OneNote

Protože se zdá, že již používáte sadu Microsoft Office, nejlepší možností je pravděpodobně také společnost Microsoft. Hádám, že vlastníte kopii sady Microsoft Office, která obsahuje OneNote. To je vybaveno poměrně pokročilým OCR technologií.

V systémech iOS i Android je k dispozici také zcela zdarma objektiv Microsoft Office Lens, který dokáže převádět JPEG (a další obrazové formáty) přímo do textu. Mobilní verze jsou tak nádherné, že můžete vyfotografovat obrázek, nahrát jej do cloudového systému společnosti Microsoft a poté spustit extrakci textu z OneNote na ploše.

Tento proces je poměrně jednoduchý. Nejprve vyfotografujte svůj text. Pokud jste se rozhodli používat aplikaci OneNote, musíte soubor uložit pouze na svůj účet OneDrive. V opačném případě přeneste obrázek do počítače a přetáhněte na OneNote.

Poté klikněte pravým tlačítkem myši na obrázek a vyberte možnost kopírovat Text z obrázku z kontextové nabídky.

Poté klepněte pravým tlačítkem na prázdnou část aplikace OneNote (nebo v aplikaci pro čtení textu) a vložte text do. Výsledný text z vašeho dokumentu vypadá takto:

Výsledky OneNote bohužel ne kdekoli blízko dobré práce, produkující naprostý nesmysl. To by mohlo být způsobeno kombinací faktorů, jako je zkreslený obrázek nebo zápis, který se neprovádí v přímé linii, nebo jednoduše proto, že software není dost dobrý.

Google Keep

V současné době se nejlepší řešení pro OCR v ručně psaných dokumentech týká strojového učení: konkrétně hluboké učení. Hluboké učení je sofistikovaná metoda školení počítače k plnění úkolů, které dříve vynikaly pouze na člověka, jako je rozpoznávání obličeje (Picasa provádí rozpoznávání obličeje Jak používat rozpoznávání obličeje ve webových albech Picasa Jak používat rozpoznávání obličeje ve webových albech Picasa, věřit nebo ne). Google nedávno koupil DeepMind, který vyvíjí technologii hlubokého učení Cool Research Projects, které by mohly změnit budoucnost Cool Research Projects, které by mohly změnit budoucnost Budou mega-korporace jako Google, Microsoft, IBM a Intel dále dávat budoucím generacím svět, který můžeme jen si to teď představte? Tyto vzrušující výzkumné projekty říkají, že je to slib, který budou dodržovat. . Tato klíčová akvizice měla velký účinek: Microsoft prohrál s Google v OCR Microsoft vs Google - Kdo vede závod umělé inteligence? Microsoft vs Google - Kdo vede závod umělé inteligence? Vědci v oblasti umělé inteligence dosahují hmatatelného pokroku a lidé o AI opět vážně mluví. Dva titáni, kteří vedou závod v umělé inteligenci, jsou Google a Microsoft. . Google právě nabízí jednu z nejpokročilejších (a bezplatných) metod: Google Keep.

Google Keep (který jsme poprvé zkontrolovali v roce 2013 Simple Notes On The Go: Google Keep For Android Recenzováno Simple Notes On The Go: Google Keep For Android Recenzováno Existuje několik úžasných aplikací pro psaní poznámek, ale tady je ten, který si zaslouží bližší pohled : Google Keep, správce poznámek, který má skvělou aplikaci pro Android i úhledný webapp.) Nabízí mobilní verzi své aplikace pro Android. Stejně jako u OneNote můžete snímek vyfotografovat a přenést jej přímo do cloudu Google. Stačí přetáhnout obrázek do okna Google Keep. Poté klikněte na tlačítko nabídky (tři svislé tečky) a vyberte Chyťte text obrázku z kontextové nabídky.

Jak vypadá po rozbalení textu:

Google Keep Wins

Jak vidíte, v soutěži dominuje Google Keep. Výsledky lze ještě vylepšit pomocí nástroje pro úpravu obrázků. 10 bezplatných nástrojů pro úpravy fotografií, jak co nejlépe využít své snímky 10 bezplatných nástrojů pro úpravy fotografií, jak co nejlépe využít své snímky Co se stalo se všemi snímky, které jste pořídili v minulosti ? Pokud máte plány a nápady, zde je několik skvělých Windows a několik nástrojů pro různé platformy, které je zpracovávají. pro zvýšení kontrastu a narovnání obrazu.

Doufejme, že tyto možnosti pomohou. V případě, že potřebujete více možností OCR, podívejte se na 5 nejlepších nástrojů OCR 5 nejlepších nástrojů OCR pro extrahování textu z obrázků 5 nejlepších nástrojů OCR pro extrahování textu z obrázků Když máte papír, jak vytisknete vše, co je vytištěno text převedený na něco, co digitální program bude schopen rozpoznat a indexovat? Udržujte dobrý software OCR v blízkosti. , Pro více informací.