Definicja OCR

OCR to skrót od Optical Character Recognition, wyrażenia w języku angielskim, które można przetłumaczyć jako optyczne rozpoznawanie znaków . Pojęcie jest używane w informatyce do nazwania procedury, która umożliwia digitalizację tekstu przez skaner .

Przypadek OCR jest bardzo szczególny, ponieważ daje komputerowi umiejętność, która jest podstawowa dla większości ludzi: czytanie. Warto wspomnieć, że nie jest to łatwe zadanie dla każdego z nas, choć w naszym przypadku zwykle uczymy się tego robić od bardzo młodego wieku, dlatego też zdobywamy duże umiejętności, nawet gdy mamy do czynienia z trudną do zrozumienia kaligrafią.

Pomimo postępu technologicznego, OCR nadal napotyka kilka problemów. Na przykład uzyskanie cyfrowego systemu rozpoznawania ręcznie pisanego tekstu jest dość trudne. Proces zwykle napotyka na niedogodności związane z segmentowaniem różnych jednostek tekstowych. To samo dzieje się, gdy słowa pojawiają się bardzo blisko siebie.

Inne błędy OCR mogą pojawić się, gdy nie ma wystarczającego kontrastu między słowami i tłem. Załóżmy, że tekst pisany czarnymi literami jest drukowany na szarym arkuszu: jest prawdopodobne, że proces OCR nie będzie w stanie odróżnić liter i słów .

Nie zapominajmy, że podobnie jak działanie, które jest tak proste jak chodzenie po ulicy, wymaga szeregu uzupełniających się działań w celu uniknięcia przeszkód i ochrony naszej integralności, czytanie drukowanego tekstu jest wynikiem kilku jednoczesnych zadań rozpoznawczych, które wykonujemy prawie nieświadomie, ale zabierają nas do pracy.

W obliczu tekstu nasz własny system OCR odpowiada za wyszukiwanie i rozpoznawanie tytułu, identyfikując akapity, znaki interpunkcyjne, spacje między słowami i skrótami, a także starając się zrozumieć źródła zbyt ozdobny lub nieporządny i do uzupełnienia informacji w regionach, w których nastąpiło jakiekolwiek zużycie, takich jak plama atramentu lub brakujący kawałek papieru.

Zalecane