OCR

Regnskabsordbog

Læsetid: 3 min.
Sidst opdateret: 10/03/2024

Hvad er OCR?

OCR står for Optical Character Recognition (Optisk Tegngenkendelse) og er en teknologi, der omdanner indscannede papirdokumenter og billeder taget med kamera, af tekst, til redigérbar og søgbar tekst. OCR-teknologien genkender tekst og tegn i billeder og konvertérer dem til digital tekst, som kan viderebehandles af computere og andet software.

Inden der kan laves OCR på billedmaterialet, kræves en forbedring af billedkvaliteten for at gøre teksten mere læsevenlig, som kan være forbedring af kontrast, korrektion af skævheder og fjernelse af general støj i billedet.

Efter OCR skal der korrigeres for fejltolkninger i billedet, f.eks. ved at checke for stavefejl.

Hvorfor er billedkvaliteten vigtig?

Billedkvaliteten er afgørende for OCR's effektivitet og tolkning af billedmaterialet. Højere billedkvalitet sikrer, at tekst er klar og let læselig, hvilket reducérer fejl i tegngenkendelsen. Uskarpe, pixelerede eller dårligt oplyste billeder kan føre til, at OCR-softwaren misforstår bogstaver eller tal, hvilket resulterer i et unøjagtigt resultat.

Præcisionen af tolkning og genkendelse af tekst afspejles direkte i kvaliteten af billedet. Billeder af lavere kvalitet vil derfor have større sandsynlighed for at være fejlbehæftet.

Det er derfor nødvendigt at udføre nogle indledende forbedringer af billedet inden det kan aflæses, som omfatter forbedring af kontrast mellem tekst og baggrund, korrektion af tekst, der står skævt, optimére skarphed og udrensning af general støj i billedet, der kan forveksles med tegn eller forstyrre tegngenkendelsesprocessen.

Derfor er det vigtigt, at vedkommende der indscanner eller tager billeder er yderst opmærksom på at levere billeder af højest mulig kvalitet.

Hvordan virker OCR?

De seneste udgaver af OCR-teknologien arbejder ovenpå LSTM, der står for "Long Short-Term Memory" og er en specifik type af rekurrente neurale netværk (RNN) der er designet til at huske information over lange perioder. I konteksten af OCR (Optisk Tegngenkendelse) bliver LSTM-netværk ofte brugt til at forbedre nøjagtigheden af tekstgenkendelse, især for tekster der strækker sig over flere tegn eller ord, hvor sammenhængen mellem tegnene er vigtig.

Traditionelle RNN'er har en tendens til at kæmpe med at lære langdistanceafhængigheder i data på grund af problemer som forsvindende og eksploderende gradienter under træningen. LSTM blev udviklet for at overkomme disse begrænsninger ved at introducere flere gate-mekanismer: en forget gate, en input gate, og en output gate. Disse gates kontrollerer flowet af information ind og ud af cellens hukommelse, hvilket gør det muligt for netværket at lære, hvilke informationer der skal gemmes, opdateres, eller glemmes over tid.

I OCR-applikationer kan LSTM-netværk bruges til at analysere sekvensen af tegn i et ord eller en sætning, hvilket hjælper med at forbedre genkendelsen ved at tage hensyn til sammenhængen mellem tegnene. For eksempel kan en LSTM hjælpe systemet med at skelne mellem bogstaverne "0" og "O" baseret på deres kontekst i et ord eller en sætning, hvilket er noget, der kan være udfordrende for mindre avancerede OCR-systemer.

LSTM's evne til at behandle sekvensdata og huske information over lange perioder gør dem særligt velegnede til opgaver som håndskriftsgenkendelse, hvor tegnene kan variere meget i stil og sammenhæng mellem tegnene er nødvendig for korrekt genkendelse. Ved at anvende LSTM i OCR-systemer kan man derfor opnå højere nøjagtighed og bedre håndtering af komplekse tekstopgaver.