OCR een drama of kan het wel goed

Vragen over software en applicaties
JanKol
Junior
Junior
Berichten: 63
Lid geworden op: Do 24 Aug 2017, 23:04

OCR een drama of kan het wel goed

Berichtdoor JanKol » Ma 25 Jun 2018, 17:08

Als ik “een lap tekst” uit een afbeelding moest halen gebruikte ik onder Windows een OCR-programma. Dat was ABBY Screenshot Reader, een zeer goed programma, waarmee je weinig correctiewerk had te doen na het converteren van afbeelding naar bewerkbare tekst. Helaas is ABBY onder Linux voor mij onhaalbaar omdat dit nogal prijzig wordt omdat je dan het professionele FineReader moet kopen en bovendien Microsoft Word en Microsoft Excel vereist zijn. Enfin wat gezocht en o.m. Lios, YAGF en OCRFeeder gevonden (die dan allemaal wel weer uitsluitend in samenwerking met Tesseract of Cuneiform kunnen werken).

Mijn vraag is nu hoe krijg ik één van deze programma’s zover dat het ook correct een tekst uit een afbeelding haalt. Ja, er wordt wel iets gedaan maar gewoon overtypen lijkt mij effectiever, want de tekstherkenning is abominabel slecht, ook als ik de tekstherkenning op de juiste taal instel, de resolutie op de laagste stand zet etc. Overigens maakt het niet uit of ik Tesseract of Cuneiform als basis gebruik al neig ik er naar dat Cuneiform net even beter is. Van de geteste programma’s komt Lios er het beste uit, nou ja “beste….”. Maar al met al: het blijft een drama. Alleen wil ik graag dat ik een goed resultaat zien en niet een zooi onzin, als in het hierna volgende voorbeeld. De originele tekst staat op mijn computer (uiteraard) en de gescande tekst komt van een schermafdruk gemaakt met Shutter vanaf de internetpagina.

Originele tekst (uittreksel van pagina van mijn website):
Je zou kunnen zeggen dat het gewoon bij AD(H)D hoort. En, uit lange ervaring, weet ik dat het niet over gaat als je ouder wordt, maar dat het ook niet echt toe neemt, behalve als Alzheimer of dementie om de hoek komen kijken, maar dat is een ander verhaal (waar ik gelukkig – nog – geen ervaring mee heb en dat zo hoop te houden). Misschien dat coaching en/of medicatie enige invloed heeft. Alleen betwijfel ik of het op de lange duur iets uithaalt.

Graag zou ik aanwijzingen geven tot verbetering. Alleen ik kan dat niet. Wel ervaar ik dat er beïnvloedende factoren zijn. Stress: je vergeet zo ongeveer alles. Rust: het gaat beter, maar vergeten blijft veelal een probleem. Wat ook vreemd is, is dat ik soms dingen totaal vergeet en dan, op een zeer ongelegen moment, knalt mijn geheugen er in: JE MOET DAT NOG DOEN!!! Ik zou bijvoorbeeld iets voor mijn zus in Amstelveen meenemen. Op een kilometer of vijf bij haar vandaan realiseer ik mij dat het nog thuis ligt, dus een dikke 130 km ver weg. Toch had zij mij de avond tevoren nog helpen herinneren (zij kent haar broer).

Kort gezegd: Vaak herinner je je wel dat "iets" de bedoeling is, maar niet op het juiste tijdstip en vaak ook niet precies wat je moest doen.

“Herkende” tekst (let wel één van de beste!!):
Je za u kunnen zeggen dat het gewoon bil AD(H)D hoort En, uit lange ervanng, weet ik dat het niet over gaat als
la ouder wordt maar dat het ook niet echt toe neemt, behalve als Alzheimer of dame nee am de hoek komen
ki)ken, maar dat is een ander verhaal (waar ik gelukkig — nog — geen ervanng mee heb en dat zo hoop te
houden) Misschien dat coachmg enlof medi eau e enige invloed heeft Ages n behvilfel ik of het op de lange duur
iets uithaalt
Graag zou ik aanwilzingen geven tat vsrbetenng Alleen ik kan dat met Wel ervaar ik dat er beinvloedend e
factoren zgn Stress la vergeet zo cngevee r alles Rust het gaat beter maar vergeten blaft veelal een probleem
Wat ook vreemd is is dat ik soms dingen totaal vergeet en dan op een zeer ongelegen moment, knalt man
geheugen er in JE MOET DAT ROG OOEhf ir Ik zou bi)voorbeeld iets voor miln zus in Amstelveen meenemen
Op een kilometer of vaf ba haar vandaan reaaseer ik ma dat het nog thuis agt dus een dikke 110 km ver weg
Toch had zit ma de avond tevcren nog helpen hennneren (za kent haar broer)
Kort gezegd Vaak hennner la la wel dat 'iets' de bedaeang is maar niet op het luiste Sldsap en vaak ock niet
preaes watts moest doen


Oké wat alinea-einden weghalen snap ik nog maar de onzin die verschijnt niet…. Want b.v. hoe een 3 een 1 wordt is mij een raadsel (130 km in tekst en 110 km in "herkend")

Alvast dank voor een reactie.
Gebruikersavatar
Pjotr
Held
Held
Berichten: 549
Lid geworden op: Zo 03 Jan 2016, 15:44

Re: OCR een drama of kan het wel goed

Berichtdoor Pjotr » Ma 25 Jun 2018, 17:39

Wat ik zelf zou doen: gebruik ABBYY in een gratis legale Windows-virtuele machine in VirtualBox:
https://sites.google.com/site/computertip/samsung

Geen mooie oplossing, maar wel een goed bruikbare....
Tip: doe deze 10 dingen direct na installatie van Linux Mint 19
Houd je Linux Mint gezond: vermijd deze 10 fatale vergissingen
Twitter: Linuxtip
Alles is te kraken, niets is geheel veilig, zorg dus voor zoveel mogelijk niets. (Ramana)
Gebruikersavatar
Joan
LMNLVip
LMNLVip
Berichten: 2152
Lid geworden op: Do 16 Feb 2012, 00:49
Contact:

Re: OCR een drama of kan het wel goed

Berichtdoor Joan » Ma 25 Jun 2018, 18:09

Bestanden bestaan uit code. In deze code zijn een aantal karakters die een vaste waarde hebben.
Tekstbestanden bevatten allen deze vaste karakter code (ASCII). Lees hierover op https://wiki.linuxmintnl.nl/index.php?title=ASCII
Daarnaast zijn er verschillende lijsten (Tabellen) waarin deze standaard is vastgelegd. Er is ook voor iedere taal (NL, ES, DE, RU enz.) een andere tabel.

Buiten deze standaard wordt de code op verschillende manieren gebruikt. Dit kun je al zien als je bij voorbeeld een (kleine) afbeelding met een tekstbewerker opent.
Hierin zul je dan hexadecimale getallen zien en ook leesbare karakters. Deze leesbare karakters kunnen echter een onderdeel zijn van bijvoorbeeld een kleur.
Open je deze in een terminal dan zul je rare reacties kunnen zien zoals lege stukken, verspringen van regels, flikkerend beeld en kleuren.

Het vertalen van een niet platte tekst is dus een ingewikkeld werkje om precies de echte karaktercode te scheiden van niet echte karaktercode.
Wil je een duidelijk antwoord? Stel dan een duidelijke vraag. , Kijk hoe dat moet bij Tips voor forumberichten.

Terug naar “Software en applicaties”

Wie is er online

Gebruikers op dit forum: Geen geregistreerde gebruikers en 5 gasten