Feedback › Forum › Frågor och synpunkter › OCR-detaljer?
- Detta ämne har 4 svar, 1 deltagare, och uppdaterades senast för 3 år, 3 månader sedan av jonahl.
-
FörfattareInlägg
-
Aron AmbrosianiGäst
hej, finns det någon sammanställd information/forskning kring noggrannheten i den OCR som använts för tidningar.kb.se? Vore intressant att veta vilken/vilka OCR-programvaror/algoritmer som använts, om någon manuell korrigering gjorts i delar av materialet osv. Det enda jag hittat är denna artikel av Pelle Snickars och Johan Jarlbrink från 2017: http://pellesnickars.se/2017/10/cultural-heritage-as-digital-noise-nineteenth-century-newspapers-in-the-digital-archive/
med vänliga hälsningar,
Aron AmbrosianijonahlKeymasterHej.
Har inte tillräckligt djup kunskap i ämnet för att ge ett adekvat svar på din frågan, men en kollega kommer att leverera ett sådant på måndag. Håll ut till dess.
Jonas Ahlberg
Heidi RosenGästHej Aron!
Nej, det finns ingen sammanställd information kring noggrannheten gällande OCR. På KB är vi själva intresserade av en sådan sammanställning men vi har hittills inte kommit på en bra mätmetod. Vi använder programvaran ABBYY vid själva OCR-tolkningen. Varje OCR:ad sida får en egen ALTO-fil där koordinaterna för varje OCR-tolkat ord finns. I ALTO-filen finns också
OCR-tolkens egna beräkningar av riktigheten, den så kallade page confidence siffran, men den uppgiften ger endast en indikation om hur OCR-tolken uppfattat sin egen tolkning. OCR-resultatet beror på en mängd faktorer som t.ex. typsnitt, papprets kvalitet, tryckets kvalitet, layout etc. En sida med bara bioannonser och bilder ger till exempel en extremt dålig page confidence siffra.Abby har sina egna ordlistor den jämför tolkade ord med, och KB lägger till tidstypiska ordlistor vid behov.
KB utför ingen manuell korrigering av den OCR-tolkade texten, det skulle vara alltför kostsamt då vi digitaliserar flera miljoner tidningssidor varje år.Hälsar
Heidi Rosen
Projektledare, Enheten för DigitaliseringAron AmbrosianiGästhej, och tack för utförligt svar! Om jag skulle vilja göra en mindre undersökning, finns det möjlighet att ta del av ett urval xml-filer (från det upphovsrättsligt fria materialet) och vem ska jag isåfall kontakta? För visst är det så att alto xml-filerna inte är publikt länkade?
med vänliga hälsningar,
Aron AmbrosianijonahlKeymasterHej.
Jag kan plocka fram.
Mejla mig ”jonas.ahlberg[at]kb.se”Jonas Ahlberg
-
FörfattareInlägg