OCR-detaljer?

Detta ämne har 4 svar, 1 deltagare, och uppdaterades senast för 3 år, 3 månader sedan av jonahl.

Visar 5 inlägg - 1 till 5 (av 5 totalt)

Författare

Inlägg
januari 22, 2018 kl. 2:12 e m #11022 Svara

Aron Ambrosiani
Gäst

hej, finns det någon sammanställd information/forskning kring noggrannheten i den OCR som använts för tidningar.kb.se? Vore intressant att veta vilken/vilka OCR-programvaror/algoritmer som använts, om någon manuell korrigering gjorts i delar av materialet osv. Det enda jag hittat är denna artikel av Pelle Snickars och Johan Jarlbrink från 2017: http://pellesnickars.se/2017/10/cultural-heritage-as-digital-noise-nineteenth-century-newspapers-in-the-digital-archive/

med vänliga hälsningar,
Aron Ambrosiani

januari 22, 2021 kl. 3:12 e m #11023 Svara

jonahl
Keymaster

Hej.

Har inte tillräckligt djup kunskap i ämnet för att ge ett adekvat svar på din frågan, men en kollega kommer att leverera ett sådant på måndag. Håll ut till dess.

Jonas Ahlberg

januari 25, 2021 kl. 2:00 e m #11055 Svara

Heidi Rosen
Gäst

Hej Aron!
Nej, det finns ingen sammanställd information kring noggrannheten gällande OCR. På KB är vi själva intresserade av en sådan sammanställning men vi har hittills inte kommit på en bra mätmetod. Vi använder programvaran ABBYY vid själva OCR-tolkningen. Varje OCR:ad sida får en egen ALTO-fil där koordinaterna för varje OCR-tolkat ord finns. I ALTO-filen finns också
OCR-tolkens egna beräkningar av riktigheten, den så kallade page confidence siffran, men den uppgiften ger endast en indikation om hur OCR-tolken uppfattat sin egen tolkning. OCR-resultatet beror på en mängd faktorer som t.ex. typsnitt, papprets kvalitet, tryckets kvalitet, layout etc. En sida med bara bioannonser och bilder ger till exempel en extremt dålig page confidence siffra.

Abby har sina egna ordlistor den jämför tolkade ord med, och KB lägger till tidstypiska ordlistor vid behov.
KB utför ingen manuell korrigering av den OCR-tolkade texten, det skulle vara alltför kostsamt då vi digitaliserar flera miljoner tidningssidor varje år.

Hälsar
Heidi Rosen
Projektledare, Enheten för Digitalisering

januari 26, 2021 kl. 10:53 f m #11061 Svara

Aron Ambrosiani
Gäst

hej, och tack för utförligt svar! Om jag skulle vilja göra en mindre undersökning, finns det möjlighet att ta del av ett urval xml-filer (från det upphovsrättsligt fria materialet) och vem ska jag isåfall kontakta? För visst är det så att alto xml-filerna inte är publikt länkade?

med vänliga hälsningar,
Aron Ambrosiani

januari 26, 2021 kl. 1:24 e m #11063 Svara

jonahl
Keymaster

Hej.

Jag kan plocka fram.
Mejla mig ”jonas.ahlberg[at]kb.se”

Jonas Ahlberg
Författare

Inlägg

Visar 5 inlägg - 1 till 5 (av 5 totalt)

Forum

Länkar

Sök