OCR-detaljer?

Feedback Forum Frågor och synpunkter OCR-detaljer?

Detta ämne innehåller 4 svar, har 2 deltagare, och uppdaterades senast av  jonahl 1 månad sedan.

Visar 5 inlägg - 1 till 5 (av 5 totalt)
  • Författare
    Inlägg
  • #11022 Svar

    Aron Ambrosiani

    hej, finns det någon sammanställd information/forskning kring noggrannheten i den OCR som använts för tidningar.kb.se? Vore intressant att veta vilken/vilka OCR-programvaror/algoritmer som använts, om någon manuell korrigering gjorts i delar av materialet osv. Det enda jag hittat är denna artikel av Pelle Snickars och Johan Jarlbrink från 2017: http://pellesnickars.se/2017/10/cultural-heritage-as-digital-noise-nineteenth-century-newspapers-in-the-digital-archive/

    med vänliga hälsningar,
    Aron Ambrosiani

    #11023 Svar

    jonahl
    Forumledare

    Hej.

    Har inte tillräckligt djup kunskap i ämnet för att ge ett adekvat svar på din frågan, men en kollega kommer att leverera ett sådant på måndag. Håll ut till dess.

    Jonas Ahlberg

    #11055 Svar

    Heidi Rosen

    Hej Aron!
    Nej, det finns ingen sammanställd information kring noggrannheten gällande OCR. På KB är vi själva intresserade av en sådan sammanställning men vi har hittills inte kommit på en bra mätmetod. Vi använder programvaran ABBYY vid själva OCR-tolkningen. Varje OCR:ad sida får en egen ALTO-fil där koordinaterna för varje OCR-tolkat ord finns. I ALTO-filen finns också
    OCR-tolkens egna beräkningar av riktigheten, den så kallade page confidence siffran, men den uppgiften ger endast en indikation om hur OCR-tolken uppfattat sin egen tolkning. OCR-resultatet beror på en mängd faktorer som t.ex. typsnitt, papprets kvalitet, tryckets kvalitet, layout etc. En sida med bara bioannonser och bilder ger till exempel en extremt dålig page confidence siffra.

    Abby har sina egna ordlistor den jämför tolkade ord med, och KB lägger till tidstypiska ordlistor vid behov.
    KB utför ingen manuell korrigering av den OCR-tolkade texten, det skulle vara alltför kostsamt då vi digitaliserar flera miljoner tidningssidor varje år.

    Hälsar
    Heidi Rosen
    Projektledare, Enheten för Digitalisering

    #11061 Svar

    Aron Ambrosiani

    hej, och tack för utförligt svar! Om jag skulle vilja göra en mindre undersökning, finns det möjlighet att ta del av ett urval xml-filer (från det upphovsrättsligt fria materialet) och vem ska jag isåfall kontakta? För visst är det så att alto xml-filerna inte är publikt länkade?

    med vänliga hälsningar,
    Aron Ambrosiani

    #11063 Svar

    jonahl
    Forumledare

    Hej.

    Jag kan plocka fram.
    Mejla mig ”jonas.ahlberg[at]kb.se”

    Jonas Ahlberg

Visar 5 inlägg - 1 till 5 (av 5 totalt)
Svar till: OCR-detaljer?
Din information:





<a href="" title="" rel="" target=""> <blockquote cite=""> <code> <pre> <em> <strong> <del datetime=""> <ul> <ol start=""> <li> <img src="" border="" alt="" height="" width="">