Yandex iemācīja neironu tīkliem atšifrēt arhīvu ierakstus ar sarežģītu pareizrakstību
Literārs Mistrojums / / April 03, 2023
Vēsturiskos manuskriptus, kurus cilvēkam ir grūti parsēt, mākslīgais intelekts gandrīz acumirklī pārvērš drukātā tekstā.
Yandex ir izlaidusi jaunu pakalpojumu ar nosaukumu Arhīva meklēšana, kas izmanto neironu tīklus, lai atšifrētu arhīva ierakstus ar sarežģītu pirmsrevolūcijas pareizrakstību.
Pakalpojums nodrošina piekļuvi vairāk nekā 2,5 miljoniem vēsturisku dokumentu lappušu ar teksta atšifrējumiem. Tā algoritms, kas veidots uz optiskās rakstzīmju atpazīšanas sistēmas bāzes, ņem vērā rokraksta īpatnības, atpazīst aktualitāti zaudējus burtus, izprot arhīvu dokumentu īpašo struktūru.
Uzņēmuma speciālisti apmācīja neironu tīklu datu masīvā, kurā bija simtiem tūkstošu ar roku rakstītu rindu no reāliem 18.-19. gadsimta tekstiem un desmitiem miljonu ģenerētu piemēru.
Manuskripti, kurus nesagatavotam cilvēkam ir grūti parsēt, Yandex tehnoloģija gandrīz acumirklī pārvēršas drukātā tekstā. Pateicoties tam, pakalpojuma datu bāzē jūs varat ātri atrast dokumentus ar uzvārda, atrašanās vietas vai citu vārdu pieminēšanu.
"Meklēšana arhīvos" paaugstinās vēsturnieku, sociologu, demogrāfu, ģenealoģistu darba efektivitāti un palīdzēs tiem, kas meklē informāciju par savu ģimeni.
Pirmais fonds, kas tika prezentēts pakalpojumā, bija Maskavas galvenais arhīvs - tieši tā materiālos izstrādātāji apmācīja neironu tīklu. Datubāzē ir arī dokumenti no Orenburgas un Novgorodas apgabalu arhīviem. Laika gaitā krātuvju un pieejamo skenēto failu skaits palielināsies.
Jūs varat meklēt materiālus no 18. gadsimta – 20. gadsimta sākuma, kas ir lietotāju iecienītākie. Tie ir pagastu reģistri, grēksūdzes lapas un revīzijas pasakas ar tautas skaitīšanas rezultātiem. Dokumentus var atrast katalogā vai caur meklēšanas joslu. Ir filtri pēc gadiem, arhīviem, fondiem un krājumiem.
Blakus katras lappuses skenēšanai tiek parādīta neironu tīklu veikta rindiņas dekodēšana. Ja virzīsiet kursoru virs vēlamā fragmenta, tas nekavējoties tiks izcelts digitālajā kopijā.