«Яндекс» научил нейросеть расшифровывать архивные документы даже с дореволюционной орфографией

Специалисты «Яндекса» продолжают развивать сервис по расшифровке архивных записей. На текущем этапе инструмент позволяет работать с рукописным текстом, а также корректно обрабатывать дореволюционную орфографию. Платформа «Поиск по архивам» уже доступна всем пользователям, каталог содержит более 2,5 миллионов страниц вместе с текстовой расшифровкой.

На этапе обучения в нейросеть были загружены тысячи рукописных строк из реальных документов (18-19 век), а также заранее подготовленный массив с примерами. Группа экспертов контролировала корректность работы всей системы, а также осуществляла разметку документов и расшифровку текстов. Рядовым пользователям очень сложно понять содержимое таких рукописей, однако обученная нейросеть справляется с данной задачей практически мгновенно. Перевод документа в классический текст позволяет осуществлять поиск по базе данных с использованием ключевых слов, например, делать срез по определенным событиям, искать информацию о человеке по фамилии и т.п.

«Поиск по архивам» может быть полезен специалистам из различных областей, а также пользователям, которые хотят узнать о прошлом своей семьи. Первыми в базу были загружены данные Главархива Москвы – именно эти документы использовались для обучения. Далее специалисты добавили материалы из архивов Новгородской и Оренбургской областей. В дальнейшем разработчики планируют загружать архивы из других регионов.

В настоящее время приоритет отдается материалам за период с 18 века до начала 20 века – они наиболее часто запрашиваются пользователями. Можно получить доступ к исповедным ведомостям, метрическим книгам, а также ревизским сказкам, в которых присутствует информация о переписи населения. Можно работать как через структурированный каталог, так и через поиск по словам. При открытии документа в интерфейсе отображается отсканированный документ и текстовая расшифровка в отдельном окне. При перемещении курсора по изображению, соответствующая часть текста подсвечивается.





Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: