Светлана Яцык: Распознавание рукописного текста (HTR): история, перспективы, текущие проекты

За последние несколько лет развитие технологий распознавания рукописного текста (HTR) сделало автоматизированную транскрипцию древних документов доступной для широкого круга ученых. Существующее программное обеспечение позволяет безболезненно развертывать конвейеры HTR, а данные для обучения моделей (ground truth) становятся все более доступными, что дает ученым возможность быстро получать транскрипции в объемах, которые ранее потребовали бы годы интенсивной работы. На заседании клуба 17 мая 2023 мы обсудим существующие методы автоматической транскрипции, познакомимся с готовыми инструментами (Tesseract, Transkribus, kraken / eScriptorium) и проектами, которые их применяют. В частности, на примере платформы eScriptorium мы разберем, как - готовить данные для тренировки; - обучать модели и делать их тонкую настройку (fine-tuning); - оценивать качество транскрипции; - использовать «грязную» неотредактированную транскрипцию для решения дальнейших исследовательских задач.