Yaroslav Emelyanov: Preserving Privacy in Texts

Data Fest Online 2020 NLP in Industry Track: Тексты, например медицинские или юридические, содержат конфиденциальную информацию. Это создает сложности при создании датасетов для NLP задач и увеличивает риски утечки информации при работе с ними. Доклад посвящён методам, позволяющим уменьшить риски работы с чувствительными данными. На примере задачи классификации изучается влияние метода деперсонализации данных на качество работы NLP моделей на целевой задаче. Посмотреть эфир и список треков и организаторов: Зарегистрироваться на фест и получить доступ к трекам: Вступить в сообщество: Соцсети Data Fest: