Svetlana Bodrunova: Interpreting topic modeling results: Unreliability of human coding

Data Fest Online 2020 Interpretable ML Track - Interpreting topic modeling results: Unreluability of human coding Современные автоматизированные методы выявления тематики в корпусе текстов давно стоят перед проблемой оценки качества выделения тем. Автоматические метрики оценки качества модели во многом имитируют ручную оценку, которая считается ““золотым стандартом““ оценки интерпретируемости тем, при том что практически не изучалась. Однако наши эксперименты показывают, что число интерпретируемых тем в наборе данных после ручной оценки может варьировать более чем в 10 раз в зависимости от подготовки кодировщика, длины текстов в датасете и конфигурации стоп-слов в теме. Это ставит вопросы о том, как в принципе измерять качество тематической модели, а также о том, как готовить кодировщиков и на что ориентировать автоматические метрики качества. Посмотреть эфир и список треков и организаторов Зарегистрироваться на фест и получить доступ к трекам Вступить в сообщество Соцсети Data Fest: