Распознавание образов и машинное обучение. Чтение 33. Сети смешанных распределений. Байесовский вывод

1. На практике часто приходится иметь дело с данными из мультимодальных распределений, иными словами, когда выходные целевые значение не зависят функционально от входных векторов: одному X может соответствовать несколько t. Бесхитростные нейросети, предсказывающие t непосредственно по X, будут плохими моделями в таких ситуациях. Но можно сконструировать нейросеть, предсказывающую не сами целевые значения, а параметры смеси нормальных распределений этих целевых значений. У нейросети, описывающей такое распределение, должны быть три группы значений в выходном векторе: центры распределений, их дисперсии и их веса в смеси. Немного любви требуется последним -- весам смеси, -- чтобы они вели себя как вероятности. Но мы знаем, что с этим делать: softmax-кодирование -- наше всё. Остаётся взять в качестве ошибки минус логарифм функции правдоподобия такого распределения, а дальше -- дело техники. На примере мы убеждаемся, что такого рода нейросети лучше аппроксимируют наборы данных с нефункциональными зависимостями. 2. Начинаем работать с нейросетями байесовскими методами. Дело это для нас уже не хитрое, но всё ещё требующее высокой техники. С благословения Томаса Байеса вводим априорное распределение для весов нейросети (нормальное, а какое же ещё?), правдоподобие используем тоже нормальное с центром (математическим ожиданием), задаваемым функцией нейросети. Здесь мы поступаем в точности так же, как в случае с линейными моделями регрессии и классификации. Далее необходимо максимизировать апостериорное распределение параметров. Методами оптимизации довольно легко найти набор параметров нейросети, который послужит центром постериорного распределения. Но на этом наборе параметров будет достигаться лишь локальный максимум. Проблема в том, что нейросеть, которая функцией входит во все эти вероятности не является линейной. Поэтому, апостериорное распределение не будет нормальным, и в большинстве случаев окажется мультимодальным. Поэтому нам придётся приближать его методом Лапласа. Но и на этом трудности не заканчиваются, потому что для вычисления предсказывающего распределения нужно интегрировать распределения, в которые снова будет входить нелинейная функция нейросети. Здесь мы прибегаем к адвокатской помощи Брука Тейлора, который помогает свести задачу к линейной в малой окрестности обнаруженных максимизацией апостериорного распределения параметров нейросети. #теорвер и #machinelearning, #иммуроран и прикладной #матан