Как делать проверку гипотез

Источник: Как делать проверку гипотез – о том почему и как необходимо подтверждать гипотезы в интернет маркетинге. Особенно актуально для планирования рекламных кампаний с интегрированными оффлайн-онлайн коммуникациями. Путеводитель по миру гипотез: тонкости проверки Загадки вокруг нас. И не менее увлекательны их разгадки. Но как отличить правду от вымысла? На помощь приходит загадочно звучащая штука – проверка гипотез. Поговорим о том, как не заблудиться в лабиринтах данных и почувствовать себя настоящим исследователем. Что такое гипотеза и почему её надо проверять? Ладно, не будем задерживаться на вступлениях, как будто это очередной семинар по статистике. Гипотеза – это предположение. Как в школе: «А давай напишем «вдруг» вместо «потому что», и предложение заиграет иначе». Только в науке и бизнесе на карту поставлено больше, чем пятёрка по языку. Допустим, вы владелец кафе и предполагаете, что шоколадный круассан пользуется популярностью утром. Вы готовы ставить на это дополнительные закупки. Никаких «давай попробуем», только крепкий факт! Чтобы не оказаться в минусе, пригодится проверка гипотез. Первые шаги: формулирование и параметры Как правильно сформулировать гипотезу Итак, главное в гипотезе – чёткая формулировка. Нулевая гипотеза (H0): никакой разницы нет, шоколадные круассаны продаются равномерно в течение дня. Альтернативная гипотеза (H1): ну нет, утром их берут чаще, и это статистически значимо. Выбор параметров Дальше, выбираем параметры. Всё как в рецепте торта: мера – это ваши ингредиенты (данные), а вкус – это ваш критерий значимости (уровень значимости – α), который обычно ставят на уровне . Это значит, что мы принимаем 5% вероятность ошибки при условии, что мы отвергаем нулевую гипотезу. Исследование и сбор данных Для начала нам нужны данные. Как в ресторане без продуктов. Собираем информацию о продажах, можно по часам, для полноты картины. Делаем таблицу с данными. Используем программы для статистической обработки (например, R или Python). Таблица продаж круассанов по часам (примерная): Час дня Количество проданных круассанов 8 – 9 30 10 – 11 15 Выбор метода для проверки Теперь мы должны выбрать метод проверки. Если улыбнется удача, и данные будут нормально распределены, можно использовать T‑тест. А если не повезёт – ничего, есть непараметрические методы типа теста Манна-Уитни. Расчёты и выводы Последовательность расчётов Итак: Вводим данные в программу. Выбираем подходящий тест. Запускаем расчёт. Например, в программе R это будет выглядеть примерно так: (data$morning, data$daytime) Интерпретация результатов Итак, программа выдала p‑значение – вероятность получить такой же или ещё более экстремальный результат, если бы нулевая гипотеза была верна. Если p < α (в нашем случае ), мы смело говорим «Прощай, H0» и принимаем альтернативную гипотезу. Но стоп! Мы ещё не детективы, чтобы делать выводы так быстро. Достоверные ли у нас данные, не случился ли выброс? Много вопросов, и на все они должны быть ответы, перед тем как принимать окончательное решение. Ошибки, которые можно совершить Ошибка первого рода: отвергнуть H0, когда она на самом деле верна. Случилось «ложное срабатывание». Ошибка второго рода: не отвергнуть H0, когда верна альтернативная гипотеза. Мимо кассы, так сказать. Итоги и практическое применение результатов Вот и все дела. Если круассаны действительно бьют рекорды по утрам, то усиливаем закупки и радуем утренних покупателей. Если нет, то экономим и не зря не тратим ресурсы. С проверкой гипотез дело обстоит также, как с любым другим навыком – чем больше практики, тем лучше результаты. Набирайтесь опыта, не бойтесь экспериментировать и помните, что статистика – это не только строгие цифры, но и искусство интерпретации данных. Счастливых расчётов, нестандартных решений и увлекательных открытий в мире данных! Засим всё, позвольте отклоняться.