Бакалавриат → Вероятность и статистика → Фигуры ↓
Проверка гипотез
Понимание проверки гипотез важно для анализа данных в статистике, особенно когда необходимо принимать обоснованные решения на основе количественных данных. Проверка гипотез — это метод, который помогает определить, достаточно ли данных в выборке для утверждения, что некое условие верно для всей популяции.
Что такое гипотеза?
Прежде чем перейти к проверке гипотез, важно понять, что такое гипотеза. В простых терминах, гипотеза — это утверждение или предположение о параметре в популяции. В области статистики гипотезы часто являются утверждениями о средних или долях популяции.
Например, предположим, что завод утверждает, что их лампочки служат в среднем 1,000 часов. Ваша гипотеза может звучать так: «Средняя продолжительность работы лампочки составляет 1,000 часов.»
Типы гипотез
Существует два основных типа гипотез в проверке гипотез:
1. Нулевая гипотеза (H0)
Нулевая гипотеза — это общее утверждение, что нет связи между двумя измеренными явлениями или отсутствует ассоциация между группами. Это гипотеза по умолчанию или основная гипотеза, указывающая на отсутствие эффекта или различий. В случае с лампочками нулевая гипотеза такова:
H0: μ = 1000
Она утверждает, что средняя продолжительность работы лампочек составляет 1000 часов.
2. Альтернативная гипотеза (Ha или H1)
Альтернативная гипотеза — это утверждение, которое опровергает нулевую гипотезу. Оно подразумевает, что существует эффект или различие. В нашем примере альтернативная гипотеза может быть такой:
Ha: μ ≠ 1000
Это показывает, что средняя продолжительность работы лампочек не равна 1000 часам.
Этапы проверки гипотез
Проверка гипотез следует структурированному процессу. Вот пошаговое руководство, как это обычно делается:
1. Формулировка гипотезы
Вы начинаете с формулировки нулевой и альтернативной гипотез. Эти гипотезы обычно выражаются в терминах параметров популяции.
2. Определение уровня значимости (α)
Уровень значимости, обозначаемый как альфа (α), указывает вероятность отклонения нулевой гипотезы, если она верна. Общие уровни значимости — 0.05, 0.01 и 0.10.
3. Выбор подходящего теста
Выберите статистический тест, который лучше всего подходит для ваших данных и гипотезы. Т-тесты и Z-тесты распространены для сравнения средних, в то время как критерием хи-квадрат пользуются для категорийных данных.
4. Расчет статистики теста
Используя данные выборки, рассчитайте статистику теста — это стандартизированное значение, измеряющее степень различия между наблюдаемыми данными и тем, что ожидается при нулевой гипотезе.
5. Определение p-значения или критического значения
P-значение указывает вероятность наблюдения результатов теста при нулевой гипотезе. Если p-значение меньше α, нулевая гипотеза отклоняется. В случае использования подхода с критическим значением, сравните статистику теста с критическим значением из вероятностного распределения.
6. Принятие решения
Примите решение об отклонении или не отклонении нулевой гипотезы на основе сравнения p-значения или критического значения.
7. Выводы
Преобразуйте статистические суждения в выводы в контексте исследуемого вопроса.
Визуальный пример
Представим простой тест гипотезы на отличие средних с следующим сценарием:
Представим пример распределения данных:
В этой диаграмме два распределения (в синем и красном цветах) представляют собой возможные значения для нулевой и альтернативной гипотез. Перекрывающаяся область представляет собой общую область, где мы можем не отвергнуть нулевую гипотезу.
Примеры проверки гипотез
Пример 1: одновыборочный t-тест
Предположим, мы хотим узнать, изменяет ли новый препарат температуру тела. Средняя температура тела составляет 98.6°F. После приема препарата 30 человеками средняя температура была зафиксирована на уровне 98.4°F со стандартным отклонением 0.5°F.
Шаг 1: Формулировка гипотез.
H0: μ = 98.6
Ha: μ ≠ 98.6
Шаг 2: Определение уровня значимости.
α = 0.05
Шаг 3: Выбор теста.
Используйте однообразный t-тест, так как стандартное отклонение популяции неизвестно, а размер выборки мал.
Шаг 4: Расчет статистики теста (t).
t = (98.4 - 98.6) / (0.5/√30) = -2.19
Шаг 5: Определение p-значения, используя распределение t.
При df = 29, предполагая двухсторонний тест, p-значение ≈ 0.036.
Шаг 6: Принятие решения.
Поскольку p-значение (0.036) < α (0.05), нулевая гипотеза отвергается.
Шаг 7: Заключение.
У нас достаточно данных, чтобы предполагать, что лекарство влияет на температуру тела.
Значение проверки гипотез
Проверка гипотез играет важную роль в принятии решений в различных областях, таких как медицина, общественные науки, сельское хозяйство, бизнес и др. Полагаться на статистические данные позволяет избежать догадок при решении интересующих вопросов.
Ошибки в проверке гипотез
Мы должны понимать, что проверка гипотез не обеспечивает уверенности. Она несет риск ошибок:
1. Ошибка типа I
Эта ошибка происходит, когда нулевая гипотеза верна, но мы ее ошибочно отвергаем. Вероятность ошибки типа I представлена выбранным уровнем α.
2. Ошибка типа II
Ошибка типа II происходит, когда нулевая гипотеза ложна, но мы не отвергаем ее. Вероятность возникновения ошибки типа II обозначается β.
Мощность теста
Мощность теста — это вероятность того, что он правильно отвергнет ложную нулевую гипотезу. Увеличение размера выборки или эффекта может помочь увеличить мощность теста.
Заключение
Проверка гипотез — это бесценный инструмент, предоставляющий формальную структуру для тестирования идей и теорий. Хотя она не дает абсолютного доказательства, она направляет принятие решений, основанное на данных, помогая аналитикам и ученым делать выводы и прогнозы с уверенностью.