Бакалавриат

БакалавриатВероятность и статистикаФигуры


Инференциальная статистика


Инференциальная статистика — это раздел статистики, который занимается выводами о популяции на основе выборки. Когда мы собираем данные, мы обычно собираем данные из выборки, а не из всей популяции, из-за таких практических ограничений, как стоимость, время и усилия. Инференциальная статистика позволяет нам делать прогнозы или выводы о популяции, анализируя эти данные выборки.

Понимание основ

Чтобы понять инференциальную статистику, нужно разобраться в некоторых базовых понятиях: популяции и выборки.

  • Популяция: Это вся группа людей, объектов или событий, которые нас интересуют. Например, если мы изучаем средний рост студентов университета, наша популяция состоит из всех студентов университета.
  • Выборка: Подмножество популяции, которое фактически наблюдается или собирается для исследования. В нашем примере это может быть группа из 100 случайно выбранных студентов университета.

Инференциальная статистика выходит за пределы простого описания свойств выборки (описательная статистика). Она использует теорию вероятностей для оценки параметров популяции, проверки гипотез и составления прогнозов.

Пример популяции и выборки

В приведённом выше SVG представьте, что каждый круг представляет собой индивидуума в популяции. Красный круг — это выборка, выбранная из популяции.

Ключевые процедуры в инференциальной статистике

Существуют две основные процедуры, используемые в инференциальной статистике:

  • Оценка: Это включает оценку параметров популяции (таких как среднее или доля) из статистики выборки. Например, если мы хотим оценить средний рост всех студентов университета, мы вычисляем средний рост нашей выборки и используем его как оценку.
  • Проверка гипотез: Это включает в себя выдвижение утверждения или гипотезы о параметре популяции и использование данных выборки для проверки этого утверждения. Например, мы можем предположить, что средний рост студентов университета составляет 170 см, и проверим эту гипотезу, используя данные выборки.

Пример оценки

Предположим, мы выбираем выборку из 100 студентов и обнаруживаем, что их средний рост составляет 168 см. Это среднее по выборке (168 см) используется для оценки среднего значения популяции. Мы представляем это следующим образом:

Оценка среднего значения популяции = Среднее по выборке = 168 см

Пример проверки гипотез

Предположим, мы предполагаем, что средний рост студентов университета составляет 170 см. Мы собираем выборку и рассчитываем средний рост в 168 см. На основании этих данных инференциальная статистика поможет нам решить, принимать или отвергать нашу гипотезу.

Типы оценок

Существуют два типа выводов в инференциальной статистике:

  • Точечная оценка: Обеспечивает одно значение в качестве оценки параметра популяции. Например, использование среднего значения выборки 168 см в качестве оценки среднего значения популяции.
  • Интервальная оценка: Обеспечивает диапазон значений, называемый доверительным интервалом, в котором предполагается, что находится параметр популяции. Например, оценка того, что средний рост находится между 165 и 171 см с уровнем доверия 95%.

Пример доверительного интервала

На основе нашей выборки из 100 студентов со средним ростом 168 см предположим, что мы рассчитываем доверительный интервал на 95% для среднего значения популяции от 165 до 171 см:

Доверительный интервал: (165 см, 171 см)

Это означает, что мы на 95% уверены, что истинный средний рост всех студентов университета попадает в этот диапазон.

Элементы проверки гипотез

При проведении проверки гипотез мы следуем следующим шагам:

  • Формулирование гипотезы:

Нулевая гипотеза (H0) представляет отсутствие эффекта или различия, тогда как альтернативная гипотеза (H1) представляет эффект или различие, которое мы хотим проверить.

H0: Средний рост популяции составляет 170 см.
H1: Средний рост популяции не составляет 170 см.
  • Выбор уровня значимости (α): Обычно выбирается уровень значимости 5% (0,05), это вероятность отклонить нулевую гипотезу, когда она на самом деле верна.
  • Вычисление статистики теста: В зависимости от собранных данных и типа проводимого теста (например, t-тест, z-тест).
  • Принятие решения: Сравните статистику теста с критическим значением или используйте p-значение для решения, отклонять ли нулевую гипотезу или не отклонять её.

Отображение решений теста с нулевыми и альтернативными гипотезами

Отклонить H0 Отклонить H0 Не удалось отклонить H0

P-значение в проверке гипотез

P-значение является важной концепцией в проверке гипотез. Это вероятность получения результатов теста, по крайней мере, столь же экстремальных, как наблюдаемые результаты, при условии, что нулевая гипотеза верна. Чем ниже p-значение, тем сильнее доказательства против нулевой гипотезы. Если p-значение меньше или равно уровню значимости (α), мы отклоняем нулевую гипотезу.

Пример p-значения

Представьте, что вы рассчитали p-значение 0,03 для теста гипотезы о росте:

P-значение = 0.03

Поскольку 0,03 < 0,05 (наш выбранный α равен 0,05), мы отклоняем нулевую гипотезу и предполагаем, что средний рост не составляет 170 см.

Тесты на нормальность в инференциальной статистике

Существует несколько общих тестов в инференциальной статистике для решения разных типов данных и исследовательских вопросов:

  • T-тест: Используется для сравнения средних значений двух групп. Например, сравнение среднего роста студенток и студентов университета.
  • Z-тест: Используется, когда размер выборки большой (n > 30) и дисперсия популяции известна или для сравнения долей.
  • Хи-квадрат тест: Используется для сравнения категориальных переменных. Например, чтобы определить, является ли предпочтение студентов университета в выборе предмета независимым от их года обучения.
  • АНОВА (Анализ дисперсии): Используется для сравнения средних значений более чем двух групп. Например, сравнение роста студентов из разных областей обучения.

Пример t-теста

Давайте проведём t-тест для сравнения роста студентов и студенток. Допустим, наша выборка показывает следующее:

Мужчины: средний рост = 175 см, размер выборки = 50
Женщины: средний рост = 165 см, размер выборки = 50

Мы используем t-тест, чтобы определить, является ли наблюдаемое различие статистически значимым.

Роль случайной выборки

Важной частью инференциальной статистики является обеспечение того, чтобы выборки выбирались случайно. Случайная выборка помогает обеспечить равные шансы быть выбранным для каждого человека, что снижает предвзятость и улучшает достоверность результатов. Случайные выборки представляют собой всю популяцию, делая оценки более точными.

В вышеуказанном SVG красный цвет представляет собой случайно выбранные выборки из всей группы синих индивидов.

Заключение

Инференциальная статистика является важным аспектом анализа данных. Она позволяет статистикам делать обоснованные данными выводы о больших популяциях на основе маленьких управляющих выборок данных. Тщательно оценивая параметры популяции и проводя тестирование гипотез, мы можем отвечать на вопросы о тенденциях данных, отношениях и прогнозах. Кроме того, правильное понимание и применение таких концепций, как распределения выборок, доверительные интервалы и p-значения, имеют решающее значение для точных выводов через статистический анализ.

Часто используемые слова

  • Популяция: Вся группа, которая изучается.
  • Выборка: Подмножество популяции, используемое для получения информации о всей группе.
  • Параметр: Числовой признак популяции.
  • Статистика: Числовые характеристики выборки.

Инференциальная статистика мощна, поскольку она превращает наблюдения на основе выборки в обобщения или предсказания о больших популяциях и влияет на повседневные решения в различных областях, таких как наука, бизнес и государственная политика.


Бакалавриат → 6.2.2


U
username
0%
завершено в Бакалавриат


комментарии