Бакалавриат → Вероятность и статистика → Фигуры ↓
Описательная статистика
Описательная статистика - это раздел статистики, целью которого является суммирование набора данных. Она предоставляет простые сводки об образцах и измерениях. Такие сводки могут быть как количественными, с использованием числовых расчетов, так и визуальными, через различные диаграммы и графики. Описательная статистика помогает упростить большие объемы данных в понятной форме. Каждая описательная статистика сокращает большой объем данных до простой сводки.
Виды описательной статистики
Описательная статистика делится на меры центральной тенденции и меры изменчивости или дисперсии.
Меры центральной тенденции
Меры центральной тенденции описывают центральную точку набора данных. Существуют три основных измерения:
- Среднее
- Медиана
- Мода
Среднее
Среднее - это среднее арифметическое набора данных. Оно рассчитывается путем сложения всех чисел и деления на количество чисел.
Среднее = (Сумма всех точек данных) / (Количество точек данных)
Пример:
Данные: 2, 3, 5, 7, 11
Среднее = (2 + 3 + 5 + 7 + 11) / 5 = 5.6
Медиана
Медиана - это среднее значение упорядоченного набора данных. Если количество точек данных нечетное, медиана - это среднее число. Если четное, это среднее двух средних чисел.
Пример с нечетным количеством точек данных:
Данные: 3, 5, 7, 9, 11
Медиана = 7
Пример с четным количеством точек данных:
Данные: 3, 5, 7, 9
Медиана = (5 + 7)/2 = 6
Мода
Мода - это число, которое встречается чаще всего в наборе данных. Набор данных может иметь одну моду, несколько мод или не иметь их вовсе.
Пример:
Данные: 4, 4, 6, 8, 2, 4, 10
Мода = 4
Меры изменчивости
Меры изменчивости описывают разброс данных в наборе данных. Ключевые измерения включают:
- Размах
- Дисперсия
- Стандартное отклонение
Размах
Размах - это разница между наибольшим и наименьшим значениями в наборе данных.
Размах = (Максимальное значение) - (Минимальное значение)
Пример:
Данные: 3, 7, 8, 15, 20
Размах = 20 – 3 = 17
Дисперсия
Дисперсия измеряет, насколько каждое число в наборе удалено от среднего, и, следовательно, насколько оно удалено от каждого другого числа в наборе. Она рассчитывается путем вычисления среднего квадратного отклонения от среднего арифметического.
Дисперсия = (Σ (xi - Среднее)^2) / N
Пример:
Данные: 3, 7, 7, 19
Среднее = (3 + 7 + 7 + 19) / 4 = 9
Дисперсия = [(3-9)^2 + (7-9)^2 + (7-9)^2 + (19-9)^2] / 4 = 30
Стандартное отклонение
Стандартное отклонение - это квадратный корень из дисперсии и представляет собой меру среднего расстояния от среднего арифметического.
Стандартное отклонение = √Дисперсия
Пример:
Данные: 3, 7, 7, 19
Дисперсия = 30
Стандартное отклонение = √30 ≈ 5.48
Визуализация описательной статистики
Описательную статистику можно представить с использованием различных графических методов. К ним относятся гистограммы, столбчатые диаграммы, круговые диаграммы, ящичные диаграммы и диаграммы рассеяния.
Столбчатая диаграмма
Столбчатые диаграммы используются для отображения категориальных данных, с прямоугольными столбцами, указывающими на частоту каждой категории. Длина столбцов пропорциональна количеству случаев в каждой категории.
Гистограмма
Гистограммы используются для отображения непрерывных данных и показывают частотное распределение набора непрерывных данных.
Ящичная диаграмма
Ящичные диаграммы используются для отображения распределения данных на основе пятиточечной сводки: минимум, первый квартиль, медиана, третий квартиль и максимум.
Круговая диаграмма
Круговые диаграммы отображают пропорциональные данные, и каждый сектор представляет собой часть целого. Они особенно эффективны для демонстрации отношений части к целому.
Диаграмма рассеяния
Диаграммы рассеяния используются для определения взаимосвязи между двумя переменными. Данные отображаются в виде совокупности точек, каждая из которых имеет значение одной переменной, определяющую положение на горизонтальной оси, и значение другой переменной, определяющую положение на вертикальной оси.
Важность описательной статистики
Описательная статистика невероятно полезна, поскольку она предоставляет простую сводку выборок и измерений, давая быстрое представление о наборе данных. Она также предоставляет основу для дальнейшего статистического анализа, включая инференциальную статистику, что помогает обеспечить точные и надежные результаты исследований.
Визуальные примеры, такие как диаграммы и графики, не только делают данные понятными с первого взгляда, но и являются наглядными инструментами, которые могут выделить важные характеристики набора данных, такие как тенденции, колебания и взаимосвязи между переменными.
На практике эти инструменты бесценны в различных областях, таких как наука, финансы, бизнес-анализ и экономика, где наличие обзора и хорошего понимания наборов данных может направить важные процессы принятия решений.
Это комплексное исследование описательной статистики подчеркивает ее критическую роль в упрощении и передаче сложных данных в понятной и полезной форме. Переводя большой объем чисел в усваиваемые инсайты, описательная статистика предоставляет линзу, через которую мы можем видеть, понимать и анализировать мир через данные.