Класс 10 → Фигуры → Представление данных → Графическая форма ↓
Гистограмма: инструмент для графического представления в статистике
В мире статистики понимание данных очень важно. Нам часто нужен способ визуально представить сложные наборы данных, чтобы тренды и закономерности можно было быстро понять. Эффективный способ достижения этого – использование гистограммы. Гистограмма – это графическое представление, которое организует группу данных в категории, указанные пользователем.
Перед углублением в гистограммы важно понять некоторые ключевые концепции, такие как распределение данных и частота. Распределение данных относится к тому, как значения распределены в наборе данных. С другой стороны, частота относится к тому, как часто встречается значение данных.
Что такое гистограмма?
Гистограмма – это тип столбчатой диаграммы, который показывает распределение частоты числовых данных. В отличие от столбчатых диаграмм, которые отображают категориальные данные, гистограммы используются для представления непрерывных данных или данных, которые приходят в упорядоченной последовательности. Каждый столбец в гистограмме, также известный как бин, показывает частоту данных в определенных интервалах.
Рассмотрим этот простой набор данных: 4, 5, 5, 6, 9, 9, 10, 10, 10, 11 Отсеки: 3-5, 6-8, 9-11 частота: 3-5 => 3 точки данных (4, 5, 5) 6-8 => 1 точка данных (6) 9-11 => 6 точек данных (9, 9, 10, 10, 10, 11)
Структура гистограммы
Гистограмма состоит из смежных (прилегающих) прямоугольников. Важно отметить, что в гистограмме столбцы касаются друг друга, что указывает на то, что исходная переменная является непрерывной. Основные элементы гистограммы:
- Ось: Ось x обычно представляет интервалы или бины, а ось y показывает частоту точек данных в каждом бине.
- Столбцы: Каждый столбец представляет собой бин, который содержит определенный диапазон данных. Высота столбца представляет количество точек данных или частоту в этом диапазоне.
Создание гистограммы
Чтобы создать гистограмму, необходимо выполнить несколько шагов:
- Сбор данных: Сначала соберите числовые данные, которые вы будете отображать в гистограмме.
- Определите количество бинов: Выберите, сколько бинов использовать. Общие методы определения этого включают метод квадратного корня, где количество бинов приблизительно равно квадратному корню из количества данных.
- Определите ширину бина: Важно, чтобы ваши бины имели не перекрывающиеся интервалы. Если у вас есть
n
точек данных иk
бинов, общая формула для ширины бина такова:ширина = (макс(данные) - мин(данные)) / k
- Посчитайте точки данных в каждом бине: Посчитайте количество точек данных, которые попадают в каждый бин.
- Создайте гистограмму: Выберите подходящий масштаб для осей и нарисуйте столбцы соответственно.
Пример набора данных: 7, 8, 8, 8, 9, 10, 11, 11, 11, 12, 13, 14, 14, 15, 15 Шаги: 1. Количество отсеков: 4 2. Ширина: (макс - мин) / бин = (15 - 7) / 4 = 2 3. Бины: 7-8.5, 8.5-10, 10-11.5, 11.5-13 частота: 7-8.5 => 4 точки данных (7, 8, 8, 8) 8.5-10 => 2 точки данных (9, 10) 10-11.5 => 5 точек данных (11, 11, 11) 11.5-13 => 2 точки данных (12, 13)
Интерпретация гистограммы
Гистограмма предоставляет снимок распределения данных. Форма гистограммы может многое рассказать нам о распределении данных. Вот некоторые общие закономерности, которые можно наблюдать:
- Симметричное распределение: Гистограмма примерно одинакова по обе стороны от центра. Классическая колоколообразная кривая известна как нормальное распределение.
- Скошенное распределение: Гистограмма наклонена в одну сторону. Если она наклонена влево, это называется положительным перекосом; если направо, то это отрицательный перекос.
- Равномерное распределение: Все столбцы примерно одной высоты; у данных нет явной моды.
- Мультимодальное распределение: Более одной вершины в гистограмме, что указывает на наличие нескольких основных групп данных.
Преимущества и недостатки гистограммы
Преимущества
- Предоставляет четкое визуальное представление о распределении данных.
- Помогает нам определить форму данных, будь то нормальная, скошенная или равномерная.
- Очень полезна для больших наборов данных.
Недостатки
- Не подходит для небольших наборов данных, так как может не точно отразить распределение.
- Выбор количества бинов может повлиять на интерпретацию данных.
Заключение
В итоге гистограммы являются мощным инструментом в статистике для визуального представления непрерывных данных. Они предоставляют представление о распределениях и могут эффективно резюмировать большие наборы данных. Понимание того, как читать и интерпретировать гистограммы, может помочь в проведении детального анализа данных и принятии обоснованных решений на основе статистических данных.