Класс 8 → Обработка данных → Графическое представление данных ↓
Понимание гистограмм в управлении данными
В области статистики графики являются мощным инструментом, который предоставляет нам визуальное представление данных. Одним из таких типов графиков является гистограмма. Гистограмма — это тип столбчатого графика, который особенно полезен, когда у вас есть большой набор данных и вы хотите понять частотное распределение точек данных. В этом руководстве мы рассмотрим гистограммы, как они создаются, их компоненты и как они используются для интерпретации данных.
Что такое гистограмма?
Гистограмма — это графическое представление, которое группирует точки данных в заданные пользователем диапазоны, называемые интервалами. Она визуально отображает количество точек данных, попадающих в каждый из этих интервалов.
В отличие от обычных столбчатых диаграмм, гистограммы изображают непрерывные данные. Это означает, что данные могут принимать любое значение в заданном диапазоне, и столбцы в гистограмме соприкасаются друг с другом, чтобы показать, что интервалы непрерывны.
Части гистограммы
Прежде чем мы обсудим примеры, давайте рассмотрим различные компоненты гистограммы:
- Интервалы: Это диапазоны, которые группируют ваши данные. Каждый интервал представляет собой диапазон значений.
- Частота: Она указывает количество точек данных, попадающих в каждый интервал.
- Ось X: Отображает интервалы и показывает диапазон данных.
- Ось Y: Отображает частоту и показывает количество точек данных в каждом интервале.
Создание гистограммы
Существует несколько шагов, связанных с построением гистограммы. Давайте рассмотрим их на примере:
Пример
Предположим, у нас есть набор данных, показывающий возраст группы студентов:
12, 13, 14, 15, 13, 14, 12, 16, 15, 14, 13, 17, 14, 15, 14
Шаги для создания гистограммы из этих данных следующие:
- Сбор данных: Исходные данные, которые мы используем, уже доступны.
- Определение количества интервалов: Допустим, мы решаем создать интервалы для возрастов от 12 до 17, используя категории 12-13, 14-15 и 16-17.
- Подсчет количества точек данных в каждом интервале: Подсчитайте, сколько точек данных попадает в каждый диапазон интервалов.
- Создание гистограммы: Для каждого интервала создайте столбец, который масштабируется до частоты, связанной с этим интервалом.
Визуальный пример
Вот визуальный пример гистограммы возраста в формате SVG:
12-13
14-15
16-17
2
4
3
Каждый синий прямоугольник в примере SVG представляет столбец в гистограмме, с основанием на метке интервала на оси X, и высотой, представляющей частоту.
Анализ гистограммы
Как только у вас есть гистограмма, важно ее проанализировать, чтобы использовать предоставленную информацию. Вот некоторые аспекты, на которые стоит обратить внимание:
- Форма: Форма гистограммы (например, симметричная, смещенная влево, смещенная вправо) дает визуальное резюме распределения данных.
- Центральная тенденция: Посмотрите, имеют ли данные тенденцию кластеризоваться вокруг определенной точки, которая представляет среднее, медиану или моду распределения.
- Дисперсия: Проверьте ширину гистограммы, которая указывает на то, насколько широко или узко распределены данные.
Текстовый пример
Рассмотрим гистограмму, составленную из данных о росте студентов в сантиметрах:
120-130: 2, 131-140: 5, 141-150: 9, 151-160: 6, 161-170: 3
Самый высокий столбец в гистограмме соответствует диапазону 141-150 см, который является наиболее распространенным диапазоном роста в этом наборе данных. Он представляет собой моду.
Преимущества использования гистограммы
Гистограммы имеют несколько преимуществ, которые делают их незаменимыми в управлении данными:
- Простота использования: Простота построения и легкость чтения делают гистограммы полезными для анализа данных, благодаря тому, что они наглядно показывают тренды данных.
- Всеобъемлющий обзор: Используя интервалы, гистограммы представляют с первого взгляда как частоту различных значений, так и форму распределения данных.
- Определение выбросов: Благодаря пикам и разрывам гистограммы позволяют легко выявить потенциальные выбросы в наборе данных, что может быть полезным для уточнения данных.
Общие ошибки при построении гистограммы
Хотя гистограммы обычно просты, некоторые ошибки могут сделать их обманчивыми:
- Неправильный размер интервалов: Выбор слишком маленьких или слишком больших интервалов может исказить данные. Большие интервалы могут скрыть важные детали, в то время как маленькие интервалы могут создать шум.
- Непрерывные данные: Гистограммы следует использовать только для непрерывных переменных, а не для отдельных дискретных точек данных.
- Непоследовательные ширины интервалов: Использование интервалов разного размера может исказить интерпретацию распределения данных.
Дальнейшее изучение
Практикуйтесь с любым набором численных данных и попробуйте создать гистограмму, следуя описанным шагам. Анализируйте ее форму, центральную тенденцию и дисперсию. Это укрепит ваше понимание, и вы будете знакомы с общими шаблонами в распределении данных.
Примеры данных для практики
Попробуйте использовать следующий набор данных, который показывает ежедневные температуры (в градусах Цельсия), записанные в течение двух недель:
20, 22, 23, 21, 21, 23, 24, 22, 25, 22, 23, 21, 24, 23
Определите подходящие интервалы, постройте гистограмму и проанализируйте ее шаблон.
Гистограммы являются основой в визуализации статистических данных, помогая суммировать массивы данных, облегчая принятие обоснованных решений и вывод обоснованных заключений. Навык чтения и создания гистограмм приводит к лучшему пониманию данных во многих дисциплинах, включая экономику, биологию, инженерное дело и социальные науки, где распространены непрерывные данные.