Класс 8

Класс 8Обработка данныхГрафическое представление данных


Понимание гистограмм в управлении данными


В области статистики графики являются мощным инструментом, который предоставляет нам визуальное представление данных. Одним из таких типов графиков является гистограмма. Гистограмма — это тип столбчатого графика, который особенно полезен, когда у вас есть большой набор данных и вы хотите понять частотное распределение точек данных. В этом руководстве мы рассмотрим гистограммы, как они создаются, их компоненты и как они используются для интерпретации данных.

Что такое гистограмма?

Гистограмма — это графическое представление, которое группирует точки данных в заданные пользователем диапазоны, называемые интервалами. Она визуально отображает количество точек данных, попадающих в каждый из этих интервалов.

В отличие от обычных столбчатых диаграмм, гистограммы изображают непрерывные данные. Это означает, что данные могут принимать любое значение в заданном диапазоне, и столбцы в гистограмме соприкасаются друг с другом, чтобы показать, что интервалы непрерывны.

Части гистограммы

Прежде чем мы обсудим примеры, давайте рассмотрим различные компоненты гистограммы:

  • Интервалы: Это диапазоны, которые группируют ваши данные. Каждый интервал представляет собой диапазон значений.
  • Частота: Она указывает количество точек данных, попадающих в каждый интервал.
  • Ось X: Отображает интервалы и показывает диапазон данных.
  • Ось Y: Отображает частоту и показывает количество точек данных в каждом интервале.

Создание гистограммы

Существует несколько шагов, связанных с построением гистограммы. Давайте рассмотрим их на примере:

Пример

Предположим, у нас есть набор данных, показывающий возраст группы студентов:

12, 13, 14, 15, 13, 14, 12, 16, 15, 14, 13, 17, 14, 15, 14

Шаги для создания гистограммы из этих данных следующие:

  1. Сбор данных: Исходные данные, которые мы используем, уже доступны.
  2. Определение количества интервалов: Допустим, мы решаем создать интервалы для возрастов от 12 до 17, используя категории 12-13, 14-15 и 16-17.
  3. Подсчет количества точек данных в каждом интервале: Подсчитайте, сколько точек данных попадает в каждый диапазон интервалов.
  4. Создание гистограммы: Для каждого интервала создайте столбец, который масштабируется до частоты, связанной с этим интервалом.

Визуальный пример

Вот визуальный пример гистограммы возраста в формате SVG:


        
        
        

        
        

        12-13
        14-15
        16-17

        2
        4
        3
    

Каждый синий прямоугольник в примере SVG представляет столбец в гистограмме, с основанием на метке интервала на оси X, и высотой, представляющей частоту.

Анализ гистограммы

Как только у вас есть гистограмма, важно ее проанализировать, чтобы использовать предоставленную информацию. Вот некоторые аспекты, на которые стоит обратить внимание:

  • Форма: Форма гистограммы (например, симметричная, смещенная влево, смещенная вправо) дает визуальное резюме распределения данных.
  • Центральная тенденция: Посмотрите, имеют ли данные тенденцию кластеризоваться вокруг определенной точки, которая представляет среднее, медиану или моду распределения.
  • Дисперсия: Проверьте ширину гистограммы, которая указывает на то, насколько широко или узко распределены данные.

Текстовый пример

Рассмотрим гистограмму, составленную из данных о росте студентов в сантиметрах:

120-130: 2, 131-140: 5, 141-150: 9, 151-160: 6, 161-170: 3

Самый высокий столбец в гистограмме соответствует диапазону 141-150 см, который является наиболее распространенным диапазоном роста в этом наборе данных. Он представляет собой моду.

Преимущества использования гистограммы

Гистограммы имеют несколько преимуществ, которые делают их незаменимыми в управлении данными:

  • Простота использования: Простота построения и легкость чтения делают гистограммы полезными для анализа данных, благодаря тому, что они наглядно показывают тренды данных.
  • Всеобъемлющий обзор: Используя интервалы, гистограммы представляют с первого взгляда как частоту различных значений, так и форму распределения данных.
  • Определение выбросов: Благодаря пикам и разрывам гистограммы позволяют легко выявить потенциальные выбросы в наборе данных, что может быть полезным для уточнения данных.

Общие ошибки при построении гистограммы

Хотя гистограммы обычно просты, некоторые ошибки могут сделать их обманчивыми:

  • Неправильный размер интервалов: Выбор слишком маленьких или слишком больших интервалов может исказить данные. Большие интервалы могут скрыть важные детали, в то время как маленькие интервалы могут создать шум.
  • Непрерывные данные: Гистограммы следует использовать только для непрерывных переменных, а не для отдельных дискретных точек данных.
  • Непоследовательные ширины интервалов: Использование интервалов разного размера может исказить интерпретацию распределения данных.

Дальнейшее изучение

Практикуйтесь с любым набором численных данных и попробуйте создать гистограмму, следуя описанным шагам. Анализируйте ее форму, центральную тенденцию и дисперсию. Это укрепит ваше понимание, и вы будете знакомы с общими шаблонами в распределении данных.

Примеры данных для практики

Попробуйте использовать следующий набор данных, который показывает ежедневные температуры (в градусах Цельсия), записанные в течение двух недель:

20, 22, 23, 21, 21, 23, 24, 22, 25, 22, 23, 21, 24, 23

Определите подходящие интервалы, постройте гистограмму и проанализируйте ее шаблон.

Гистограммы являются основой в визуализации статистических данных, помогая суммировать массивы данных, облегчая принятие обоснованных решений и вывод обоснованных заключений. Навык чтения и создания гистограмм приводит к лучшему пониманию данных во многих дисциплинах, включая экономику, биологию, инженерное дело и социальные науки, где распространены непрерывные данные.


Класс 8 → 5.3.2


U
username
0%
завершено в Класс 8


комментарии