描述性统计
描述性统计是一门旨在总结一组数据的统计分支。它提供关于样本和度量的简单摘要。这些摘要可以是定量的,使用数值计算,或是直观的,通过各种图表和图形。描述性统计帮助以可理解的方式简化大量数据。每一个描述性统计量都将大量数据简化为一个简单的总结。
描述性统计的类型
描述性统计分为集中趋势的度量和变异性或分散性的度量。
集中趋势的度量
集中趋势的度量描述了数据集的中心点。主要有三个衡量指标:
- 平均数
- 中位数
- 众数
平均数
平均数是数据集的平均值。通过将所有数字相加并除以数字的总数来计算。
平均数 = (所有数据点的总和) / (数据点的数量)
示例:
数据:2, 3, 5, 7, 11
平均数 = (2 + 3 + 5 + 7 + 11) / 5 = 5.6
中位数
中位数是有序数据集的中间值。如果数据点的数量是奇数,中位数是中间的数字。如果是偶数,它是两个中间数字的平均值。
奇数数据点的示例:
数据:3, 5, 7, 9, 11
中位数 = 7
偶数数据点的示例:
数据:3, 5, 7, 9
中位数 = (5 + 7)/2 = 6
众数
众数是数据集中出现最频繁的数字。一个数据集可以有一个众数、多个众数或没有众数。
示例:
数据:4, 4, 6, 8, 2, 4, 10
众数 = 4
变异性的度量
变异性的度量描述数据集中数据的分布。关键测量包括:
- 范围
- 方差
- 标准差
范围
范围是数据集中最大值与最小值的差。
范围 = (最大值) - (最小值)
示例:
数据:3, 7, 8, 15, 20
范围 = 20 - 3 = 17
方差
方差衡量集合中每个数字与平均值的差异,因此也衡量与集合中其他数字的差异。通过计算与平均值的偏差的平方的平均值来计算。
方差 = (Σ (xi - 平均数)^2) / N
示例:
数据:3, 7, 7, 19
平均数 = (3 + 7 + 7 + 19) / 4 = 9
方差 = [(3-9)^2 + (7-9)^2 + (7-9)^2 + (19-9)^2] / 4 = 30
标准差
标准差是方差的平方根,提供了与平均值的平均距离的度量。
标准差 = √方差
示例:
数据:3, 7, 7, 19
方差 = 30
标准差 = √30 ≈ 5.48
描述性统计的可视化
可以使用多种图形技术来表示描述性统计。这些包括直方图、条形图、饼图、盒状图和散点图。
条形图
条形图用于显示分类数据,矩形条显示每个类别的频率。条的长度与每个类别中的案例数成比例。
直方图
直方图用于显示连续数据,显示一组连续数据点的频率分布。
盒状图
盒状图用于根据五点摘要显示数据的分布:最小值、第一四分位数、中位数、第三四分位数和最大值。
饼图
饼图显示比例数据,每个切片代表整体的一部分。它对于显示部分与整体的关系特别有效。
散点图
散点图用于确定两个变量之间的关系。数据被绘制为一组点,每个点都有一个变量的值确定其在水平轴上的位置,另一个变量的值确定其在垂直轴上的位置。
描述性统计的重要性
描述性统计非常有用,因为它们提供了样本和测量的简单摘要,快速概括了一个数据集的概况。它们还为进一步的统计分析(包括推论统计)提供了基础,有助于确保准确和可靠的研究结果。
例如,图表和图形不仅使数据一目了然,而且提供了有洞察力的工具,可以突出数据集的重要特征,如趋势、波动和变量之间的关系。
在实际应用中,这些工具在科学、金融、商业分析和经济学等各个领域中都非常有价值,因为对数据集的总结和良好理解可以指导重要的决策过程。
对描述性统计的全面研究强调了它在简化和交流复杂数据方面的关键作用。通过将大量数字转化为易于理解的见解,描述性统计为我们提供了一个透过数据观察、理解和分析世界的镜头。