分散の測定
統計では、「分散の測度」の概念は非常に重要です。これにより、データセットがどれだけ広がっているか、または変動しているかがわかります。簡単に言えば、数値のグループの平均を知っている場合でも、分散の測度は他の数値がこの平均からどれだけ離れているかを理解するのに役立ちます。これについて、さらに詳しく見ていきましょう。
例を用いた分散の理解
5つの異なる科目における2人の学生の取得得点を表す小さな数値セットを考えてみてください:
- 学生A:80, 85, 78, 90, 82
- 学生B:60, 95, 70, 100, 55
学生Aと学生Bの平均スコア(平均)はどちらも83です。しかし、分散の測定を使用することで、彼らの成績にはいくつかの違いがあることがわかります。学生Aのスコアは互いに近く、学生Bのスコアは大きく変動しています。この分散の違いがまさに分散の測度が測定するものです。
分散の測定の種類
データの分散を測定する方法はいくつかあります。最も一般的な分散の測度は次のとおりです:
- レンジ
- 四分位数と四分位範囲
- 分散
- 標準偏差
- 平均絶対偏差
レンジ
最も単純な分散の測定はレンジです。レンジはデータセット内の最大値と最小値の差を測定します。レンジを計算するための式は次のとおりです:
レンジ = 最大値 - 最小値
私たちの例を使用してください:
- 学生A:レンジ = 90 - 78 = 12
- 学生B:レンジ = 100 - 55 = 45
ご覧のとおり、学生Bのマークはより広がっており、つまり学生Aよりもマークが広がっています。
四分位数と四分位範囲
四分位数はデータセットを4つの等しい部分に分割します。これにより、極端な値だけでなく中間値にも焦点を当てて分散をより詳細に理解するのに役立ちます。四分位範囲(IQR)は、第3四分位数(Q3)と第1四分位数(Q1)の差です。これはデータの中央50%の散らばりを測定します:
IQR = Q3 - Q1
各学生の点数を昇順に並べて四分位数を見つけます:
- 学生A:78, 80, 82, 85, 90
- 学生B:55, 60, 70, 95, 100
学生Aの場合:
- Q1 = 80, Q2(中央値)= 82, Q3 = 85
学生Bの場合:
- Q1 = 60, Q2(中央値)= 70, Q3 = 95
したがって、学生AのIQR:85 - 80 = 5 、学生BのIQR:95 - 60 = 35です。
分散
分散はデータセット内の各数値が平均からどれだけ離れているかを平方で測定します。より複雑ですが非常に有用です。分散を計算するための式は次のとおりです:
分散 (σ²) = Σ (xᵢ - x̄)² / N
ここで:
Σ
は合計を意味します...xᵢ
はセット内の個々の数値ですx̄
は数値の平均ですN
はセットの観測値の数です
実際の例として、学生Aの点数の分散を計算してみましょう:
- 平均 = 83
- (80-83)² + (85-83)² + (78-83)² + (90-83)² + (82-83)² = 9 + 4 + 25 + 49 + 1 = 88
- 分散 = 88 / 5 = 17.6
標準偏差
標準偏差は単に分散の平方根であり、明確でスケールに対応した散らばりの測度を提供します。式は次のとおりです:
標準偏差 (σ) = √分散
学生Aの分散を使用すると、標準偏差は√17.6 ≈ 4.2です。
この数値は、データセットが元の単位、つまり数値の観点でどれだけ広がっているかをよく示しています。
平均絶対偏差
別の単純な分散の測定は平均絶対偏差(MAD)です。これは、各データポイントと平均との差の絶対値の平均です:
MAD = Σ |xᵢ - x̄| / N
学生Aを使用します:
- 平均 = 83
- |80-83| + |85-83| + |78-83| + |90-83| + |82-83| = 3 + 2 + 5 + 7 + 1 = 18
- MAD = 18 / 5 = 3.6
分散の測定が重要な理由
分散の測定を理解することは、データセットに関する重要な洞察を提供します:
- リスク評価: 金融では、投資のリスク(分散)を理解すること。
- 品質保証: 製造業では、製品が一定の基準を満たし、変動が最小限に抑えられることを保証すること。
- 比較分析: 教育では、異なる評価のパフォーマンスを比較すること。
結論
分散の測定は、単に平均を知る以上にデータを理解する助けになります。データがどのように広がっているか、リスクや変動がどのくらいあるのかを示しています。レンジのような簡単な計算から分散や標準偏差のような複雑な計算まで、それぞれの測度は独自の洞察を提供し、データのより豊かな分析を導きます。