分散と標準偏差とは?初心者でもわかる意味・計算・活用例まで徹底解説

数学
Sponsored Link

はじめに:なぜ「分散」と「標準偏差」が重要なのか

平均だけを見ても、そのデータがどれくらいばらついているかは分かりません。
例えば、同じ平均点80点のクラスが2つあったとしても、

  • クラスA:全員が78〜82点(みんな同じくらい)

  • クラスB:50点から100点まで幅広い(実力差が大きい)

このとき、どちらも平均は80点ですが、学力の実態はまったく違います
この「ばらつき」を測るための代表的な指標が 分散(variance)標準偏差(standard deviation) です。


分散と標準偏差の基本概念

🔹 分散(variance)とは?

  • 定義:各データが平均からどれくらい離れているかを2乗して平均したもの

  • 数式:

    σ2=1ni=1n(xixˉ)2\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i – \bar{x})^2

  • equation : データの値
  • equation : 平均値
  • equation : データ数
  • equation : 分散

👉 2乗するのは「プラスとマイナスが打ち消し合わないようにするため」です。


🔹 標準偏差(standard deviation)とは?

  • 定義:分散の平方根

  • 数式:

    σ=1ni=1n(xixˉ)2\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i – \bar{x})^2}

  • 単位が元に戻るため、直感的に理解しやすい指標です。
    (分散は「単位の2乗」なので、数値の大きさが分かりづらい)

以下に、分散と標準偏差の違いを示したグラフを描きます。

 


分散と標準偏差の違い

指標 数式 単位 特徴
分散 平均からの差の2乗の平均 単位² 数学的に扱いやすい
標準偏差 分散の平方根 元の単位 直感的に理解しやすく実務向き

👉 実務や教育では「標準偏差」を使う場面が圧倒的に多いです。
👉 数学や推定理論では「分散」がよく使われます。


計算例:Pythonで求めてみよう

import numpy as np data = [10, 12, 13, 15, 20] # 分散 variance = np.var(data) # 標準偏差 std_dev = np.std(data) print("分散:", variance) # 11.36... print("標準偏差:", std_dev) # 3.37...

👉 出力結果:分散は約11.36、標準偏差は約3.37
→ この場合、データは平均から「±3.4程度のばらつき」があることが分かります。


実務での活用事例

✅ 商品品質のばらつき評価

食品工場で「内容量が平均200gの製品」を作っているとします。

  • 標準偏差が小さい:ほとんど200g前後 → 品質が安定

  • 標準偏差が大きい:190g〜210gと幅広い → 管理が不十分

👉 標準偏差をモニタリングすることで品質管理や改善につなげられます。


✅ 試験結果の分析

  • 標準偏差が小さい:点数が平均に集中している(学力差が小さい)

  • 標準偏差が大きい:得点の幅が広い(難問で差がついた/生徒間の差が大きい)

教育現場では「平均点+標準偏差」で学力分布を把握するのが一般的です。


✅ 金融・投資のリスク評価

株価の変動幅=標準偏差(ボラティリティ)で表されます。

  • 標準偏差が大きい株 → 値動きが激しくリスクが高い

  • 標準偏差が小さい株 → 値動きが安定しており低リスク

👉 投資判断における「リスク指標」として世界中で使われています。


正規分布と標準偏差の関係

統計学では「正規分布」という基本的な分布がよく使われます。
その中で標準偏差は非常に重要な意味を持ちます。

範囲 含まれる割合
平均 ± 1σ 約68.3%
平均 ± 2σ 約95.4%
平均 ± 3σ 約99.7%

👉 つまり、データが正規分布に従うなら「ほとんどの値は ±3σ の範囲に収まる」と言えます。
👉 この性質を利用して、外れ値検出や品質管理の基準が作られています。

以下にグラフでまとめてみます。


まとめ

  • 分散=ばらつきを数式的に表す指標(単位は2乗)

  • 標準偏差=直感的に理解できるばらつきの指標(元の単位)

  • 実務では標準偏差が多用されるが、理論やモデル式では分散が重要

  • 教育・品質管理・投資など幅広い分野で活用されている

👉 データ分析の第一歩は「平均」と「ばらつき」を両方理解すること。
この2つをセットで見ることで、データの姿がよりクリアに見えてきます。


📌 関連記事

🎓 さらに学びたい方へ

この記事で紹介した「平均」「中央値」「標準偏差」は、統計学・データサイエンスの第一歩です。
もっと体系的に学びたい方には、実務でも役立つオンライン教材がおすすめです。

👉 はじめての統計学・データ分析講座
icon(PythonやExcelを使った実践的な統計分析を学べます)

✍️ 本ブログでは、統計・数学を「小学生でもわかる言葉」で解説しつつ、実務に役立つ応用まで紹介していきます。
ブックマーク・シェアしていただけると励みになります!

Sponsored Link

コメント

タイトルとURLをコピーしました