【初心者向け】正規分布とは?68-95-99.7ルールと標準化をわかりやすく解説

統計学入門

 「日本人成人男性の身長は平均171cm、標準偏差6cm」——こう聞いたとき、170〜180cmの人が何%いるか、分かりますか? 正規分布 を知っていれば、それを計算することができます。

 正規分布は統計学の中心に位置する確率分布で、自然界・社会現象の多くに現れます。この章では正規分布の形・面積の法則・標準化・中心極限定理まで、図解でしっかり理解しましょう。


7.1 正規分布とは何か

 正規分布(Normal Distribution) は、平均 μ(ミュー)と標準偏差 σ(シグマ)の2つのパラメータで決まる連続確率分布です。グラフは 左右対称の釣り鐘型(ベルカーブ) になります。

確率密度関数:f(x)=12πσ2exp((xμ)22σ2)f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\!\left( -\frac{(x – \mu)^2}{2\sigma^2} \right)

μ\mu:平均(分布の中心位置)、σ\sigma:標準偏差(分布の広がり)

正規分布の主な性質は次のとおりです。

性質内容
左右対称平均 μ を中心に完全に対称
最頻値 = 中央値 = 平均すべて μ に一致
σ が小さい山が高く細い(データが平均付近に集中)
σ が大きい山が低く広い(データが広範囲に散らばる)
面積の合計曲線の下の面積 = 1(全確率)

正規分布が現れる身近な例として、身長・体重・試験の点数・測定誤差などがあります。


7.2 68-95-99.7ルール

 正規分布には、標準偏差を使って確率を素早く求められる 68-95-99.7ルール があります。

範囲含まれる割合身長の例(μ=171cm, σ=6cm)
μ ± 1σ約68.3%165〜177cm
μ ± 2σ約95.4%159〜183cm
μ ± 3σ約99.7%153〜189cm
図7-1:正規分布の面積と標準偏差の関係。±1σに68%、±2σに95%、±3σに99.7%のデータが収まる

 たとえば「身長が183cm以上の人は何%?」という問いには、μ+2σ=183cmより右の面積が全体の (100−95.4)÷2 = 約2.3% とすぐにわかります。


7.3 標準化とz得点

 異なる正規分布を比較するときに使うのが 標準化(Standardization) です。任意の正規分布 N(μ, σ²) を 標準正規分布 N(0, 1)(平均0・標準偏差1)に変換します。

z=xμσz得点 (標準化得点)z=\frac{x-\mu}{\sigma}\quad\leftarrow\text{z得点 (標準化得点)}

z得点は平均から標準偏差何個分離れているかを表します。即ち、z = 0:平均値ちょうど、z = +1:平均より1σ上、z = -2:平均より2σ下といえます。

z得点の活用例:英語と数学のテスト比較

Aさんが英語80点、数学65点を取ったとします。どちらが相対的に優秀だったでしょうか?

英語: μ=70, σ=10z=807010=1.0数学: μ=50, σ=8z=65508=1.875\begin{aligned} \text{英語: } & \mu = 70,\ \sigma = 10 \Rightarrow z = \frac{80-70}{10} = 1.0 \\ \text{数学: } & \mu = 50,\ \sigma = 8 \Rightarrow z = \frac{65-50}{8} = 1.875 \end{aligned}

数学のz得点の方が高い = 数学の方が相対的に優秀!

点数では英語が高く見えますが、z得点に直すと数学の方がクラス内での位置が高いことがわかります。z得点は単位や平均の異なるデータを同じ基準で比べるために使います。


7.4 中心極限定理 — なぜ正規分布は至るところに現れるのか

 中心極限定理(Central Limit Theorem) は、統計学で最も重要な定理の一つです。

📌 中心極限定理:どんな形の分布でも、そこから無作為に n 個のサンプルを取って平均を計算する操作を繰り返すと、n が大きくなるにつれ、標本平均の分布は正規分布に近づく

母集団の平均 μ\mu、分散 σ2\sigma^2のとき、サイズ n の標本平均X\bar{X}

XN(μ, σ2n)n が十分大きいとき)\bar{X} \sim N\!\left(\mu,\ \frac{\sigma^2}{n}\right) \quad \text{($n$ が十分大きいとき)}

平均は母集団と同じ μ\mu、分散は 1n\frac{1}{n} 倍(nが大きいほど平均のばらつきが小さくなる)

図7-2:指数分布(右に偏った分布)からサンプルを取り平均を繰り返すと、nが大きくなるほど正規分布に近づく

 中心極限定理の重要性は、母集団の分布形に関係なく成り立つ点にあります。次章以降の区間推定・仮説検定でも、この定理が推測統計の土台を支えています。


この章の用語まとめ

用語意味
正規分布 N(μ, σ²)平均μ・標準偏差σの左右対称な釣り鐘型の連続確率分布
68-95-99.7ルール正規分布で±1σ/±2σ/±3σ内にそれぞれ68.3%/95.4%/99.7%が含まれる
標準化データを z = (x−μ)/σ に変換して平均0・標準偏差1の標準正規分布に変える操作
z得点
(標準化得点)
標準化後の値。平均から何σ離れているかを示す
標準正規分布 N(0,1)平均0・標準偏差1の正規分布。z表(標準正規分布表)で確率を読み取れる
中心極限定理サンプルサイズが大きくなるにつれ、標本平均の分布が正規分布に近づく定理
標本平均の標準誤差σ/√n。nが大きいほど標本平均のばらつきは小さくなる

 次章では、母集団全体を調べる代わりに 標本から母集団を推測する「推測統計」に入ります。無作為抽出・標本分布・大数の法則など、この章の正規分布と中心極限定理を土台として理解していきましょう。

コメント

タイトルとURLをコピーしました