【統計学入門 第3章】平均・中央値・最頻値

統計学入門

 前章ではデータの種類(量的・質的データ)と尺度水準を学びました。今回はデータ全体を「1つの数」で代表させる方法、すなわち平均値・中央値・最頻値の3つを解説します。

📌 この記事でわかること

  • 代表値とは何か、なぜ必要なのか
  • 平均・中央値・最頻値それぞれの求め方と特徴
  • 外れ値が代表値に与える影響
  • 3つの代表値の使い分け方

3.1 代表値とは

 100人のテスト結果があるとき、その100個の数字をそのまま見ても全体の傾向はつかみにくいですよね。そこで登場するのが代表値です。

 代表値とは、データ全体の特徴を1つの数値で要約したものです。「このクラスの平均点は75点」「年収の中央値は450万円」といった表現が代表値の典型例です。

📖 代表値の3種類

  • 平均(Mean):すべての値を足してデータ数で割る
  • 中央値(Median):データを並べたときの真ん中の値
  • 最頻値(Mode):最も多く出現する値

3.2 平均(Mean)

 平均は最もよく使われる代表値です。すべての値を合計してデータの個数で割ります。

x̄ = ( x₁ + x₂ + ⋯ + xₙ ) ÷ n

例)5人のテストの点数:60, 70, 75, 80, 90

平均 = ( 60 + 70 + 75 + 80 + 90 ) ÷ 5 = 375 ÷ 5 = 75 点

平均の特徴と注意点

 平均はすべてのデータを計算に使うため、データ全体の情報を反映しています。ただし、外れ値(極端に大きい・小さい値)があると平均が引っ張られてしまうという弱点があります。

⚠️ 外れ値の影響の例

6人の月収(万円):20, 25, 28, 30, 32, 300
→ 平均 = ( 20+25+28+30+32+300 ) ÷ 6 ≈ 72.5万円
実態は20〜30万円台なのに、平均は72.5万円になってしまいます。


3.3 中央値(Median)

 中央値は、データを小さい順に並べたときに真ん中に来る値です。

  • データ数が奇数のとき:ちょうど真ん中の1つの値
  • データ数が偶数のとき:真ん中の2つの値の平均

例)7人のテストの点数(奇数)

並び替え:50, 60, 65, 70, 75, 80, 90
→ 中央値 = 70点(4番目の値)


例)6人の年収(万円)(偶数)

並び替え:200, 300, 400, 500, 600, 5000
→ 中央値 = ( 400 + 500 ) ÷ 2 = 450万円

平均 vs 中央値:外れ値があるとき

 先ほどの6人の年収データで比べてみましょう(200, 300, 400, 500, 600, 5000万円)。

平均

≈ 1167 万円

5000万円に引っ張られて実態とかけ離れている

中央値

450 万円

外れ値に影響されず実態に近い

 日本の「平均年収」より「中央値年収」の方がよく実態を表すといわれるのは、この性質があるからです。


3.4 最頻値(Mode)

 最頻値は、データの中で最も多く出現する値です。

例)10人の靴のサイズ(cm)

24, 25, 25, 25, 26, 26, 26, 26, 27, 28
26cmが最も多い(4回)→ 最頻値 = 26cm

 最頻値は特に質的データ(カテゴリデータ)で活躍します。「一番人気の血液型は?」「最も多い職業は?」といった問いへの答えが最頻値です。

例)20人のアンケート:好きなスポーツ

サッカー:8人 / 野球:5人 / テニス:4人 / バスケ:3人
→ 最頻値 = サッカー(計算ではなく「最多カテゴリ」)


3.5 3つの代表値の使い分け

3つの代表値はそれぞれ得意・不得意があります。状況に合わせて選ぶことが重要です。

代表値 向いている場面 弱点
平均 外れ値が少ない、対称な分布 外れ値に弱い テストの点数、身長
中央値 外れ値がある、歪んだ分布 すべてのデータを活かせない 年収、不動産価格
最頻値 質的データ、カテゴリの多数派 連続値では使いにくい 血液型、好みの傾向


3.6 どの代表値を報告すべき?実例で確認

 実際のデータ分析では、代表値を1つだけ報告することが多いですが、それだけでは誤解を招くこともあります。次のような判断フローが参考になります。

💡 代表値の選び方フロー

データが質的(カテゴリ)? → 最頻値
↓ 量的データ
外れ値がある or 分布が歪んでいる? → 中央値
↓ 外れ値がない・対称に近い
平均

 なお、重要な分析では平均と中央値の両方を報告することも一般的です。「平均1167万円(中央値450万円)」のように2つを並べることで、データの歪みを読み手に伝えられます。


まとめ

📝 第3章のまとめ

  • 平均:全データを使うが外れ値に弱い。対称な分布に向く
  • 中央値:外れ値に強い。歪んだ分布(年収・価格など)に向く
  • 最頻値:最も多い値。質的データの代表値として使う
  • 平均と中央値が大きく乖離していれば、外れ値や歪みのサイン
  • 重要な分析では複数の代表値を併記することで、より正確に伝わる

次の章へ

 代表値はデータの「中心」を表しますが、それだけでは全体像はわかりません。同じ平均点でも、点数がバラバラなクラスと均一なクラスでは意味が違います。
 次の第4章では、データの「ばらつき」を数値化する分散・標準偏差を学びます。

次の記事

▶ 第4章 分散と標準偏差 — データの「ばらつき」を数値化する

コメント

タイトルとURLをコピーしました