前章ではデータの種類(量的・質的データ)と尺度水準を学びました。今回はデータ全体を「1つの数」で代表させる方法、すなわち平均値・中央値・最頻値の3つを解説します。
📌 この記事でわかること
- 代表値とは何か、なぜ必要なのか
- 平均・中央値・最頻値それぞれの求め方と特徴
- 外れ値が代表値に与える影響
- 3つの代表値の使い分け方
3.1 代表値とは
100人のテスト結果があるとき、その100個の数字をそのまま見ても全体の傾向はつかみにくいですよね。そこで登場するのが代表値です。
代表値とは、データ全体の特徴を1つの数値で要約したものです。「このクラスの平均点は75点」「年収の中央値は450万円」といった表現が代表値の典型例です。
📖 代表値の3種類
- 平均(Mean):すべての値を足してデータ数で割る
- 中央値(Median):データを並べたときの真ん中の値
- 最頻値(Mode):最も多く出現する値
3.2 平均(Mean)
平均は最もよく使われる代表値です。すべての値を合計してデータの個数で割ります。
例)5人のテストの点数:60, 70, 75, 80, 90
平均 = ( 60 + 70 + 75 + 80 + 90 ) ÷ 5 = 375 ÷ 5 = 75 点
平均の特徴と注意点
平均はすべてのデータを計算に使うため、データ全体の情報を反映しています。ただし、外れ値(極端に大きい・小さい値)があると平均が引っ張られてしまうという弱点があります。
⚠️ 外れ値の影響の例
6人の月収(万円):20, 25, 28, 30, 32, 300
→ 平均 = ( 20+25+28+30+32+300 ) ÷ 6 ≈ 72.5万円
実態は20〜30万円台なのに、平均は72.5万円になってしまいます。
3.3 中央値(Median)
中央値は、データを小さい順に並べたときに真ん中に来る値です。
- データ数が奇数のとき:ちょうど真ん中の1つの値
- データ数が偶数のとき:真ん中の2つの値の平均
例)7人のテストの点数(奇数)
並び替え:50, 60, 65, 70, 75, 80, 90
→ 中央値 = 70点(4番目の値)
例)6人の年収(万円)(偶数)
並び替え:200, 300, 400, 500, 600, 5000
→ 中央値 = ( 400 + 500 ) ÷ 2 = 450万円
平均 vs 中央値:外れ値があるとき

先ほどの6人の年収データで比べてみましょう(200, 300, 400, 500, 600, 5000万円)。
平均
≈ 1167 万円
5000万円に引っ張られて実態とかけ離れている
中央値
450 万円
外れ値に影響されず実態に近い
日本の「平均年収」より「中央値年収」の方がよく実態を表すといわれるのは、この性質があるからです。
3.4 最頻値(Mode)
最頻値は、データの中で最も多く出現する値です。
例)10人の靴のサイズ(cm)
24, 25, 25, 25, 26, 26, 26, 26, 27, 28
→ 26cmが最も多い(4回)→ 最頻値 = 26cm
最頻値は特に質的データ(カテゴリデータ)で活躍します。「一番人気の血液型は?」「最も多い職業は?」といった問いへの答えが最頻値です。
例)20人のアンケート:好きなスポーツ
サッカー:8人 / 野球:5人 / テニス:4人 / バスケ:3人
→ 最頻値 = サッカー(計算ではなく「最多カテゴリ」)
3.5 3つの代表値の使い分け

3つの代表値はそれぞれ得意・不得意があります。状況に合わせて選ぶことが重要です。
| 代表値 | 向いている場面 | 弱点 | 例 |
|---|---|---|---|
| 平均 | 外れ値が少ない、対称な分布 | 外れ値に弱い | テストの点数、身長 |
| 中央値 | 外れ値がある、歪んだ分布 | すべてのデータを活かせない | 年収、不動産価格 |
| 最頻値 | 質的データ、カテゴリの多数派 | 連続値では使いにくい | 血液型、好みの傾向 |
3.6 どの代表値を報告すべき?実例で確認
実際のデータ分析では、代表値を1つだけ報告することが多いですが、それだけでは誤解を招くこともあります。次のような判断フローが参考になります。
💡 代表値の選び方フロー
データが質的(カテゴリ)? → 最頻値
↓ 量的データ
外れ値がある or 分布が歪んでいる? → 中央値
↓ 外れ値がない・対称に近い
→ 平均
なお、重要な分析では平均と中央値の両方を報告することも一般的です。「平均1167万円(中央値450万円)」のように2つを並べることで、データの歪みを読み手に伝えられます。
まとめ
📝 第3章のまとめ
- 平均:全データを使うが外れ値に弱い。対称な分布に向く
- 中央値:外れ値に強い。歪んだ分布(年収・価格など)に向く
- 最頻値:最も多い値。質的データの代表値として使う
- 平均と中央値が大きく乖離していれば、外れ値や歪みのサイン
- 重要な分析では複数の代表値を併記することで、より正確に伝わる
次の章へ
代表値はデータの「中心」を表しますが、それだけでは全体像はわかりません。同じ平均点でも、点数がバラバラなクラスと均一なクラスでは意味が違います。
次の第4章では、データの「ばらつき」を数値化する分散・標準偏差を学びます。
次の記事
▶ 第4章 分散と標準偏差 — データの「ばらつき」を数値化する

コメント