
ちょっと不思議な話。ある男の子がテストを受けた。返ってきた結果を見ると点数がクラスの平均点よりも上だった。
テストの点数を見た彼は思う、平均点よりも上ならば40人クラスの中の上位20位には入っているだろう。しかし、公表された彼のクラス順位は25位だった。平均点よりも良い点数を取ったのに、クラスの順位が下位20位(真ん中以下)ということがあり得るのだろうか。
私たちの中のイメージ
まず、結論から言おう。上記のような現象は、ある特定の条件を満たしたときに起こりうる。
それはどのような状況なのか。それを説明する前に、少々長話に付き合っていただきたい。
クラスの点数の分布を考えるとき、普段、どのような分布を想定するだろうか。
分布と言うのは、「何点の人が何人いる」という情報を見える化したものと思えば良い。
例えば、40人のクラスで10点満点のテストを受けさせることを考えたとき、次のような分布を想像しないだろうか。
例えば、こういう分布をイメージするのではないだろうか。真ん中くらいの点数が一番多くて、点数が高くなるほど少なくなっていく。逆に点数が低い方も徐々に少なくなっていくような。
このような分布だとすると、テストの平均点は丁度5点になる。だから、テストで5点の子がいたら(同じ順位の子が8人いるけれども)クラスのちょうど真ん中の大きな山に位置することになる。
もっとも、ちゃんと順位を出そうとすると上から17位となりぴったり20位になるという訳ではないのだが。
実際の分布は形がいびつになる
しかし、実際にテストの点数を見てみると上のようなきれいな正対象の形になることはまず無い。
大抵は何かしらの偏りが生じるものだ。
例えば、大学生に小学生の算数の問題を解かせるみたいに高い点数に大きな山ができるものもある。
逆に、小学生に大学生の数学の問題を解かせるように低い点数の方に大きな山ができるものもある。
もしくは、同じクラスに学習塾に通っている勉強のできる集団と勉強が苦手な集団の両方がいるなら、ふたこぶラクダのような分布になることもあるだろう。
さて、分布が異なると何が起こるのだろうか。
分布が異なると起こること
実は、分布の偏りが大きいと平均値のイメージとクラスの中の順位のイメージにギャップが生じることになる。冒頭で述べた、ある条件とは分布の偏りの大きさの事を指している。
次のような分布を考えてみよう。
このクラスの平均点は2.38点だ。さて、5点を取った子は平均点の倍近くを取っている。さぞ、良い順位だろう・・・と思いきや、クラス内順位は26位!下位20位に入ってしまった。
つまり、このグラフのように点数の高い子が平均点を押し上げた・・・いや、この場合は点数の低い子が押し下げた結果、クラスの平均点が下がり、順位のイメージとのギャップが生じてしまったのである。
ところで、先ほどからクラスの順位という言い方をしているが、統計の授業では中央値という言い方で習ったと思う。
中央値というのは、クラス全員の点数を低い方から高い方へ順番に並べて、ちょうど真ん中に来た人の点数のことを言う。この分布の中央値は7点であり。そこがいわゆる、真ん中の位置となる。
平均値と中央値には常にずれがあるものと心得る
平均値とは、クラスの点数を全て足したものを人数で割った値のこと。
中央値とは、クラス全員の点数を低い方から高い方へ順番に並べて、ちょうど真ん中に来た人の値のことを言う。
求め方や、意味するところが違うこの2つの値は、基本的に一致することはまず無い。
そして、クラス内の順位を知りたいのであれば、中央値の方がイメージに近い。
平均値は不要か
では平均が要らないのかと言うと、そんなことはない。
ややマニアックになるので詳細は省くが、中央値には実は統計的な価値はほぼ無い。
一部の人が、中央値をやたらと持ち上げているのだが、マクロ的な視点で考える時に、中央値によって語れることは多くない。
例えば、日本人の給料の平均値などのような話題で頻繁に中央値を持ち上げる人がいるのだが、これには理由がある。先の分布の偏りのように、一部の人が給料を押し上げる為、平均値が大きく出てしまう。実際には給料が低い人の方が多い。という主張がしやすく、給料が低いことへの劣等感を薄めることができる、あるいは、一部の人が富を独占していることや、政治への攻撃に使いやすく自分のリアルな姿を直視しないで済む。
平均値は一部の人が給料を押し上げる為、高い値が出る。
この主張は一面では真実なのだが、やはり、平均値を否定したいがための詭弁なのだ。
世に出ている統計の多くは、極端な値は排除した閾値(しきいち)あり平均で統計を取っている。
例えば、日産自動車の平均年収、最高年収、最低年収を考える時にカルロスゴーンを含めると社員2万人を抱えている企業の平均年収が9万円も上がるし、最高年収が18億になる。これは統計的に意味が無いから、例えば、1000万円以上は全て1000万円とカウントするとか、そもそも統計に入れないなどの補整をかけている。
つまり、平均年収という言い方をする場合は、むしろ厳密な意味での年収の平均よりも小さい値が出ていることを考慮しなければならないはずだ。
ところが、「平均値は統計の嘘」とか「平均値のマジック」という言い方をする人に限って、こういった自分に都合の悪い方向への考察を一切しない。
統計に関して、色々な量の事を知っているのは大いに結構、分布や量を計算して意味を考察するのも結構だが、馬鹿の一つ覚えに中央値を礼賛するのはいい加減に卒業した方が良い。