K社については30代社員の年収がほぼ平均値である420万円の近辺に集まっているのに対し、O社は2人だけが極端に年収が高く(おそらく部長クラスなのでしょう)、それ以外の人はみな年収が420万円以下となっています。
ですので、O社に入社した場合に期待できる年収は、(Mさんがよほど能力が高ければ別ですが)おそらく340万円から390万円あたりに落ち着きそうです。
一方、K社は平均年収だけで比べるとO社には劣りますが、この1人ずつの年収のデータから、入社後の年収は390万円から420万円の間ぐらいにはなんとか収まりそうです。つまり、平均年収では低かったK社のほうが、高い年収が期待できそうなのではないでしょうか。
これがものごとを平均値だけで判断しようとすることのワナです。私たちはどうしても「平均」と聞くと「きっとみんなその辺にいるのだろう」と無意識で思ってしまいがちですが、そうではないケースもたくさんあるということです。
平均値だけを見るのではなく、中にあるデータの詳細をしっかり調べることが重要です。平均にだまされてはいけません。
注目すべきは「バラつき度合い」
ひとつひとつのデータを見ることが大切だとはいえ、データの数が膨大な場合は、すべてのデータをつぶさに拾い上げるのは無理があります。そこで注目したいのが、「バラつき度合い」という視点です。先の例では、明らかにK社よりもO社のほうがバラつき度合いが大きいといえます。
バラつき度合いを見るための方法はいくつかあるのですが、ビジネスシーンでの利用価値が高いのは「ヒストグラム」と「分散・標準偏差」です。ともに、私自身が実際のデータ分析や企業コンサルの場面で、頻繁に活用している方法です。
ヒストグラムは、データの値をいくつかのまとまった区間で区切り、それぞれの区間に入るデータの数を柱状のグラフで表わしたものです。そのため、「柱状グラフ」と呼ばれることもあります。
また、「分散」と「標準偏差」は、ともに、あるまとまった数のデータが全体的にどれだけバラついているのか、その度合いの大きさを数値として表わしたものです。