BigHope's Life

BigHope's Life

東大生/受験情報/日々のニュース/学生生活/ビジネスの話/読書録

統計のワナ!「標準偏差」を考える必要性をざっくり解説してみた

数字って信頼できるようなイメージがあると思いますが、

今回は、そんな数字もあなたを騙しかねないという話です。

 

 

f:id:BigHope:20170911102519j:plain

データを分析する上で欠かせない最も基本的な指標が、平均標準偏差です。

 

平均はイメージしやすいのでその重要性はわかっていただけると思いますが、

標準偏差についてはあまり知らない・分からないという人も多いのではないでしょうか。

 

 

今回は、標準偏差の重要性についてざっくり書いていこうと思います。

 

 

 

 

 

 

 

標準偏差がないとどうなるの?

平均しか知らないとこう騙される

実際に例を見てみると分かりやすいと思います。

 

 

 

例えば、バイト先を決めるとしましょう。

 

 

バイトの募集広告に、

平均年齢22歳」って書いてあったとします。

 

22歳のあなたは、「おっ、同い年多くて良さそうだな」と思い、面接を受けてみたら、

 

 

 

実際にそこで働いていたのは、

 

16歳が15人と40歳が5人の20人の社員でした。

 

 

はい事件発生。

 

 

これでも、

(16×15+40×5)÷20=22

でちゃんと平均が22歳になるんですねー。

 

 

 

でも、期待とは全く違いますよね?騙された感強いよね。

 

 

 

他にも、例えば「平均年収500万」の会社が、

実は年収1000万越えの偉い奴らと、年収300万以下の社員しかいなかったり。

 

 

実際にうちの高校であったことなのですが、

平均80/300の数学の実力テストで、実際の分布を見てみると、

50点以下が大量にいて、250点以上が数名いて、80点以上とってるやつほぼいない事件とか。

 

 

 

このように、実は平均が役に立たない時があります。

 

 

 

 

平均が役に立たないのはどんなとき?

 

では、平均は一体どんなときに役に立たないのでしょう。

 

結論から言うと、

分布が「正規分布型」でないときには平均はあまり役に立たなくなってしまいます

 

私たちは、先ほどの例で見たように、平均を聞くと、その値のデータが多く、その値から離れるほど個数は小さくなってゆくイメージをしがちです。

 

このイメージは、平均値付近が一番多く、平均値から離れるほど少なくなってゆく、左右対称の「正規分布型」と言えます。

 

 

こんなイメージです

f:id:BigHope:20170911091216p:plain

 μ:平均値

σ:このあと説明する標準偏差

 

 

しかし、実際のデータは全てこのようになっているわけではありません。

 

 

下図に青色で示している通り、上の例では全く「正規分布型」になっていませんね。

緑の線が我々のイメージです*1

 

f:id:BigHope:20170911092945p:plain

 

 つまり、バイトの例では平均はあまり役に立たないということです。

 

 

データを見る上では「平均」と「バラつき」を見ないといけない!

で、「標準偏差」ってなんなの?

標準偏差とは、一言で言うと、

データのばらつき具合

のことです。

 

標準偏差が大きいほど、平均から離れたところにあるデータが多くなると考えてもらえば結構です。

 

標準偏差」の式は?

平均はみなさんの感覚通り、全ての和をデータの個数で割ったものと定義されます。

 

一方、標準偏差は次の式で表されます。

f:id:BigHope:20170911095301p:plain

s:標準偏差

n:データの個数(バイトの例で言う社員数20)

xi:i番目のデータの値(バイトの例で言う16歳とか40歳とか)

xの上に棒ついてるやつ:平均(バイトの例で言う22歳)

 

まぁこんなんはどうでもいいです。とりあえずデカイとバラついてるのがわかってもらえればいいです。

 

 

例えば、上のバイトの例で言えば、

22歳が20人の時、標準偏差は0になりますが、

実際の16歳と40歳の場合の標準偏差は約10.4となります。

f:id:BigHope:20170911095842p:plain

 

 

 

20歳と24歳が10人ずついる場合は、標準偏差は2(10.4より小さい!)ですので、確かにばらつきが少ないですね。

 

 

 

まとめ:平均を鵜呑みにせず、「山の形」をしっかり見よう 

 

 

要するに、標準偏差を考えるということは、ばらつきを考えるということですから、

分布の「山の形」を見るということなんですね。

 

ここ重要。

 

 

みなさんには、別に標準偏差を計算することは要求されませんから、

 

 普段から標準偏差も求めとけyo

 

って言っているわけではなく、

 

平均を鵜呑みにすんなyo

 

と言いたいのです。

 

 

だから、「山の形」をしっかり見ましょう。

そのためのツールとしてよく使われるのが標準偏差ということです。

正規分布型」になっていない場合は要注意です。

 

 

 数字に騙されないために

最後に、バイトの例のように数字に騙されないための本を紹介します。この記事を見て、少しでも興味を持たれた方はぜひ本を読んでみてください。記事で紹介したのはほんの一部にすぎませんから。

 

全員必読!!数字に騙されないための本

 

 

 

 

統計学を実際に勉強してみたい!という方へオススメする本

僕が実際に大学で使った本です。これ1冊で入門から応用までバッチリだと思います。

 

 

それでは!

 

*1:手書きなので細かい部分は多めに見て