高校数学まとめノート No.8 データの散らばり(分散と標準偏差)

数学Ⅰ基本事項集
この記事は約4分で読めます。

データの範囲(レンジ)

データの最大値と最小値の差を範囲(レンジ)という。

データの最大値と最小値って、定義のままです。一応例を出しておきましょう。

先ほど出したテストの例で、一番成績が良かったのが、Bさんで100点、一番成績が悪かったのがAくんで3点だったとします。この場合、範囲(レンジ)は\(100-3=97\)となります。そんなに難しくないですね。

偏差

さて、このあたりから皆さんがあまり触れたことのない概念になります。確認していきましょう。

\(N\)個のデータの値がそれぞれ、\(x_1,~x_2,~x_3,…x_N\)であるとする。また、平均値を\(\overline{x}\)とする。

このとき、各値と平均値\(\overline{x}\)との差を平均値からの偏差あるいは偏差という。また、偏差の2乗の平均をとったものを分散といい、\(s^2\)で表す。この\(s^2\)をルートを取ったもののうち正のもの、すなわち\(\sqrt{s^2}\)を標準偏差といい、\(s\)で表す。

  • 分散:\(\displaystyle s^2=\frac{1}{N}\{(x_1-\overline{x})^2+(x_2-\overline{x})^2+…+(x_N-\overline{x})^2\}\)
  • 標準偏差:\(\displaystyle s=\sqrt{\frac{1}{N}\{(x_1-\overline{x})^2+(x_2-\overline{x})^2+…+(x_N-\overline{x})^2\}}\)

分散の別の式

定義は上の通りだが、実際の計算においては次の式のほうが使いやすい。

\(\displaystyle s^2=\frac{1}{N}(x_1^2+x_2^2+x_3^2+…+x_N^2)-(\overline{x})^2\)

分散の意味

分散とは何でしょう。名前の通り、「どれくらい散らばっているか」を表す数値です。「どれだけ散らばっているか」を表すにはどうしたらいいでしょうか。

データがより「バラバラになっている」場合に大きくなるような数値を考えましょう。そこで思いつくのが「平均との差を取る」ということです。まあ、1つの値についてのみ平均との差をとっても「データがどれだけバラバラか」を考えるには何の意味もないので「平均との差」をすべて足してみましょう。

 \((x_1-\overline{x})+(x_2-\overline{x})+…+(x_N-\overline{x})\)

\(=x_1+x_2+…+x_N-\overline{x}\times N\)

\(\displaystyle =x_1+x_2+…+x_N-\frac{x_1+x_2+…+x_N}{N}\times N\)

\(=x_1+x_2+…+x_N-(x_1+x_2+…+x_N)\)

\(=0\)

あちゃ、0になってしまいました。これではどうしようもないですね。

さて、どうしましょう。どうして0になってしまったのでしょうか。理由を考えてみましょう。

考えてみましょうといっても考えないでしょうから代わりに僕が考えます。平均値というのは元々、「均等にした」値でした。つまり、すべてのデータを均等にし、それを個数で割ることで「もともとのデータと比べていい感じの数値」に直したものなんです。その平均値を、すべてのデータから引いてしまったわけです。結局、全体的に均等にした値を全体の値から引いてしまっているのでおかしな話になるわけです

さて、これを解決しましょう。解決策はズバリ、2乗することです。どうして2乗すればいいんでしょうか?

理由は、2乗することで平均との「距離」に変えれるからです。要は、平均とどれだけ違うかをそれぞれ計算して、すべてプラスの値にしてしまうわけです。これを足すことでプラスになったものを足していくことができます。そうして、それぞれの値がどれだけ平均と「どれだけ離れているか」が求まるのです。

最後にこれを\(N\)で割ります。だって、そうしないと、データの個数が多いほどこの散らばり具合が大きくなってしまって、散らばり具合の数値を見た瞬間に「どのくらい散らばっているか」が判断できなくなってしまうからです。

こう考えると、分散の長ったらしい式も理解できますよね。

標準偏差の意味

続いて「標準偏差」です。ちょっと難しい説明をしますので分かりにくかったら飛ばしてください。

上で求めた分散は、データについての2次式になっていることに注意してください。物理学や化学でよく使うんですが、「dimension(次元)」という考え方です。例えばデータが「個」だったとすると、分散は全体としては「個」を2乗したものになっています。次元は「\(個^2\)」となるわけです。

これを扱いやすくするためにルートをとり、「個」の単位に戻したのが標準偏差というわけです。

コメント

タイトルとURLをコピーしました