Reskilling ❘ Data Science

データサイエンス入門 | 統計基礎 分散編

#リスキリング #レジリエンス #ICT教育 #ITスキル #データサイエンス

統計基礎
偏差・分散・標準偏差編

データを集めた後、平均値や中央値で傾向を見ることが多いと思いますが、データのちらばりについても観察が必要です。

値が中心に集まっているデータと、均等にばらけているデータが、全く同じ平均値と中央値を持つことがあります。はたしてこの2つのデータを「同じもの」として考えてよいのでしょうか。

  • 2015年

    創業

  • 120名

    従業員数

  • 2.3M

    月間UU

  • 1,800戸

    管理戸数

考えてみましょう

まずは、なぜ「データのちらばり」を見る必要があるのか、ということを考えてみましょう。

統計は日常やビジネス・研究に用いてこそ、力を発揮しますので、こんな問題を考えてみましょう。


【問題】

あなたは2つのクラスの国語の教科を受け持つ先生です。学期末になり、次の学期の学習内容を決めることになりました。

クラスごとにそれぞれ特色があるかもしれませんので、それによって学習内容を変更しなければなりません。

そこで、100点満点の学力テストを行ってそれぞれのクラスの学習内容を決めようと思います。

テストの結果は以下でした。

出席番号

Aクラス

Bクラス

1

90

80

2

90

70

3

90

60

4

50

50

5

10

40

6

10

30

7

10

20

Aクラスの全員の合計点数は350点、人数は7人だったので、平均点は350÷7=50点でした。

Bクラスの全員の合計点数は350点、人数は7人だったので、平均点は350÷7=50点でした。

あなたは、平均値が極端に高い点数と、低い点数の生徒にひっぱられることを知っていたので、中央値も確認することにしました。

Aクラスの中央値は、出席番号で4番が真ん中なので、50点でした。

Bクラスの中央値は、出席番号で4番が真ん中なので、50点でした。

平均値も中央値も同じ数だったので、2つのクラスとも同じものでよいと判断し、次の学期の学習内容を作成しました。

さて、この判断は正しかったのでしょうか?


データの傾向をつかむ時に、1つの観点から見るのはオススメできません。

それは平均値と中央値の違いを考えた時にわかりますね。

ですが今回は平均値も中央値も同じで、異なる点といえば各生徒の点数のばらつきでしょうか。

このような場合は「グラフを作成して観察する」という手順が必要です。

実際に2つのクラスのグラフを作ると以下のようになります。

このようにグラフにすると、データの傾向がわかりやすくなることがあります。

・Aクラスは高得点者と低得点者のみで、平均点付近は1人しかいないこと。

・Bクラスは高得点者から中間の点数、低得点者まで、まんべんなくいるということ。

この傾向から、

・2つのクラスに同じ学習内容を安易に適用するのは、考え直した方が良い。

という判断を下すことができますよね。

このように、データを見る時には、

平均値・中央値だけでなく、データのばらつきにも注目する必要があります。

これで一件落着、といきたいところなのですが、

統計ではこの「ばらつき(散らばり)」を具体的な数字で表すことが求められます。

今回のような、少人数の少クラスであればグラフを見て判断ができるのですが、

国が行う大規模な調査や、企業が行う商品開発のための調査では、データの量が膨大になります。

このデータに対して、全部グラフから判断するわけにもいきませんから、具体的な数字を使うわけですね。

【おぼえる④】偏差

上記は「偏差(へんさ)」を表す式です。

データの「散らばり」を考える時の最初のステップとしての基本的な値です。

【解説】偏差

特に難しく考える必要はありません。そのまま素直に理解してみましょう。

偏差は「観測地(データの値)」から「平均値」を引いた数です。

先ほどの、2つのクラスのテストの問題で言うと、

90点の生徒ー平均点50点=40点(偏差)

20点の生徒ー平均点50点=ー30点(偏差)

ということになります。平均点から見てどの位置にいるのか、を表しているわけですね。

一見なにかに使えそうな「偏差」ですが「散らばり」を表すにはもうひとひねり必要になります。

【おぼえる⑤】分散

上記は「分散(ぶんさん)」を表す式です。

「Sの2乗がでてきたとき、それは分散のこと言っているんだ」と思い出せるようにしましょう。

分散はデータの「散らばり」を表すときに用いる指標です。

【解説】分散

分散は「偏差」の2乗の平均値です。※2乗することを「平方する」と言ったりもします。

「偏差」にひとひねりする、といったのは2乗するということです。

なぜ2乗するのかというと「偏差」は平均値から引いているだけなので、

プラスとマイナスの値が混在して、実は全部足すと必ず0(ゼロ)になってしまいます。

そして、合計が0なのでデータの個数が何個あっても、平均値も0になります。

【偏差】
●偏差の合計は0になる
●偏差の平均値は0になる

この場合「合計したり平均値をとって1つの数値にして、他のデータ群と比較する」ということができません。

これは大変不便ですよね。なので、2乗してとりあえず大きくして、合計や平均を出せるようにしてしまおう、

というのが分散になります。※厳密には違うかもしれませんがイメージとして今はそのようにとらえましょう。

分散の特徴として、平均値から離れたデータが多いと大きく、平均値に近いデータが多いと小さくなります。

それは当然のことで、例えば先ほどの2クラスのテストの問題で「偏差」を求めた時、

20点をとった生徒はマイナスになっていましたよね。

観測値=20点

偏差=20点ー50点(平均点)=ー30点

分散を求める時「偏差の2乗」をするので、

ー30×ー30=900

ということになり、とても大きな数字がでましたね。

ちなみに平均値付近の生徒がどうなるかというと、


50点(得点)ー50点(平均点)=0➡0×0=0

60点(得点)ー50点(平均点)=10➡10×10=100


のように平均に近いほど値は小さくなっています。

このことから、分散を使うと「散らばり」を1つの数字に置き換えて、比較することができるようになることがわかります。

例として以下も考えてみましょう。


7人全員が50点だった場合

➡平均値も中央値も50点

➡偏差は全員0

➡分散も0


Aクラスのように、3人が90点、1人が50点、3人が10点だった場合

➡平均値も中央値も50点(同じなので比較できない)

➡偏差は、それぞれ

・90点ー50点=40点が3人

・50点ー50点=0点が1人

・10点ー50点=ー40点が3人

➡分散は、それぞれ

・40点の2乗=160、×3人=480

・0点の2乗=0、×1人=0

・-40点の2乗 =160、×3人=480

➡合計960÷7(データの個数)=約137.14(偏差の2乗の平均値=分散)


このようになり、平均値と中央値が同じでも、分散の「0」と「約137.14」の数字の違いから、

データの「散らばり」を考えることができるようになります。

【分散】
分散が大きい➡平均値から離れたデータが多い➡散らばっている
分散が小さい➡平均値に近いデータが多い➡集まっている

これでデータの散らばりがあるかどうかを判断できるようになりました。

数値で表せるようになったことはうれしいのですが、

「100点満点のテストの分散は約137.14です」と言ったとして、受ける印象はどうでしょうか。

以下のような実際の調査を元にした文章を読んでみましょう。


関東7都市を調査した貯蓄額の平均は「約1892万円」でした。

分散を計算したところ「約117,604」でした。


はたしてこの数字から、貯蓄額が散らばっているのか、それとも平均値付近に集中していると言えるのか。

さらに具体的に言うと、関東7都市の人々はだいたい1800万くらいの貯蓄を持っているのか、

それとも、一部の富裕層だけが大金を持っていて、普通の会社員の家庭は500万くらいしか貯蓄がないのではないか。

このような判断が「分散」の数字を見ただけでわかるでしょうか。

1つ分かることとして、「0」に限りなく近いわけではないので、

全員が1800万の貯蓄があるわけではなさそうということですね。

ですが、やはりそれ以上の分析は難しいと言わざる負えません。

これは「分散」の計算を行うときに「2乗」をしてしまっていることが原因になっています。

この2乗の影響を軽減したものを「標準偏差」と言います。

【おぼえる⑥】標準偏差

上記は「標準偏差(ひょうじゅんへんさ)」を表す式です。

「Sがでてきたとき、それは標準偏差のこと言っているんだ」と思い出せるようにしましょう。

標準偏差はデータの「散らばり」を表すときに用いる指標で、分散の平方根です。

【解説】標準偏差

「分散」の平方根が「標準偏差」です。とてもシンプルですね。

「分散」のデメリットだった、2乗したことによる、値の把握のしづらさが解消される指標になります。

2乗したから、平方根をとって元にもどしてみよう、というシンプルな発想ですね。

√(ルート)、平方根の計算は難しいので、ここは電卓にまかせましょう。

統計検定などの資格試験では、電卓の使用が認められています。※ただし普通電卓

普段、電卓でやることと言えば四則演算くらいですので、√(ルート)の計算に使ったことがない、

という人も多いのではないでしょうか。

分散までは四則演算でOKなのですが、標準偏差を計算するには√(ルート)の計算が必要です。

一度お手元の電卓を確認していただき、√(ルート)のキーがあるか探してみましょう。

無印良品の電卓には√(ルート)が付いていました(2025年12月執筆時点)。シンプルで使いやすいですね。

電卓には√(ルート)計算が付いていないものもありますので、新しく購入される方は注意して購入してください。

▼√(ルート)計算が付いているタイプ

▼√(ルート)計算が付いていないタイプ

ちなみにiphone の電卓にも√(ルート)計算機能はついています。

iphoneの電卓の左下の「電卓マーク」を押してみましょう。

選択項目が出ますので「f(x)」のようなマークの項目を押します。

いきなり大量の記号が出現したと思いますが、√(ルート)は「2√x」と書いてあるキーです。

試しに平方根が計算できるか入力してみましょう。

iphoneをお持ちでない方は、お手元に普通の電卓用意していただき、同じように操作してみてください。

「9」を入力します。9の平方根は、3×3=9なので3です。

次に「2√x」を押してください。

9がルートの中に入ったと思います(カッコが付いているのはiphoneの仕様ですので気にしないでください)

つづけて「=(イコール)」を押します。

平方根の計算が行われて、「3」が取り出せましたね。

iphoneの場合は、計算前の式が残るようになっているので見やすいですね。

念のため「2」の平方根も計算してみましょう。

2の平方根はきれいに割り切れず、近似値が約1.41421356...と言われています。

正しく計算できているようです。

今後「平方根を計算します」と言われたら、自分で計算しようとせず、電卓にまかせるようにしましょう。

それでは「標準偏差」の話に戻りましょう。

このような関係性でしたね。分散の平方根を実際に計算して確かめてみましょう。

先ほどの貯蓄の問題をもう一度出してみます。


関東7都市を調査した貯蓄額の平均は「約1892万円」でした。

分散を計算したところ「約117604」でした。


分散が「117604」とのことですので、この平方根を求めてみましょう。

電卓を使って計算してみると「約342.93」が取り出せたと思います。※少数は第三位を四捨五入しています

数がだいぶ少なくなって比較しやすくなりましたね。

このように「散らばり」を把握する時は、「偏差」「分散」「標準偏差」を上手く組み合わせて分析します。

データの「平均値」「中央値」以外にも「散らばり」に注目してデータをとらえていくようにしましょう。

【おぼえる⑦】変動係数

上記は「変動係数(へんどうけいすう)」を表す式です。

「CVがでてきたとき、それは変動係数のこと言っているんだ」と思い出せるようにしましょう。

変動係数はデータの「散らばり」を表すときに用いる指標で、単位の異なる2つのちらばりを比較したいときなどに用います。

【解説】変動係数

分散、標準偏差と理解を進めてきました。

日常生活で目にする様々なデータのちらばりを、これらの計算で求めることができるようになったと思います。

それでは1つ問題を出します。ここまでで出てきたテストの問題と貯蓄の問題をもう一度思い出していただきます。

そして各問題の標準偏差を比べてみましょう。


【クラスの点数の問題】

Aクラスの「平均点」は「50」、「分散」は「137.14」でした。

ここから分散の平方根を取り出して標準偏差を求めると、「11.71」でした。

【7都市の貯蓄の問題】

関東7都市を調査した貯蓄額の平均は「約1892万円」でした。

分散を計算したところ「約117604」でした。

ここから分散の平方根を取り出して標準偏差を求めると、「342.93」でした。

さて、どちらのデータの方が、より「散らばっている」と言えるでしょうか?


標準偏差が大きいから、所得だろう・・・という判断でよいのでしょうか。

このように単位の違う2つのデータの散らばり具合を比較する場合「標準偏差」だと正しく判断できません。

こんなとき「変動係数」を用いることで、同じスケールに変換できます。

変動係数は、標準偏差を平均値で割って求めます。

なぜ平均値で割るかというと、その値がその単位スケールを代表する値だからです。

例えばゾウの体重なら5000kg、リンゴの重さなら250g、とだいたいの重さがあります。

標準偏差はこれら、元のデータから計算した値なので、元のデータに合わせて大きくなります。

なので、代表値のスケールと比べたとき、どのくらいの大きさになるのかを計算するのが有効なんですね。

それではさっそく先ほどの問題を使って計算してみましょう。


【クラスの点数の問題】

平均は「50」、標準偏差は「11.71」でした。

「変動係数」を計算すると」「0.2342」でした。

【7都市の貯蓄の問題】

平均は「1892万(18,920,000)」標準偏差は「342.93」でした。

「変動係数」を計算すると」「0.00001」でした。


さて今度はどうでしょうか。全く真逆の感想になったと思います。

・クラスの点数の散らばりにくらべて、7都市の貯蓄額の散らばりはそれほどでもない

ということがわかったのではないでしょうか。

もちろん、貯蓄額が1000万と1800万では大きな散らばりだと、直観的には思いたくなるのですが、

冷静に具体的な数字で比較すると、実はデータ上はそこまででもないということがわかります。

データは時に直観に反した結果を見せてくれます。

単位の違うデータを比較する有用な「変動係数」、ぜひ有効活用していきましょう。

次のステップはこちら

前のステップはこちら

・本講座の制作
CIT経営開発事務所

・監修
CIT経営開発事務所 代表
井上 隆寛(いのうえ・たかひろ)

IT・事業コンサルタント
IT・開発エンジニア
行政書士R6合格者未登録

大手システム開発会社にてSE兼Webデザイナーとして従事。2021年にコンサルタントとして独立し、企業に対するITコンサルティング・ソリューション導入支援事業を開始。2023年にはイベント企画・運営事業を新たに展開、2024年には行政書士試験に合格。現在はIT・AIコンサルティング、システム開発、エンターテイメントの3事業を柱に、企業の技術顧問や講師としてICT教育やプログラミング授業も手がける。

公開中のリスキリング体験授業・学習教材

リスキリングに役立つ学習教材や体験授業を公開しています。ご自身の学習にお役立てください。

  • 2015年

    創業

  • 120名

    従業員数

  • 2.3M

    月間UU

  • 1,800戸

    管理戸数