Reskilling ❘ Data Science

データサイエンス入門 | 統計基礎 相関編

#リスキリング #レジリエンス #ICT教育 #ITスキル #データサイエンス

統計基礎
相関・共分散・相関係数編

私たちは普段2つ以上の異なるデータを前に様々な判断をすることがあります。これら複数のデータの関係性を明らかにすることで、効果の高い行動を見つけ、より良い判断を行えるようになります。

  • 2015年

    創業

  • 120名

    従業員数

  • 2.3M

    月間UU

  • 1,800戸

    管理戸数

相関と因果

2つのデータがあるとき、その2つのデータにはもしかしたら関係があるかもしれない、と思うのは人間の性かもしれません。

データ同士に関係があることを「相関がある」「相関関係がある」「因果がある」「因果関係がある」などと言います。

裁判では事象の関係性を示すとき「因果関係」が用いられることがほとんどです。

ではこの「相関」と「因果」にはどのような違いがあるのでしょうか。

まず「相関がある」というのは、2つのデータにおいて、2つのデータが同時に変化する傾向があることです。

例えば、アイスクリームの売上と、水難事故の発生件数は相関があります。

アイスクリームが一番売れるのは夏の7月~8月で、水難事故が増えるのは海水浴シーズンの7月~8月なので同じです。

例えば以下のようなデータがあるとしましょう。

アイス売上(個)

水難事故(件)

1

64

2

2

50

1

3

77

4

4

93

3

5

95

8

6

82

6

7

191

32

8

243

34

9

219

28

10

139

9

11

111

2

12

127

4

両方とも7月と8月が大きいことがわかります。さらに傾向をつかむために、グラフを書いてみたほうがよさそうです。

アイスクリームの売上を縦軸に、水難事故の件数を横軸にして、各月ごとに点をうってみました。

このようなグラフを「散布図(さんぷず)」といいます。2つのデータの傾向を見る時に使います。

なんとなく右上に向かって伸びているような気がしますね。外れ値も見たところなさそうです。

もう少し分析が必要ではありますが、このように同時に変化する傾向がある場合「相関がある」といいます。

それでは「因果がある」とはなんでしょうか。

因果がある、とは2つのデータにおいて、1つのデータの変化が原因で、もう1つのデータも変化する、という関係性のことです。

先ほどの例で言うと「アイスクリームの売上が増加すると、水難事故が増える」という関係のことです。

この場合、アイスクリームにそんな力はありませんので「因果関係はない」ということになります。

因果関係としては「気温が上昇したからアイスクリームの売上が増加した」「気温が上昇したから水難事故が増加した」といった例があります。

もちろん、気温が上昇していきなり水難事故にあう人間はいませんので、

気温が上昇した(原因)➡水にぬれても寒くない➡海開き➡海で泳ぐ人が増える➡水難事故が増える(結果)

と順を追う必要はあるのですが、原因がなければ結果もないので「因果がある」と言えるんですね。

これをアイスクリームの例で行おうとすると、

アイスクリームの売上が増加した(原因?)➡海辺で冷たい物を食べて知覚過敏➡注意が散漫に➡足を滑らせて水難事故(結果?)

といったように、こじつけのようになってしまうんですね。

これから「相関」を求める学習を進めていきますが、「因果がある」というにはさらに深い調査が必要になります。

「相関」を求めただけでは、基本的には「因果がある」とは言えないと考えておいてください。

【おぼえる⑨】共分散

上記は「共分散(きょうぶんさん)」を表す式です。

「Sxyがでてきたとき、それは共分散のこと言っているんだ」と思い出せるようにしましょう。

共分散は2変数間の関係の強さを測る指標です。2つの分散の式が重なったような式になっています。

【解説】共分散

「相関がある」ことを見つけるためには、2つのデータセットの関係性を計算しなければなりません。

それぞれのデータで使える指標と言えば「平均値」「中央値」「分散」「標準偏差」「変動係数」などがありました。

ですが、この中に2つのデータの関係性を表す指標はありません。

2つのデータで違いを比較できていたじゃないか、と思うかもしれませんが、

それはそれぞれの指標を別々に計算して、その計算結果を比較しているだけであり、

残念ながら関係性を表すことにはなっていません。

ではどのように関係性を表す指標を作るかというと、計算の段階で2つのデータを含めてあげればいいわけです。

そこで2つのデータを使って計算する「共分散」が出てきます。


●共分散の計算方法

①2つのデータそれぞれの「平均値」を計算

②2つのデータそれぞれの「偏差」を計算

③それぞれの偏差を掛ける

④合計して、データの個数で割る(共分散)


では試しに、実際に計算してみましょう。

以下にA町のアイスクリームの売上個数と水難事故件数のデータがあります。

共分散では、分散の計算のときのように、まず「平均値」を求めます。

そして、各データから「平均値」を引いて「偏差」を求めます。

分散では、この偏差を2乗していたのですが、共分散では2乗せず、それぞれを掛け合わせます。

アイス売上(個)

水難事故(件)

偏差(アイス)

偏差(事故)

偏差×偏差

1

64

2

-60.25

-9.08

547.27

2

50

1

-74.25

-10.08

748.69

3

77

4

-47.25

-7.08

334.69

4

93

3

-31.25

-8.08

252.60

5

95

8

-29.25

-3.08

90.19

6

82

6

-42.25

-5.08

214.77

7

191

32

66.75

20.92

1396.19

8

243

34

118.75

22.92

2721.35

9

219

28

94.75

16.92

1602.85

10

139

9

14.75

-2.08

-30.73

11

111

2

-13.25

-9.08

120.35

12

127

4

2.75

-7.08

-19.48

合計

1491

133

0

0.00

7978.75

平均値

124.25

11.08

-

-

664.90

共分散は「664.90」と出ました。これで計算自体は終わりです。

共分散が正の値の場合「正の相関がある」ことが期待できます。

「正の相関」とはアイスクリームの売上が増えると、水難事故も増える、といったプラスとプラスの関係性のことです。

「負の相関」もあります。例えば、降水量と太陽光発電はそれぞれ、片方が増えると片方が減るような関係性にあります。

これで、片方が増えれば片方も増える、という関係性は確定でよさそうです。

ですが、このような関係は無数にあるわけで、例えば私が呼吸をすれば空気中の二酸化炭素が増える、のような

相関があったとしても、影響がものすごく小さいですよね。

できれば「相関があり、かつ、その影響が大きい」関係性を発見したいところです。

その影響の大きな関係性のことを、統計では「相関が強い」といいます。

「相関の強さ」は「相関係数」を計算することで、具体的な数字で表すことができます。

【おぼえる⑩】相関係数

上記は「相関係数(そうかんけいすう)」を表す式です。

「rがでてきたとき、またはSxSy分のSxyがでてきたとき、それは相関係数のこと言っているんだ」と思い出せるようにしましょう。

相関係数は2変数を標準化して、その共分散を求めた値です。共分散と異なり、単位が変わっても変化しない値です。

●相関係数の結果は「マイナス1~プラス1」の間の値になります(-1以上1以下の値)。

 散布図でいうと完全な直線に近い関係であるほど、絶対値が1に近づきます。

 相関が全くない場合「0」になり、この関係性のことを「無相関」といいます。

 正の相関がみられる場合、相関係数は「1」に近づき、負の相関がみられる場合「-1」に近づきます。

上記は例で出てきた散布図に大まかな傾向を示すラインを引いたものです。

右上に向かって伸びているので、正の相関があります。この場合、相関係数は「プラス1」に近づく値が出ると予想できます。

【解説】相関係数

さきほど「共分散」で2つのデータに「正の相関がある」ような傾向をつかめました。

つづいて「どのくらい強い相関(関係性)なのか」を求めていくために用いるのが「相関係数」です。

少し戻って「標準偏差」と「変動係数」の内容を思い出してみましょう。

単位の違う2つのデータの散らばり具合を比較する場合「標準偏差」だと正しく判断できませんでしたね。

なので「平均値」で割って、スケールを調整して比較しました。この値を「変動”係数”」と言いました。

そして今回も、単位が異なるデータで比較ができるようにしたい、ということで「相関”係数”」を使うんですね。

イメージとしては同じような発想なんだということで、連鎖的に思い出せるようになるといいですね。

相関係数の計算は電卓を使えばそこまで難しくありません。

XとYの共分散÷(Xの標準偏差×Yの標準偏差)でシンプルに求めることができます。

2つのデータが全て提示されている状態であれば、順に計算していくことで導き出すことができます。


●相関係数の計算方法

①2つのデータそれぞれの「平均値」を計算

②2つのデータそれぞれの「偏差」を計算

③それぞれの偏差を掛ける

④合計して、データの個数で割る(共分散)

⑤2つのデータそれぞれ各データの「偏差」を2乗する

⑥2乗した合計を、データの個数で割る(分散)

⑦分散の平方根を計算(標準偏差)

⑧共分散を、2つのデータの標準偏差を掛けた値で割る(相関係数)


上記の手順で計算できます。今回追加されたのは⑧だけですので、これまで覚えた計算を地道に行えば、特に難しいことはありません。

それでは、実際に相関係数を計算してみましょう。

先ほどのアイスクリームの売上と水難事故件数の例では、

共分散は「664.90」で、標準偏差まだ計算していませんでしたね。

計算すると以下の表のようになると思います。

アイス売上(個)

水難事故(件)

偏差(アイス)

偏差(事故)

アイス平方偏差

事故平方偏差

1

64

2

-60.25

-9.08

3630.06

82.51

2

50

1

-74.25

-10.08

5513.06

101.67

3

77

4

-47.25

-7.08

2232.56

50.17

4

93

3

-31.25

-8.08

976.56

65.34

5

95

8

-29.25

-3.08

855.56

9.51

6

82

6

-42.25

-5.08

1785.06

25.84

7

191

32

66.75

20.92

4455.56

437.51

8

243

34

118.75

22.92

14101.56

525.17

9

219

28

94.75

16.92

8977.56

286.17

10

139

9

14.75

-2.08

217.56

4.34

11

111

2

-13.25

-9.08

175.56

82.51

12

127

4

2.75

-7.08

7.56

50.17

合計

1491

133

0

0.00

42928.25

1720.92

平均値

124.25

11.08

-

-

3577.35

143.41

平方根

-

-

-

-

59.81

11.98

アイスクリームの売上の標準偏差は「59.81」

水難事故件数の標準偏差は「11.98」

相関係数を計算すると、

相関係数(r)=664.90÷(59.81×11.98)

相関係数(r)=664.90÷716.52

相関係数(r)=0.928

相関係数は「0.928」でした。相関係数は、散布図上で直線に近づくほど絶対値も1に近づくという性質があります。

今回はかなり1に近いと言えますので、相関が強いということになります。

例で挙げた、降水量と太陽光発電量の関係性の場合は「マイナス1」に近い値が出ると予想されます。

また、アイスクリームの売上と水難事故件数、降水量と太陽光発電量のそれぞれの相関係数を比較することで、

どちらの関係性が強いのか、明らかにすることができます。

このように、売上、件数、数量、といった単位がバラバラのデータがあったとき、

グラフや表を書いてなんとなく傾向が強そうな方を判断するのではなく、

数字を使って確実に比較して判断していくことで、より効果の高い行動を見つけることができます。

ぜひ身の回りのデータで活用してみましょう。

次のステップはこちら

前のステップはこちら

・本講座の制作
CIT経営開発事務所

・監修
CIT経営開発事務所 代表
井上 隆寛(いのうえ・たかひろ)

IT・事業コンサルタント
IT・開発エンジニア
行政書士R6合格者未登録

大手システム開発会社にてSE兼Webデザイナーとして従事。2021年にコンサルタントとして独立し、企業に対するITコンサルティング・ソリューション導入支援事業を開始。2023年にはイベント企画・運営事業を新たに展開、2024年には行政書士試験に合格。現在はIT・AIコンサルティング、システム開発、エンターテイメントの3事業を柱に、企業の技術顧問や講師としてICT教育やプログラミング授業も手がける。

公開中のリスキリング体験授業・学習教材

リスキリングに役立つ学習教材や体験授業を公開しています。ご自身の学習にお役立てください。

  • 2015年

    創業

  • 120名

    従業員数

  • 2.3M

    月間UU

  • 1,800戸

    管理戸数