Reskilling ❘ Data Science

データサイエンス入門 | 統計基礎 確率分布編

#リスキリング #レジリエンス #ICT教育 #ITスキル #データサイエンス

統計基礎
確率変数・確率分布編

サンプルデータから統計的な推測を行うにあたり、具体的な問題に当てはめる際に必要なのが、確率変数と確率分布です。特に正規分布、二項分布については統計を学ぶ上で極めて重要な項目となっています。

  • 2015年

    創業

  • 120名

    従業員数

  • 2.3M

    月間UU

  • 1,800戸

    管理戸数

確率変数とは

「確率変数(かくりつへんすう)」とは、起こり得る事象に対して、変数を割り当てたもの、です。

例えば「ゆがみのないサイコロ」をふったときに出る数、1~6を変数で表したものです。

確率変数X

この場合、確率変数Xは、1~6の値を取り得る、という状態になります。

そして、各起こり得る事象に対しては、\(\large{x}\) を割り当て、

\(\huge{ P(X=x) }\)

と表し、\(\large{ p(x) }\) のような書き方をします。

確率分布とは

「確率分布(かくりつぶんぷ)」とは、以下のような「確率変数が取り得る値とその値が生じる確率」のことです。

ゆがみのないサイコロの確率分布

\(\large{ x }\)

1

2

3

4

5

6

合計

\(\large{ p(x) }\)

\( \dfrac{1}{6} \)

\( \dfrac{1}{6} \)

\( \dfrac{1}{6} \)

\( \dfrac{1}{6} \)

\( \dfrac{1}{6} \)

\( \dfrac{1}{6} \)

1

出る目に偏りがあるような、イカサマサイコロの場合も確率分布で示すことができます。

ゆがみのあるサイコロの確率分布

\(\large{ x }\)

1

2

3

4

5

6

合計

\(\large{ p(x) }\)

\( \dfrac{1}{12} \)

\( \dfrac{1}{12} \)

\( \dfrac{1}{3} \)

\( \dfrac{1}{12} \)

\( \dfrac{1}{12} \)

\( \dfrac{1}{3} \)

1

このときの一番左の \(\large{ p(x) }\) が起こり得る事象の確率、「確率変数」ということになります。

他の例として、コインの表裏の確率分布

\(\large{ x }\)

0

1

合計

\(\large{ p(x) }\)

\( \dfrac{1}{2} \)

\( \dfrac{1}{2} \)

1

このようになります。コインには番号が振られていませんので、表を0、裏を1として入力しています。

おぼえる⑭【確率変数の平均値(期待値)】

\(\Large{ E(X)=\displaystyle \sum_{i=1}^{k}x_i p_i }\)

例:サイコロ投げの場合

\(\Large{ E(X)=1\times\dfrac{1}{6}+ 2\times\dfrac{1}{6}+ 3\times\dfrac{1}{6}+ ・・・ }\)

\(\Large{ ・・・ + 6\times\dfrac{1}{6}=\dfrac{21}{6}=\dfrac{7}{2}}\)

または、以下のような表を用いて計算することもあります。

\(\large{ x }\)

1

2

3

4

5

6

合計

\(\large{ p(x) }\)

\( \dfrac{1}{6} \)

\( \dfrac{1}{6} \)

\( \dfrac{1}{6} \)

\( \dfrac{1}{6} \)

\( \dfrac{1}{6} \)

\( \dfrac{1}{6} \)

1

\(\large{ x・p(x) }\)

\( \dfrac{1}{6} \)

\( \dfrac{2}{6} \)

\( \dfrac{3}{6} \)

\( \dfrac{4}{6} \)

\( \dfrac{5}{6} \)

\( \dfrac{6}{6} \)

\( \dfrac{21}{6} \)

上記は「確率変数の平均値(期待値)」を表す式です。

確率変数の平均値を求めるとき、確率変数が取り得る値 \(x_i\) と、対応する確率を掛けた総和を出すんだ」と思い出せるようにしましょう。

確率変数の平均値は、正規分布や二項分布を特徴づける場合に重要な値です。

解説【確率変数の平均値(期待値)】

異なる賞金が設定されているくじ引きを例に考えてみましょう。

10本のくじがあり、その中の1本が1000円、2本が500円、3本が100円です。

このとき、このくじ引きの期待値(平均値)はいくらでしょうか?

この場合の平均値は、賞金総額をくじの総数で割る、ことで求められます。

賞金総額は、1×1000+2×500+3×100=2300

くじの総数は10

2300÷10=230(期待値)

となり、このくじ引きの期待値は230円だったようです。

上記の計算を、以下のように書き直してみましょう。

\(\Large{ \dfrac{1000\times1+500\times2+100\times3}{10}=230 }\)

そしてさらに書き直して、

\(\Large{ 1000 \times \dfrac{1}{10} + 500 \times \dfrac{2}{10} + 100 \times \dfrac{3}{10} = 230 }\)

このように書くと、確率変数が取り得る値×確率、のように見えますよね。

もうすこしイメージしやすいように、表を書いてみると以下のようになります。

\(\large{ x }\)

1000

500

100

0

合計

\(\large{ p(x) }\)

\( \dfrac{1}{10} \)

\( \dfrac{2}{10} \)

\( \dfrac{3}{10} \)

\( \dfrac{4}{10} \)

1

\(\large{ x・p(x) }\)

\( \dfrac{1000}{10} \)

\( \dfrac{1000}{100} \)

\( \dfrac{300}{10} \)

\( \dfrac{0}{10} \)

\( \dfrac{2300}{10} \)

このように、確率変数Xが取り得る値×対応する確率、を求めることで確率変数の平均値(期待値)を計算することができます。

おぼえる⑮【確率変数 aX+b の平均】

\(\Large{ E(aX+b)=a \times E(X)+b }\)

上記は確率変数 aX+b の平均値(期待値)を表す式です。

「確率変数 E(X) に足し算や掛け算をする必要があるときは、式を変換して、E(X) を作って計算するんだ」と思い出せるようにしましょう。

確率変数 aX+b の平均値は、既にある確率変数の平均値 E(X) の元となる、各値(例えば賞金額)が変更されたときの計算に使用します。

解説【確率変数 aX+b の平均】

まずこの計算が必要なときとは、いったいどんな時なのかを考えてみましょう。

E(X) は確率変数の平均値でした。期待値とも呼べるこの値は、くじ引きの例であげたように実用的な値でしたね。

10本のくじがあり、その中の1本が1000円、2本が500円、3本が100円です。

このとき、このくじ引きの期待値(平均値)はいくらでしょうか?

➡期待値(平均値)230円

この230円を見て、くじを引いたり、引かなかったりと判断の基準として使えるわけですね。

例えば、期待値10円のくじ引きなら、引くだけ時間の無駄かもしれません。

ここまではくじ引きを引く側として考えてきました。

ではくじ引きを作る側になるとしたらどうでしょうか?

商売根性ではありませんが、賞金を出すからには費用がかかるわけなので、

くじ引きの参加費と比較して損するわけにはいきません。

だからといって全く当たらないくじ引きにしてしまうと楽しくないですし、結局誰も引かなくなって利益も出ません。

10本のくじがあるとして、果たしてどのくらいの本数にどのくらいの金額を設定するのが妥当なのでしょうか。

なんとなくこのくらいかな、と思う感覚で決めるかもしれません。

ですが、このフワっとした感じでビジネスをするのは不安でもあります。

この時、期待値を用いることで、具体的な数字として賞金額を調整することができます。

例えば、先ほどのくじ引きを実際に5人に対して開催したところ、がっつり損してしまったとします。

10本のくじがあり、その中の1本が1000円、2本が500円、3本が100円です。

➡期待値(平均値)230円

次に損しない為にはどうしたらよいかというと、この期待値を下げればいいわけですね。

ではどうすれば期待値を下げられるでしょうか。

期待値は確率変数の平均値です。

平均値が下がる時とはどんなときでしょうか。

平均値は 総和÷データの個数=平均値 で計算をします。

このとき、平均値が下がる原因は

①データの個数が増える

②総和が減る

のどちらかですね。

これをくじ引きに当てはめると、

①くじの本数が増える

②賞金が減る

のどちらかで期待値は下がるということになります。

そして、今回の式、

\(\Large{ E(aX+b)=a \times E(X)+b }\)

は、②賞金が減る(総和が減る)、という方向のアプローチになります。

E(X)は確率変数の平均値(期待値)、ひいては償金平均ですので、賞金平均に対して、足したり引いたり掛けたりしている。

つまり期待値を足したり引いたり、掛けたりしている、というわけです。

ビジネスの用途では「抽選」が最も近い有効活用範囲かと思います。

抽選プレゼントキャンペーンなどを企画するときは、参加者の楽しみと利益のバランスをとれるように、期待値を調整してみてくださいね。

おぼえる⑯【確率変数 \( X^2 \) の平均】

\(\Large{ E(X^2)=\displaystyle \sum_{i=1}^{k}x^2_i p_i }\)

例:サイコロ投げの場合

\(\large{ x }\)

1

2

3

4

5

6

合計

\(\large{ p(x) }\)

\( \dfrac{1}{6} \)

\( \dfrac{1}{6} \)

\( \dfrac{1}{6} \)

\( \dfrac{1}{6} \)

\( \dfrac{1}{6} \)

\( \dfrac{1}{6} \)

1

\(\large{ x・p(x) }\)

\( \dfrac{1}{6} \)

\( \dfrac{2}{6} \)

\( \dfrac{3}{6} \)

\( \dfrac{4}{6} \)

\( \dfrac{5}{6} \)

\( \dfrac{6}{6} \)

\( \dfrac{21}{6} \)

\(\Large{ E(X^2)=1^2\times\dfrac{1}{6}+ 2^2\times\dfrac{1}{6}+ 3^2\times\dfrac{1}{6}+ ・・・ }\)

\(\Large{ ・・・ + 6^2\times\dfrac{1}{6}=\dfrac{91}{6} }\)

上記は確率変数の平均値  \( \large{ E(X^2) }\)(期待値) を表す式です。

確率変数 E(X) を2乗するとき、各値を2乗した値を確率と掛けた総和をデータの個数で割るんだ」と思い出せるようにしましょう。

確率変数 \( \large{ X^2 } \) の平均値は、確率変数X の分散や標準偏差を求める際に必要な値です。

解説【確率変数 \( X^2 \) の平均】

Xに対して足したり引いたり、掛けたりするのは、平均値をそのまま変更しているのであり、これが期待値の操作になることは紹介しました。

単純に計算の方法としてですが、aX+b の場合と Xの2乗 の場合では同じ計算方法を用いることはできません。

例えば、以下のようなデータがあったとき、

10
20
30
40
50

総和を計算すると、10+20+30+40+50=150、平均値は、150÷5=30、になります。

ここで「30」の平均を+5して「35」にしたい場合、そのまま、30+5=35、としてしまえばいいと思います。

このときデータ側はどうなっているかというと、

10+5=15
20+5=25
30+5=35
40+5=45
50+5=55

このように各データに+5をします。

そしてチェックのため計算しますが、総和が、15+25+35+45+55=175、平均値が、175÷5=35、と一致します。

では2乗の場合、どうなるでしょうか。

10
20
30
40
50

ここで仮に平均値、150÷5=30、を2乗するならば、30×30=900、となります。

では各データを2乗した総和はどうなるかというと、

10×10=100
20×20=400
30×30=900
40×40=1600
50×50=2500

100+400+900+1600+2500=5500、となり全く違う値になりますね。

これはあたりまえなのですが、各データの値に与える計算が一定にならないことが原因ですよね。

なので、確率変数aX+b の場合と 確率変数 \(\large{ X^2 }\) の場合は分けて考える必要があります。


それでは、確率変数 \(\large{ X^2 }\) の計算を、くじ引きの例で試してみましょう。

10本のくじがあり、その中の1本が1000円、2本が500円、3本が100円です。

➡期待値(平均値)230円

10本のくじがありますが、当たりは6本しかありません。残り4本は外れで、賞金額0円です。

賞金0円はそのままデータの値0、と考えられますので、これを足す必要はありません。

0を足しても仕方がないからです。

考える必要があるのは3パターンで、

10分の1の確率で当たる1000円

10分の2の確率で当たる500円

10分の3の確率で当たる100円

です。これらを式にすると、

\( \large{ 1000 \times \dfrac{1}{10} }\)

\( \large{ 500 \times \dfrac{2}{10} }\)

\( \large{ 300 \times \dfrac{3}{10} }\)

このように書けます。

そしてこれらを足し合わせると平均値が計算できます。

ちなみに足すだけで平均値の計算になるのは、分母の10で先にデータの個数で割っているからですね。

\( \large{ 1000 \times \dfrac{1}{10} + 500 \times \dfrac{2}{10} + 100 \times \dfrac{3}{10} }\)

\( \large{ \dfrac{1000}{10} + \dfrac{1000}{10} + \dfrac{300}{10} }\)

\( \large{ \dfrac{2300}{10}=230 }\)

平均値「230」が取り出せました。

では本題の、\(\large{ E(X^2) }\) ですが、各データの値を2乗しますので、以下のようになります。

\( \large{ E(X^2) = 1000^2 \times \dfrac{1}{10} + 500^2 \times \dfrac{2}{10} + 100^2 \times \dfrac{3}{10} }\)

\( \large{ E(X^2) = 1000000 \times \dfrac{1}{10} + 250000 \times \dfrac{2}{10} + 10000 \times \dfrac{3}{10} }\)

\( \large{ E(X^2) = \dfrac{1000000}{10} + \dfrac{500000}{10} + \dfrac{30000}{10} }\)

\( \large{ \dfrac{1530000}{10}=153000 }\)

ということで「153000」が取り出せました。すごく大きくなりましたが、これは問題ありません。

賞金額を2乗した時の期待値」ということですから、1000円の償金の2乗、最高額100万円にした場合の期待値ということです。

最高額に合わせて期待値が上昇するのは当たりまえです。

それにしても、最高額100万円のくじ引きの期待値が15万3千円とは、なんだか当たりやすそうで参加したくなる期待値ですね。

これはくじ引きを提供する側からしたら結構赤字になるかもしれません。

このような事態にならないよう、期待値設定は慎重に行うようにしましょう。

次のステップはこちら

前のステップはこちら

・本講座の制作
CIT経営開発事務所

・監修
CIT経営開発事務所 代表
井上 隆寛(いのうえ・たかひろ)

IT・事業コンサルタント
IT・開発エンジニア
行政書士R6合格者未登録

大手システム開発会社にてSE兼Webデザイナーとして従事。2021年にコンサルタントとして独立し、企業に対するITコンサルティング・ソリューション導入支援事業を開始。2023年にはイベント企画・運営事業を新たに展開、2024年には行政書士試験に合格。現在はIT・AIコンサルティング、システム開発、エンターテイメントの3事業を柱に、企業の技術顧問や講師としてICT教育やプログラミング授業も手がける。

公開中のリスキリング体験授業・学習教材

リスキリングに役立つ学習教材や体験授業を公開しています。ご自身の学習にお役立てください。

  • 2015年

    創業

  • 120名

    従業員数

  • 2.3M

    月間UU

  • 1,800戸

    管理戸数