Reskilling ❘ Data Science

データサイエンス入門 | 統計基礎 シグマ編

#リスキリング #レジリエンス #ICT教育 #ITスキル #データサイエンス

統計基礎
平均値・総和・シグマ編

データ分析や統計において学習を進めていくと、様々な記号や公式が登場します。

それぞれの記号には意味があり、記号の中に記号を入れて表現するなど、より複雑になっていきます。

  • 2015年

    創業

  • 120名

    従業員数

  • 2.3M

    月間UU

  • 1,800戸

    管理戸数

あわてずよく見る

統計学やデータ分析の教科書や動画教材を見ると、以下のような記号が出現すると思います。

普段から数学を用いない仕事をしている方や、文系の方は上記の記号を見て非常に混乱するのではないでしょうか。説明文の中に突然このような記号が現れますので、よくわからないまま進んでいる方もいらっしゃると思います。

今回はまず上記の式を分解し、1つずつしっかりと把握し、覚える、ということを目指します。

おさらい

前述の式を理解するのに、まず「平均値」について思い出しましょう。

平均値は代表値の一つで、データ全体の重心を表すときに用いる指標です。

●特徴

計算が容易、データセット内の全ての値を計算に使用するため、全てのデータが反映されるという特徴があります。

●計算方法

①データの観測地を全て足し、合計を出す

②合計をデータの個数で割る 

平均値についてまだイメージが湧いていない方は以下のリンクから確認しましょう。

【おぼえる①】平均値

上記は平均値を表す式です。

「xの上にバーがついているとき、それは平均値のこと言っているんだ」と思い出せるようにしましょう。

ちなみにこのxの上にバーが付いているものをそのまま「エックスバー」と呼びます。

【解説】平均値

それでは、平均値の式が実際には何を表しているのか、解説します。

まず、先ほどの式の詳細を考えると、以下のような式になります。

いきなり情報量が増えて驚いたかもしれませんが大丈夫です。

いったん上記の式をながめながら、平均値の計算方法を思い出してみましょう。

●計算方法

①データの観測地を全て足し、合計を出す

②合計をデータの個数で割る 

とてもシンプルですよね。ではこのシンプルな計算がなぜ複雑に見える式になってしまうのか、考えてみましょう。

これは先ほどと全く同じ式です。見やすいように何度も表示しています。

まずは「右辺の分子」に注目してください。

「x1+x2+x3+・・・+xn」 となっていますね。この「x1」というのは「何個目か」ということを表しています。

ですので、x1の場合は1個目、x2の場合は2個目になります。分かりやすく書き換えると、

「1個目+2個目+3個目+・・・」という感じです。もうお気づきかもしれませんが、

これは平均値の計算における、「全部を足し算して、合計を出す」という工程を表しています。

改めて式を見ていただき、

「平均値の計算のうち、右辺の分子は、全部を足して合計を出す工程」ということを確認してください。

では次に、「分母のn」について考えてみましょう。

ここを理解するには「分数」について、学習を終えている必要があります。

そして「分子を分母で割る」状態が分数であることを思い出しましょう。

例えば2分の1は、1を2で割っていることになりますね。

ではこの式の「n」は何を割っているのでしょうか。

「全部を足して合計を出す工程」を「n」で割っている、ことに気づいたでしょうか。

改めて平均値の計算方法を確認しましょう。

●計算方法

①データの観測地を全て足し、合計を出す

②合計をデータの個数で割る 

②の工程で割り算があります。分母のnは「平均値の計算のうち、合計をデータの個数で割る工程」ということになります。

割り算に用いるのは「データの個数」になりますので、「n」は「データの個数」になります。

最後のポイントとして、右辺の分子の最後「xn」について考えてみましょう。

先ほど「n=データの個数」ということが判明しました。ですので、「xn」の「n」も「データの個数」です。

わかりやすく書くと、

「x1+x2+x3+・・・+xn」

 ▼

「1個目+2個目+3個目+・・・+(データの個数)個目」

ということになります。「データの個数」とは~番目で言うときの、「最後の番号と同じ数」になるはずです。

例えば、4個の値があるとき、「1個目+2個目+3個目+4個目」ということになり、

データの個数も「4」、最後の番号も「4」ということになります。これだけです。

【おぼえる②】総和(ソウワ)

上記は「総和」を表す式です。

「Σ」は「シグマ」と呼びます。「Σ(シグマ)があるとき、それは総和を表すんだ」と思い出せるようにしましょう。

【解説】総和(ソウワ)

「総和」とは「全部の合計」のことです。

これは、そうなんだ、と覚えるしかありませんので「総和=全部の合計」と覚えましょう。

全部の合計、について何か聞き覚えはないでしょうか。これは平均値の計算に登場しましたね。

●【平均値】計算方法

①データの観測地を全て足し、合計を出す

②合計をデータの個数で割る 

①の工程で値を全部を合計していますね。つまり、「平均値の計算のうち、全部の合計を出す工程=総和」となります。

●【平均値】計算方法

①"総和"を求める(全部の合計を出す)

②"総和"をデータの個数で割る 

本当にそうなのか、2つの式を見比べてみましょう。まずは、平均値の式です。

そして、総和の式です。

お気づきかと思いますが、明らかに1か所同じ部分がありますね。

「x1+x2+x3+・・・+xn」です。なんだか少しわかった気がしたかもしれません。

ですが、まだ「Σ(シグマ)」について教えてませんので、左辺の式が解読できません。

では続けて、「Σ(シグマ)」について見ていきましょう。

今の状況としては、

「Σ(シグマ)と色々な記号・・・ =総和」

ということは分かっているかと思います。

「色々な記号」の意味を一旦深く考えず、「Σ(シグマ)と記号の組み合わせで総和を表すんだ」とアバウトにつかみます。

とりあえずΣ(シグマ)に何がついていようと、しょせん総和なんだ、と考えるわけです。

総和(全部の合計)です。

これも総和。

全部総和です。

ただし、1点だけ注意があります。

「Σ(シグマ)の左に何かくっついている場合は、総和に対して何かしら計算をしている」ということです。

これも覚えておきましょう。

【おぼえる③】Σ(シグマ)を使った平均値の式

上記はΣ(シグマ)を用いて平均値を表した式です。このテーマで最終的にマスターしていただく式になります。

【解説】Σ(シグマ)を使った平均値の式

まず、【おぼえる①】で「平均値」が「エックスバー」であることは学んでいただきました。

ですので、左辺の「エックスバー」は素直に「平均値」と考えましょう。

その平均値を作るのに、右辺のΣ(シグマ)を使った式になるわけですね。

次に、Σ(シグマ)は「総和」であることを【おぼえる②】で学んでいただきました。

ですが、「平均値=総和」ではおかしいですよね。「総和」に対して何かしらの計算が必要そうです。

今回、Σ(シグマ)を見ると「n分の1」がくっついていることがわかります。

ではなぜ「n分の1」がくっついていれば平均値になるのか、その点を解説していきます。

ここからは例題を用いた方がわかりやすいので、以下の例題を出してみます。

簡単な問題ですので、構えずに読んでみてください。


【問題】

学校で100点満点のテストがありました。受験者は5名で、それぞれの点数は以下でした。平均点を求めましょう。

79点
80点
99点
40点
42点

平均値を求める問題ですね。全ての点数を合計して、人数で割れば平均値が出せそうです。

では上記を数学っぽく式にして書いてみましょう。

まずデータですが、

このように書いてみます。「,」を区切りとして並べただけです。

そして、今回データの個数「n」は5個なので「n=5」となります。

問題では、平均値を出すことを求められていますので、一度平均値の計算方法を思い出します。

●【平均値】計算方法

①"総和"を求める(全部の合計を出す)

②"総和"をデータの個数で割る 

まず①の「総和」を求めてみましょう。

「総和」は「Σ(シグマ)」を使って表せることを思い出すと、以下の式が成り立つはずです。

ついでに「n」も今回はわかっていますので、Σ(シグマ)についている「n」を「5」にしてみましょう。

右辺の足し算をすると、340になります。

無事「総和」を出すことができましたので、次のステップとして、

②"総和"をデータの個数で割る 

この工程を式で書いてみます。一旦、分かりやすいように、Σ(シグマ)を使わずに書いてみると、

このようになりますね。「5分の340」をそのまま計算してもよいのですが、

今回は「Σ(シグマ)」の理解が目的ですので、一旦割らずにこのままにしておきます。

では、Σ(シグマ)を使った「総和」を式に追加してみましょう。

ご覧いただいてこう思ったと思います。

「シグマの書き方がなんか変わってるじゃん!」

そうなんです。シグマの書き方はいくつかあるのですが、少し形が変わったとしても、意味は同じです。

見た目がややこしいですが、気にせず「総和」だと思ってください。

ところで、「データの個数はnで表す」ということは覚えていますでしょうか。

上記の式のデータの個数は、テストを受けた「5」人ですね。

それでは「5」を「n」に戻してみましょう。

ここまでで一旦問題文の内容は終わりです。ちなみに正解は平均点68点でした。

ここからは左辺の「n分のΣ(シグマ)」に注目していきますが、

「分数」の基本的な計算を思い出すと、

「n分のΣ(シグマ)」と「n分の1×Σ(シグマ)」は、結果が同じだと言うことはわかるでしょうか。

記号で掛け算を行うときは、「×(かける)」の文字は消してしまってよいですよね。

例えば「5×a」は「5a」、「27×y」は「27y」などと表してよいということになっています。

上記の式の場合、たとえ掛け算の相手が「総和」であっても、「×(かける)」は消して大丈夫です。

実際に消してみると、

このようになります。

では本テーマで理解していただきたかった式と並べてみましょう。

全く同じですね。ですので、平均値を表す式は上記のような式となります。

最後に、このようなΣ(シグマ)を含む式が出現したとき、理解するポイントをご紹介します。

●Σ(シグマ)の上、右、下、に何かくっついていたとしても、とりあえずそれ含め「総和」を表している

●Σ(シグマ)の左側に何かついている場合はその「何か」×「総和」を表している

●その「何か」が「分数」の場合、「総和」を割っている

こうしたイメージを持って式をながめると、全くわからないところから、一歩わかるようになるのではないでしょうか。

【ワーク】実際の問題を解いてみましょう

今回は平均値、総和、Σ(シグマ)について学習しました。

最後にここまでのまとめとして、練習問題を出題しますので、理解度の確認のためにもぜひ解いてみましょう。


【問題1】

学校で100点満点のテストがありました。受験者は5名で、それぞれの点数は以下でした。

90点
48点
88点
32点
45点

①総和いくつでしょうか

②平均値はいくつでしょうか

③Σを用いて平均値を表してください


【問題2】

同じ学年の2クラスのテストの点数を調べた次の表と、それに対する考察Ⅰ~Ⅳについて、

下の①~④のうちから最も適切なものを一つ選びなさい

出席番号

Aクラス

Bクラス

1

80

40

2

40

30

3

20

40

4

10

60

5

50

40

6

70

60

Ⅰ:AクラスとBクラスの平均値は等しい

Ⅱ:Aクラスの方が平均値が高い

Ⅲ:Bクラスの方が平均値が高い

Ⅳ:AクラスとBクラスの総和は等しい

①Ⅱのみ正しい

②Ⅲのみ正しい

③ⅠとⅣのみ正しい

④すべて正しくない

次のステップはこちら

前のステップはこちら

・本講座の制作
CIT経営開発事務所

・監修
CIT経営開発事務所 代表
井上 隆寛(いのうえ・たかひろ)

IT・事業コンサルタント
IT・開発エンジニア
行政書士R6合格者未登録

大手システム開発会社にてSE兼Webデザイナーとして従事。2021年にコンサルタントとして独立し、企業に対するITコンサルティング・ソリューション導入支援事業を開始。2023年にはイベント企画・運営事業を新たに展開、2024年には行政書士試験に合格。現在はIT・AIコンサルティング、システム開発、エンターテイメントの3事業を柱に、企業の技術顧問や講師としてICT教育やプログラミング授業も手がける。

公開中のリスキリング体験授業・学習教材

リスキリングに役立つ学習教材や体験授業を公開しています。ご自身の学習にお役立てください。

  • 2015年

    創業

  • 120名

    従業員数

  • 2.3M

    月間UU

  • 1,800戸

    管理戸数