統計学

[書籍要約1] [図解]大学4年間の統計学が10時間でざっと学べる (平均・分散・相関など)

本記事は、「[図解]大学4年間の統計学が10時間でざっと学べる」を読んだ際の勉強メモです。

これから統計学に入門したい方は是非ご参考ください。

今回の記事では全3回を予定しており、こちらの記事は「Part1:データを読む編」になります。

1.データ解析の目的

標本の情報を利用して、母集団の未知の傾向や性質を導くこと

2.度数分布表

データの値に応じて幾つかの階級に整理し、階級に属するデータの数を度数という。

階級と度数を対応したものを度数分布と言い、数値だけでは見出しづらいデータ特徴を捉える

3.ヒストグラム

度数分布表を柱状にして、視認性を高めたグラフ。

4.相関と散布図

散布図とは、データを2次元平面の点にして表現したもの。

相関とは、異なる二つのデータの関係性を数値化したもの。

一方のデータの増加が、他方のデータ増加に影響した時「正の相関」、一方のデータの減少が、他方のデータ減少に影響した時「負の相関」があるという。またどちらの関係も見れられない時は、無相関という。

散布図での見え方では、相関が強い時、直線により近いものとなる。

5.平均

データの合計をデータ数で割ったものが平均。データ分布の中心を求める際に利用される。

データの中心を求める際に以下三つの指標が利用される。

  • 平均(← イマココ)
  • メディアン
  • モード

6.メディアン

データを大きさの順に並べて中間の順位にある測定値(中央値、中位数とも呼ばれる)

7.平均偏差

各測定値が平均からどれほど離れているかを示し、データの散らばりを把握できる。

各測定値と平均との差を、偏差と呼ぶ。(ちなみにプラス・マイナスは表現しない)

各偏差の合計を、データ数で割れば平均偏差を算出できる。

8.分散

データの散らばり具合を示してくれる。データが平均から離れたところまで散らばっている場合は分散は大きくなり、平均から近いところで散らばっていれば分散は小さくなる

先ほど、偏差の絶対値を使って散らばり具合を確認したが、こちらでは偏差の2乗を使う。

分散=((測定値A-データの平均)^2+(測定値A-データの平均)^2+…)/データ個数

9.標準偏差

分散は測定を二乗するので、単位も元の単位とは異なり、解釈が難しい。 そこで標準偏差を使うと元のデータと同じ単位でデータを確認することができる。

標準偏差は、分散の正の平方根で求められる。

例えば、分散が 16 であれば、平方根は 4 となりそれが標準偏差となる。

10.標準化

散らばりが小さいデータの場合、少しの数値の違いで大きく平均から乖離するため、標準偏差を使いデータの標準化する。

標準化は以下のように行う

測定値=平均+Q(標準化変数)*標準偏差

Q=(測定値-平均)/標準偏差

Q は、測定値が平均から標準偏差いくつ分離れているかを示す。

Q は、平均に等しい測定値であれば 0 になる。平均より大きい測定値の場合正となり、平均よりも小さい測定値は負の値を取る。

11.共分散

共分散を使うと、データの相関を知ることができる。

<データの見方>

  • 正の相関:共分散>0
  • 負の相関:共分散<0

<共分散の求め方> データ A,データ B の二つのデータがあった時を想定。

Step1:偏差積を求める

偏差積 = データ A の偏差データ B の偏差 = (データ A-データ A の平均)(データ B-データ B の平均)

Step2:共分散を求める

共分散=偏差積の平均=((データ A-データ A の平均)*(データ B-データ B の平均))/2

12.相関係数

相関係数は単位を待たず、-1~1 の中で相関度を示すので、相関の把握が簡単。

共分散が 0 に近いかどうかの判断って結構難しい。

そこで、相関係数を使用する

< 相関係数の求め方 > データ A,データ B の二つのデータがあった時を想定。

相関係数=データ A とデータ B の共分散/(データ A の標準偏差*データ B の標準偏差)

13.回帰直線

相関が強いデータを見つけたら、そのデータを直線で表すと、過去と今後の傾向を直線で表すことができるこれを回帰直線と呼ぶ。

<回帰直線(y=a+bx)の求め方>

b = 相関係数 = x と y の共分散 / x の分散

a = ( y の平均 – b ) * x の平均

まとめ

書籍では、図解を用いてよりわかりやすく解説されていますので、気になった方は是非チェックしてみてください。