本記事は、「[図解]大学4年間の統計学が10時間でざっと学べる」を読んだ際の勉強メモです。
これから統計学に入門したい方は是非ご参考ください。
今回の記事では全3回を予定しており、こちらの記事は「Part1:データを読む編」になります。
1.データ解析の目的
標本の情報を利用して、母集団の未知の傾向や性質を導くこと
- 母集団:者の集まり
- 個体:母集団に含まれる要素
- 全数調査:母集団全てを調査すること
- 標本調査:母集団の一部を調査すること
- 標本サイズ:標本に含まれる個体の数を大きさに例えている
2.度数分布表
データの値に応じて幾つかの階級に整理し、階級に属するデータの数を度数という。
階級と度数を対応したものを度数分布と言い、数値だけでは見出しづらいデータ特徴を捉える
- 階級値:階級の中の中間の値
- 相対度数:各階級の度数がデータ数に占める割合
- 累積度数:その階級までの度数の累積値。最後の階級の累積度数の値はデータ数に一致する。
- モード(最頻値):度数が最大になる階級
3.ヒストグラム
度数分布表を柱状にして、視認性を高めたグラフ。
- 峰が一つか二つ以上か
- 中心の位置
- 散らばり具合
- 形状
- 外れ値
4.相関と散布図
散布図とは、データを2次元平面の点にして表現したもの。
相関とは、異なる二つのデータの関係性を数値化したもの。
一方のデータの増加が、他方のデータ増加に影響した時「正の相関」、一方のデータの減少が、他方のデータ減少に影響した時「負の相関」があるという。またどちらの関係も見れられない時は、無相関という。
散布図での見え方では、相関が強い時、直線により近いものとなる。
5.平均
データの合計をデータ数で割ったものが平均。データ分布の中心を求める際に利用される。
データの中心を求める際に以下三つの指標が利用される。
- 平均(← イマココ)
- メディアン
- モード
- 量的データ:観測値が数値となる変量
- 質的データ:「男性か女性」などデータの性質を表す変量
- 重心:データ分布の中心
6.メディアン
データを大きさの順に並べて中間の順位にある測定値(中央値、中位数とも呼ばれる)
7.平均偏差
各測定値が平均からどれほど離れているかを示し、データの散らばりを把握できる。
各測定値と平均との差を、偏差と呼ぶ。(ちなみにプラス・マイナスは表現しない)
各偏差の合計を、データ数で割れば平均偏差を算出できる。
8.分散
データの散らばり具合を示してくれる。データが平均から離れたところまで散らばっている場合は分散は大きくなり、平均から近いところで散らばっていれば分散は小さくなる
先ほど、偏差の絶対値を使って散らばり具合を確認したが、こちらでは偏差の2乗を使う。
分散=((測定値A-データの平均)^2+(測定値A-データの平均)^2+…)/データ個数
9.標準偏差
分散は測定を二乗するので、単位も元の単位とは異なり、解釈が難しい。 そこで標準偏差を使うと元のデータと同じ単位でデータを確認することができる。
標準偏差は、分散の正の平方根で求められる。
例えば、分散が 16 であれば、平方根は 4 となりそれが標準偏差となる。
データが正規分布に基づく場合(S =標準偏差,S^2=分散,M=平均と表す)
- M-S 以上,M+S 以下の範囲に全データの約 68.3%
- M-2S 以上,M+2S 以下の範囲に全データの約 95.4%
- M-3S 以上,M+3S 以下の範囲に全データの約 99.7% が含まれる (上記範囲を 1 シグマ、2シグマ、3シグマ範囲と呼ぶ)
10.標準化
散らばりが小さいデータの場合、少しの数値の違いで大きく平均から乖離するため、標準偏差を使いデータの標準化する。
標準化は以下のように行う
測定値=平均+Q(標準化変数)*標準偏差
Q=(測定値-平均)/標準偏差
Q は、測定値が平均から標準偏差いくつ分離れているかを示す。
Q は、平均に等しい測定値であれば 0 になる。平均より大きい測定値の場合正となり、平均よりも小さい測定値は負の値を取る。
11.共分散
共分散を使うと、データの相関を知ることができる。
<データの見方>
- 正の相関:共分散>0
- 負の相関:共分散<0
<共分散の求め方> データ A,データ B の二つのデータがあった時を想定。
Step1:偏差積を求める
偏差積 = データ A の偏差データ B の偏差 = (データ A-データ A の平均)(データ B-データ B の平均)
Step2:共分散を求める
共分散=偏差積の平均=((データ A-データ A の平均)*(データ B-データ B の平均))/2
共分散は測定値の単位を持つ
12.相関係数
相関係数は単位を待たず、-1~1 の中で相関度を示すので、相関の把握が簡単。
共分散が 0 に近いかどうかの判断って結構難しい。
そこで、相関係数を使用する
< 相関係数の求め方 > データ A,データ B の二つのデータがあった時を想定。
相関係数=データ A とデータ B の共分散/(データ A の標準偏差*データ B の標準偏差)
- 1 に近いほど、正の相関が強い
- -1 に近いほど、負の相関が強い
- 0は無相関
13.回帰直線
相関が強いデータを見つけたら、そのデータを直線で表すと、過去と今後の傾向を直線で表すことができるこれを回帰直線と呼ぶ。
<回帰直線(y=a+bx)の求め方>
b = 相関係数 = x と y の共分散 / x の分散
a = ( y の平均 – b ) * x の平均
まとめ
書籍では、図解を用いてよりわかりやすく解説されていますので、気になった方は是非チェックしてみてください。