この記事は、ToBuToRiが統計検定準1級受験まで学習した軌跡を残す記事になります。
のちに統計検定準1級を受験しようかと考えている人が見たときに、学習計画や学習内容の参考になることを目指します。
ToBuToRiの理解を深める意味も込めて、学習内容を定期的にまとめて記事にしたいと思っています。
※記事中の数式は、LaTeXで書いています。
今週学んだのは、
- 1次元のデータ
です。
それでは、行ってみましょう。
度数分布とヒストグラム
調査や実験によって観測値が得られたとき、表や図にすると全体の分布状況がわかります。
観測値がとりうる値を階級に分け、その頻度を度数として数えた表を度数分布表と言います。
度数分布表には、その他に階級を代表する値として階級値、全体に対する割合を示す相対度数や下の階級から値を積み上げた累積度数、累積相対度数を記載します。
また、度数分布表をグラフにしたものをヒストグラムと呼びます。
ヒストグラムを観察すると、全体が左右どちらかに寄っていたり、裾が長かったりと観測値の特徴を捉えることが出来ます。
また、峰が二つ以上ある場合は、異なる性質のデータが混ざっていることもあります。
度数分布表を記載する時に注意すべき点は、階級数と階級幅の問題です。
階級数が少ない(階級幅が広い)場合、データの意味が失われることがあります。
逆に、階級数が多い(階級幅が狭い)場合、分布が階級の取り方に敏感になり、階級のわずかな移動で分布形が変わってしまいます。
この階級数はスタージェスの公式が参考になります。
$$ k ≒ 1 + log_2 n = 1 + (log_{10} n)/(log_{10} 2) $$
代表値
代表値とは分布を数量的に把握するものです。
平均
平均は、最もよく知られている代表値であり、算術平均と呼ばれます。
算術平均は、観測値の総数を観測値の数で割ったものです。
$$ \bar{x} = \frac{x_1 + x_2 + \dots + x_n}{n} $$
また、割合の平均上昇率や速度など、算術平均でなく、幾何平均
$$ x_G = \sqrt[n]{x_1 \cdot x_2 \cdot \dots \cdot x_n} $$
や調和平均
$$ \frac{1}{x_H} = \frac{1}{n}(\frac{1}{x_1} + \frac{1}{x_2} + \dots + \frac{1}{x_n}) $$
を用いなければならない場合もある。
中央値(メディアン)
観測値の数の中央に位置する値を中央値と呼びます。
中央値は観測値を小さいものの順に並べた中央の値になります。
観測値の数が奇数の場合は、中央の値が一つになりますが、偶数の場合は、前後の値の平均を中央値とします。
分位点
中央値の考え方を拡張したものを分位点と呼びます。
よく用いられるもので四分位点があり、観測値全体を小さいものの順に並べ4分割して、下から第1四分位点、第2四分位点(中央値)、第3四分位点と呼びます。
最頻値(モード)
最頻値は分布の峰に位置する値で、その観測値の中で最も多く観測された値のことです。
最頻値は峰が二つ以上ある分布では有効な代表値とは言えません。
ミッド・レンジ
ミッド・レンジとは、分布の最小値と最大値の範囲の中間の値のことです。
散らばりの尺度
分布の形状は、代表値だけからは確認することができません。
同じ代表値を持っていても分布がかたまっていたり、開いていたりするからです。
そこで重要になるのが散らばりの尺度です。
レンジ
レンジとは分布の端から端までの距離です。
$$ R = max(x_1, x_2, \dots, x_n) – min(x_1, x_2, \dots, x_n) $$
四分位偏差
四分位偏差は、レンジを改良したもので、第3四分位点\(Q_3\)と第1四分位点\(Q_1\)の隔たりの半分です。
$$ Q = \frac{1}{2}(Q_3 – Q_1) $$
平均偏差
平均偏差は、各観測値が平均からどのくらい離れているかの平均を取ったものです。
$$ d = \frac{1}{n} \{|x_1 – \bar{x}| + |x_2 – \bar{x}| + \dots + |x_n – \bar{x}|\} $$
分散と標準偏差
偏差を絶対値ではなくて2乗することで符号を消し、平均を求めたものを分散と呼びます。
$$ S^2 = \frac{1}{n}\{(x_1 – \bar{x})^2 + (x_2 – \bar{x})^2 + \dots + (x_n – \bar{x})^2 \} $$
分散はこのままでは測定単位が変わってしまうので、単位をそろえるときには分散の平方根を取った\(S\)が用いられて、これを標準偏差と呼びます。
変動係数
分布の中心の位置が著しく異なるような場合には、平均の値、分散の値ともに大きく変動することになり、分散をもって分布の散らばり具合を比較できません。
その場合に、平均と分散の相対的な比を比べると散らばり具合を比較することができます。
$$ C.V. = S_x/\bar{x} $$
この指標を変動係数と呼びます。
標準化
複数の観測を比較したいときに、基準がバラバラだと比較しにくいということがあります。
その基準を統一するのを標準化と言います。
標準化は観測値から平均値を引いて、標準偏差で割ったものを指します。
$$ z_i = \frac{x_i – \bar{x}}{S_x} $$
こうすることで、平均が0、標準偏差が1に揃ったことになります。
学生のテストの成績を比較したいときには平均を50、標準偏差が10になるように変換した偏差値得点が用いられます。。
$$ T_i = 10z_i + 50 $$
まとめ
今回は学んだのは、
- 1次元のデータ
です。
【学習を開始して25日目】
では、また。