この記事は、ToBuToRiが統計検定準1級受験まで学習した軌跡を残す記事になります。
のちに統計検定準1級を受験しようかと考えている人が見たときに、学習計画や学習内容の参考になることを目指します。
ToBuToRiの理解を深める意味も込めて、学習内容を定期的にまとめて記事にしたいと思っています。
※記事中の数式は、LaTeXで書いています。
今週学んだのは、
- 2次元のデータ(直線および平面のあてはめ)
です。
それでは、行ってみましょう。
直線のあてはめ
2変数x、yを考えるとき、xがyを決定する関係がある時、xを独立変数(説明変数)、yを従属変数(被説明変数)といい、回帰の関係があると言います。
2次元データに回帰の関係がありそうな場合、
y = bx + a
という1次式が成立することが想像できます。
2次元データに対して、最適な1次式を引くために、1次式から予想されるyの値と実際の値y_iの差が最小となるあてはめ方を最小二乗法と呼び、
L = \sum_{i=1}^n\{y_i – (bx_i +a)\}^2
を最小にするa、bの値を求めることになります。
a、bでそれぞれ偏微分して0とくと、
\begin{array}{l} na + (\sum{x_i})b = \sum{y_i} \\ (\sum{x_i})a + (\sum{x_i^2})b = \sum{x_iy_i} \end{array}
という正規方程式を解くことになり、
\begin{array}{l} b = \frac{\sum{x_iy_i} – n\bar{x}\bar{y}}{\sum{x_i^2}-n\bar{x}^2} \\ a = \bar{y} – b\bar{x} \end{array}
となります。
このように得られた1次式を回帰方程式、回帰直線と呼びます。
また、直線のあてはまりの良さの尺度でもある相関係数rの二乗を決定係数と呼びます。
平面のあてはめ
y = b_1x_1 + \dots + b_ix_i + a といったように2つ以上の説明変数(独立変数)による方程式であてはめることを重回帰と言います。
多項式回帰
データによっては直線で表すことのできないデータも存在します。
その場合には、2次式や3次式と言った多項式で表すことになります。
これを多項式回帰と呼びます。
まとめ
今回は学んだのは、
- 2次元のデータ(直線および平面のあてはめ)
です。
【学習を開始して39日目】
では、また。