この記事は、ToBuToRiが統計検定準1級受験まで学習した軌跡を残す記事になります。
のちに統計検定準1級を受験しようかと考えている人が見たときに、学習計画や学習内容の参考になることを目指します。
ToBuToRiの理解を深める意味も込めて、学習内容を定期的にまとめて記事にしたいと思っています。
※記事中の数式は、LaTeXで書いています。
今週学んだのは、
- 統計学の基礎
です。
それでは、行ってみましょう。
統計学とは何か
統計学とは、人間の「現象の法則性」に関する実際的関心や活動からなる学問で、
- サイコロなどの確率論
- 国勢調査などの国家状態の統計
- 保険の計算
など、様々な考え方や知識が蓄積して理論体系化された学問です。
その歴史としては、観測されるすべての情報の規則性から法則性を発見する記述統計学があり、その後に確率論を組み込んだ、一部を観察して、そこから全体の法則性を発見する推測統計学が出てきました。
すなわち統計学とは記述統計学と推測統計学から成る学問です。
統計データ
統計データはその声質によりいくつかのタイプに分けられます。
量的データ
ある学年の生徒の点数など、データが定量的な値で与えられるものを量的データと呼びます。
量的データには、長さ、重さ、体積、面積、金額、温度、時間など数値でその値を測定できるものが含まれます。
質的データ
一方で、ある日の天気など、数値ではなく、状態やカテゴリーなどで分類できるデータを質的データと呼びます。
質的データには、性別、学歴、居住地など多くのものが含まれます。
また、質的データを統計データとして扱うときは、ダミー変数と呼ばれる数値に変換することで、分析が可能になります。
データの次元
学生のデータを考えてみると、身長だけを観測した場合、1次元データと呼びます。
そこに、体重も観測した場合、2次元データと呼びます。
更に性別も観測すると、3次元データと言った感じで、観測値が増えると次元が増えることになります。
複数の観測値でなるデータを多次元データと呼びます。
時間や場所によるデータ
同一対象を時間を追って観測した場合、そのデータを時系列データと呼びます。
時系列データは、経済や気候、天文などの現象の分析で広く利用されています。
同一対象を様々な場所で観測した場合、そのデータをクロスセクション・データと呼びます。
また、一定範囲の対象に対して時系列データを集めたものをパネル・データと呼びます。
分析プロセス
分析作業としては、実験や調査によりデータを収集して、分析することになりますが、それを始める動機として、分析を行うべき仮説を考える必要があります。
仮説がないまま、闇雲にデータを集めてそれを分析しても何も意味がないものになります。
逆に仮説があることにより、収集するデータやその収集する手法、更には分析手法も決まることになります。
また、分析した結果を他の人に見せる場合にも注意が必要です。
分析結果の表現方法により、見る者に正しく伝わらないということが多くあります。
まとめ
今回は学んだのは、
- 統計学の基礎
です。
【学習を開始して18日目】
では、また。