回帰分析・分散分析スタディガイド

更新: 2025-09-16v1.0.0編集する

回帰分析・分散分析スタディガイド

回帰分析と分散分析(ANOVA)の基本概念選び方を短く整理します。
まずは目的(予測か比較か)を確認しましょう。

1. どれを選ぶ?

  • 回帰分析:入力 xxx から出力 yyy予測したい/関係の強さを知りたい
    • 単回帰:y=β0+β1x+ε\,y=\beta_0+\beta_1 x+\varepsilon\,y=β0+β1x+ε
    • 重回帰:y=β0+kβkxk+ε\,y=\beta_0+\sum_k \beta_k x_k+\varepsilon\,y=β0+kβkxk+ε
  • 分散分析(ANOVA):複数群の平均のを検定したい
    • 一元配置:要因1つ、F=MSbetweenMSwithin\,F=\dfrac{MS_{\text{between}}}{MS_{\text{within}}}\,F=MSwithinMSbetween
  • t検定2群の平均差を検定(対応なし/あり)

直感:
予測したい → 回帰 / 平均を比べたい → ANOVA/t

2. 最低限おさえる指標

  • 決定係数 R2R^2R2:モデルがばらつきをどれだけ説明したか(1に近いほど良い)
  • p値:帰無仮説のもとで観測以上の極端さが出る確率(小さいほど有意)
  • 残差ε^i=yiy^i\,\hat{\varepsilon}_i = y_i - \hat{y}_i\,ε^i=yiy^i。プロットで外れや歪みをチェック
  • 効果量(ANOVA)η2,ω2\eta^2,\,\omega^2η2,ω2 など(「差の大きさ」を数量化)

3. モデルの前提を確認

  • 独立性:観測は互いに独立(時系列の自己相関に注意)
  • 等分散性:群や説明変数の水準で分散が大差ない
  • 正規性:残差が概ね正規(大標本なら中心極限定理の助けも)

前提が怪しいとき:ロバスト法、ノンパラ(Kruskal–Wallis など)、変数変換、分散不均一に強い手法を検討。

4. 典型タスクの進め方(最短フロー)

  1. 目的を明確化(予測?平均差?)
  2. データの可視化(散布図/箱ひげ/残差)
  3. 手法の選択(回帰 or ANOVA/t)
  4. 当てはめ → 指標確認(R2R^2R2, FFF, t, p値, 残差)
  5. 前提検証&改善(外れ値、非線形性、交互作用)
  6. 解釈・示唆(現場での意思決定に接続)

5. 理解度チェック

6. 便利リンク


数式メモ(参考)

  • 回帰の最小二乗推定:
    β^=(XX)1Xy\,\hat{\boldsymbol{\beta}} = (X^\top X)^{-1} X^\top \boldsymbol{y}\,β^=(XX)1Xy
  • ANOVA の分解:
    SStotal=SSbetween+SSwithin\,SS_{\text{total}} = SS_{\text{between}} + SS_{\text{within}}\,SStotal=SSbetween+SSwithin