回帰分析・分散分析スタディガイド
回帰分析と分散分析(ANOVA)の基本概念と選び方を短く整理します。
まずは目的(予測か比較か)を確認しましょう。
1. どれを選ぶ?
- 回帰分析:入力 xxx から出力 yyy を予測したい/関係の強さを知りたい
- 単回帰: y=β0+β1x+ε \,y=\beta_0+\beta_1 x+\varepsilon\,y=β0+β1x+ε
- 重回帰: y=β0+∑kβkxk+ε \,y=\beta_0+\sum_k \beta_k x_k+\varepsilon\,y=β0+∑kβkxk+ε
- 分散分析(ANOVA):複数群の平均の差を検定したい
- 一元配置:要因1つ、 F=MSbetweenMSwithin \,F=\dfrac{MS_{\text{between}}}{MS_{\text{within}}}\,F=MSwithinMSbetween
- t検定:2群の平均差を検定(対応なし/あり)
直感:
予測したい → 回帰 / 平均を比べたい → ANOVA/t
2. 最低限おさえる指標
- 決定係数 R2R^2R2:モデルがばらつきをどれだけ説明したか(1に近いほど良い)
- p値:帰無仮説のもとで観測以上の極端さが出る確率(小さいほど有意)
- 残差: ε^i=yi−y^i \,\hat{\varepsilon}_i = y_i - \hat{y}_i\,ε^i=yi−y^i。プロットで外れや歪みをチェック
- 効果量(ANOVA):η2, ω2\eta^2,\,\omega^2η2,ω2 など(「差の大きさ」を数量化)
3. モデルの前提を確認
- 独立性:観測は互いに独立(時系列の自己相関に注意)
- 等分散性:群や説明変数の水準で分散が大差ない
- 正規性:残差が概ね正規(大標本なら中心極限定理の助けも)
前提が怪しいとき:ロバスト法、ノンパラ(Kruskal–Wallis など)、変数変換、分散不均一に強い手法を検討。
4. 典型タスクの進め方(最短フロー)
- 目的を明確化(予測?平均差?)
- データの可視化(散布図/箱ひげ/残差)
- 手法の選択(回帰 or ANOVA/t)
- 当てはめ → 指標確認(R2R^2R2, FFF, t, p値, 残差)
- 前提検証&改善(外れ値、非線形性、交互作用)
- 解釈・示唆(現場での意思決定に接続)
5. 理解度チェック
6. 便利リンク
- 方法ナビゲーター(外部ページ・インタラクティブ)
数式メモ(参考)
- 回帰の最小二乗推定:
β^=(X⊤X)−1X⊤y \,\hat{\boldsymbol{\beta}} = (X^\top X)^{-1} X^\top \boldsymbol{y}\,β^=(X⊤X)−1X⊤y - ANOVA の分解:
SStotal=SSbetween+SSwithin \,SS_{\text{total}} = SS_{\text{between}} + SS_{\text{within}}\,SStotal=SSbetween+SSwithin