脱落変数バイアス
回帰式
Y: 目的変数
Z: 介入変数
X: 共変量
どれくらいXを加えれば良い?
判断基準
→ × 統計的に有意なβ
○ 脱落変数バイアス(OVB)が大きいもの
= 目的変数Y , 介入変数Z と関係性の大きいX
これによってセレクションバイアスを小さくすることができる
脱落変数バイアス
α = (知りたいもの) + (脱落変数バイアス)
セレクションバイアス小
・ RCTを実施した回帰分析
・OVBを考慮した回帰式
セレクションバイアス大
・OVBを考慮していない回帰式 = 加えるべき変数 (X) が欠けている
回帰式と変数(Y, X, Z)の関係性
判断基準
× 統計的に有意なX
統計的に有意でないXを外す場合でもOVBが発生する可能性がある
○ 脱落変数バイアス(OVB)が大きいもの
脱落変数バイアス(OVB)が大きいXを選ぶ
= が大きいX
=Y, Zと関係性が大きいX
もし、 と が 高い相関である場合
→ が小さくなる
→回帰式から外す
ロジスティック回帰
ロジスティック回帰
パーセプトロンの収束が保証される条件
・2クラスが線形分離可能であること
線形分離不可の場合
→エポックごとに誤分類されている訓練データがある
→ 重みが絶えず更新されてしまう
対応策
ロジスティック回帰
特徴
・分類モデル
・多クラス分類モデル(0, 1ではない、3つ以上の分類)でも可
→多項ロジスティック回帰、ソフトマックス回帰
・いくつかの説明変数から確率を計算して予測を行う
・一般化線形モデルの1つ
・非線形、非恒等の活性化関数を利用 (ADALINEとの違い)
一般化線形モデル
Yが正規分布以外の確率分布に従う場合(離散型など)にも使えるようにした線形モデル
・オッズ比:事象の起こりやすさ(1を超えることもある)
オッズ比をロジット変換してから回帰分析
ロジット変換
・・・を最適化することが目的
最適化→ 尤度関数
scaler(標準化)
→ 訓練データとテストデータの値を相互に比較できるようにするため
→ 最適解を見つけ出すためのステップ数が少なくなる
手順
|分析に使うデータ → 回帰分析 → モデル生成 |
|分析に使うデータ → モデルに投入 → モデルと実際のデータを比較 →当てはまりを評価
活性化関数の種類
のはZが♾に近づくと小さくなるため、
は1に近づく
モデル作成のための基礎知識
分類アルゴリズムの選択
ノーフリーランチ定理
→ データに関する予備知識・前提知識→ 良いアルゴリズムを作ることができる
全てのデータに最適な1つのアルゴリズムは存在しない
→ 複数のアルゴリズムで試す中で、最善のものを選ぶ
scikit-learnの関数、クラスメソッド
→ 文字列にも対応 しかし、
○ 整数ラベルを推奨
・技術的なミスを回避するため
・メモリ消費を抑えて計算性能を向上するため
適切な学習率を割り出すにはある程度の実験が必要:
→ 繰り返し学習していいものを採用する
正解率 =1 - 誤分類率
モデルが訓練データのパターンを適切に認識するが、
未知のデータに対してはうまく汎化できないこと
- SmaSurf Quick Search