脱落変数バイアス

回帰式

f:id:R_posit:20210212133510p:plain

Y: 目的変数

Z: 介入変数

X: 共変量

 

どれくらいXを加えれば良い?

判断基準

→   × 統計的に有意なβ

    ○ 脱落変数バイアス(OVB)が大きいもの

 = 目的変数Y , 介入変数Z と関係性の大きいX

これによってセレクションバイアスを小さくすることができる

 

 

脱落変数バイアス

f:id:R_posit:20210212132937p:plain

 

α = β_{1}(知りたいもの) + r\beta _{3}(脱落変数バイアス)

 

セレクションバイアス

・ RCTを実施した回帰分析

・OVBを考慮した回帰式

 

セレクションバイアス 

・OVBを考慮していない回帰式 = 加えるべき変数 (X) が欠けている

 

回帰式と変数(Y, X, Z)の関係性

f:id:R_posit:20210212133400p:plain

f:id:R_posit:20210212133322p:plain

判断基準

× 統計的に有意なX

統計的に有意でないXを外す場合でもOVBが発生する可能性がある

 

 ○ 脱落変数バイアス(OVB)が大きいもの

脱落変数バイアス(OVB)が大きいXを選ぶ

= r\beta _{3}が大きいX

=Y, Zと関係性が大きいX

 

もし、x_{1}x_{2} が 高い相関である場合

→ r\beta _{3}が小さくなる

→回帰式から外す

 

 

 

 

ロジスティック回帰

ロジスティック回帰

 

パーセプトロンの収束が保証される条件

・2クラスが線形分離可能であること

線形分離不可の場合

→エポックごとに誤分類されている訓練データがある

→ 重みが絶えず更新されてしまう

 

対応策

ロジスティック回帰

特徴

分類モデル

多クラス分類モデル(0, 1ではない、3つ以上の分類)でも

→多項ロジスティック回帰、ソフトマックス回帰

・いくつかの説明変数から確率を計算して予測を行う

一般化線形モデルの1つ

線形、恒等の活性化関数を利用 (ADALINEとの違い)

 

一般化線形モデル

 Yが正規分布以外の確率分布に従う場合(離散型など)にも使えるようにした線形モデル

 

・オッズ比:事象の起こりやすさ(1を超えることもある)

\dfrac{p}{\left( 1-p\right) }

オッズ比をロジット変換してから回帰分析

ロジット変換

\log\left(\dfrac{p}{1-p}\right) = \beta _{0}+\beta _{1}x_{1}

\beta _{0}, \beta _{1}・・・を最適化することが目的

最適化→ 尤度関数

scaler(標準化)

→ 訓練データとテストデータの値を相互に比較できるようにするため

→ 最適解を見つけ出すためのステップ数が少なくなる

 

手順

|分析に使うデータ → 回帰分析 → モデル生成 |

|分析に使うデータ → モデルに投入 → モデルと実際のデータを比較 →当てはまりを評価

 

活性化関数の種類

シグモイド関数非線形・非恒等)

\phi \left( z\right) =\dfrac{1}{1+e^{-z}}

 

f:id:R_posit:20210210182636p:plain



e^{-z}のはZが♾に近づくと小さくなるため、

\phi \left( z\right)は1に近づく

モデル作成のための基礎知識

分類アルゴリズムの選択

ノーフリーランチ定理

→ データに関する予備知識・前提知識→ 良いアルゴリズムを作ることができる

全てのデータに最適な1つのアルゴリズムは存在しない

 

→ 複数のアルゴリズムで試す中で、最善のものを選ぶ

 

 

scikit-learnの関数、クラスメソッド

→ 文字列にも対応 しかし、

○ 整数ラベルを推奨

・技術的なミスを回避するため

・メモリ消費を抑えて計算性能を向上するため

 

適切な学習率を割り出すにはある程度の実験が必要:

→ 繰り返し学習していいものを採用する

正解率 =1 - 誤分類率

過学習

モデルが訓練データのパターンを適切に認識するが、

未知のデータに対してはうまく汎化できないこと

 

 

  • SmaSurf Quick Search