モデル作成のための基礎知識

分類アルゴリズムの選択

ノーフリーランチ定理

→ データに関する予備知識・前提知識→ 良いアルゴリズムを作ることができる

全てのデータに最適な1つのアルゴリズムは存在しない

 

→ 複数のアルゴリズムで試す中で、最善のものを選ぶ

 

 

scikit-learnの関数、クラスメソッド

→ 文字列にも対応 しかし、

○ 整数ラベルを推奨

・技術的なミスを回避するため

・メモリ消費を抑えて計算性能を向上するため

 

適切な学習率を割り出すにはある程度の実験が必要:

→ 繰り返し学習していいものを採用する

正解率 =1 - 誤分類率

過学習

モデルが訓練データのパターンを適切に認識するが、

未知のデータに対してはうまく汎化できないこと

 

 

  • SmaSurf Quick Search