モデル作成のための基礎知識
分類アルゴリズムの選択
ノーフリーランチ定理
→ データに関する予備知識・前提知識→ 良いアルゴリズムを作ることができる
全てのデータに最適な1つのアルゴリズムは存在しない
→ 複数のアルゴリズムで試す中で、最善のものを選ぶ
scikit-learnの関数、クラスメソッド
→ 文字列にも対応 しかし、
○ 整数ラベルを推奨
・技術的なミスを回避するため
・メモリ消費を抑えて計算性能を向上するため
適切な学習率を割り出すにはある程度の実験が必要:
→ 繰り返し学習していいものを採用する
正解率 =1 - 誤分類率
モデルが訓練データのパターンを適切に認識するが、
未知のデータに対してはうまく汎化できないこと
- SmaSurf Quick Search