scikit-learnドキュメント解説

scikit-learnドキュメント日本語訳

機械学習を学ぶのにあたり避けては通れないscikit-learnですが、公式ドキュメントは残念なから英語です。
Google翻訳を使って読み解いてもある程度わかるくらいのレベルにはなりますが、やはり純粋な日本語よりはわかりにくいです。
そこで本ページでは、なるべくscikit-learnのドキュメントのニュアンスをなるべく損ねることなく和訳やチュートリアルの作成を行うことを目指します。

本ページではscikit-learnでできる6つのタスクを紹介するとともに、今後増えていくであろう記事へのリンクのまとめになる予定です。

参考ページ
scikit-learn: Python での機械学習 — scikit-learn 1.1.2 ドキュメント
https://scikit-learn.org/stable/

こちらの記事の解説はこちら

scikit-learnで解決する6つのタスク

分類 (Classification)

解説:データがどのグループの属するのかを分類します。
具体的なタスク:スパムメールの識別、画像分類
アルゴリズム:SVM、k-最近傍法、ランダムフォレストなど

回帰(Regression)

解説:連続した値の予測を行います。
具体的なタスク:薬物反応、株価分析
アルゴリズム:SVR、k-最近傍法、ランダムフォレストなど

クラスタリング(Clustering)

解説:似たデータ同士をグループ化
具体的なタスク:顧客のグループ分け、実験結果のグループ分け
アルゴリズム:k-means法、スペクトラルクラスタリング、MeanShiftなど

次元削減(Dimensionality reduction)

解説:データの情報量をできるだけ減らさず次元を削減します。
具体的なタスク:可視化、学習効率の向上
アルゴリズム:PCA、NMFなど

ハイパーパラメータチューニング(Model selection)

解説:パラメータとモデルの比較、検証、および選択。
具体的なタスク:パラメータとモデルの比較、検証、および選択。
アルゴリズム:グリッドサーチ、交差検証など

前処理(Preprocessing)

解説:学習データの加工
具体的なタスク:テキストなどの入力データを機械学習アルゴリズムで使用するための変換
アルゴリズム:特徴抽出

今後本ブログではこれらの詳細な内容について記事にしていきます。