メインコンテンツまでスキップ

OpenAIのAPIを使用しています。正確性の保証はできませんので、ご注意ください。

分類

分類は、データをいくつかのカテゴリに分けることを目的とした機械学習の手法です。回帰がデータの関係を見つけて値を予測するのに対し、分類はデータをカテゴリーに分けることを目的としています。例えば、メールがスパムかどうかを判断したり、果物がりんごかみかんかを分類するような問題です。

説明変数と目的変数

分類問題では、説明変数と目的変数があります。

  • 説明変数: データの特徴を表す変数です。例えば、果物の重さや色です。
  • 目的変数: 予測したいカテゴリを表す変数です。例えば、果物がりんごかみかんかです。

二項分類と多項分類

分類問題には、二項分類と多項分類があります。

  • 二項分類(二値分類): データを2つのカテゴリに分類する問題です。例えば、メールがスパムかどうかを判断する問題です。
  • 多項分類(多クラス分類): データを3つ以上のカテゴリに分類する問題です。例えば、果物がりんご、みかん、ぶどうのどれかを判断する問題です。

Confusion Matrix(混同行列)

分類問題の性能を評価する方法として、Confusion Matrix(混同行列)があります。混同行列は、予測結果と実際のカテゴリの正誤を表した表です。

例えば、以下の混同行列は、果物の分類問題の結果を示しています。

予測\実際りんごみかんぶどう
りんご310
みかん051
ぶどう104

この表では、りんごを3つ正しく分類し、みかんを1つ誤って分類していることが分かります。