Modeling of Events

機械学習入門 第三回(前編)

  • HOME »
  • 機械学習入門 第三回(前編)

「教師あり学習」について学ぼう ~「分類」と「回帰」~

第2回の記事では機械学習の2つの種類「教師あり学習」、「教師なし学習」の特徴についてみました。
第3回では、「教師あり学習」、「教師なし学習」それぞれで用いられている技術について紹介します。

「教師あり学習」分類とは?

データとその答えのセットを教え込んでルールを学ばせ、新しいデータ(入力)について答え(出力)を予想するのが「教師あり学習」であるとご説明しましたが、その一種が「分類」です。

「教師あり学習」では、訓練データから学んだルールをもとに、将来的に新しいデータについても分類できるようになります。

たとえば、次のような例を考えてみます。

aaa
これは、ある男女の集団の属性情報をまとめたデータです。
これらのデータ(訓練データ)をもとに、男性であるか女性であるかを分類する基準は何かをコンピュータに考えさせます。

訓練データにはそれぞれ、その人の特徴と答え(分類結果:男性or女性)がセットになっているため、コンピュータはどのような特徴を持っていれば男性or女性に当てはまるか考えます。

その結果、下図のようなルールが見出されました。

男女判定図

このような図は「決定木」と呼ばれるものです。
今回は決定木を使った分類を解説します。

まず、属性「身長」を検査することで男女を判定し、判定できなかったデータについては、次に属性「髪の長さ」について検査します。そこでも判定できなかったデータについては、属性「食費」について検査し判定しています。

このように、どの属性から検査していき判定するか、手順(ルール)を自動的に作り出しています。手順を見出し属性に沿って振り分けていくことが「分類」です。

新たに〔身長163cm、ショートヘア、研究職、趣味は読書、食費月50,000円〕という人のデータを入力した場合、上記のルールに沿って、「男性である」と予測できるでしょう。

「教師あり学習」回帰とは?

「教師あり学習」のうち、もう一種が「回帰」です。
回帰とは、入力データと出力結果との関係式を導くことをいいます。

「教師あり学習」ですので、ある程度蓄積されたデータ(訓練データ)から法則性を見出し、新しいデータを入力した場合どのような答え(出力)が返ってくるかを予測します。

たとえば、次のような例を考えてみます。

回帰

図は、食べた物のカロリー数と、その結果、体重がいくら増えたかをプロットしたものです。

図から、摂取カロリーが多いほど体重が増加するという比例関係にあるということが読み取れますね。

摂取カロリーと体重増加量がどんな関係なのか明らかにするために、できるだけデータに合うような直線を引いてみます(図中のオレンジ色の直線)。

しかし、データにはばらつきがあるため、きれいにすべての点(各データ)を通る直線を引くことは不可能でしょう。

回帰では、各点から直線までの距離ができるだけ小さくなるような、誤差が最小限になる直線を考えだすことがテーマとなっています。

訓練データ(摂取カロリー[入力]と、体重増加量[出力(答え)]のセット、図中の青い点)をもとに関係式を導き、得られた関係式に新しい入力データ(摂取カロリー)を代入することで、出力結果(体重増加量)を予測することができます。
たとえば図中の赤線でいうと、「摂取カロリー数4,300kcalならば、体重増加量は800g程度である」と予測できるでしょう。

ここでは説明のために最も簡単な1次直線(y=ax+b:a ,bは定数)の形を例にしていますが、実際には2次曲線、3次曲線、多項式以外の関数になるかもしれません。
(できるだけ全てのデータに近くなる線を引くならば、直線で表すのは難しく、グニャグニャとした曲線になってしまいますよね。)

また、ここでは簡単に、体重が増加する要因(パラメータ)を摂取カロリーのみと設定していますが、実際には食べた時間、運動量、睡眠時間などなど、もっとたくさんのパラメータ
が関係している複雑な関数になるかもしれません。

複雑なデータであっても、コンピュータに機械学習させることによって関係式を見出すことができます。

ところで、同じ「教師あり学習」に属していますが、「分類」との違いはお分かりいただけましたでしょうか。

「分類」では、答え(ラベル)に相当する部分が、例としてあげた男女判定「男/女」のように【離散値(とびとびの不連続な値)】となっています。
一方、「回帰」では、答えに相当する部分は【連続値】(もしくは非常に細かい離散値)となっています。

分かりやすくいえば“点と線”の違いです。
上図「摂取カロリーと体重増加の関係」のデータのように、答え(体重増加量)は線(連続値)になっていることが分かりますよね。

 

後編へ

PAGETOP
Copyright © Pharma Science Co., Ltd. All Rights Reserved.