Modeling of Events

機械学習入門 第三回(後編)

  • HOME »
  • 機械学習入門 第三回(後編)

「教師なし学習」について学ぼう ~「クラスタリング」と「頻出パターンマイニング」~

「教師なし学習」クラスタリングとは?

次は「教師なし学習」についてみていきましょう。

「教師なし学習」では、「教師あり学習」のように訓練データ(データと答えのセット)を与えられるのではなく、データのみを与えられ、データ群からルールを独自に見出す学習方法であるとご説明しましたが、その一種が「クラスタリング」です。

クラスタリングとは、データ群から似た物どうしのデータをグループ分けすることをいいます。

たとえば、次のような例を考えてみます。

下記のような分布の、顧客の書籍購入履歴データをコンピュータに与えたとします(点は顧客1人1人を指します)。

クラスタリング

大きく5つのかたまり(クラスタ)に分けられそうです。

今回の例の場合は、「購入した書籍の種類」という指標で分けることになります。
(※最初から「書籍の種類に着目せよ」とコンピュータに命令したのではなく、コンピュータが解析した結果、「書籍の種類に着目したらこのような分布が得られた」ということです。)

通常、人が手動で分析するならば、性別や年齢層などの属性情報に基づいて分けることが多いと思いますが、コンピュータでは、たとえば上記の例のように、過去に購入した書籍の種類が似ている人どうしでクラスタリングをします。
その結果、性別、年齢、その他の属性はバラバラですが、「好みの本の種類が似ている」傾向をもつグループの存在が明らかになりました。

このように、潜在的な需要を把握することによって、どの層に対してどんな商品を売るべきなのか見えてきますね。

「漫画も小説もよく買う」グループにはどちらもお薦めし、「漫画はよく買うが小説はあまり買わない」グループには漫画を、「小説はよく買うが漫画はあまり買わない」グループには小説を、「どちらもあまり買わない」や「どちらもたまに買う」グループには雑誌など漫画や小説以外の書籍をお薦めするのが効果的でしょう。

グループ分けを行うことから「分類」と混同してしまいそうですが、「分類」では過去の蓄積されたデータから見出した判定基準を基にグループ分けする(教師あり学習)のに対して、クラスタリングではデータの類似性を基にグループ分けを行います(教師なし学習)。

「教師なし学習」頻出パターンマイニングとは?

「教師なし学習」のもう一種が「頻出パターンマイニング」です。

頻出パターンマイニングとは、データ群のうち、出現頻度が高いパターンを列挙することをいいます。

たとえば、次のような例を考えてみます。

スーパーで、顧客ごとに購入した商品(商品A、B、C、D、…)
について調べてみます。

頻出パターン

どの商品が良く売れているか(データの出現頻度が高いか)という情報や、どの組み合わせが良く売れているかという情報、相関関係(「商品Aを買う客は必ず商品Fを買う」など、X⇒Y(条件Xを満たせば、Yが成立する)のルール)などを見出すことができます。

購入パターンを知ることで、どのような売り方の工夫ができるか見えてきますね。
たとえば、よく購入される組み合わせについてはセットで販売し、より購入意欲を促進するなどの工夫ができそうです。

また、有名な話で、「スーパーの販売データを分析した結果、おむつとビールを一緒に買う傾向が見られることが分かった。そこで2つの商品を並べて陳列したところ、売上が上昇した」という話が機械学習の例としてよく引き合いに出されます。

頻出パターンマイニングによって、人の手ではなかなか想像がつかないルールを見出すことができそうですね。

「機械学習」の概要については以上で終わりです。
次回からは、機械学習を応用できそうなビジネスシーンについて具体的な例を紹介していきたいと思います。

PAGETOP
Copyright © Pharma Science Co., Ltd. All Rights Reserved.