教師あり学習・教師なし学習・強化学習について

機械学習は教師あり学習、教師なし学習、強化学習の3つのカテゴリに分類することができます。

教師あり学習 (Supervised Learning) の教師とはデータに付随する正解ラベルことをいいます。そのため、それぞれのデータ点にカテゴリラベルや数値ラベルが付与されています。

カテゴリラベルでは、例えば馬を含む画像には、馬というラベルがつけられています。

数値ラベルでは、例えば部屋の情報に、家賃50000円などのラベルがつけられています。

教師あり学習の目的は、大量のラベル付きのデータ例(これを学習データや教師データという)に基づいて、新しく得られたデータのラベルを予測することです。

データ点に付与されたラベルがカテゴリラベルの場合は分類問題 (Classification) といわれます。例えば、画像中の動物の種類を特定するという問題は、これに当てはまります。

データ点に付与されたラベルが数値ラベルの場合は回帰問題 (Regression) といわれます。例えば、部屋の家賃を予測するという問題は、これに当てはまります。

特に、画像データを扱うものは画像認識といわれ、機械学習の中でもディープラーニングが得意な分野となります。

f:id:syerox:20190324165205p:plain

教師なし学習とは、与えられたデータから規則性を発見し、学習する手法です。

そのため、教師なし学習では、データ点はラベルをもっていません。つまり教師なし学習では、正解や不正解が存在しないといえます。

教師なし学習の目的は、なんらかの方法でデータをまとめることやデータの持つ構造を見つけることです。つまりデータをグループ (クラスタ) に分ける方法をみつけることや複雑なデータが単純に説明できるような見方をみつけることを意味します。

教師なし学習は、おすすめの商品を推薦するレコメンデーションで用いられたりします。

f:id:syerox:20190324165226p:plain

強化学習も教師を必要としない手法です。強化学習は、与えられたそれぞれのデータ点に対する動作を選択するアルゴリズムを学習します。

強化学習では、エージェントと環境を与えます。エージェントが環境に対して行動して、その結果として環境がエージェントに報酬を与えます。そして、与えられた報酬に基づいて、エージェントが行動に対して良かった、悪かったという評価をします。そして、この評価によって次の行動を決定します。

強化学習は、ロボティクス分野ではよく用いられる手法です。例えば、ある時刻でのセンサーからの出力をデータ点として、ロボットの次の動作を決定するという場合に利用されます。

また、ディープラーニングと組み合わせて用いることで、囲碁AIや将棋AIにも用いられています。

さらにIoT (Internet of Things) への応用も可能です。こういった場合では、アルゴリズムは未来の時点での、動作選択の適切さを示す報酬信号を受け取り、より高い報酬信号を得るために動作選択の戦略を修正します。

f:id:syerox:20190324165247p:plain

参考図書