WBA

強化学習

機械学習の文脈での強化学習と，心理学の文脈での強化学習とでは，毛色が異なります。前者は後者の実験成果を元に発展した手法ではありますが，現在では異なる分野となっています。

また強化学習は，他の機械学習の分野とも毛色が異なっています。問題設定が異なることもあり，出発点となる考え方の抽象度も異なります。

そもそも，データが与えられて，そのデータを分析するというデータサイエンス的な考え方の大枠と，環境と行為者（エージェント）とがあって，エージェントは環境に働きかけて，その結果報酬を受取る，という強化学習の枠組みとなる考え方には乖離があります。しかし，（強化学習もデータサイエンスも）定式化が進展し，理論も環境も整備され，大きな分野となっています。

主要な手法としてQ学習やアクタークリティック法がありますが、それらはTD学習（Temporal difference learning）と呼ばれる手法に分類されます。

2014年には強化学習の手法とディープラーニングとを組み合わせて，アタリのビデオゲームを行う DQN と名付けられたシステムがゲームによっては人間の成績を上回ることで話題になりました。