機械学習:強化学習

差分

このページの2つのバージョン間の差分を表示します。

この比較画面にリンクする

次のリビジョン
前のリビジョン
最新のリビジョン 両方とも次のリビジョン
機械学習:強化学習 [2016/02/18 11:12]
asakawa 作成
機械学習:強化学習 [2016/02/23 10:13]
asakawa
行 4: 行 4:
  
 また強化学習は,他の機械学習の分野とも毛色が異なっています。問題設定が異なることもあり,出発点となる考え方の抽象度も異なります。 また強化学習は,他の機械学習の分野とも毛色が異なっています。問題設定が異なることもあり,出発点となる考え方の抽象度も異なります。
 +{{ :機械学習:env_and_agent.png?nolink&300 |}}
  
 そもそも,データが与えられて,そのデータを分析するというデータサイエンス的な考え方の大枠と, 環境と行為者(エージェント)とがあって,エージェントは環境に働きかけて,その結果報酬を受取る,という強化学習の枠組みとなる考え方には乖離があります。 しかし,(強化学習もデータサイエンスも)定式化が進展し,理論も環境も整備され,大きな分野となっています。 そもそも,データが与えられて,そのデータを分析するというデータサイエンス的な考え方の大枠と, 環境と行為者(エージェント)とがあって,エージェントは環境に働きかけて,その結果報酬を受取る,という強化学習の枠組みとなる考え方には乖離があります。 しかし,(強化学習もデータサイエンスも)定式化が進展し,理論も環境も整備され,大きな分野となっています。
行 9: 行 10:
 2014年には強化学習の手法とディープラーニングとを組み合わせて,アタリのビデオゲームを行う DQN と名付けられたシステムがゲームによっては人間の成績を上回ることで話題になりました。 2014年には強化学習の手法とディープラーニングとを組み合わせて,アタリのビデオゲームを行う DQN と名付けられたシステムがゲームによっては人間の成績を上回ることで話題になりました。
  
-  - Q 学習 +  - [[機械学習:Q 学習]] 
-  - TD 学習 +  - [[機械学習:TD学習]] 
-  - アクタークリティック法 (Actor Qritique Methods)+  - [[機械学習:アクタークリティック法]] (Actor Qritique Methods)
  
  • 機械学習/強化学習.txt
  • 最終更新: 2016/12/02 15:06
  • by n.arakawa