機械学習:強化学習
差分
このページの2つのバージョン間の差分を表示します。
次のリビジョン | 前のリビジョン | ||
機械学習:強化学習 [2016/02/18 11:12] – 作成 asakawa | 機械学習:強化学習 [2016/12/02 15:06] (現在) – n.arakawa | ||
---|---|---|---|
行 4: | 行 4: | ||
また強化学習は,他の機械学習の分野とも毛色が異なっています。問題設定が異なることもあり,出発点となる考え方の抽象度も異なります。 | また強化学習は,他の機械学習の分野とも毛色が異なっています。問題設定が異なることもあり,出発点となる考え方の抽象度も異なります。 | ||
+ | {{ : | ||
そもそも,データが与えられて,そのデータを分析するというデータサイエンス的な考え方の大枠と, 環境と行為者(エージェント)とがあって,エージェントは環境に働きかけて,その結果報酬を受取る,という強化学習の枠組みとなる考え方には乖離があります。 しかし,(強化学習もデータサイエンスも)定式化が進展し,理論も環境も整備され,大きな分野となっています。 | そもそも,データが与えられて,そのデータを分析するというデータサイエンス的な考え方の大枠と, 環境と行為者(エージェント)とがあって,エージェントは環境に働きかけて,その結果報酬を受取る,という強化学習の枠組みとなる考え方には乖離があります。 しかし,(強化学習もデータサイエンスも)定式化が進展し,理論も環境も整備され,大きな分野となっています。 | ||
- | 2014年には強化学習の手法とディープラーニングとを組み合わせて,アタリのビデオゲームを行う DQN と名付けられたシステムがゲームによっては人間の成績を上回ることで話題になりました。 | + | 主要な手法として[[https:// |
- | - Q 学習 | + | 2014年には強化学習の手法とディープラーニングとを組み合わせて,アタリのビデオゲームを行う DQN と名付けられたシステムがゲームによっては人間の成績を上回ることで話題になりました。 |
- | - TD 学習 | + | |
- | - アクタークリティック法 (Actor Qritique Methods) | + | |
機械学習/強化学習.1455761569.txt.gz · 最終更新: 2016/02/18 11:12 by asakawa