機械学習:強化学習

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

--- 機械学習:強化学習 [2016/02/23 10:13] – asakawa
+++ 機械学習:強化学習 [2016/12/02 15:06] (現在) – n.arakawa
@@ 行 8: / 行 8: @@
 そもそも，データが与えられて，そのデータを分析するというデータサイエンス的な考え方の大枠と， 環境と行為者（エージェント）とがあって，エージェントは環境に働きかけて，その結果報酬を受取る，という強化学習の枠組みとなる考え方には乖離があります。 しかし，（強化学習もデータサイエンスも）定式化が進展し，理論も環境も整備され，大きな分野となっています。
-２０１４年には強化学習の手法とディープラーニングとを組み合わせて，アタリのビデオゲームを行う DQN と名付けられたシステムがゲームによっては人間の成績を上回ることで話題になりました。
+主要な手法として[[https://ja.wikipedia.org/wiki/Q学習|Q学習]]やアクタークリティック法がありますが、それらはTD学習（Temporal difference learning）と呼ばれる手法に分類されます。
-  - [[機械学習:Q 学習]]
+年には強化学習の手法とディープラーニングとを組み合わせて，アタリのビデオゲームを行う DQN と名付けられたシステムがゲームによっては人間の成績を上回ることで話題になりました。
-  - [[機械学習:TD学習]]
-  - [[機械学習:アクタークリティック法]] (Actor Qritique Methods)

機械学習/強化学習.1456189990.txt.gz · 最終更新: 2016/02/23 10:13 by asakawa