10
文書の過去の版を表示しています。
強化学習の代表的な手法。 各状態(Situation)に対する、行動(Action)に対して Q値が定義されます。
Q値というのは、強化学習の生みの親のBertoによると Qualityの先頭文字だそうです。
⇒ Wikipedia