バックプロパゲーション中級者向け話題

盲目の登山家の喩えのとおり,自分が動けなくなる地点に達すると学習は終了します。この地点に達するまでに要する繰り返し計算を高速化する提案がなされています。 現在では確率的勾配降下法(Stochastic Gradient Descendent method:SGD)を用いない研究は皆無となりました。 SGD をさらに高速化する提案が AdaDelta, AdaGrad, Adam, Nestorev, RMSprop などです。 Caffe, Chainer, TensorFlow など既存のフレームワークでは,ほとんどの高速化手法を利用可能です。