バックプロパゲーション
日本語では誤差逆伝搬法と呼びます。情報の流れを順方向、学習に必要な誤差の流れを逆方向と言います。
出力信号と教師信号との2乗誤差を最小化するというアイデアは,ガウスの最小二乗法からの考えを引き継いでいるとみなすことができます。ガウスの最小二乗法と異なる点は,近似する関数のパラメータ数が決められていないので解析的に解ける保証がない点にあります。 解析的に解けるのであれば,誤差の自乗和をパラメータで微分して0とおいてその方程式を解けば良いことになります。
一筋縄ではいかない複雑な関数の場合には一次微分だけを頼りにパラメータ空間を探索することになります。盲目の登山家の喩えのとおり(原語は Hill-climbing analogy),自分が今立っている地形の傾斜だけを頼りに,目的地(誤差関数なら最小点,最適値探索なら最高点,山の頂上)を目指すことに相当します。
訪れる地点の各々で地形を判断し,今自分が立っている土地の傾斜情報に従って(微分してみて)その都度目的値の方向へ,少しずつ移動して行けば,やがて目的値に辿り着くだろう,これが誤差逆伝播法の第一段階です。
第二段階は,この考え方を多層に拡張して,誤差を伝播させることにあります。出力層以外は,誤差関数(損失関数,目標関数,ここでは乱暴に区別しないで用いています)を明確に知ることができないので,直接自分が信号を送っている層の誤差を借用してきます。その際に,自分が信号を送信するときの結合係数強度を使って,誤差に重みをつけます。このことにより間接的に自分が評価すべき誤差が分かります。この誤差を微分することで,誤差をより下位の層へと伝播させることができます。
以上が数式を用いない誤差逆伝播法の説明になります。第2段階の操作を更に下位の層で続けることが可能なので,誤差の連鎖,英語ではチェインルール chain rule と呼びます。