画像認識,音声認識などで主流になっているモデルです。2015年12月にアナウンスされた大規模画像認識コンテストで正式に人間の認識性能を越えました。 人間超えしたモデルは大きく分けて特徴抽出部分と認識部分に別れますが,特徴抽出部分は150層の畳込みニューラルネットワークでした。 層の数は多ければ良いというものじゃない,人間の脳だって沢山の層があるわけではないし,と思っていた人もいました。ですが,2015年の結果は多ければ良いというものでした。ですが少し工夫があります。それは残差ネットと呼ばれるブロック構造です。簡単に言うとショートカット(近道)があるネットワークを使います。3層おきに近道するので近道が50回ありました。3層のブロックに近道1つを50回繰り返すと150層になります。一番最初の層と一番最後の層は入出力の調整なので近道なしでした。
上の図に,ショートカットの概念図を示しました。ポイントとなるのはショートカットはただ近道するだけで,結合係数はありません。つまりただ足すだけです。こうすることで,人間の認識性能を上回りました。人間の誤判断率が5.1% でしたが残差ネットは 3.5 % でした。