第14回全脳アーキテクチャ勉強会「深層学習を越える新皮質計算モデル」報告レポート

本記事は、2016年5月18日(水) にパナソニック株式会社パナソニックセンター東京１階ホール(株式会社パナソニック様のご厚意による会場ご提供)にて開催されました、第14回全脳アーキテクチャ勉強会「深層学習を越える新皮質計算モデル」の報告書です。開催概要については下記のリンクをご覧下さい。

第14回全脳アーキテクチャ勉強会開催概要

本報告書の概要

全脳アーキテクチャ・アプローチでは、脳における多様な学習能力に対する理解にもとづいた汎用人工知能の構築を目指している。
このアプローチが可能になった背景には、脳の大脳新皮質に対応づけうる深層学習が5年ほど前から急速に発展を遂げたことがある。一方で近年は神経科学の発展も著しく、これらの知見を活かすことで現状の深層学習を超えた情報処理が行える可能性も有りうる。そこで今回は「(仮)深層学習を越える新皮質計算モデル」をテーマとして勉強会を企画した。

物理学者の松田卓也氏からは、工学的な人工ニューラルネットワークよりも詳細な神経科学知見を取り入れ、最近になって研究成果の発表が続いた、ジェフ・ホーキンスらによるHierarchical Temporal Memoryについてご紹介いただいた。さらに理研BSIの谷藤学先生からは神経科学の観点から、視覚情報処理の最新知見の紹介や、それらを踏まえた情報処理の計算モデルに関わる研究成果などにつき、ご講演いただいた。また最後には演者を交えたパネル討論を行った。

１．ご挨拶 (パナソニック株式会社先端研究本部フェロー上野山雄氏)

２．オープニング（ドワンゴ人工知能研究所山川宏氏）

発表資料：全脳アーキテクチャ勉強会「深層学習を越える新皮質計算モデル」

本日のテーマ

山川先生のオープニングトークでは、「深層学習を越える新皮質計算モデル」と題した今回の勉強会のテーマと、メインの講演者である松田卓也先生、谷藤学先生の講演内容との関連についてお話があった。
当勉強会では、汎用人工知能のさまざまな研究テーマについて、毎回、計算論的な観点からの講演と、神経科学的な観点からの講演をいただいている。
今回は、大脳新皮質が、脳における汎用性の起点になっているという考え方から、松田先生より、「大脳新皮質のマスターアルゴリズムの候補としてのHierarchical Temporal Memory (HTM)理論」について講演をいただき、谷藤先生からは、神経科学的な観点から、「サル高次視覚野における物体像の表現とそのダイナミクス」について講演いただく。

ディープラーニング系の学会では、局所性を扱うCNN(畳み込みニューラルネットワーク；Convolutional Neural Network)、報酬を扱うRL(強化学習；Reinforcement Learning)、時間を扱うLSTM(Long Short-Term Memory)の3つのアルゴリズムが中心になっているが、脳に学ぶという視点では、違うアプローチをしていくことが1つの挑戦となる。
そこで、HTM理論についてだが、2月に開催された計算論的神経科学の国際会議であるCOSYNEの中で、ジェフ・ホーキンス氏が、”How pyramidal neurons can learn variable order sequences across multiple timescales”といワークショップで、時間の伸び縮みの中で、脳がどうやって働くかという話をしていたが、HTM理論は、COSYNEの中でも異質であった。生物学的視点から見ると非常に工学的で、工学的視点から見ると、非常に生物的であるという評価もあり、非常に注目されている。
それだけに今回の松田先生のHTM理論の講演も楽しみにしている。

３．大脳新皮質のマスターアルゴリズムの候補としてのHierarchical Temporal Memory (HTM)理論 (NPO法人あいんしゅたいん松田卓也氏)

発表資料：大脳新皮質のマスターアルゴリズムの候補としてのHierarchical Temporal Memory (HTM)理論

要旨

汎用人工知能の基本アルゴリズムとしては大脳新皮質をリバースエンジニアリングするのが近道であろう。ジェフ・ホーキンスによれば脳は常に一瞬先を予測しているという。ここでは新皮質のマスターアルゴリズムの候補としてホーキンスの提案するHierarchical Temporal Memory (HTM)理論を解説する。HTM理論の最大の特長は時間の重視である。その意味でHTM は隠れマルコフモデルを始めとするダイナミックベイジアンモデルとの親和性が強い。まずHTM理論の歴史を述べ、第一世代のゼータ1アルゴリズム、第二世代のCortical Learning Algorithm (CLA)、最新のGen3アルゴリズムについて解説し、CLAと神経科学の関係を述べる。CLAのニューロンはANNとは異なり、3種類の樹状突起をもち、多数のシナプスを備えている。新皮質の6層構造との関係も述べる。最後に脳とコンピュータの違いを考察し、汎用人工知能の実現に向けての動向を概観する。

HTM理論の歴史

HTM理論を説明するにあたり、まずレイ・カーツワイルとジェフ・ホーキンスを紹介する。カーツワイルはシンギュラリティの伝道者として有名だが、Googleの人工知能研究所の所長を務める科学者であり、自身の著書「How to Create a Mind」の中で汎用人工知能の作り方を考察している。脳はパターン認識機であり、記憶されるパターンは3億ほどだとしている。カーツワイルはホーキンスの影響を受けているものの、新皮質の働きについては HTMではなく隠れマルコフモデル(HMM)を適用している。カーツワイルはNuance社において、Apple社のSiriに採用された音声認識装置を開発しており、HMMはその基礎技術として使用されている。他にもHMMは手書き文字認識やBio-Informaticsにも使用されている。HMMはDBN (Dynamic Bayesian Network)の一種であり、HTM理論との親和性も高い。HTMとHMMは共に時間列が重要である点において類似している。

ホーキンスは、時間列を扱える三種のアルゴリズム HTM, HMM, LSTM を比較しているが、3種の中でHTMが最も優れているとしている。

ホーキンスは2004年に出版した著書 “On Intelligence” (邦題「考える脳考えるコンピューター」) において、新皮質の働きに関するHTM理論の基本的な考えを示し、脳は “記憶-予測システム” であるとした。本の出版から10年以上経過した今でもこの仮説の本質は変わっていない。

ホーキンンスは新皮質の基本原理を明らかにし、それに基づいた機械知能を作ることを目的として Numenta を起こした。ここで言う知能機械を作るとは、人間を作ることでもロボットを作ることでもなく、言うなれば超人工知能を作る事である。さらに、究極の目的は宇宙の探求であると言う。

HTM理論は初期のゼータ1アルゴリズムに始まり、CLA (Cortical Learning Algorithm) アルゴリズムを経て、現在は Gen3アルゴリズムが研究されている。ゼータ1はホーキンスと当時学生であったディリープ・ジョージによるものである。これに続くCLAは神経科学の知見をより多く取り入れたものであるが、おそらくCLAへの路線変更に起因して、ジョージはNumentaを去りVicarious を起業した。Vicariousは莫大な投資資金を獲得し、2028年までは成果を発表しないと宣言し研究開発を進めている。

ホーキンスの新皮質に対する考え

ホーキンスは新皮質の働きについて重要な点をいくつか挙げている。第一に新皮質は構造的にも機能的にもほぼ一様であり、共通のアルゴリズムで動作していること。

第二に新皮質の階層構造とこれによる認識の不変性。これこそがHTM理論において最も重要な特徴である。階層構造についてはゼータ1には存在するが、CLAでは実装されていない。

第三に新皮質は時間系列を処理し常に予測を行っていること。視覚においてサッケード現象により常に眼球が動いているにも関わらず、脳が静止画像を認識できるのはこのためである。聴覚においても触覚においても時間変化が本質であり重要である。時間変化の情報をもとに脳は常に一瞬先を予想している。

第四に新皮質は常にオンライン学習を行っていることである。動物は常にオンライン学習をしており、CLAはこれを実装している。通常の深層学習は学習と推論フェーズが分かれているため、オンライン学習ではない。

コネクトームと新皮質内の情報の流れ

神経回路の接続関係の地図をコネクトームと呼ぶが、大きく分けて領野間を接続するマクロ・コネクトームと、領野内のニューロン間のシナプス結合を表すミクロ・コネクトームがある。ミクロ・コネクトームの方がマクロ・コネクトームと比較して圧倒的に密な接続である。

新皮質は6層構造を形成しており、階層内(横方向)はミクロ・コネクトームによる密結合であり、主に時間系列を処理する。階層間(縦方向)はマクロ・コネクトームによる疎結合であり、主に静的パターンを処理する。最下層では知覚の入力および筋肉への出力が行われ、最上層は意識あるいは論理的思考を司る。階層を上昇する情報はフィードフォワード(FF)あるいはボトムアップ、下降する情報はフィードバック(FB)あるいはトップダウンと呼ぶ。これらの情報の流れはベイジアンネットワークの性質として表現できる。

しかしながら通常の深層学習ではFBを扱っていない。深層学習におけるバック・プロパゲーションはFBとは別物である。実際の脳ではFB情報が重要であることが知られている。FF情報とFB情報は必ずしも対称的ではない。FB情報の方がむしろ多いくらいである。さらに重要なのは階層内からの情報である。下の階層からくる情報は全体の5-10%にすぎない。以下で述べるHTM理論では階層内の横からの情報は遷移確率のような時間的情報である。HTM理論において、ゼータ1ではFBを扱うがCLAでは扱えず、これはCLAの欠点である。

新皮質の6層構造間と領野間の情報の流れについても解明が進んでいる。新皮質への情報はまず４層に入り、そこから2/3層に送られる。さらに上の階層へは直接の経路と視床を経由する2種類がある。5層は運動を支配している。6層からはFBで１層に入る。CLAアルゴリズムでは4層と2/3層は実装されているが、5層と6層は実装されていない。

HTM理論の解説

HTM理論はその発展に伴い実装が異なる。Numentaの資料により初代のゼータ1 から CLA, Gen3, そして将来の Gen4 を含めた比較がなされている。以下ではゼータ1, CLA, Gen3 について説明する。

ゼータ1アルゴリズムの特徴として、教師なし学習、木構造の階層構造、上の階層ほど空間的・時間的に不変性が高いこと、バッチ学習、学習と推論フェーズの分離などが挙げられる。学習は階層ごとに行われ、階層を上がるに従い空間プーリングと時間プーリングにより空間的および時間的な不変性を高めていく。下層から上層へのFFだけでなく、上層から下層へのFBも実装されている。Vicarious ではゼータ1を発展させた Recursive Cortical Network 理論が実装され、これにより CAPTCHA を破ることに成功した。

CLAは神経科学の知見を取り込み、神経細胞の細胞体、基底樹状突起、遠隔樹状突起、尖端樹状突起、軸索などとモデルを対応付けている。新皮質の６層構造において情報は三方向から、すなわち下の階層、上の階層、同じ階層の横方向から入ってくるが、下からの入力は5％ほどで、残りの95％は上と横からの入力であることが知られている。CLAにおいては遠隔樹状突起を経由しての横方向からの入力を扱うことが、通常のニューラルネットワークの理論と異なっている。

CLAの主な特徴は、空間プーリング、時間プーリング、SDR (Sparse Distributed Representation, スパース表現) によるデータ表現である。空間プーリングとは、基底樹状突起が下層からのパターンを受け取ることで空間的静的パターンを認識し、予想状態のセルがあればそれが発火し、発火したシナプスの永続値の増加により学習することである。時間プーリングとは、遠隔樹状突起が階層内の他のニューロンとのシナプス結合により時間シーケンスを認識し、発火しておらずかつ遠隔樹状突起のシナプスと十分に結合しているセルを予想状態とし、予想に成功したシナプスの永続値の増加により学習することである。

SDR は、一つのパターンを多数のニューロン(コラム)のうちの複数のニューロン(コラム)で表現することで、豊富な表現力と頑強性を実現している。実際の脳ではSDRが採用されている。なお、これとは反対に一つのパターンを一つのニューロンで表現する方法は Point Neuron あるいは Localist 表現と呼ぶ。SDRの幾何学的表現は、基底樹状突起をHTM空間における短いベクトルとし、下の階層の長いベクトルを多数の短いベクトルの和として表現していると考えられる。これをSDRのハリネズミモデルと呼ぶことにした。このモデルの具体例として脳の集団符号化方式がある。

Gen3 は CLA の後継として Numenta が2014年より研究を進めているが、現状では論文が発表されておらずその詳細は明らかになっていない。CLA で実装されなかったFBについて改良を加えたものと考えられる。フィードバック情報は尖端樹状突起のシナプス経由での上の階層からの予想入力である。軸索からは情報を出力する。

脳とコンピュータの考察

コンピュータはCPUとメモリを持ち計算を行う。一方、大脳にCPUは無くすべてがメモリである。従って脳は、限られた加算や内積演算等を除けば一切の計算を行わず、記憶を想起することで動作している。カーツワイルの「100ステップ則」によれば、人間が何らかの事象に0.5秒程度で反応するまでに、脳はアセンブリ言語でたかだか100ステップに相当する計算しか実行していない。例えばキャッチボールの例を考えれば、コンピュータあるいはロボットと脳の動作の違いは明白である。

F. Byrne によれば脳は力学系のモデラーであり、外界の力学系の観測が脳内モデルを想起するとしている。また H. Markram によれば人は現実よりは脳内モデルを見ており、これが錯覚の起源とも考えられている。よって本当に人間に近い汎用人工知能は錯覚もするし偏見も持つであろう。

脳はベクトルの変換機であると考える。すなわち、脳への入力はベクトルの時間列であり、これが別のベクトル系列に圧縮されながら脳の領野の階層を上がることにより、より空間的に広く時間的に長い安定した不変表現に変換される。反対に脳の階層を降りてきたベクトルは筋肉を動かす命令になる。

脳の動作が速い理由は、脳には学習、経験、練習により獲得された3億とも言われている多数のパターンの時間系列が階層的に記憶されており、外部入力に対応し適切な解が想起され、それが筋肉を動かすためである。G.R. Rinkus は脳が高速に記憶を想起するしくみを量子計算的に説明できると主張している。

汎用人工知能の実現にむけて

ホーキンスによれば汎用人工知能の実現には生物学的方法、数学的方法、工学的方法 (GOFAI, Good Old Fashioned AI) がある。このうち脳を模倣する生物学的方法が有望であり、他の方法は効果的でないとされている。

汎用人工知能を粒度により分類すれば、粗粒度(抽象的)なものに GOFAI や Watson、中粒度に HTM/Zeta1, BESOM, HMM、細粒度に深層学習、HTM/CLA, スパイキング・ニューロン、超細粒度にはHBP (欧州のヒト脳プロジェクト) の脳シミュレーションを当てはめることが出来よう。現状ではどれが優れているかは分からない。どれがより効果的かという問題である。

汎用人工知能を実現する方法として、生物学的方法を探るボトムアップ手法と、機能的方法を探るトップダウン手法が考えられるが。これに関してもどれが優れているかではなく、どれが最も早く目標を達成するかである。

よく「人工知能に愛はありますか」あるいは「共感が大切だと思います」などの質問を受けるが、ボトムアップで研究を進める立場においては現状で答えは無い。トップダウンの立場であれば何か答えられるかも知れない。

改めて脳の階層構造を見ると、最下層から順に脊髄、脳幹、中脳、大脳新皮質、海馬と並んでいる。当初ホーキンスは海馬の役割を理解していなかったが、階層の最上位に置けば良いことに気づいた。将来的にはHTM理論に海馬が追加されると言う。

汎用人工知能の実現へ向けては世界で大競争が展開されており、Goolge DeepMind, Vicarious, IBM Cortical Learning Center、全脳アーキテクチャなどを始めとし、OpenCog, GoodAI, nnaisense, IBM SyNAPSE などが凌ぎを削っている。

質疑応答

Q1: SDR表現において、ベクトル変換によって非常に多数の異なるベクトルが発生してしまう可能性は無いのか。
A1: その心配は必要無い。ベクトルは全体の平均値として一つの事象を表す。

Q2: 脳は力学系のモデラーということだが、概念間の関係など必ずしも力学系的な表現に適していないものはどう扱われるのか。
A2: 答えは分からない。例えば愛をどう表現するかなどがその様な例に当たる。

Q3: 空間パターンは理解出来たが、時間パターンとは時空間パターンの様なものか。
A3: そうではなく、人間はあらゆるものを時間のシーケンスに従って記憶しているということ。例えばアルファベットを初めから言うのは簡単だが、終わりから逆順に言うことは練習をしていなければ難しい。

Q4: HTM理論に基づいてロボットや発話の実験などはされているのか。
A4: されていない。

Q5: ホーキンスの“On Intelligence”では海馬を介しての情報処理であったと記憶している。本日紹介されたHTMでは特定の領野や階層内での処理だと理解しているが、それらの使い分けなどはあるのか。
A5: 海馬については将来の計画である。領野間については現在のCLAでは実現しておらず、ひとつの領野の階層間を対象としている。

４．WBAI創設賛助会員プレゼンテーション (株式会社Nextremer 古川朋裕氏)

「機械学習には本当に大量のデータが必要か？」というテーマでの講演。WBAI創設賛助会員・特別賛助会員による５分間の講演枠。

５．サル高次視覚野における物体像の表現とそのダイナミクス (理化学研究所脳科学総合研究センター谷藤学氏)

発表資料：「サル高次視覚野における物体像の表現とそのダイナミクス」

概要

講演の前半では高次視覚野に於ける物体表現がコラムを機能単位とする分散的な物である事、そしてコラムが反応する視覚特徴を求める試みが紹介された。

後半では CNN との類似点と相違点を挙げ、脳の物体表現がスパースである事から「注意」による物体表現のダイナミクスへの取り組みが取り上げられた。

以下に講演者による要旨を掲載する。

— 私たちが目にする物体像には視点、向き、自然な形状の変化などによって様々な「見え」がある。同じ人物の正面の顔と側面の顔のように、同じ物体でも画像としては全く異なる場合すらある。それにも関わらず、私たちが不変的に物体を認識することができるのは、脳の「物体表現空間」の中で、同じ物体像であれば近いところに、違う物体像は離れて表現されているからだと考えるのは自然であろう。この空間を構成する各軸は、高次視覚野の細胞が物体像から検出している視覚特徴である。その視覚特徴を決めることが、不変的な物体認識に本質的である。

福島邦彦のネオコグニトロンに起源をもつ Deep Convolutional Neural Network (DCNN) は、物体像のカテゴリ弁別に優れたネットワークとして着目されている (Krizhevsky, et al., 2012)。DCNN の物体表現層の特性は、脳の「物体表現空間」に対応するのかもしれない。実際、DCNN の物体表現層の反応特性とサル高次視覚野の細胞の物体像に対する反応特性との間には高い相関があるという報告もある (Yamins, et al., 2014)。しかし、このような見かけの類似性から DCNN は脳のよいモデルになっていると考えてよいのだろうか？現在の DCNN は自然画像の持つ統計的な性質に基づくスタティックなパターン分類である。これに対して、ヒトの物体認識は目的に応じてダイナミックに変化するプロセスであるように思われる。たとえば、ヒトの物体認識には空間的な注意は重要な役割を果たしている。私たちは、注意をあちこちに向けることで様々な物体が混在する自然画像の中で目標となる物体を探索する。また、注意を向けている場所にある物体像は、注意を向けていない場所の物体像と比較して容易に検出できることも心理学実験により示されている (Posner, 1980)。DCNN とは違って、霊長類の視覚情報処理はダイナミックで、脳の「物体表現空間」における物体像の表現もまた目的に応じて変化するのでないだろうか。私たちは、特に、空間的な注意に着目し、それが、高次視覚野の細胞の特性に与える影響について研究している —

背景

カリカチュアや縦横比を変えた絵を見て同一人物と認知できる「不変的な視覚」は視覚研究の大きな課題となっている。よく取り上げられる題材が View Invariance と言う問題である。異なる人物を同じ方向から見た view は同じ人物を異なる方向から見た view よりも図形としては近いが間違えずに人物を特定できる。

1980年代までは一つのニューロンが色々な view に応じるのではないかという「おばあさん細胞仮説」(gnostic cell hypothesis) に基づいて研究が行われたが今では否定されている。最近は網膜上で分散的に表現されている物体が高次視覚野でも分散的に表現されていると考えられるようになった。網膜上で分散的であるとは画素数の次元を持つ多次元空間に於いてベクトルで表されると言う事を意味する。異なる人物でも view が同じなら距離が近く同一人物でも view が違うと距離は遠い。これに対して高次視覚野では同一人物の様々な view が何らかの特徴軸で張られた多次元空間に於いて多様体を形作り、異なる人物の多様体と区別が可能であると考える。

以上を踏まえた上で以下の順に研究内容の紹介が行われた。

1. 高次視覚野の機能構造 … 高次視覚野に於いて、多次元空間を構成する各軸に相当する機能の単位は何か
2. 機能単位が表現する視覚特徴 … 高次視覚野に於いて、物体像から個々の機能単位が検出している特徴は何か。
3. 物体表現のダイナミクス … 物体表現がダイナミックに動く事、ＤＣＮＮと脳における階層的物体像の処理の相違点

高次視覚野の機能構造

高次視覚野の神経細胞一つ一つがどういうものに反応するかという研究が1980年代後半から1990年代に盛んに行われ Keiji Tanaka は虎の頭に応じるニューロンは虎の頭そのものではなく虎の頭に含まれている中程度に複雑な視覚特徴に応じている事を明らかにした。さらに同じ表面位置で深さ方向が異なる位置にあるニューロンは同じ視覚特徴に応じる事、横方向に500umほど離れたニューロンは違う視覚特徴に応じる事を見つけ、コラムが機能単位となり得る事を示した（コラム仮説）。

その後、コラム仮説には二つの問題が指摘された。一つは視覚特徴の抽出が属人的で、結果に主観的なバイアスがあるという可能性を排除できない事。もう一つは fMRI で顔に対する反応を観察したところ、高次視覚野の物体表現が分散的ではなくある特定の領域に集まっているという結果が得られた事。

この問題に取り組むために光計測を用いて100個の物体像に対する反応を調べる事を行った。光計測は空間分解能が高いので複数のスポット状の反応が得られる。一つ一つのスポットはコラムに対応すると考えられる。次にそれぞれのスポットから、数十個の細胞の物体像に対する応答を記録する。こうして得られた100個の物体像に対する応答を分析した結果、各スポットは、個々の物体像に対して選択性のばらつきはあるが、100個の物体像に対する応答には一定の傾向（共通の反応特性）があって、その傾向はスポット毎に違う事がわかった。また、隣接するスポット間で、その間の距離が500umを超えると、その傾向は全く異なっていた。このことは、コラム仮説を支持している。

さらに fMRI で顔に特定の領域が反応する問題を解くために fMRI の観測範囲をカバーするところまで拡げた領域で顔や食べ物など7種類からなる104枚の視覚刺激画像を使い光計測による観測を行った。サイト間での反応性の違いを評価するために、サイト間での104個の物体像に対する応答の相関係数を求める。得られた39個のサイトの反応に対してサイト間の藩王類似度の距離 (1 – 相関係数) を求め階層的クラスタリングを行うとサイトは7個のクラスターに分類された。これを皮質上にマッピングすると同じクラスターに属するサイトは皮質上でも近い位置にいてドメインを形成しており fMRI による測定を支持する結果となったが、同じドメインに属するサイトでも選択性には違いがある。例えば顔に反応するドメインに属するサイトでもヒトよりサルに強く反応するサイト、逆のサイト、同程度のサイトが存在する。

まとめ
・単一細胞には固有の反応特性とコラムの中の細胞で共有する特性を持つ
・顔のような物体カテゴリに関係する視覚特徴に関係するコラムは皮質上に集まってドメインを作っている
・物体表現は細胞、コラム、ドメインのように階層的である

機能単位が表現する視覚特徴

コラムが反応する視覚特徴を求めるため、複数のコラムが反応する物体像からパーツを除いていくと反応するコラムが減っていく事から「コラムが符号化している視覚特徴に近いものは自然画像のどこかに見つかるはずだ」という仮定を立て検証を行った。

画像情報が一次視覚野を経由する時には局所的な方位が検出される事から、7753枚の自然画像から56万個の画像断片を切り出すと言う事を行い、これらの画像断片から前述の104個の視覚刺激画像に対する仮想的な視覚応答を計算する。計算値と実測値の相関を取ると非常に高い相関係数を示す画像断片を基底関数という形で見つける事が出来た。色についても同様の結果が得られた。

まとめ
・コラムで表現されている視覚特徴は局所的な方位と色の組み合わせ
・高次視覚野の不変的な物体認識はこれらの視覚特徴を積み上げる事で実現されているのではないか

物体表現のダイナミクス

DCNN が視野の周辺にある物体を認識できるのはプーリングを重ねるにつれて受容野が大きくなるからである。

人間の場合、例えば「ウォーリーを探せ」では視線を動かし最も解像度の高い網膜の中心で分析する。これは心理学的には「注意」の移動である。

網膜に入ってくる視覚情報は絶えず更新されており高次視覚野に於ける情報表現もダイナミックに変わっているはずである。実際、注意がある方向に偏っている時はそれによって高次視覚野の応答も変化する事が実験によって示された。

まとめ
・高次視覚野に於ける物体表現は DCNN ではスタティックであるが脳はダイナミック
・高次視覚野に於ける物体表現は DCNN ではデンスであるが脳はスパース
・物体像が視野の中心にある時に処理する DCNN と物体像の位置を検出して視野を移動させるための DCNN を相互に結合させると脳のスパース性に近い性質を持つかも知れない

補足

「物体表現のダイナミクス」は講演最後の項目と言う事で説明が短時間であったため理解を補助する目的で講演者によるまとめも掲載しておく。

— ここで紹介した Deep convolutional Neural Network (Alex Net) は脳における視覚情報処理の過程と似ている部分もありますが、同じではありません。特に、Alex Net が静的なネットワークであるのに対し、脳における視覚情報処理はダイナミックなプロセスで、物体像の表現もダイナミックに変化します。私の研究室では、実際、注意によって、物体像に対する反応が変化することを見出しました。

脳における物体像の表現はスパースです。すなわち、高々100個程度の数のコラムを使って、個々の物体像が表現されている。AlexNet との関係を考える上で、物体像の表現はスパースかどうか？もし、そうでないとすれば、なぜスパースにならないのか？一つのカギは情報表現が静的であることが関係しているかもしれません。例えば、「注意によって」ターゲットに目を向けることによって、位置による不変性をネットワークで実現する必要がなくなります。それが、表現のスパース性に関係しているかもしれません。

脳により近いネットワークは、注意の対象を視野の中で見つけるための分解能の粗いネットワークと視野の中心にある物体像を同定する分解能の高いネットワークの二つのネットワークが相互の結合したものかもしれない —

６．パネルディスカッション「コネクトームはなぜ知能を創発できるのか？」

発表資料：「コネクトームはなぜ知能を創発できるのか？」

要旨

物体像の認識モデルには様々なものがあるがスパースモデルが妥当であると思われる。またディープネットについては注意システムに関わるセイリエンスモデルを組み込むことで処理速度の向上が図られると思われる。今後、人工知能開発をさらに発展させるためにもエンジニアと神経生理学者がともに議論していくことが重要である。

パネリスト：
神戸大学名誉教授松田卓也氏
理研脳科学研究センター谷藤学氏
産総研人工知能センター一杉裕志氏
モデレータ：
パナソニック先端研究本部森川幸治氏

森川：会場から今日の話で何か質問はありますか？

会場：松田先生と谷藤先生のお話の中には物体像の表現がスパースであるという点で共通なものを感じたのだがその点についてはどうか
谷藤：たしかに同じ現象を異なる言葉で説明しているのかもしれない。物体像の認識処理がスパースであることは様々な研究から示されている。局所理論、デンス理論はそれぞれ問題がある。その意味ではスパース理論が妥当であると思う。
松田：私もスパースというのは計算論的にも妥当だと思う。

会場：CNNとの関連についてはどう考えるか。
谷藤：セイリエンスマップモデルとディープネットを組み合わせることで処理速度の向上を図ることはできると思う。ただこのセイリエンスマップモデルには低次のものと高次のものがある。低次のものは色や大きさ、動きなどで突出した要素を検出するもの、それに対して高次のものはある画像の中に埋め込まれた顔のようなものを検出するもの。この高次のセイリエンスマップモデルとディープネットを組み合わせることで有意義な結果を出せるのではないかと考えている。

森川：何か他にあればお話をお願いします。
谷藤：ディープネットを使ってみようという話は非常に多いが、これを商品化するということはなかなか聞かない。これには、なぜディープネットがうまくいくかがよく分かっていないということがあるのではないか。今後次のステップに進むためにはヒトとディープネットが似ているという立場ではなく、どう異なるかという観点で見ることが大事なると思う。エンジニアと神経生理学者がともに議論することで新たなステップが切り開かれると思う。

森川：今後の展望についてお話をお願いします。
松田：HTM理論でいけると思うし、今後計算パワーがついてくれば5年から10年で形になるのではないかと思う。
一杉：地道に研究を進めてある程度動くものができればそこで一気に研究開発が進んでいくと思う。
谷藤：昨年神経科学者とディープネットの研究者が一緒に集まる機会があり、そこで福島先生とお話する機会があった。先生は以前神経科学者と工学者が一緒のチームで行うプロジェクトの中で、あのネオコグニトロンのモデルを思いついたとおっしゃっていた。こういった事例からも神経科学者と工学者による異文化の交流が大事だと思う。
松田：私も一杉先生の神経科学と機械学習の2つを学ばなければいけないという考え方に大きな影響を受けている。

森川：きれいに話がまとまりました（笑）。今日はありがとうございました。

謝辞

本レポート記事の作成は、WBAIボランティアスタッフを中心に行われました。心より感謝申し上げます。

生島高裕
吉岡英幸（株式会社ナレッジサイン）
上野聡
川村正春
佐藤洋平（オフィスワンダリングマインド）
山川宏（株式会社ドワンゴ人工知能研究所）