第16回全脳アーキテクチャ勉強会「人工知能は意味をどう獲得するのか」報告レポート

本記事は、2016年10月12日(水) にリクルートテクノロジーアカデミーホールにて開催されました、第16回全脳アーキテクチャ勉強会「人工知能は意味をどう獲得するのか」の報告書です。開催概要については下記のリンクをご覧下さい。

第16回全脳アーキテクチャ勉強会開催概要

本報告書の概要

全脳アーキテクチャでは，脳全体のアーキテクチャに学び，人間のような汎用人工知能を創ることを目指して活動を行っております．人間のような知能を目指す上で，他の動物の知能との大きな違いである言語を考えていくことは避けられません。

言語に関する知的な要素は，意味に関する知識をどのように獲得するか，文章を理解するための処理はどのように行われるかなど，多岐にわたります．そのため，今回の勉強会では，視覚情報から意味をどのようにとらえていくかに焦点を絞り，二人の識者に講演をお願いしました。

前半は，脳の中で行われる情報処理に着目し，大脳皮質において意味がどのように表現されるかについて，情報通信研究機構/大阪大学の西本伸志氏に講演をお願いしました。後半は，計算機の中で行われる情報処理に着目し，画像から意味を理解し言語化する処理が，現状でどのように行われているかについて，東京大学の牛久祥孝氏に講演をお願いしました。

１．全脳アーキテクチャハッカソンの報告（ドワンゴ人工知能研究所山川宏氏）

1)全脳アーキテクチャ開発部の紹介

まず，山川氏は，全脳アーキテクチャでは，オープンなAIエンジニア・コミュニティとして，全脳アーキテクチャ開発部について紹介された．開発部では，全脳アーキテクチャの開発を加速するために，LISやBriCAといったオープンな開発環境を整備している．また，全脳アーキテクチャの開発に向けた方向掲示を行っていき，研究者が研究を進めていく支援を行っていくことも考えられている．開発部は隔週水曜日に活動しており，人工知能開発に興味を持つ方を随時募集している．

2)全脳アーキテクチャハッカソンの概要

続いて，昨年度に続き開催された，第二回全脳アーキテクチャハッカソンの結果について報告された．今回は認知アーキテクチャをテーマに，11チームがエントリーしており，それぞれのチームは全脳アーキテクチャが提供する認知アーキテクチャのプロトタイプを元に，3日間の期間で開発を行った．最終日に成果発表を行った結果，4チームが人工知能学会30周年式典にノミネートされ，11月11日に成果を発表する権利を得た．

3)ハッカソンの開催を支える実行体制・メンター陣

今回のハッカソンは人工知能学会汎用人工知能研究会との共催であり，ドワンゴ人工知能研究所の協力の他に，スポンサー様として，株式会社ブレインコンサルティング様，ふるや総合会計事務所様，株式会社Nextremer様にご協力いただいた．さくらインターネット株式会社様からは高火力コンピューティングの提供をいただいた他，新学術領域研究における，人工知能と脳科学の対照と融合の研究領域や，文部科学省のポスト「京」萌芽的課題「全脳シミュレーションと脳型人工知能」からの後援もいただいた．全体の運営は全脳アーキテクチャ・イニシアチブとそのサポーターズによって運営された．
そして，開発作業を行う上で，各チームには創設賛助会員様や，後援者様を含む，強力なメンターが付いており，各チームの開発のサポートを行った．

4)ハッカソンの最終成果発表と審査

ハッカソンの最終日では，各チームの最終成果物が発表され，審査委員長である電気通信大学の栗原氏を中心とした審査の結果，4チームが人工知能学会30周年記念式典にノミネートされた．ノミネートされた4チームの主な成果物は，自由エネルギー理論とニューラルネットワークを組み合わせた探索問題を解くモデルや，脳の前頭前野に着目した抑制アーキテクチャ，転移学習を行うモデルや，PredNetを運転中の異常検知に応用したモデルなど，多様な成果物が制作された．これらのモデルは，30周年式典の中で，2次審査が行われ，最優秀賞が決定される．

2．視覚情報からの意味獲得 (国立情報学研究所市瀬龍太郎氏)

汎用人工知能「AGI」を創るためにはまず人間の知能とは何かを考えることが必要となる．しかし人間の知能には様々な側面があり，どのような要素から全体が成り立っているのかをとらえることが難しい．

この際，理論的背景となるのが，心理学で研究されている「CHCモデル」である．人間の知能を「コミュニケーション知識」，「推論」，「視覚処理」など，いくつかの因子に分け，それぞれの因子によって，人間の知能が構成されるとするモデルである．こうした因子により，外界から与えられた，「視覚情報」、「聴覚情報」が，エージェント内で処理される．そして，その処理の結果，動作が決定され，外界に働きかけが行われる．そのようなサイクルを通して，認知機構が働く．

人間レベルの汎用知能を作成するには，動物と人間の大きな違いとなる言語を考えていく必要がある．言語に関連する因子にも様々なものが存在するが，言語的な意味の学習方法・利用方法が汎用人工知能の作成のカギになるであろう．

言語的な意味と，視覚情報との関係は比較的研究が進んでいる．例えば，脳活動パターンから想定される概念と見ている物体の対応関係が解明されており，夢で見たイメージを画像として再現することができている．また，画像から文章を生成したり，文章から画像を生成したりする研究もある．
視覚情報からの意味獲得をそのような最近の研究から考えていくことが必要である．

3．ヒト大脳皮質における意味情報表現（NICT・大阪大学西本伸志氏）

1)研究の動機と実験手法

私達の自然な体験は複雑・多様かつダイナミックである．システム神経科学者の究極的な目標の一つに，自然で複雑な体験を支える脳機能を定量的に理解したい，ということがある．これはモデルを作るという点で人工知能技術とも関わりがあると考えている．
ヒトの自然な体験を支える脳内情報を定量的に理解するため，被験者に動画を見てもらい，脳活動をfMRI（機能的磁気共鳴画像装置）によって全脳（解像度例として2mm立方×数万点）,連続（2秒×数千点）で記録する実験を行なっている．知覚体験と脳活動の関係を知ることで脳の「言葉」を理解し，その関係を定量的に示す予測モデルを構築することが研究の目的である．
両者の関係を調べるためには2種類の方向性がある．一つは，知覚体験の中のどのような内容・特徴が脳活動として符号化されているかを調べる方法で，「エンコーディングモデル」と呼ばれる．もう一つは，逆に脳活動から知覚体験への関係を理解する．これは脳活動で符号化されたものを逆符号化するということで「デコーディングモデル」と呼ばれる．より具体的には、両者の関係を結ぶ中間情報表現（映像，意味，印象，記憶など）としてどのようなものが有効なのかを調べることも研究の重要な課題となっている．

2)初期視覚野における時空間情報表現

ヒト大脳皮質視覚野では階層的な情報処理が行なわれている．目から入った情報は最初に初期視覚野に伝達されて色，形，簡単な動きなど映像の情報が処理された後，高次視覚野で物体，印象など高次な情報が処理される．「具体から抽象」，「客観から主観」へと処理が進む．（なおこうした視覚情報の階層的な処理を模したのが深層学習と言える．）各段階の処理を具体的に知ることで，脳のモデル化，脳内情報の解読が進んで行くと考えている．
最初にモデルの具体例として，初期視覚野の脳活動を説明するために作った「単一ボクセル運動エネルギーモデル」を紹介する．モデルの入力は自然動画で，出力は脳活動，具体的にはある一つのボクセル（局所脳部位）の動画に対する応答時系列である．このモデルは，①動画の中の特定の視野の位置に特定の方向と速さの動きがあるかないかについての「運動エネルギーフィルタ」（6000個ほど）と，②「重み付き遅れ時間フィルタ」から構成されている．実験の結果，このような単純なモデルでもヒト初期視覚野の脳活動はある程度まで説明できることが確認された．次に，初期視覚野脳活動から脳活動からモデルを介して知覚体験を逆に再生してみたところ，「何となく対応関係がある」という程度には推定することができた．2011年の論文では実際に何かを見ている時の脳活動から知覚体験を推定したが，2015年にThomas Naselarisは，空想している時の脳活動にモデルを当てはめることで空想内容をデコーディングできる，具体的には空想することでGoogleの画像検索ができることを実証した．将来的には，頭の中で絵や動画をイメージするだけでGoogleが検索結果を返してくれるといったインターフェースが実現するかもしれない．

3)高次視覚野における意味空間情報表現

人は瞬時に多数のカテゴリーを知覚する．高次視覚野の一部は特定のカテゴリーに選択的な反応を示すことが知られる．有名なのはFFA（顔エリア），PPA（場所エリア）などである．ただ，数千のカテゴリーに全て特化した領域があるとは考え難い．より効率的にカテゴリーを表現する方法として，性質が似たものをそうでないものに比べてより近いものとして表現する「意味空間表現」という考え方がある．例えば，「犬」と「猫」は近く，「海」は遠い（犬と猫を見間違うことはあるが、猫と海を見間違うことはない）．そこで，①「カテゴリーフィルタ」（1700個）と②「重み付き遅れ時間フィルタ」による「カテゴリーモデル」を考え，脳内におけるカテゴリー間の表現類似度を定量化した．その結果，例えば脳は現代生物学を理解していないことが判明した．脳にとって「ヒトと動物」は「ヒトと乗り物」が違うくらいに全然違うものと思っているらしい．これはヒトと接する人工知能が持つべき世界観の「答え」として使えるのではないかと考えている．「正しい知識ではないけれども、脳にとって常識」である情報（例「ヒトは動物と違う」）を使えば，人工知能をよりヒトに親和性が高いものとすることに役立つ．しかも，これはルール・ベースで記述するのではなく，データ・ドリブンで実装することができる．さらに，実験結果を大脳皮質に投射することで意味空間情報表現の皮質分布を可視化してみた．これはGoogleで”Brain Viewer”と検索すれば見ることができる．ソースコードはGitHub：pycortexで公開している．
カテゴリーモデルで脳の表象の可視化・定量化することができたため，逆に脳活動からそのヒトの知覚している意味知覚内容を推定してみると，一定の精度で成功した．その面白い応用例には夢の内容推定がある（ATR/京都大学の神谷教授の研究）．これは我々の脳活動のデコーディングが客観的なものだけでなく，もう少し内発的・主観的な体験の情報を取り出すのにも役に立つことを示している．
また，認知タスクをさせた時の意味空間を調べた結果，意味空間は静的なものではなく，認知タスクに応じてワープする（ゆがむ）ことが明らかになった．具体的には，定常時（何もタスクをしていない時）の意味空間を定量した後，同じ人に同じ動画を見せて「人を探してください」「乗り物を探してください」といった探索タスクをしてもらった．その時の脳活動のモデル化を行なったところ，探索中の意味カテゴリーあるいは意味的な近傍をより多くの脳領域でコードするように意味空間がワープしたことが分かった．ヒトは脳の限られたリソースを柔軟に使っているようだ．

4)言語モデルと脳内情報表現

画像を自然言語で記述してもらうと非常に多様な答えが返ってくる．神経科学者としては，全ての知覚・認知表象は脳神経活動を反映したものであるためモデル化できると考えている．2013年に開発されたWord2vec（Skip-gram）を使い，単語から周辺単語を予測するような意味空間（単語のベクトル表現）をコーパス（Wikipediaのような大規模な文章）から学習してみた．この空間の持つ面白い特性として、直観的なアナロジーをベクトルの足し算・引き算によって（なぜか）実現することができる．具体例としては，英語Wikipediaコーパスを学習し，Kingに相当するベクトルからManに相当するベクトルを引いて、Womanに相当するベクトルを足し、一番近いベクトルを示す単語を数万語の中から選ぶと、Queenになる．同じように，ParisからFranceを引き，Germanを足すとBerlinになる．また，日本語Wikipediaコーパスでエビフライから名古屋を引き仙台を足すと牛タンになる．動画1秒ごとに5人の人にannotateしてもらい，それをSkip-gramでベクトルに転換してモデル化してみると，従来型言語表象モデルよりも良い成績を挙げた．Skip-gramは脳の情報処理の何らかの側面を捉えているのではないかと考えられる．

5)人工知能モデルと脳内情報表現

最近の人工知能の進歩で興味深いものとして，自動キャプション生成技術がある．一方，神経科学ではCNNの階層情報表現はヒト大脳皮質の階層情報表現に近いということが言われている．この2つをつなげると面白いのではないかと思われる．お茶の水女子大学の学生の松尾さんは脳活動から体験内容を文章として表現することに世界で初めて成功した．これは脳情報モデル化技術と人工知能技術の融合と言える．

6)今後の展望

我々の脳活動のモデル化技術では、一人一人の個体の脳について個別にモデル化できる．これを使って個性の脳機能的理解ができるのではないかと考えている．そのために，一卵性・二卵性双生児、統合失調症患者，芸術家など特殊な人に来てもらっている．そうした人たちに動画を見てもらい，意味空間を定量化することで，様々な課題についてなぜ違うのかを脳機能的に明らかにしたい．例えば，「氏か育ちか」（双生児），「疾患とはどういうことなのか」、「才能とはどういうことなのか」という点だ．将来的には効果的な情報伝達や教育に役立つのではないかと考える．
モデル化技術を高度化・詳細化しようとする試みも進んでいる．CiNetには7テスラMRI
という非常に高磁場のマシンがある．従来型は3テスラのもう少し低い磁場のもので，これはヒトの脳を2～3mm立方で撮るが，7テスラを使うと1mm，場合によってはサブmm以下の解像度で撮ることができる．より究極的なものとして，2光子Caイメージングでは細胞1個1個の活動を顕微鏡下で可視化することができる．それによって細胞単位の情報表現あるいは機能マップを可視化、理解したい．
想像することで意志を伝えるBMI（Brain-Machine Interface）にも我々の技術が使えると思う．意味空間の定量化やデコーディングが終わった被験者にもう一度来てもらい，何も見せていない時の想像の脳活動を解読する．予備的な結果ではあるが，想像のトピックくらいは当てられるようだ．将来的にはこれを高度化する，あるいは文章化の技術と重ね合わせることで，意思伝達を想像からできるようになるのではないかと考えている．

7)質疑応答

Q　意味空間は人によってどれくらい違うのか．一人を対象にして作ったモデルが他の人に応用できるのか．
A　意味空間は主要なところは大体一致しており，より細かいところで個人差がある。ただ，脳の形，大きさ，皺の寄り具合などが人によって違うという別の問題があるため，単純にAさんでモデルを作ったからBさんに適用できるという訳ではない．それでもある程度の対応関係の推定はできるため，トランスファーをする技術も別に開発されている．

4.「画像キャプションの自動生成」（東京大学　牛久祥孝氏）

発表資料：slideshare―　「画像キャプションの自動生成」

本セッションでは，「画像キャプションの自動生成」を実現させる技術の変遷を，深層学習の出現（コンテストにおけるTronto Univ. Hinton教授チームの優勝）以前と，以後とに期間を分けて，振り返りを行い，続いて，これまでの歴史を踏まえて，同技術技術現状の課題と今後，注目すべき先進テーマについて紹介がなされた．
以下，セッションで紹介された歴史の流れをまとめていく．

1）画像認識の起こり（草創期の研究）

草創期には，線画認識（[Clowes, 1971]）や知識ベース（[Ohta, 1985]等），モデルベース[Binford, 1971]) などがあった．

2）2000年代〜: 自然言語処理（統計的機械学習）に倣う動き

2000年代からは，自然言語処理（統計的機械学習）に倣う２つのアプローチとして，「領域ベース」と「局所特徴ベース」が登場した．
「領域ベース」は，自然言語処理のうち，ある言語から別の外国語への自動翻訳を行う技術である「機械翻訳」と呼ばれる領域で研究されてきた，２言語間の単語の対応関係を機械的に対応づける技術から発想を受けて，画像の各領域を、その画像に映っている物体を指し示す単語（ラベル）と対応づけるアプローである．
この分野の研究としては，”word-image-translation model”として，[Duygulu+, ECCV 2002]がある．
他方の「局所特徴ベース」は，画像どうしの似た局所特徴を，同一の単語で表される（ラベルづけできる）物体が映っている領域とみなすアプローチがあり，”Bag of Visual Worfds” モデル [Csurka+, 2004][Fei-Fei+Perona, CVPR 2005] がある．
このアプローチに，さらに，情報幾何学の観点を取り入れて精緻化を図ったものとして，[Perronnin+, ECCV, 2010]がある．
これら両アプローチは，しかし，切り取った画像の一部分をばらばらに単語に変換して，孤立した単語の集合を生成することしか実現できず，画像の各パーツから変換されたばらばらの単語を，画像に映る情景を説明する文を構成するように，単語どうしの意味関係を自動構成するには至らなかった。

3）画像キャプションの自動生成の始まり

画像キャプションを自動生成する試みとしては，あらかじめ用意された画像データベースを用いた，I2T[Yao+, Proc of the IEEE 2010] がある．しかし、この手法は、道路の監視カメラなど、ごく限られた領域のみで利用されるにとどまった．
機械学習の手法を用いて，① 新聞記事の文章と，② 記事に掲載された写真画像と ③ 写真の説明文（キャプション文）の組み合わせを学習用データとして，モデルに学習させ，新規の記事文章と画像データのペアを学習したモデルに入力することで，モデルの出力値として、キャプション文を得る方法が出現した。
この方法には，① 既存文を再利用するアプローチと，② 新規文を生成するアプローチがあり，その後，この分野での２大アプローチになった．新規に文を生成する後者のアプローチには，「主語＋動詞」などのテンプレートを使用する手法と，テンプレートに依拠しない手法に，さらに分けることができる．
これらの手法に共通する考え方は，（テンプレートを用いる、用いないの違いを超えて）キャプション文中の各位置にあてがう単語のもっともらしさを，単語ごとに定量スコア化して、各位置にあてはまる尤もらしさが高い単語をキャプション文中のその位置にあてはめるというものである．
この考え方もまた，自然言語処理の一分野である「機械翻訳」で長年研究され，培われてきた技術である．

4）既存のキャプションを再利用する

キャプション文を得たい画像に映っている「物体（object）」と「動作（action）」と「光景（scene）」の３つ組を，マルコフ確率場(Markov random field; MRF)で推定するアプローチとして、[Farhadi+, ECCV 2010]がある．

そのほか，既存の文を再利用するアプローチとしては，以下の様々な手法が提案されるに至っている．
・正準相関分析の利用 [Hodosh+, JAIR 2013] [Gong+, ECCV 2014]
・文章要約技術の応用 [Mason+Charniak, ACL 2014]
・係り受け木 + RNN [Socher+, TACL 2014]
・RCNNによる画像領域と係り受けの対応 [Karpathy+, NIPS 2014]
・分散表現によるリランキング [Yagcioglu, ACL 2015]
・WordNetのような意味的階層性をモデル化したCNN [Vendrov+, ICLR 2016]
このように，画像キャプションを自動生成させるアプローチについては，多くが提案されてきたが，ひとつ大きな問題があった．それは，学習データとしてモデルに与えられていない物体や情景，行動の組み合わせを含む新しい画像データが入力された場合，出力値として，その新規画像データを説明するキャプション文を得ることができない、という問題である．

5）新たなキャプションを生成するには

この問題を克服するため，以下にあげる複数の異なるアプローチが開発された．
・物体の名前，個数，位置関係を推定して羅列する方法 [Kulkarni+, CVPR 2011]
・ <物体，動作，光景＞ + 前置詞の学習 [Yang+, EMNLP 2011]
・物体検出、アトリビュート認識、動作認識 [Mitchel+, EACL 2012]
・既存文を組み合わせる [Ushiku+, ACM MM 2011]
・キーとなるフレーズを推定して組み合わせる [Ushiku+, ACMMM 2011]

6）深層学習の襲来

ILSVR (ImageNet Large Scale Visual Recognition Challenge) 2012 において，深層学習（ディープ・ラーニング, 畳み込みニューラル・ネットワーク CNN）を用いたHinton教授率いるトロント大学のチームが，画像認識精度で，２位以下に圧倒的な差をつけて優勝する出来事が起こり，一般物体認識の世界に激震が走った．
ディープ・ラーニングの研究では，自然言語処理の一分野である機械翻訳の領域で，対象文中の離れた位置にある単語どうしの意味関係を取り扱うために，LSTM(Longo short term memory)モデルが開発され，RNN(Recurrent neural network)モデルで問題となっていた，モデル学習時の誤差逆伝播過程でのいわゆる「勾配消失問題」を回避する方法が考案されていた（[Sutskever+, NIPS 2014]）．
文章を英語とフランス語の間で自動的に翻訳する機械翻訳モデルとしては，一例として，このLSTMモデルを４層連結させた深層ニューラルネットワークモデルが提案されてたりしていた．
画像自動キャプションの領域でも，機械翻訳で培われたこうした深層学習モデルが利用されるようになり，CNN（畳み込みニューラルネットワーク）とstacked LSTMを組み尾併せたLRCN（[Donahue+, CVPR 2015]）モデルや，CNNとBiderectional RNN（順方向と逆方向の両方向で対象データ深層学習）を組み合わせたVisual-Semantic Alignmentsモデル（[Karpathy+Fei-Fei, CVPR 2015]）などが提案されるようになった．
これら，深層学習を用いた画像キャプション技術と，深層学習以前の画像キャプション技術との間にある大きな違いは，後者（深層学習以前）は，画像をまず最初に，何らかの単語に変換してから，得られた単語どうしを組み合わせて画像キャプション文章を生成するアプローチであったのに対して，前者（深層学習以後）は，画像から自動抽出した特徴量から直接、画像キャプション文を生成するアプローチに切り替わった点である．
しかし，最近の研究になって，再び，画像から（画像に映る）事物を認識する工程をいったんCNNで行い，CNNで獲得した画像特徴量を，RNNで受け取って，画像キャプション文を生成する手法が，効率の面で上記より優れていることが見出されつつあり，アプローチとしては，深層学習出現以前の発想に再接近している状況がみられる．

7）今後の展望・派生研究の広がり

深層学習手法の登場により，画像それ自体の認識能力は，すでに人間並みの水準に到達している．ILSVRC 2015で行われた1,000クラスの画像認識問題では，誤り率が，RasNetモデルでは4%と，人間の5%の誤り率を上回る高い正解率を達成している．
このように，キャプション生成問題に，深層学習を単純に適用する時代は終わったといってよいのが現在の状況である．
今後は，画像に対するより細かいキャプション文の生成や，アルバムのような時系列で並べられた複数の画像セットに対するキャプション文の生成問題など，定性的により高度な問題設定に取り組む時代に入ろうとしている．

謝辞

本レポート記事の作成は、WBAIボランティアスタッフを中心に行われました。心より感謝申し上げます。

芦原佑太（株式会社クロスコンパス・インテリジェンス/電気通信大学大学院）
八島浩文（NTTレゾナント株式会社）