Blog

第2回WBAハッカソン活動報告

第2回全脳アーキテクチャハッカソンは、高度な自律性を目指すための「みんなで作る認知アーキテクチャ」をテーマに今年10月8日〜10日に開催されました(開催案内)(動画)。
11チームが参加し、「Accumulator model」、「Free Energ Principle」、「Predictive Coding」、「Continual learning」、「Deep Deterministic Policy Gradient」などの最先端研究の応用がありました。まさにみんなで論文、プラットフォームを探索し、なにか「すごい」「おもしろい」「脳っぽい」ものを目指しました。また、メンター、審査員の人たちも加わり、「利他的な行動が出てくる生命体全体のシステム」、「小脳制御の順逆モデル」、「系列学習からの意思の実装」、「他者モデルの紹介」、「マルチエージェント学習・アフォーダンス・メタ認知と身体知などの過去の知見の発展」などのコメントもあり大いに盛り上がりました。
最終的に、上位4チームが、人工知能学会30周年記念事業の一部として11月開催される人工知能学会合同研究会での二次審査にノミネートされ、受賞者「大澤チーム」には賞金が授与されました。(文責:生島高裕)

開催概要

  • 日程:2016年10月8日〜10日
  • 場所:慶應義塾大学日吉キャンパス(神奈川県横浜市)
  • 主催: NPO法人全脳アーキテクチャ・イニシアティブ (運営支援: WBAIサポータズ)
  • 共催: 人工知能学会汎用人工知能研究会
  • スポンサー:株式会社Nextremer、ふるや総合会計事務所、ブレインズコンサルティング
  • 協賛: さくらインターネット
  • 協力: ドワンゴ人工知能研究所
  • 後援: 新学術領域研究 人工知能と脳科学の対照と融合
  • 後援: 文部科学省 ポスト「京」萌芽的課題 「全脳シミュレーションと脳型人工知能」

参加チーム

大澤チーム:大澤正彦、島田大樹、芦原佑太 メンター:倉重宏樹 (電通大)
『Noh-Gazebo-ROS-Gymを統合した抑制型ブースティング』
最終形テーマ『Accumulatorモデルに基づく行動抑制型認知アーキテクチャASCA』
落合チーム:落合幸治、都築拓 メンター:高橋恒一(理研)
『Free EnergyによるAttention Control』
森本チーム:森本俊亨、大瀧貢 メンター:大羽成征 (京都大学)
『PredNetによる時系列異常検知』
最終形テーマ『「危険回避」認知アーキテクチャ』
野口チーム:野口裕貴 メンター:鈴木雅大(東京大学)
『複数のゲームにおけるcontinual learning』
名尾チーム:名尾尚利、金井 大、宮本 圭一郎、中 翔吾 メンター:中村政義 (ドワンゴ)
『超人工生命の生存と進化』
高橋チーム:高橋ともみ、高橋卓見、松尾星吾 メンター: 谷口忠大(立命館大学)
『エージェント同士のインタラクションによるランダムな地形上での戦闘の学習』
大政チーム:大政孝充、根本直幸、桑田純哉、坂井尚行 メンター:山川宏(ドワンゴ)
『過去×現在×未来 過去の記憶と未来の予測』
大戸チーム:大戸康紀、中 翔、川上徹、石井大輔 メンター:壹岐太一(nextremer)
『記憶』
加藤チーム:加藤卓馬、寺岡弘貴、中川翔太 メンター:荒井幸代(千葉大学)
『マルチエージェントの狩猟行動学習』
橋本チーム:橋本 裕 メンター:上野道彦(ドワンゴ)
『柴犬をバーチャルに表現』
下村チーム:下村拓滋、佐々木秀一、佐々木裕貴、佐藤宏喜 メンター:片野 康生
『カップとコップを正しく扱う』

個別解説

大澤チーム:
人工知能学会合同研究会二次審査受賞
二次審査ノミネート
すごい賞、脳っぽい賞

前頭前野のAccumulatorニューロンをモデル化し、モジュール全体を調停、外部から階層性を付与した「Accumulator モデル」を提案した。これを「Accumulatorモデルに基づく行動抑制型認知アーキテクチャ-ASCA-」として実装した。

脳の意思決定は、実行できる行動を列挙し、そのほとんどを抑制しており、とるべき行動に対して脱抑制を行っていると思われる。近年の強化学習意思決定の多くは単一モジュールでEnd-to-End Learningを使っており、抑制/脱脱抑制の考え方は一般的でない。そこで複数モジュールで抑制/脱抑制を用いた強化学習を提案した。抑制/脱抑制を担う代表的な脳領域は大脳基底核、前頭前野であるが、どちらかと言えば高レイヤーである前頭前野調停機能を中心に考えた。ある意思決定をする場合に、毎回その意思決定のための「証拠」を累積し、ある閾値を超えたら、その行動を実行するというアルゴリズムである。参考とした理論は、複数の脳部位にAccumulatorとして動作するニューロン [Mazurek-Shadlen 2003] [Hanks-Brody 2015]、自発的な運動の開始がAccumulatorモデルを用いてモデル化可能[Schurger-Dehaene 2012]、自発的な運動選択の開始部位は前頭前野のAccumulatorが関与[Soon-Haynes 2008]などである。

ASCAのサイクルは、最初に、環境からの1人称深度画像取得(認識モジュールへ)、深度画像から、特定のオブジェクトの座標認識(座標を反射モジュールへ:テンプレートマッチングを利用)を行い。次の、認識モジュール(Deep Q Networkを用いた行動選択)、反射モジュール(検出したオブジェクトに対してルールベースな行動選択)、静止モジュール(ランダムな行動選択 or 静止)の行動選択を並列に行う。そして、調停モジュール(Accumulator モデル)による行動決定を行う。ただし、接続されたモジュールの階層化を行っており、上位のモジュールが動作している際に、下位のすべてのモジュールを抑制する制御となっている。最終的に、調停モジュールが算出した移動速度の目標値をROSが自動的に制御信号に変換し環境に戻され、報酬信号は環境から認識モジュールへ送信される流れとなる。

実装に使用したソフトウエア環境は、Gazebo(動力学シミュレーションソフト:ROSとの連携に使用)、ROS(Robot Operating System:ロボット制御のためのライブラリ)、Noh(脳型認知アーキテクチャ学習プラットフォーム:環境とアーキテクチャを包括的に扱うソフトウェア)の3つを使用した。

会場からは、一般的に分散的状況にどう対応するかの歴史は長く、マルチエージェント系のアクティブラーニング、即応付けなど参考にすればよいのでは、とのコメントがあった。

発表資料:Accumulatorモデルに基づく行動抑制型認知アーキテクチャASCA

ソースコード
[1] ハッカソン: (https://github.com/iwawomaru/SAO)
[2] 30周年記念式典時: (https://github.com/iwawomaru/SUSANoh)

落合チーム:
二次審査ノミネート
すごい賞、Nextremer賞

K.Fristonの「Free Energy Principle」を環境中でのエージェント学習、行動を決めるた枠組みと捉え、エージェントは、自身のFree Energyを最小化するよう内部状態と、行動を決定すると言った原理を、ANN(Artificial Neural Network )として実装した。

強化学習に比べて、「Free Energ Principle」の良いところは、恣意的な報酬の作り込みがなく、広い範囲の現象に適用できることである。しかし、Friston による実装の問題点は単純な問題にしか適用できないところである。これをANNで実装することにより大規模かつ複雑な問題に適用できると考えた。また、Variational Autoencoder(VAE)は変分ベイズをニューラルネットで表現したものであり、変分ベイズではFree Energyを最小化している。従って、Free Energyを内部パラメータ調節で最小化するNetwork(=Variational Autoencoder)と考えてActive InferenceをVAEに追加することとした。このことによって、Free Energyを最小化する動きを生成する。

具体的には、視線移動課題を解くエージェントを実装した。環境をMNIST画像を並べた空間(トーラス状に回り込み )とし、ピクセル単位の移動で環境から画像が得られる仕組みとし、エージェントはVAE+行動生成器で実装した。結果は、学習が進むと視線移動が停止するといった現象になった。この問題を解決するために、ハッカソン終了後、探索行動をとらすためにEpistemic Valueを検討し、マルチモーダルVAEにサンプルを学習させ、学習済みのマルチモーダルVAEの隠れ層を使いEpistemic Valueを計算することとした。環境の中で観測する価値の高い場所で高い値を取ることを確認した。

発表資料:Free EnergyによるAttention Control

森本チーム:
二次審査ノミネート
おもろい賞

「危険回避」認知アーキテクチャ仮説のモジュールとしてPredictive Codingが有用であると判断し、モデル化したアルゴリズムPredNetを使って、脳機能をモデル化できるのか検証した。具体的には、逆走車の異常値検知実験を行った。

人間の知能とは、「外界からの刺激に対して、反応する決定機構」であり、認知アーキテクチャとは、そのような人間の知能をモデル化したものである。まず、ネズミレベルの認知アーキテクチャを目指し、そのための課題を「危険回避」とした。危険とは、罰則が与えられた状態を指し、恐怖とは、危険が起こると予測した際に生じる感情を指す。そして、恐怖には低位経路と高位経路が存在しその違いは、感覚皮質を通るか否かである。引用: J. LeDoux(1998) 『The Emotional Brain 』
次に、「恐怖」は「感情」であることから、感情の定義として、「行動決定のための価値計算システムである」あるを採用した。引用: 戸田(1992) 『感情-人を動かしている適応プログラム』
そして、認知アーキテクチャとして、刺激から感覚視床、感覚皮質|扁桃体or前頭葉、側坐核への流れを考え予測器を考案した。予測器とは、刺激から、予測できない場合「危険であると判断できない」、予測できる場合「危険か否か判断できる」としてPredNetを採用した。引用: 大森(2016) 『感情の価値システムとしてのモデル化の試み』

Predictive Codingは脳の機能に関する仮説で、フィードバック結合は、下位レベルの神経活動の予測値を伝達し、フィードフォワード結合は、予測値と実際の活動の誤差を伝達するといったものである。引用: 銅谷(2005)『脳の計算機構』、William (2016) 『Deep Predictive Coding Networks for Video Prediction and Unsupervised Learning 』

PredNetによる特定の物体を対象とした異常値検知の検証としては、予測誤差が閾値θを超えた時点を『異常』と定義し、逆走車の異常値検知を行った。セグメンテーション、Attentionを考え、逆走車の異常値を検出するタスクを設定、具体的には道路の学習による背景記憶、車+道路の学習からの車の変化記憶を行い、逆走車の動画でテストした。結果としては、異常値を適切に検出することができたが、本来異常ではない状況を異常とみなしている場合もあった。

発表資料:「危険回避」認知アーキテクチャ

野口チーム:
二次審査ノミネート
おもろい賞

過去の獲得した表現・知識を保持し、新しいタスクに利用する認知アーキテクチャとして、「continual learning」をベースにした。強化学習モデルとしては、A3C(Asynchronous Advantage Actor Critic)を使い、そして、「continual learning」を行う手法としてPNN(Progressive Neural Networks)を実装した。

汎用人工知能には過去獲得した知識を再利する力が必要である。強化学習は深層学習の柔軟な表現学習能力で大きく進歩しているが、しかしまだ十分に学習できないことが沢山ある。典型的なニューラルネットワークは新しいことを学習すると過去を忘れる「破壊的干渉」が存在している。人間は大事な知識や記憶をある程度忘れないで、新たな情報を既存の知識と結びつけることができ、 それにより学習が速くなる(転移学習)が行なえている。これを実現するために、A3CとPNNを使用した。

ハッカソンではLisを利用し、★仮想環境で複数のゲームで遊ばせる(強化学習)知識の再利用を行うPNNを実装し、それとベースラインの学習速さを比較することを行い、比較と観察を通し、「continual learning」の有効性を示した。A3CはActor-Critic法で、複数のエージェントを並列に動かし学習する。experience replayが必要なくなり、DQNより良い結果が出てる。今回は8個のエージェントを並列実行した。PNNはタスクが増えるたびにカラムを追加する方法で、過去に学習した知識が失われない、新しいタスクにその知識を使えるといった利点はあるが、タスクが増えるほどパラメータが増える、カラムを追加するタイミングが決まっているなどの欠点もある。

実験結果は、一つだけのゲームを学習したモデルよりも、 過去の経験から獲得した知識を再利用するモデル方が学習が速いことを示した。

参考文献
[1] A3C: (https://arxiv.org/abs/1602.01783)
[2] PNN: Progressive Neural Networks (https://arxiv.org/abs/1606.04671)

発表資料:複数のゲームにおけるcontinual learning

ソースコード
[1] (https://github.com/seann999/progressive_a3c)

名尾チーム:
ふるや総合会計事務所WBA特別賞

外部環境および自分の状態、不規則に受ける力の影響を認知し、環境に適応する外形と行動を学習することができる超人工生命を作成した。アーキテクチャの行動の学習はDQNの代わりにActor-critic DDPG (Deep Deterministic Policy Gradient)を使い、環境適応の学習はServer側にGAを置いて実行した。

新しい行動を学習したいという課題を検討すると、DQNだとdiscrete and low-dimensional action spacesのみ可能と知り、「CONTINUOUS CONTROL WITH DEEP REINFORCEM ENT LEARNING」の論文や AlphaGOの話からContinuous and high-dimensional action spacesを可能とするActor-critic DDPGを検証した。検証環境はエージェント1体で、LISサンプルにDQNだけ変えてリワードが増えているのかを見た。動きのバリエーションは増えても学習されていることが検証された。次のテーマはエージェントに環境を適応させることでここでは遺伝的アルゴリズム (GA)を使った。エージェントの形状が進化し、生存の確率が高くなり、結果として、報酬が高くなることを期待した。

GAの入力は遺伝子として個体数分のscale(X,Y,Z)、評価値としてReward、出力はGA操作による遺伝子とした。GAの遺伝子操作としては、評価値による選択、選択された遺伝子の交叉、突然変異、新しい個体の生成・入れ替えとした。また地形からの制約では不十分であったため、戦闘要素の追加、すなわち、エージェント同士衝突した場合、大エージェントは小エージェントに対してダメージを与えるというルールも導入した。

会場からは、今後の方向性としては、利他的な行動が出て来て、生命体全体のシステムとしての妥当性が検討されると面白いのではないかというコメントがあった。

参考文献
[1] 人工知能のための哲学塾
[2] 強化学習 Reinforcement Learing
[3] CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LE ARNING :
(https://arxiv.org/pdf/1509.02971v5.pdf)
[4] 地産地消型電力ネットワークの為の Natural Actor-Criticを用いた自動取引エージェントの構築

発表資料:複超人工生命の生存と進化

ソースコード
[1] (https://github.com/nao0811ta/AILifeWorld)

高橋チーム:
ブレインズコンサルティング賞、敢闘賞

複数の戦車型エージェント同士で対戦・学習を繰り返す認知アーキテクチャを考えた。人から見て見応えのある機械っぽくない戦闘を目指した。脳っぽさ、人っぽさとは何かを直感したくてこのテーマにした。

構成要素は戦車エージェント4つ、アイテム(これを取ると戦闘が優位になる)、障害物10個(6×6の升目上にランダムに10個配置) である。戦車エージェントの行動は、何もしない、前進、後退、左回転、右回転、通常砲撃、特殊砲撃 (アイテム取得時のみ可)の7つで、ルールは戦車型エージェントが通常砲撃3回命中で破壊、特殊砲撃1回命中で破壊、ゲーム終了の条件は最後に一つだけ残ったら終了もしくはタイムアウトである。報酬は、プラスの報酬が、敵に通常砲撃を当てる、敵に特殊砲撃を当てる、敵を撃破する、アイテムを取得するの4パターン、マイナスの報酬は敵からの砲撃を受ける(通常/特殊 同じ値)、敵により撃破されるの2パターンとした。

実験は、戦車エージェント学習前でエージェント3体と人間操作エージェントが戦う場合、戦車エージェント学習でエージェント3体で学習する場合、学習後エージェント3体と人間操作エージェントが戦う場合を行った。結果は人間操作エージェントの勝利となった。戦車エージェント学習時間は4時間程度であった。

実際に動いているシステムということでブレインズコンサルティング賞を受賞した。
会場からは、人間操作エージェントの真似を戦車エージェントできれば面白いのではとか、リワードの工夫、逆強化学習(この場合で説明すると、人間の動きから、どういう報酬空間を持っているか推定する問題)を検討してみればよいのではなどのコメントがあった。

発表資料:エージェント同士のインタラクションによるランダムな地形上での戦闘の学習

ソースコード
[1] (https://github.com/MatsuoSeigo/TankDqn)

大政チーム:
敢闘賞

「過去×現在×未来 過去の記憶と未来の予測」というテーマ名で、記憶+予測で報酬を与えるようにして行動を学習する認知アーキテクチャを提案した。LIS-ver2モデルを改良して、Unityから来た画像データを予測ストリーム(PredNet+AlexNet)と記憶ストリーム(AlexNet+メモリユニット)並列に入れ、最後にマージして学習するシステムとした。

予測の流れとしては、PredNetへ現在の画像を入力し予測画をAlexNetへ出力、AlexNetの出力から予測画の特徴を抽出してfully-connectedモジュールへ入力という形をとった。また、記憶の流れとしては、AlexNetへ現在の画像を入力し、AlexNet出力の現在の特徴量をメモリユニットへ格納し、その後fully-connectedモジュールへ入力という形をとった。今回、記憶ユニットで使ったものは、MQNである。概要としては、過去のimageのencodeデータと、過去のimageからのencodeされたkey情報を蓄積し、key情報と現在のcontexからkeyを作成し、keyを使って引き出す過去の情報を選別、現在の情報と、過去の情報を流すシステムである。

時間の関係で予測ストリームしか実装できなかったのは残念である。

会場からも指摘があったが、今後は、記憶ユニット改善を考えており、LSTMとfeedbackを加えてFRMQNにする予定である。また、記憶、予測の話から系列学習と考えられるのではとコメントがありどうなって欲しいかの意思などが実現できると面白い、自分の行動も予測に入れる、自分が適切な動きをしたときだけPredNetが学習するようにする、予測するための原動力(目的意識)が欲しいなど重要なコメントが多数あった。

参考文献
[1] ディープラーニングの最新動向 FRMQN
(http://www.slideshare.net/ssuser07aa33/the-introduction-to-frmqn-model)
[2] Control of Memory, Active Perception, and Action in Minecraft
(https://arxiv.org/pdf/1605.09128v1.pdf)

発表資料:過去×現在×未来 過去の記憶と未来の予測

大戸チーム:
敢闘賞

生物に学ぶということを最初に考え、エピソードの因果関係を記憶し、記憶した因果関係を用いて行動するアーキテクチャを作成した。具体的には脱出ゲームを考えた。

環境は、LISが小惑星に閉じ込められており、ドアの前に立つとドアが開く、ドアを通って外に出たらOKといくことで、その時報酬を与えるというシンプルなものとした。
戦略は、「赤ちゃんに学ぶ」という方針で、赤ちゃんは外部環境を学んでおり、「経験を基に内部モデルを作る」、「実環境が内部モデルと異なると興味を持つ」を実現している。それを真似て、LIS戦略は、環境を記憶し、自分のいる環境のモデルを内部に作り、実環境と自分の持つ環境モデルを比較し、予想と同じならば通常行動、予想と異なるなら興味を持って行動変化するとした。

具体的には、内部モデル(環境入力から内部モデルとの差分が小さくなるように学習)を構築し、行動に伴う環境変化を内部モデルから予想し、予想と同じなら通常探査行動(右回転、左回転、進む)、予想と異なるなら興味を持つ(ドアが開くことによる環境の変化、環境変化を認識することによる行動変化)ようにした。行動変化は、「右回転、左回転」では、向きに呼応して内部モデルと外部環境の差が変化し外部環境の差が大きい場合の歩幅を大きくするというように実装し、「進む」では、ドアに向かって進む傾向が生じたなら、ドアを抜けて脱出となるように実装した。ソフトウエア階層構造は、Brain、LIS Client、環境(Unity)とした。

モデルは、LISオリジナル、LIS+記憶、LIS+興味、LIS+記憶+興味の4つを構築した。LISオリジナルは、環境入力をCNNで特徴ベクトルへ変換する、LISの行動(左右回転、進む)を決定する、環境内でLISを動かすの、CNN、Liner、Actionの流れとし、LIS+記憶では、LSTMにより内部状態を記憶する、ドアを開くスイッチとドアを通過を関連付けるために論文[Deep Recurrent Q-Learning for Partially Observable MDPs]を参考にして、LSTMを付け加えた。LIS+興味では、実行環境と内部モデルを比較する、内部モデルとの差(時刻tの予想結果と時刻t+1の予想結果の差)が大きいとき行動を変化させる。LIS+記憶+興味では、興味モデルにもLSTMを追加した。
実験結果は、LISオリジナルは、「ドアを開けるスイッチにこだわり、ドアを通過するまでのギャップを超えられない」、LIS+記憶は、「ドアを開けて直進、ドア抜けするようになった、しかし、斜めから侵入した時、壁に突っ込んでしまうことが多い」、LIS+興味は、「ドアを開けるまで探索し、ドアを開けると外へ出、外へ行くと興味度が急上昇した」、LIS+記憶+興味は、「資源の関係で、環境を学習しているように見えたが、脱出までは計算できなかった」といった結果となった。
今後の課題としては、各種ハイパーパラメータの調整、学習を進化の形で行うということを、遺伝的アルゴリズムを使って試すことを検討している。

発表資料:記憶

加藤チーム:
敢闘賞

狩猟行動を考えたとき捕まえるべき対象が動くと考えた時、おそらく1人では捕まえられないので2人で協力して追いかけることを考えた、それがマルチエージェントの狩猟行動学習の認知アーキテクチャ提案になった。

環境は、「エージェントは餌に近づくことで報酬を得る」、「餌はエージェントに対して逃げるような動作をとる」、「エージェントを複数にすることで餌を2匹で追い詰めるような動きを学習することを目標とする(協調行動の学習)」とした。餌の移動については、ランダムに進行方向を定め、エージェントに近づくと、進行方向を変更するようにした。

実験結果は、一匹で餌を追うと、バナナを追うゴリラのように、なかなか捕まえられなく、学習が進まないように見える。ゴリラ2匹での実験は、エージェント2人分の情報をGPUを用いてDeepQ-Networkで処理し、学習できるようにしたのだが、作業に手間取り、学習時間が少なくなり結果は評価できなかった。

今後の展望については、報酬の分配量やエージェントの能力によってエージェントの行動の変化は起こると思われることから、餌をとったとき報酬分配ルール、エージェント能力の差の実装、エージェントが互いの位置を把握し学習する仕組みなどを検討する予定である。

会場からは、「このタスクはWBAIの大森先生が昔やっていたし、論文にもなっている。他者モデルという文脈の体だったら、参考にすると学術的に良くなるのでは。」、「マルチエージェントからすると分散Q学習などのたくさんの研究がある。しかし決定的打がないということはそのあたりに宝の山があると思われる。DLなどの実験で過去を引き出してくれるとうれしい。」などのコメントがあった。

橋本チーム:
敢闘賞

「柴犬をバーチャルに表現」というテーマで、AR/MRとAIを組み合わせHoloLensによる現実世界の認識と、現実世界の挙動との連動を目指した。

環境は、柴犬が場の認識するように考え、床がある壁があるのなどの認識、壁にぶつかると負のリワードで壁にぶつからないよう学習し、センサーでバーチャルな形で餌を与えること行い、食べると正のリワードを与えることとした。そして最終的に、柴犬がいるのを、ホロレンズで見ることを実現したかったが、HoloLens向けのアプリ開発で基本的ライブラリがないことによって断念した。

AIの仕組みとしてはLIS2とBRICAを使用した。最終的な対応はアンドロイドのアプリを作成することとした。LIS2は、アンドロイド+ARエンジンで場を認識するようにした。BRICAはMacの上に構築し、外界からのインタラクションは、マイコン(ESP8266/MQTT接続)を使って世界初のバーチャル餌やり器を作成した。

実験して気づいた点は、AIと人の接点を考えた時「温かみ」の重要さを感じ、「柴犬が動き回るだけでもずっと見ていられる」とか「インタラクションが反映されると単純におもしろい」ということがわかった。

下村チーム:
敢闘賞

「カップとコップを正しく扱う」というテーマで、小脳、海馬、大脳新皮質、大脳基底核の知見を使った認知アーキテクチャを考えた。目的は、例えば「優雅」「美しく」「早く喉の乾きを癒したい」の実現である。

ヒトは何故、無意識に行動できるようになるのか。例えば「コップから水を飲む。 カップから珈琲を飲む。」の場合、「親から飲み方を教えてもらった」、「親から容器の持ち方を教えてもらった」、「大人の行動を観察した」、「自分が繰り返し行動した」などにより、それが可能になったと考えられる。また無意識に行動できるようになることの報酬として、「上手くできるようになった(慶び)」、「時間がかからない(自由な時間)」、「エネルギーがかからない(エネルギーの保存)」、「意識の負担がない(精神的に楽)」が考えられる。そのことから、シミュレーションの計画では、この行動から学習するという観点から、学習の定義は、「最小限のエネルギー」、「最小限の時間」、「型をつくる」の3つとした。

「カップとコップとそれ以外の物体の認識」では、容器の位置・種類・温度、液体の種類・量をひと目で識別する。「手を伸ばす」と「目標物を掴む」に関しては、腕を伸ばす、容器を掴む場所を決める、手の形を作る、液体をこぼさないように容器を掴むの動作を行う。「目標物を動かす」では、容器から液体をこぼさない、容器を唇に近づける、容器の口を唇に当てるの動作を行う。そして「目標を達成する」ということは、液体を飲む、必要な量を飲んだら止めるという動作を行うこととした。学習は各ステップでの学習を全体を通して調整することとして目的を達成できるように設計した。ゴールとしては、視覚と体感覚、それと「なりたい自分に成れそうな感覚」との融合、シミュレーションの初期値の設定、他の無意識の活動との共通点の発見、新しい学習パラメータの発見を考えた。

会場からは、2つほどコメントがあった。1つは、このような問題を扱う小脳制御では、精緻なモデルがたくさんあり、例えば代表的なもで順逆モデルがあり、これは、小脳が筋骨格系モデルになっていて、実際に筋骨格系を介して運動する前に、大脳皮質の出力が適切だったかどうかを、フィードバッグ制御する順モデルと、結果的に、大脳皮質の代替ができるようになる逆モデルを合せたものである。また順逆モデルを多重化したモザイクモデルもある。いろいろ調べてみれば面白くなるとのこと。もう1つはこのテーマに関連するものでは、アフォーダンス、メタ認知と身体知などで古くから議論しつくされている感がある。しかし、実装はできていないので、脳のモデルとかいろいろな技術を使ってどう踏み出すかが肝になってくるだろうとのことであった。

発表資料:カップとコップを正しく扱う

第2回全脳アーキテクチャハッカソン関連URL:

第2回全脳アーキテクチャ・ハッカソン「みんなで作る認知アーキテクチャ」開催案内
人工知能学会創立30周年記念事業「みんなで作る認知アーキテクチャ」ハッカソンの結果報告
【レポート】WBAI主催 第2回全脳アーキテクチャ・ハッカソン「みんなで作る認知アーキテクチャ」
YouTube 特定非営利活動法人全脳アーキテクチャ・イニシアティブ
第1回WBAIハッカソン活動報告

Leave a Comment

Name*

Email* (never published)

Website

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください

WBAIは、全脳アーキテクチャの実現に向けて、理念に賛同する支援者を募集しています。