Development of Compositionality and Generalization through Interactive Learning of Language and Action of Robots

要約

人間は学習した行動を学習していない状況に適用することに優れています。
この一般化動作の重要な要素は、全体を再利用可能な部分に構成/分解する能力 (構成性として知られる属性) です。
ロボット工学における基本的な問題の 1 つは、この特性に関するものです。
「特に個人が部分的な言語構成とそれに対応する感覚運動パターンのみを学習する場合、言語構成性は、連合学習を通じて感覚運動スキルと同時にどのように開発できるのでしょうか?」
この問題に対処するために、自由エネルギー原理に基づいて、視覚、固有受容、言語を予測コーディングと能動推論のフレームワークに統合する、脳にヒントを得たニューラル ネットワーク モデルを提案します。
このモデルの有効性と性能は、ロボットアームを使用したさまざまなシミュレーション実験を通じて評価されました。
私たちの結果は、タスク構成のトレーニングバリエーションが増えると、未学習の動詞と名詞の構成の学習における一般化が大幅に強化されることを示しています。
これは、言語の潜在状態空間における自己組織化された構成構造が感覚運動学習によって大きく影響されるためであると考えられます。
アブレーション研究は、言語的に表現された目標を達成するために視覚運動シーケンスを正確に生成するには、視覚的注意と作業記憶が不可欠であることを示しています。
これらの洞察は、言語経験と感覚運動経験の相互作用を通じた構成性の発達の根底にあるメカニズムの理解を進めます。

要約(オリジナル)

Humans excel at applying learned behavior to unlearned situations. A crucial component of this generalization behavior is our ability to compose/decompose a whole into reusable parts, an attribute known as compositionality. One of the fundamental questions in robotics concerns this characteristic. ‘How can linguistic compositionality be developed concomitantly with sensorimotor skills through associative learning, particularly when individuals only learn partial linguistic compositions and their corresponding sensorimotor patterns?’ To address this question, we propose a brain-inspired neural network model that integrates vision, proprioception, and language into a framework of predictive coding and active inference, based on the free-energy principle. The effectiveness and capabilities of this model were assessed through various simulation experiments conducted with a robot arm. Our results show that generalization in learning to unlearned verb-noun compositions, is significantly enhanced when training variations of task composition are increased. We attribute this to self-organized compositional structures in linguistic latent state space being influenced significantly by sensorimotor learning. Ablation studies show that visual attention and working memory are essential to accurately generate visuo-motor sequences to achieve linguistically represented goals. These insights advance our understanding of mechanisms underlying development of compositionality through interactions of linguistic and sensorimotor experience.

arxiv情報

著者 Prasanna Vijayaraghavan,Jeffrey Frederic Queisser,Sergio Verduzco Flores,Jun Tani
発行日 2024-07-23 05:21:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T35, 68T40, cs.AI, cs.CL, cs.RO, I.2.9 パーマリンク