Language Model-Based Paired Variational Autoencoders for Robotic Language Learning

要約

人間の乳幼児は、養育者が対象物や行動を説明するような環境と相互作用しながら言語を学習する。人間の幼児と同様に、人工エージェントも環境と相互作用しながら言語を学習することができる。本研究では、まず、単純な物体操作シナリオにおいて、ロボットの動作とその言語記述を双方向に結びつける神経モデルを提示する。我々の以前のペア変分オートエンコーダ(PVAE)モデルを基に、異なる色のキューブを用いた実験や、代替語彙の生成を可能にすることで、変分オートエンコーダが標準的なオートエンコーダよりも優れていることを実証する。追加の実験により、このモデルのチャンネル分離された視覚特徴抽出モジュールが、異なる形状のオブジェクトに対応できることを示す。次に、PVAE-BERTを導入する。このモデルは、事前に訓練された大規模言語モデル、すなわちBERT(Bidirectional Encoder Representations from Transformers)を備えており、ネットワークが訓練された事前定義された記述のみを理解することを超えて、モデルが同じ記述の無制限のバリエーションを理解できるようになるため、行動記述の認識は制約のない自然言語に一般化される。我々の実験は、言語エンコーダとして事前に訓練された言語モデルを使用することで、我々のアプローチが、人間のユーザーからの指示による実世界のシナリオに対してスケールアップできることを示唆している。

要約(オリジナル)

Human infants learn language while interacting with their environment in which their caregivers may describe the objects and actions they perform. Similar to human infants, artificial agents can learn language while interacting with their environment. In this work, first, we present a neural model that bidirectionally binds robot actions and their language descriptions in a simple object manipulation scenario. Building on our previous Paired Variational Autoencoders (PVAE) model, we demonstrate the superiority of the variational autoencoder over standard autoencoders by experimenting with cubes of different colours, and by enabling the production of alternative vocabularies. Additional experiments show that the model’s channel-separated visual feature extraction module can cope with objects of different shapes. Next, we introduce PVAE-BERT, which equips the model with a pretrained large-scale language model, i.e., Bidirectional Encoder Representations from Transformers (BERT), enabling the model to go beyond comprehending only the predefined descriptions that the network has been trained on; the recognition of action descriptions generalises to unconstrained natural language as the model becomes capable of understanding unlimited variations of the same descriptions. Our experiments suggest that using a pretrained language model as the language encoder allows our approach to scale up for real-world scenarios with instructions from human users.

arxiv情報

著者 Ozan Özdemir,Matthias Kerzel,Cornelius Weber,Jae Hee Lee,Stefan Wermter
発行日 2024-05-06 08:48:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.NE, cs.RO パーマリンク