Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks

要約

この作業では、ロボット操作の分野での監視されていないビジョン言語アクションマッピングに焦点を当てています。
最近、このタスクのために、事前に訓練された大規模な言語モデルとビジョンモデルを採用する複数のアプローチが提案されています。
しかし、それらは計算的に要求が厳しく、生成された出力の慎重な微調整が必​​要です。
より軽量な代替手段は、データの潜在的な特徴を抽出して共同表現に統合できるマルチモーダル変異自動エンコーダー(VAE)の実装です。
ここでは、シミュレートされた環境での監視されていないロボット操作タスクでマルチモーダルのvaesを使用できるかどうか、どのように採用できるかを調査します。
得られた結果に基づいて、シミュレーターのモデルのパフォーマンスを最大55%改善するモデル不変のトレーニングの代替案を提案します。
さらに、オブジェクトやロボットの位置の変動性、ディストラクタの数、またはタスクの長さなどの個々のタスクによって提起された課題を体系的に評価します。
したがって、私たちの仕事は、ビジョンと言語に基づいたロボット運動軌跡の監視されていない学習のために現在のマルチモーダルVAEを使用することの潜在的な利点と制限にも光を当てています。

要約(オリジナル)

In this work, we focus on unsupervised vision-language-action mapping in the area of robotic manipulation. Recently, multiple approaches employing pre-trained large language and vision models have been proposed for this task. However, they are computationally demanding and require careful fine-tuning of the produced outputs. A more lightweight alternative would be the implementation of multimodal Variational Autoencoders (VAEs) which can extract the latent features of the data and integrate them into a joint representation, as has been demonstrated mostly on image-image or image-text data for the state-of-the-art models. Here we explore whether and how can multimodal VAEs be employed in unsupervised robotic manipulation tasks in a simulated environment. Based on the obtained results, we propose a model-invariant training alternative that improves the models’ performance in a simulator by up to 55%. Moreover, we systematically evaluate the challenges raised by the individual tasks such as object or robot position variability, number of distractors or the task length. Our work thus also sheds light on the potential benefits and limitations of using the current multimodal VAEs for unsupervised learning of robotic motion trajectories based on vision and language.

arxiv情報

著者 Gabriela Sejnova,Michal Vavrecka,Karla Stepanova
発行日 2025-05-28 15:24:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク