Expanding Frozen Vision-Language Models without Retraining: Towards Improved Robot Perception

要約

視覚言語モデル (VLM) は、事前トレーニング中に学習する大規模言語モデル (LLM) の抽象的なスキル セットと視覚的表現を組み合わせることで、視覚的な質問応答や推論タスクで強力な機能を発揮します。
ビジョンは、LLM を拡張するための最も一般的なモダリティですが、シーンの 1 つの表現にすぎません。
人間とロボットの対話シナリオでは、ロボットの認識には、ロボットによるシーンの正確な理解が必要です。
この論文では、教師ありトレーニングと対比トレーニングを組み合わせて、さまざまなモダリティの埋め込み空間 (この場合は慣性測定ユニット (IMU) データ) を視覚埋め込み空間に位置合わせする方法を定義して実証し、VLM が理解できるようにします。
そして、再トレーニングすることなく、これらの追加のモダリティについて推論します。
プロンプトに直接フィードする別の人間活動認識モデルを使用して、モデルに IMU 埋め込みを直接与えることを選択し、IMU データを離散データにマッピングすることで失われるクエリ、画像、および IMU 信号の間の非線形相互作用を可能にします。
アクティビティラベル。
さらに、IMUデータと視覚入力を使用した人間の活動認識を含む実験を通じて、私たちの方法論の有効性を実証します。
私たちの結果は、複数のモダリティを入力として使用すると、VLM のシーン理解が向上し、さまざまなタスクにおける全体的なパフォーマンスが向上し、その結果、マルチモーダル コンテキストでより多用途で有能な言語モデルへの道が開かれることを示しています。

要約(オリジナル)

Vision-language models (VLMs) have shown powerful capabilities in visual question answering and reasoning tasks by combining visual representations with the abstract skill set large language models (LLMs) learn during pretraining. Vision, while the most popular modality to augment LLMs with, is only one representation of a scene. In human-robot interaction scenarios, robot perception requires accurate scene understanding by the robot. In this paper, we define and demonstrate a method of aligning the embedding spaces of different modalities (in this case, inertial measurement unit (IMU) data) to the vision embedding space through a combination of supervised and contrastive training, enabling the VLM to understand and reason about these additional modalities without retraining. We opt to give the model IMU embeddings directly over using a separate human activity recognition model that feeds directly into the prompt to allow for any nonlinear interactions between the query, image, and IMU signal that would be lost by mapping the IMU data to a discrete activity label. Further, we demonstrate our methodology’s efficacy through experiments involving human activity recognition using IMU data and visual inputs. Our results show that using multiple modalities as input improves the VLM’s scene understanding and enhances its overall performance in various tasks, thus paving the way for more versatile and capable language models in multi-modal contexts.

arxiv情報

著者 Riley Tavassoli,Mani Amani,Reza Akhavian
発行日 2023-08-31 06:53:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク