LADEV: A Language-Driven Testing and Evaluation Platform for Vision-Language-Action Models in Robotic Manipulation

要約

大規模言語モデル (LLM) と視覚言語モデル (VLM) の進歩に基づいて、最近の研究では、ロボット操作タスクの統合ソリューションとして視覚言語アクション (VLA) モデルが導入されました。
これらのモデルは、カメラ画像と自然言語によるタスク指示を入力として受け取り、ロボットが指定されたタスクを実行するための制御アクションを直接生成し、意思決定能力と人間のユーザーとの対話の両方を大幅に向上させます。
ただし、VLA モデルのデータ駆動型の性質は、解釈可能性の欠如と相まって、その有効性と堅牢性の保証を困難な課題にしています。
これは、信頼性の高いテストおよび評価プラットフォームの必要性を浮き彫りにしています。
この目的のために、この研究では、VLA モデルを評価するために特別に設計された包括的で効率的なプラットフォームである LADEV を提案します。
まず、自然言語入力からシミュレーション環境を自動的に生成し、手動調整の必要性を軽減し、テスト効率を大幅に向上させる言語駆動型のアプローチを紹介します。
次に、VLA モデルに対する言語入力の影響をさらに評価するために、テスト用の多様な自然言語タスク命令を生成する言い換えメカニズムを実装します。
最後に、評価プロセスを迅速化するために、VLA モデルの大規模テストを実行するためのバッチ スタイルの方法を導入します。
LADEV を使用して、いくつかの最先端の VLA モデルで実験を行い、これらのモデルを評価するためのツールとしての有効性を実証しました。
私たちの結果は、LADEV がテスト効率を向上させるだけでなく、VLA モデルを評価するための強固なベースラインを確立し、よりインテリジェントで高度なロボット システムの開発への道を開くことを示しました。

要約(オリジナル)

Building on the advancements of Large Language Models (LLMs) and Vision Language Models (VLMs), recent research has introduced Vision-Language-Action (VLA) models as an integrated solution for robotic manipulation tasks. These models take camera images and natural language task instructions as input and directly generate control actions for robots to perform specified tasks, greatly improving both decision-making capabilities and interaction with human users. However, the data-driven nature of VLA models, combined with their lack of interpretability, makes the assurance of their effectiveness and robustness a challenging task. This highlights the need for a reliable testing and evaluation platform. For this purpose, in this work, we propose LADEV, a comprehensive and efficient platform specifically designed for evaluating VLA models. We first present a language-driven approach that automatically generates simulation environments from natural language inputs, mitigating the need for manual adjustments and significantly improving testing efficiency. Then, to further assess the influence of language input on the VLA models, we implement a paraphrase mechanism that produces diverse natural language task instructions for testing. Finally, to expedite the evaluation process, we introduce a batch-style method for conducting large-scale testing of VLA models. Using LADEV, we conducted experiments on several state-of-the-art VLA models, demonstrating its effectiveness as a tool for evaluating these models. Our results showed that LADEV not only enhances testing efficiency but also establishes a solid baseline for evaluating VLA models, paving the way for the development of more intelligent and advanced robotic systems.

arxiv情報

著者 Zhijie Wang,Zhehua Zhou,Jiayang Song,Yuheng Huang,Zhan Shu,Lei Ma
発行日 2024-10-07 16:49:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク