要約
言語条件付きのポリシーは、ユーザーが自然言語を使用してタスクを指定できるため、ロボット工学の大幅な採用を最近獲得しました。
多くの研究では、言語条件付きポリシーのアクション予測の改善に焦点を当てていますが、タスクの説明に関する推論はほとんど見落とされています。
曖昧なタスクの説明は、ロボットエージェントによる誤解により、下流のポリシーの失敗につながることがよくあります。
この課題に対処するために、AMBRESVLMを紹介します。これは、観察されたシーンで言語の目標を根拠とする新しい方法と、タスクのあいまいさについて明示的に理由を紹介します。
シミュレートされたドメインと実世界の両方のドメインの両方でその有効性を広範囲に評価し、最近の最先端のベースラインと比較して優れたタスクの曖昧さの検出と解像度を示しています。
最後に、実際のロボット実験は、私たちのモデルがダウンストリームロボットポリシーのパフォーマンスを改善し、平均成功率を69.6%から97.1%に増加させることを示しています。
データ、コード、トレーニングモデルをhttps://ambres.cs.uni-freiburg.deで公開しています。
要約(オリジナル)
Language-conditioned policies have recently gained substantial adoption in robotics as they allow users to specify tasks using natural language, making them highly versatile. While much research has focused on improving the action prediction of language-conditioned policies, reasoning about task descriptions has been largely overlooked. Ambiguous task descriptions often lead to downstream policy failures due to misinterpretation by the robotic agent. To address this challenge, we introduce AmbResVLM, a novel method that grounds language goals in the observed scene and explicitly reasons about task ambiguity. We extensively evaluate its effectiveness in both simulated and real-world domains, demonstrating superior task ambiguity detection and resolution compared to recent state-of-the-art baselines. Finally, real robot experiments show that our model improves the performance of downstream robot policies, increasing the average success rate from 69.6% to 97.1%. We make the data, code, and trained models publicly available at https://ambres.cs.uni-freiburg.de.
arxiv情報
著者 | Eugenio Chisari,Jan Ole von Hartz,Fabien Despinoy,Abhinav Valada |
発行日 | 2025-04-24 17:08:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google