BOSS: Benchmark for Observation Space Shift in Long-Horizon Task

要約

ロボット工学は、以前は目に見えなかった長距離タスクを完了することができる視覚的なサービスロボットを開発することを長い間求めてきました。
階層的アプローチは、特定の模倣学習(IL)アルゴリズムを使用して事前に訓練された各視覚運動スキルを使用して、タスクプランナーによって配置されたスキルの組み合わせを実行することにより、この目標を達成するための経路を提供します。
ただし、スキルチェーンなどの単純な長距離タスクでさえ、階層的アプローチは、先行スキルの連続的な実行が観測空間のシフトを引き起こし、後続のパフォーマンスを混乱させる観測空間シフト(OSS)として識別する問題のために苦労することがよくあります。
個別に訓練されたスキルポリシー。
OSSを検証し、長老のタスクへの影響を評価するために、Boss(観測スペースシフトのベンチマーク)を紹介します。
ボスは、「単一の述語シフト」、「蓄積された述語シフト」、および「スキルチェーン」の3つの異なる課題で構成されており、それぞれがOSSのマイナス効果の異なる側面を評価するように設計されています。
3つの行動クローニング方法と視覚言語アクションモデルOpenVLAを含む、ボスに関する最近の人気のあるILアルゴリズムをいくつか評価しました。
最も単純な課題でさえ、スキルパフォーマンスをOSSと比較した場合、それぞれ67%、35%、34%、および54%の平均パフォーマンス低下が観察されました。
さらに、各スキルのトレーニングデータを大きく視覚的に多様なデモのセットで拡大するOSSの潜在的なソリューションを調査し、OSSを解決するには十分ではないことを示しています。
プロジェクトページは次のとおりです:https://boss-benchmark.github.io/

要約(オリジナル)

Robotics has long sought to develop visual-servoing robots capable of completing previously unseen long-horizon tasks. Hierarchical approaches offer a pathway for achieving this goal by executing skill combinations arranged by a task planner, with each visuomotor skill pre-trained using a specific imitation learning (IL) algorithm. However, even in simple long-horizon tasks like skill chaining, hierarchical approaches often struggle due to a problem we identify as Observation Space Shift (OSS), where the sequential execution of preceding skills causes shifts in the observation space, disrupting the performance of subsequent individually trained skill policies. To validate OSS and evaluate its impact on long-horizon tasks, we introduce BOSS (a Benchmark for Observation Space Shift). BOSS comprises three distinct challenges: ‘Single Predicate Shift’, ‘Accumulated Predicate Shift’, and ‘Skill Chaining’, each designed to assess a different aspect of OSS’s negative effect. We evaluated several recent popular IL algorithms on BOSS, including three Behavioral Cloning methods and the Visual Language Action model OpenVLA. Even on the simplest challenge, we observed average performance drops of 67%, 35%, 34%, and 54%, respectively, when comparing skill performance with and without OSS. Additionally, we investigate a potential solution to OSS that scales up the training data for each skill with a larger and more visually diverse set of demonstrations, with our results showing it is not sufficient to resolve OSS. The project page is: https://boss-benchmark.github.io/

arxiv情報

著者 Yue Yang,Linfeng Zhao,Mingyu Ding,Gedas Bertasius,Daniel Szafir
発行日 2025-02-21 18:58:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク