要約
多様でダイナミックな環境で動作するロボット操作システムは、マルチタスク相互作用、未知のシナリオへの汎化、空間記憶という3つの重要な能力を発揮しなければならない。ロボット操作において大きな進歩が見られる一方で、複雑な環境変化への汎化や記憶に依存するタスクへの対応において、既存のアプローチはしばしば不十分である。このギャップを埋めるために、我々はSAM2Actを紹介する。SAM2Actは、大規模な基礎モデルからの視覚表現を用いた多解像度アップサンプリングを活用する、多視点ロボット変換器ベースのポリシーである。SAM2Actは、RLBenchベンチマークの18のタスクにおいて86.8%という最先端の平均成功率を達成し、The Colosseumベンチマークの多様な環境摂動下において4.3%の性能差しかなく、頑健な汎化を示す。この基盤の上に、我々はSAM2にインスパイアされたメモリベースのアーキテクチャであるSAM2Act+を提案する。SAM2Act+は、空間記憶を強化するために、メモリバンク、エンコーダ、注意メカニズムを組み込んだものである。記憶に依存するタスクを評価する必要性に応えるため、ロボット操作における空間記憶と行動想起を評価するために設計された新しいベンチマークであるMemoryBenchを紹介する。SAM2Act+は、MemoryBenchの記憶ベースのタスクで平均94.3%の成功率を達成し、既存のアプローチを大幅に上回り、記憶ベースのロボットシステムの限界を押し広げる。プロジェクトページ: sam2act.github.io.
要約(オリジナル)
Robotic manipulation systems operating in diverse, dynamic environments must exhibit three critical abilities: multitask interaction, generalization to unseen scenarios, and spatial memory. While significant progress has been made in robotic manipulation, existing approaches often fall short in generalization to complex environmental variations and addressing memory-dependent tasks. To bridge this gap, we introduce SAM2Act, a multi-view robotic transformer-based policy that leverages multi-resolution upsampling with visual representations from large-scale foundation model. SAM2Act achieves a state-of-the-art average success rate of 86.8% across 18 tasks in the RLBench benchmark, and demonstrates robust generalization on The Colosseum benchmark, with only a 4.3% performance gap under diverse environmental perturbations. Building on this foundation, we propose SAM2Act+, a memory-based architecture inspired by SAM2, which incorporates a memory bank, an encoder, and an attention mechanism to enhance spatial memory. To address the need for evaluating memory-dependent tasks, we introduce MemoryBench, a novel benchmark designed to assess spatial memory and action recall in robotic manipulation. SAM2Act+ achieves an average success rate of 94.3% on memory-based tasks in MemoryBench, significantly outperforming existing approaches and pushing the boundaries of memory-based robotic systems. Project page: sam2act.github.io.
arxiv情報
著者 | Haoquan Fang,Markus Grotz,Wilbert Pumacay,Yi Ru Wang,Dieter Fox,Ranjay Krishna,Jiafei Duan |
発行日 | 2025-06-03 04:39:04+00:00 |
arxivサイト | arxiv_id(pdf) |