Goal-conditioned dual-action imitation learning for dexterous dual-arm robot manipulation

要約

バナナの剥離などの変形可能なオブジェクトの長距離器用ロボット操作は、オブジェクトモデリングの難しさと安定した器用な操作スキルに関する知識の欠如のため、問題のある作業です。
このペーパーでは、人間のデモデータを使用して器用な操作スキルを学ぶことができる目標条件付きデュアルアクション(GC-DA)ディープ模倣学習(DIL)アプローチを紹介します。
以前のDILメソッドは、現在の感覚入力と反応的アクションをマッピングします。これは、アクションの再発計算によって引き起こされる模倣学習の複利エラーのために失敗することがよくあります。
このメソッドは、ターゲットオブジェクトの正確な操作が必要な場合にのみ反応性アクションを予測し(ローカルアクション)、正確な操作が必要ない場合(グローバルアクション)、軌道全体を生成します。
このデュアルアクションの定式化は、リアクティブローカルアクション中にターゲットオブジェクトの予期しない変更に応答しながら、軌跡ベースのグローバルアクションを使用した模倣学習の複合エラーを効果的に防止します。
提案された方法は、実際のデュアルアームロボットでテストされ、バナナピールのタスクを正常に達成しました。
これと関連する作品のデータは、https://sites.google.com/view/multi-task-fineで入手できます。

要約(オリジナル)

Long-horizon dexterous robot manipulation of deformable objects, such as banana peeling, is a problematic task because of the difficulties in object modeling and a lack of knowledge about stable and dexterous manipulation skills. This paper presents a goal-conditioned dual-action (GC-DA) deep imitation learning (DIL) approach that can learn dexterous manipulation skills using human demonstration data. Previous DIL methods map the current sensory input and reactive action, which often fails because of compounding errors in imitation learning caused by the recurrent computation of actions. The method predicts reactive action only when the precise manipulation of the target object is required (local action) and generates the entire trajectory when precise manipulation is not required (global action). This dual-action formulation effectively prevents compounding error in the imitation learning using the trajectory-based global action while responding to unexpected changes in the target object during the reactive local action. The proposed method was tested in a real dual-arm robot and successfully accomplished the banana-peeling task. Data from this and related works are available at: https://sites.google.com/view/multi-task-fine.

arxiv情報

著者 Heecheol Kim,Yoshiyuki Ohmura,Yasuo Kuniyoshi
発行日 2025-05-21 23:12:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Goal-conditioned dual-action imitation learning for dexterous dual-arm robot manipulation はコメントを受け付けていません

Motion Priors Reimagined: Adapting Flat-Terrain Skills for Complex Quadruped Mobility

要約

補強学習(RL)ベースの脚の機動コントローラーは、さまざまな地形で滑らかな動きを維持しながら、速度または目標の位置を追跡するために細心の報酬調整を必要とすることがよくあります。
デモデータを使用したRLを介したモーション模倣方法は、報酬エンジニアリングを減らしますが、新しい環境に一般化することはできません。
これに対処し、低レベルのポリシーが最初に事前に訓練され、平らな地面で動物の動きを模倣し、それによって動きの前提を確立する階層RLフレームワークを提案します。
その後、その後の高レベルの目標条件付けされたポリシーは、これらのプライアーに基づいて構築され、知覚的な移動、局所的な障害の回避、および多様および険しい地形にわたる目標指向ナビゲーションを可能にする残留補正を学習します。
シミュレーションの実験は、動きの事前に提供された移動特性を保存しながら、徐々に挑戦的な不均一な地形に適応する際の学習残差の有効性を示しています。
さらに、我々の結果は、同様の報酬セットアップの下でモーションプライアーなしで訓練されたベースラインモデル上の動きの正規化の改善を示しています。
Anymal-D四足動物のロボットを使用した現実世界の実験では、動物のような移動スキルを複雑な地形に一般化するポリシーの能力が確認され、障害のある地形に挑戦する中のスムーズで効率的な移動とローカルナビゲーションパフォーマンスを実証します。

要約(オリジナル)

Reinforcement learning (RL)-based legged locomotion controllers often require meticulous reward tuning to track velocities or goal positions while preserving smooth motion on various terrains. Motion imitation methods via RL using demonstration data reduce reward engineering but fail to generalize to novel environments. We address this by proposing a hierarchical RL framework in which a low-level policy is first pre-trained to imitate animal motions on flat ground, thereby establishing motion priors. A subsequent high-level, goal-conditioned policy then builds on these priors, learning residual corrections that enable perceptive locomotion, local obstacle avoidance, and goal-directed navigation across diverse and rugged terrains. Simulation experiments illustrate the effectiveness of learned residuals in adapting to progressively challenging uneven terrains while still preserving the locomotion characteristics provided by the motion priors. Furthermore, our results demonstrate improvements in motion regularization over baseline models trained without motion priors under similar reward setups. Real-world experiments with an ANYmal-D quadruped robot confirm our policy’s capability to generalize animal-like locomotion skills to complex terrains, demonstrating smooth and efficient locomotion and local navigation performance amidst challenging terrains with obstacles.

arxiv情報

著者 Zewei Zhang,Chenhao Li,Takahiro Miki,Marco Hutter
発行日 2025-05-21 23:56:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Motion Priors Reimagined: Adapting Flat-Terrain Skills for Complex Quadruped Mobility はコメントを受け付けていません

Event-based Reconfiguration Control for Time-varying Formation of Robot Swarms in Narrow Spaces

要約

この研究では、イベントベースの再構成制御を提案して、谷、トンネル、廊下などの狭い通路を持つ挑戦的な環境を通じてロボットの群れをナビゲートします。
ロボットの群れは無向グラフとしてモデル化されており、各ノードは、環境およびフォーメーション内の他のロボットの状態に関するリアルタイムデータを収集できるロボットを表します。
このデータは、コントローラーの入力として機能し、目的の構成と直線構成の間の動的な調整を提供します。
コントローラーには、人工電位フィールドを使用して設計された一連の動作が組み込まれており、目標指向の動き、フォーメーションメンテナンス、テールゲーティング、衝突回避の要件を満たしています。
形成制御の安定性は、リアプノフ定理を介して保証されます。
シミュレーションと比較の結果は、提案されたコントローラーがロボットの群れを狭いスペースに正常にナビゲートするだけでなく、成功率、順序、速度、移動時間、エネルギー効率などの主要なメトリックで他の確立された方法を上回ることを示しています。
ループ内のソフトウェアテストも実施されており、実際のシナリオでのコントローラーの適用性を検証しています。
コントローラーのソースコードは、https://github.com/duynamrcv/ercで入手できます。

要約(オリジナル)

This study proposes an event-based reconfiguration control to navigate a robot swarm through challenging environments with narrow passages such as valleys, tunnels, and corridors. The robot swarm is modeled as an undirected graph, where each node represents a robot capable of collecting real-time data on the environment and the states of other robots in the formation. This data serves as the input for the controller to provide dynamic adjustments between the desired and straight-line configurations. The controller incorporates a set of behaviors, designed using artificial potential fields, to meet the requirements of goal-oriented motion, formation maintenance, tailgating, and collision avoidance. The stability of the formation control is guaranteed via the Lyapunov theorem. Simulation and comparison results show that the proposed controller not only successfully navigates the robot swarm through narrow spaces but also outperforms other established methods in key metrics including the success rate, heading order, speed, travel time, and energy efficiency. Software-in-the-loop tests have also been conducted to validate the controller’s applicability in practical scenarios. The source code of the controller is available at https://github.com/duynamrcv/erc.

arxiv情報

著者 Duy-Nam Bui,Manh Duong Phung,Hung Pham Duy
発行日 2025-05-22 00:04:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Event-based Reconfiguration Control for Time-varying Formation of Robot Swarms in Narrow Spaces はコメントを受け付けていません

Development of a magnetorheological hand exoskeleton featuring a high force-to-power ratio for enhanced grip endurance

要約

手骨格子の疲労を緩和し、手の強度を高め、怪我を防止することにより、手骨型は労働集約型の分野で重要な可能性を秘めています。
ただし、従来のハンドエクソスケルトンのほとんどは、制約された設置条件では出力が制限されているモーターによって駆動されます。
その上、彼らはまた、高出力消費、複雑でかさばる支援システム、および高い不安定性の欠点を備えています。
この作業では、グリップ持久力を改善するために力と力と力の比率を提供する磁気(MR)クラッチと統合された新しい手骨型を開発します。
クラッチは、強化された構造設計、マイクロローラー強化構造を備えており、これは出力力を大幅に高めることができます。
実験データは、クラッチが1.48 Wの消費で380 Nのピーク保持力を提供できることを示しており、手指節に使用される最も報告されたアクチュエーターの256.75N/Wの力と力と力の比率を生成します。
この機能により、設計されたMRHEは、約419.79 Nのサポート力を把握することができます。
設計されたMr Hand Exoskeletonは、外骨格フレーム、Mr Clutches、コントロールユニット、およびバッテリーを含む、高度に統合されています。
静的グリップ持久力テストと動的な持ち運びおよび持ち上げテストによる評価は、MRハンドエクセレトンが筋肉の疲労を効果的に軽減し、グリップ持久力を延長し、怪我を最小限に抑えることができることを確認しています。
これらの調査結果は、産業環境での持ち運びや持ち上げなどの反復タスクにおける実用的なアプリケーションの強力な可能性を強調しています。

要約(オリジナル)

Hand exoskeletons have significant potential in labor-intensive fields by mitigating hand grip fatigue, enhancing hand strength, and preventing injuries. However, most of the traditional hand exoskeletons are driven by motors, whose output force is limited in the constrained installation conditions. Besides, they also come with the disadvantages of high power consumption, complex and bulky assistive systems, and high instability. In this work, we develop a novel hand exoskeleton integrated with magnetorheological (MR) clutches that offers a high force-to-power ratio to improve grip endurance. The clutch features an enhanced structure design, a micro roller enhancing structure, which can significantly boost output forces. The experimental data demonstrate that the clutch can deliver a peak holding force of 380 N with a 1.48 W consumption, yielding a force-to-power ratio of 256.75N/W, which is 2.35 times higher than the best-reported actuator used for hand exoskeletons. This capability enables the designed MRHE to provide approximately 419.79 N support force for gripping. The designed MR hand exoskeleton is highly integrated, comprising an exoskeleton frame, MR clutches, a control unit, and a battery. Evaluations through static grip endurance tests and dynamic carrying and lifting tests confirm that the MR hand exoskeleton can effectively reduce muscle fatigue, extend grip endurance, and minimize injuries. These findings highlight its strong potential for practical applications in repetitive tasks such as carrying and lifting in industrial settings.

arxiv情報

著者 Wenbo Li,Xianlong Mai,Ying Li,Weihua Li,Shiwu Zhang,Lei Deng,Shuaishuai Sun
発行日 2025-05-22 02:43:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Development of a magnetorheological hand exoskeleton featuring a high force-to-power ratio for enhanced grip endurance はコメントを受け付けていません

RE-TRIP : Reflectivity Instance Augmented Triangle Descriptor for 3D Place Recognition

要約

ほとんどの人は、主に距離を測定し、環境に関する幾何学的な情報を提供する能力と(ポイントクラウドを介して)リダーを関連付けていますが、Lidarは反射率や強度値を含む追加データもキャプチャします。
残念ながら、Lidarがモバイルロボット工学に認識(PR)を配置するために適用されると、LIDARベースのPRに関する以前の作業のほとんどは、LiDARが提供する追加の反射率情報を無視して幾何学的測定にのみ依存しています。
このホワイトペーパーでは、3D PRの新しい記述子を提案します。これは、再訓練(反射率インスト拡張トライアングル記述子)という名前です。
この新しい記述子は、幾何学的測定と反射率の両方を活用して、幾何学的縮退、高い幾何学的類似性、動的オブジェクトの存在などの挑戦的なシナリオの堅牢性を高めます。
実際のアプリケーションで再訓練するために、(1)キーポイント抽出方法、(2)重要なインスタンスセグメンテーション方法、(3)一致方法の再訓練方法、および(4)反射性結合ループ検証方法をさらに提案します。
最後に、一連の実験を実施して、再訓練の有効性を実証します。
長い廊下、橋、大規模な都市部、非常に動的な環境などの多様なシナリオを含むパブリックデータセット(つまり、HELIPR、FusionPortable)に適用されると、実験結果は、提案された方法がスキャンコンテキスト、強度のスカンコンテキスト、およびSTDの観点から既存の最先端の方法を上回ることを示しています。

要約(オリジナル)

While most people associate LiDAR primarily with its ability to measure distances and provide geometric information about the environment (via point clouds), LiDAR also captures additional data, including reflectivity or intensity values. Unfortunately, when LiDAR is applied to Place Recognition (PR) in mobile robotics, most previous works on LiDAR-based PR rely only on geometric measurements, neglecting the additional reflectivity information that LiDAR provides. In this paper, we propose a novel descriptor for 3D PR, named RE-TRIP (REflectivity-instance augmented TRIangle descriPtor). This new descriptor leverages both geometric measurements and reflectivity to enhance robustness in challenging scenarios such as geometric degeneracy, high geometric similarity, and the presence of dynamic objects. To implement RE-TRIP in real-world applications, we further propose (1) a keypoint extraction method, (2) a key instance segmentation method, (3) a RE-TRIP matching method, and (4) a reflectivity-combined loop verification method. Finally, we conduct a series of experiments to demonstrate the effectiveness of RE-TRIP. Applied to public datasets (i.e., HELIPR, FusionPortable) containing diverse scenarios such as long corridors, bridges, large-scale urban areas, and highly dynamic environments — our experimental results show that the proposed method outperforms existing state-of-the-art methods in terms of Scan Context, Intensity Scan Context, and STD.

arxiv情報

著者 Yechan Park,Gyuhyeon Pak,Euntai Kim
発行日 2025-05-22 03:11:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | RE-TRIP : Reflectivity Instance Augmented Triangle Descriptor for 3D Place Recognition はコメントを受け付けていません

Tactile-based Reinforcement Learning for Adaptive Grasping under Observation Uncertainties

要約

構造などの産業シナリオでのロボット操作は、一般に、オクルージョンや部分観測可能性のために操作オブジェクトの状態が正確にキャプチャされない可能性がある不確実な観察に直面しています。
たとえば、パイプアセンブリ中のオブジェクトステータスの推定、鉄筋の設置、および電気設備は、観測エラーによって影響を受ける可能性があります。
従来のビジョンベースの把握方法は、しばしば堅牢な安定性と適応性を確保するのに苦労しています。
この課題に対処するために、このペーパーでは、触覚ベースの適応把握方法を把握するための堅牢性を高めることができる触覚シミュレーターを提案します。
このアプローチは、近位政策最適化(PPO)強化学習アルゴリズムと組み合わせた触覚フィードバックを活用して、把握姿勢を動的に調整し、不正確なオブジェクト状態の推定でさまざまな把握条件に適応を可能にします。
シミュレーションの結果は、提案された方法が姿勢を把握することを効果的に適応させ、それによってタスクを把握することの成功率と安定性を改善することを示しています。

要約(オリジナル)

Robotic manipulation in industrial scenarios such as construction commonly faces uncertain observations in which the state of the manipulating object may not be accurately captured due to occlusions and partial observables. For example, object status estimation during pipe assembly, rebar installation, and electrical installation can be impacted by observation errors. Traditional vision-based grasping methods often struggle to ensure robust stability and adaptability. To address this challenge, this paper proposes a tactile simulator that enables a tactile-based adaptive grasping method to enhance grasping robustness. This approach leverages tactile feedback combined with the Proximal Policy Optimization (PPO) reinforcement learning algorithm to dynamically adjust the grasping posture, allowing adaptation to varying grasping conditions under inaccurate object state estimations. Simulation results demonstrate that the proposed method effectively adapts grasping postures, thereby improving the success rate and stability of grasping tasks.

arxiv情報

著者 Xiao Hu,Yang Ye
発行日 2025-05-22 03:12:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Tactile-based Reinforcement Learning for Adaptive Grasping under Observation Uncertainties はコメントを受け付けていません

VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving

要約

このペーパーでは、自律運転におけるビジョン中心のアルゴリズムのために設計された新しい自己監視前のトレーニング前パラダイムであるVisionPadを紹介します。
明示的な深さの監督でニューラルレンダリングを採用した以前のアプローチとは対照的に、VisionPadはより効率的な3Dガウススプラッティングを利用して、監督として画像のみを使用してマルチビュー表現を再構築します。
具体的には、ボクセル速度推定のための自己監視方法を紹介します。
ボクセルを隣接するフレームにゆがめ、レンダリングされた出力を監督することにより、モデルはシーケンシャルデータのモーションキューを効果的に学習します。
さらに、幾何学的知覚を高めるために、マルチフレームの測光一貫性アプローチを採用します。
レンダリングされた深さと相対的なポーズに基づいて、隣接するフレームを現在のフレームに投影し、純粋な画像監視を通じて3D幾何学的表現を高めます。
自律運転データセットでの広範な実験は、ビジョンパッドが3Dオブジェクトの検出、占有予測、マップセグメンテーションのパフォーマンスを大幅に向上させ、最先端のトレーニング前戦略をかなりのマージンで上回ることを示しています。

要約(オリジナル)

This paper introduces VisionPAD, a novel self-supervised pre-training paradigm designed for vision-centric algorithms in autonomous driving. In contrast to previous approaches that employ neural rendering with explicit depth supervision, VisionPAD utilizes more efficient 3D Gaussian Splatting to reconstruct multi-view representations using only images as supervision. Specifically, we introduce a self-supervised method for voxel velocity estimation. By warping voxels to adjacent frames and supervising the rendered outputs, the model effectively learns motion cues in the sequential data. Furthermore, we adopt a multi-frame photometric consistency approach to enhance geometric perception. It projects adjacent frames to the current frame based on rendered depths and relative poses, boosting the 3D geometric representation through pure image supervision. Extensive experiments on autonomous driving datasets demonstrate that VisionPAD significantly improves performance in 3D object detection, occupancy prediction and map segmentation, surpassing state-of-the-art pre-training strategies by a considerable margin.

arxiv情報

著者 Haiming Zhang,Wending Zhou,Yiyao Zhu,Xu Yan,Jiantao Gao,Dongfeng Bai,Yingjie Cai,Bingbing Liu,Shuguang Cui,Zhen Li
発行日 2025-05-22 03:33:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving はコメントを受け付けていません

Strengthening Generative Robot Policies through Predictive World Modeling

要約

(i)専門家のデモンストレーションから生成的拡散ベースのポリシーをクローン化する学習制御フレームワークである生成予測制御(GPC)を提示します。
さまざまなロボット操作タスクにわたって、GPCは、シミュレーションおよび現実世界で、状態ベースと視覚ベースの設定の両方でクローニングする動作を常に上回ることを実証します。

要約(オリジナル)

We present generative predictive control (GPC), a learning control framework that (i) clones a generative diffusion-based policy from expert demonstrations, (ii) trains a predictive action-conditioned world model from both expert demonstrations and random explorations, and (iii) synthesizes an online planner that ranks and optimizes the action proposals from (i) by looking ahead into the future using the world model from (ii). Across a variety of robotic manipulation tasks, we demonstrate that GPC consistently outperforms behavior cloning in both state-based and vision-based settings, in simulation and in the real world.

arxiv情報

著者 Han Qi,Haocheng Yin,Aris Zhu,Yilun Du,Heng Yang
発行日 2025-05-22 03:40:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Strengthening Generative Robot Policies through Predictive World Modeling はコメントを受け付けていません

EasyInsert: A Data-Efficient and Generalizable Insertion Policy

要約

挿入タスクは非常に挑戦的であり、散らかった環境ではロボットが並外れた精度で動作する必要があります。
既存の方法は、多くの場合、一般化能力が不十分です。
それらは通常、制限された構造化された環境で機能し、プラグとソケットが遠く離れている場合、シーンが密集している場合、または新しいオブジェクトを処理するときに頻繁に故障します。
また、CADモデルへのアクセスやシミュレーションのデジタルツインなどの強力な仮定にも依存しています。
これに対処するために、easeedInterertを提案します。これは、プラグとソケットの間で相対的なポーズ(デルタポーズ)が挿入を成功させるのに十分であり、相対的なポーズ予測の一般化可能なモデルを訓練するために最小限の人間の労働を伴う効率的で自動化された現実世界のデータ収集を採用するという人間の直観を活用するフレームワークを提案します。
実行中、EasyInSertは、予測されたデルタポーズに基づいて粗からファインまでの実行手順に従い、さまざまな挿入タスクを正常に実行します。
EasyInSertは、散らかった環境で目に見えないオブジェクトの強力なゼロショット一般化能力を示し、高いサンプル効率を維持し、人間の努力をほとんど必要としながら、重要な初期ポーズ逸脱のケースを処理します。
たった5時間のトレーニングデータを使用した実際の実験では、EasyInSertは、タイプCケーブル、HDMIケーブル、イーサネットケーブルなどの挑戦的なオブジェクトを含む15の目に見えない新しいオブジェクトの13のゼロショット挿入で90%以上の成功を達成します。
さらに、微調整のために1つの人間のデモと4分間の自動収集データのみで、15のオブジェクトすべてで90%以上の成功率に達します。

要約(オリジナル)

Insertion task is highly challenging that requires robots to operate with exceptional precision in cluttered environments. Existing methods often have poor generalization capabilities. They typically function in restricted and structured environments, and frequently fail when the plug and socket are far apart, when the scene is densely cluttered, or when handling novel objects. They also rely on strong assumptions such as access to CAD models or a digital twin in simulation. To address this, we propose EasyInsert, a framework which leverages the human intuition that relative pose (delta pose) between plug and socket is sufficient for successful insertion, and employs efficient and automated real-world data collection with minimal human labor to train a generalizable model for relative pose prediction. During execution, EasyInsert follows a coarse-to-fine execution procedure based on predicted delta pose, and successfully performs various insertion tasks. EasyInsert demonstrates strong zero-shot generalization capability for unseen objects in cluttered environments, handling cases with significant initial pose deviations while maintaining high sample efficiency and requiring little human effort. In real-world experiments, with just 5 hours of training data, EasyInsert achieves over 90% success in zero-shot insertion for 13 out of 15 unseen novel objects, including challenging objects like Type-C cables, HDMI cables, and Ethernet cables. Furthermore, with only one human demonstration and 4 minutes of automatically collected data for fine-tuning, it reaches over 90% success rate for all 15 objects.

arxiv情報

著者 Guanghe Li,Junming Zhao,Shengjie Wang,Yang Gao
発行日 2025-05-22 03:46:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | EasyInsert: A Data-Efficient and Generalizable Insertion Policy はコメントを受け付けていません

SEM: Enhancing Spatial Understanding for Robust Robot Manipulation

要約

ロボット操作の重要な課題は、強い空間的理解、3D形状、オブジェクト関係、ロボットの具体化について推論する能力を備えたポリシーモデルの開発にあります。
既存の方法はしばしば不足しています。3Dポイントクラウドモデルにはセマンティックな抽象化がありませんが、2D画像エンコーダーは空間的推論に苦労しています。
これに対処するために、2つの補完的な観点から空間的理解を明示的に強化する新しい拡散ベースのポリシーフレームワークであるSEM(空間強化操作モデル)を提案します。
空間エンハンサーは、3D幾何学的コンテキストで視覚表現を増強しますが、ロボット状態エンコーダーは、共同依存関係のグラフベースモデリングを介して具体化された構造をキャプチャします。
これらのモジュールを統合することにより、SEMは空間的理解を大幅に改善し、既存のベースラインを上回る多様なタスク全体で堅牢で一般化可能な操作につながります。

要約(オリジナル)

A key challenge in robot manipulation lies in developing policy models with strong spatial understanding, the ability to reason about 3D geometry, object relations, and robot embodiment. Existing methods often fall short: 3D point cloud models lack semantic abstraction, while 2D image encoders struggle with spatial reasoning. To address this, we propose SEM (Spatial Enhanced Manipulation model), a novel diffusion-based policy framework that explicitly enhances spatial understanding from two complementary perspectives. A spatial enhancer augments visual representations with 3D geometric context, while a robot state encoder captures embodiment-aware structure through graphbased modeling of joint dependencies. By integrating these modules, SEM significantly improves spatial understanding, leading to robust and generalizable manipulation across diverse tasks that outperform existing baselines.

arxiv情報

著者 Xuewu Lin,Tianwei Lin,Lichao Huang,Hongyu Xie,Yiwei Jin,Keyu Li,Zhizhong Su
発行日 2025-05-22 04:00:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | SEM: Enhancing Spatial Understanding for Robust Robot Manipulation はコメントを受け付けていません