Accelerating Model-Based Reinforcement Learning with State-Space World Models

要約

強化学習(RL)は、ロボット学習の強力なアプローチです。
ただし、モデルフリーRL(MFRL)には、成功した制御ポリシーを学習するには、多数の環境相互作用が必要です。
これは、騒々しいRLトレーニングの更新とロボットシステムの複雑さによるもので、通常、非常に非線形ダイナミクスとノイズの多いセンサー信号が含まれます。
対照的に、モデルベースのRL(MBRL)はポリシーを訓練するだけでなく、同時に環境のダイナミクスと報酬をキャプチャする世界モデルを学習します。
世界モデルは、計画、データ収集のために、またはトレーニング用の1次ポリシーグラデーションを提供するために使用できます。
世界モデルを活用すると、モデルのないRLと比較してサンプル効率が大幅に向上します。
ただし、ポリシーに沿って世界モデルをトレーニングすると、計算の複雑さが高まり、複雑な実世界のシナリオでは扱いにくいトレーニング時間が長くなります。
この作業では、状態空間世界モデルを使用してモデルベースのRLを加速するための新しい方法を提案します。
私たちのアプローチは、状態空間モデル(SSM)を活用して、通常、主要な計算ボトルネックであるダイナミクスモデルのトレーニングを並行しています。
さらに、トレーニング中に世界モデルに特権情報を提供するアーキテクチャを提案します。これは、部分的に観察可能な環境に特に関連しています。
完全および部分的に観察可能な環境の両方で、複雑なダイナミクスを含む、いくつかの実際のアジャイル四輪飛行タスクでの方法を評価します。
大幅なスピードアップを実証し、世界モデルのトレーニング時間を最大10倍短縮し、MBRLトレーニング時間全体を最大4回短縮します。
このメリットは、パフォーマンスを損なうことなくもたらされます。これは、私たちの方法が同様のサンプル効率と最先端のMBRLメソッドに対するタスクの報酬を達成するためです。

要約(オリジナル)

Reinforcement learning (RL) is a powerful approach for robot learning. However, model-free RL (MFRL) requires a large number of environment interactions to learn successful control policies. This is due to the noisy RL training updates and the complexity of robotic systems, which typically involve highly non-linear dynamics and noisy sensor signals. In contrast, model-based RL (MBRL) not only trains a policy but simultaneously learns a world model that captures the environment’s dynamics and rewards. The world model can either be used for planning, for data collection, or to provide first-order policy gradients for training. Leveraging a world model significantly improves sample efficiency compared to model-free RL. However, training a world model alongside the policy increases the computational complexity, leading to longer training times that are often intractable for complex real-world scenarios. In this work, we propose a new method for accelerating model-based RL using state-space world models. Our approach leverages state-space models (SSMs) to parallelize the training of the dynamics model, which is typically the main computational bottleneck. Additionally, we propose an architecture that provides privileged information to the world model during training, which is particularly relevant for partially observable environments. We evaluate our method in several real-world agile quadrotor flight tasks, involving complex dynamics, for both fully and partially observable environments. We demonstrate a significant speedup, reducing the world model training time by up to 10 times, and the overall MBRL training time by up to 4 times. This benefit comes without compromising performance, as our method achieves similar sample efficiency and task rewards to state-of-the-art MBRL methods.

arxiv情報

著者 Maria Krinner,Elie Aljalbout,Angel Romero,Davide Scaramuzza
発行日 2025-02-27 15:05:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE, cs.RO, I.2.10, stat.ML | Accelerating Model-Based Reinforcement Learning with State-Space World Models はコメントを受け付けていません

MARVEL: Multi-Agent Reinforcement Learning for constrained field-of-View multi-robot Exploration in Large-scale environments

要約

マルチロボット探査では、モバイルロボットのチームが未知の環境を効率的にマッピングすることを担当しています。
ほとんどの探査プランナーはLidarのような全方向性センサーを想定していますが、これはドローンなどの小さなロボットでは非現実的です。ここでは、カメラのような軽量で方向性のあるセンサーがペイロードの制約のために唯一のオプションです。
これらのセンサーには制限のあるフィールドオブビュー(FOV)があり、探索問題に複雑さを加え、最適なロボットの位置付けだけでなく、動き中のセンサーの向きも必要です。
この作業では、Graph Attonest Networksと新しいフロンティアとオリエンテーション機能の融合技術を活用するニューラルフレームワークであるMarvelを提案し、制約付きFOVのロボットのマルチエージェント補強学習(MARL)を使用して共同分散型ポリシーを開発します。
視点計画の大きなアクション空間を処理するために、新しい情報駆動型アクションプルーニング戦略をさらに紹介します。
Marvelは、追加のトレーニングなしで、さまざまなチームサイズとセンサー構成(FOVおよびセンサーの範囲)に適応しながら、大規模な屋内環境に挑戦するマルチロボット調整と意思決定を改善します。
当社の広範な評価は、Marvelの学んだポリシーが効果的な調整された行動を示し、複数のメトリックにわたって最先端の探査プランナーを上回ることを示しています。
最大90m x 90mの大規模な環境でのMarvelの一般化可能性を実験的に示し、実際のドローンハードウェアのチームでの展開を成功させることで、その実用的な適用性を検証します。

要約(オリジナル)

In multi-robot exploration, a team of mobile robot is tasked with efficiently mapping an unknown environments. While most exploration planners assume omnidirectional sensors like LiDAR, this is impractical for small robots such as drones, where lightweight, directional sensors like cameras may be the only option due to payload constraints. These sensors have a constrained field-of-view (FoV), which adds complexity to the exploration problem, requiring not only optimal robot positioning but also sensor orientation during movement. In this work, we propose MARVEL, a neural framework that leverages graph attention networks, together with novel frontiers and orientation features fusion technique, to develop a collaborative, decentralized policy using multi-agent reinforcement learning (MARL) for robots with constrained FoV. To handle the large action space of viewpoints planning, we further introduce a novel information-driven action pruning strategy. MARVEL improves multi-robot coordination and decision-making in challenging large-scale indoor environments, while adapting to various team sizes and sensor configurations (i.e., FoV and sensor range) without additional training. Our extensive evaluation shows that MARVEL’s learned policies exhibit effective coordinated behaviors, outperforming state-of-the-art exploration planners across multiple metrics. We experimentally demonstrate MARVEL’s generalizability in large-scale environments, of up to 90m by 90m, and validate its practical applicability through successful deployment on a team of real drone hardware.

arxiv情報

著者 Jimmy Chiun,Shizhe Zhang,Yizhuo Wang,Yuhong Cao,Guillaume Sartoretti
発行日 2025-02-27 15:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO | MARVEL: Multi-Agent Reinforcement Learning for constrained field-of-View multi-robot Exploration in Large-scale environments はコメントを受け付けていません

GravMAD: Grounded Spatial Value Maps Guided Action Diffusion for Generalized 3D Manipulation

要約

ロボットの指示に従い、多様な3D操作タスクを実行する能力は、ロボット学習に不可欠です。
従来の模倣学習ベースの方法は、見られたタスクではうまく機能しますが、変動性のために斬新で目に見えないタスクと格闘しています。
最近のアプローチでは、大規模な基礎モデルを活用して、新しいタスクの理解を支援し、それによってこの問題を軽減します。
ただし、これらの方法にはタスク固有の学習プロセスがありません。これは、3D環境を正確に理解するために不可欠であり、しばしば実行障害につながることがあります。
この論文では、模倣学習と基礎モデルの強みを組み合わせた、サブゴール駆動型の言語条件付きアクション拡散フレームワークであるGravmadを紹介します。
私たちのアプローチは、言語の指示に基づいてタスクをサブゴールに分割し、トレーニングと推論の両方で補助ガイダンスを可能にします。
トレーニング中に、サブゴールキーポーズ発見を導入して、デモンストレーションからキーサブゴールを特定します。
推論はトレーニングとは異なり、デモンストレーションが利用できないため、事前に訓練された基礎モデルを使用してギャップを埋め、現在のタスクのサブゴールを特定します。
両方のフェーズで、グラブマップはサブゴールから生成され、固定された3D位置と比較してより柔軟な3D空間ガイダンスをGravmadに提供します。
RLBenchの経験的評価は、Gravmadが最先端の方法を大幅に上回ることを示しており、新しいタスクが28.63%改善され、トレーニング中に遭遇したタスクで13.36%の増加が得られます。
現実世界のロボットタスクに関する評価はさらに、Gravmadが実際のタスクについて推論し、関連する視覚情報に関連付けられ、新しいタスクに一般化できることを示しています。
これらの結果は、3D操作におけるGravmadの強力なマルチタスク学習と一般化を示しています。
ビデオデモンストレーションは、https://gravmad.github.ioで入手できます。

要約(オリジナル)

Robots’ ability to follow language instructions and execute diverse 3D manipulation tasks is vital in robot learning. Traditional imitation learning-based methods perform well on seen tasks but struggle with novel, unseen ones due to variability. Recent approaches leverage large foundation models to assist in understanding novel tasks, thereby mitigating this issue. However, these methods lack a task-specific learning process, which is essential for an accurate understanding of 3D environments, often leading to execution failures. In this paper, we introduce GravMAD, a sub-goal-driven, language-conditioned action diffusion framework that combines the strengths of imitation learning and foundation models. Our approach breaks tasks into sub-goals based on language instructions, allowing auxiliary guidance during both training and inference. During training, we introduce Sub-goal Keypose Discovery to identify key sub-goals from demonstrations. Inference differs from training, as there are no demonstrations available, so we use pre-trained foundation models to bridge the gap and identify sub-goals for the current task. In both phases, GravMaps are generated from sub-goals, providing GravMAD with more flexible 3D spatial guidance compared to fixed 3D positions. Empirical evaluations on RLBench show that GravMAD significantly outperforms state-of-the-art methods, with a 28.63% improvement on novel tasks and a 13.36% gain on tasks encountered during training. Evaluations on real-world robotic tasks further show that GravMAD can reason about real-world tasks, associate them with relevant visual information, and generalize to novel tasks. These results demonstrate GravMAD’s strong multi-task learning and generalization in 3D manipulation. Video demonstrations are available at: https://gravmad.github.io.

arxiv情報

著者 Yangtao Chen,Zixuan Chen,Junhui Yin,Jing Huo,Pinzhuo Tian,Jieqi Shi,Yang Gao
発行日 2025-02-27 16:43:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | GravMAD: Grounded Spatial Value Maps Guided Action Diffusion for Generalized 3D Manipulation はコメントを受け付けていません

Orchestrating Joint Offloading and Scheduling for Low-Latency Edge SLAM

要約

視覚的な同時ローカリゼーションとマッピング(VSLAM)は、多くの新興ロボットアプリケーションにとって一般的なテクノロジーです。
限られた計算リソースを備えたモバイルロボットシステムでリアルタイムスラムを達成することは、スラムアルゴリズムの複雑さが時間とともに増加するため、困難です。
この制限は、エッジサーバーに計算をオフロードすることで解除することができ、エッジアシストされたスラムの新たなパラダイムを形成します。
それにもかかわらず、外因性および確率的入力プロセスは、エッジ支援スラムシステムのダイナミクスに影響します。
さらに、SLAMメトリックに関するクライアントの要件は時間とともに変化し、システムに対する暗黙的および時変効果を発揮します。
この論文では、入力駆動型のプロセスを処理し、クライアントの暗黙的で時変の要件を満たすことができる新しいアーキテクチャを提案することにより、既存のエッジアシストスラムを超えて制限を推進することを目指しています。
私たちの作業の主要な革新には、重要性を認めるローカルデータ処理のための地域機能予測方法、データ圧縮/減圧とタスクのオフロードを統合する構成適応ポリシー、および制約満足度を備えたタスクスケジューリングの入力依存性学習フレームワークが含まれます。
広範な実験は、私たちのアーキテクチャがポーズの推定精度を改善し、人気のあるエッジアシストされたスラムシステムと比較して通信コストの最大47%を節約し、クライアントの要件を効果的に満たすことを証明しています。

要約(オリジナル)

Visual Simultaneous Localization and Mapping (vSLAM) is a prevailing technology for many emerging robotic applications. Achieving real-time SLAM on mobile robotic systems with limited computational resources is challenging because the complexity of SLAM algorithms increases over time. This restriction can be lifted by offloading computations to edge servers, forming the emerging paradigm of edge-assisted SLAM. Nevertheless, the exogenous and stochastic input processes affect the dynamics of the edge-assisted SLAM system. Moreover, the requirements of clients on SLAM metrics change over time, exerting implicit and time-varying effects on the system. In this paper, we aim to push the limit beyond existing edge-assist SLAM by proposing a new architecture that can handle the input-driven processes and also satisfy clients’ implicit and time-varying requirements. The key innovations of our work involve a regional feature prediction method for importance-aware local data processing, a configuration adaptation policy that integrates data compression/decompression and task offloading, and an input-dependent learning framework for task scheduling with constraint satisfaction. Extensive experiments prove that our architecture improves pose estimation accuracy and saves up to 47% of communication costs compared with a popular edge-assisted SLAM system, as well as effectively satisfies the clients’ requirements.

arxiv情報

著者 Yao Zhang,Yuyi Mao,Hui Wang,Zhiwen Yu,Song Guo,Jun Zhang,Liang Wang,Bin Guo
発行日 2025-02-27 16:57:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.RO | Orchestrating Joint Offloading and Scheduling for Low-Latency Edge SLAM はコメントを受け付けていません

On Adversarial Attacks In Acoustic Drone Localization

要約

マルチローターの空中自動運転車(MAV、より広く知られている「ドローン」)は、広大で多様な分野(農業、商業提供、捜索救助など)での適用性が高まっているため、近年関心を高めています。
照明条件や閉塞に対する視覚ベースの方法の感度は、音響センシングなどの他のモダリティに依存する航海の研究の成長を促しました。
制御されていない環境でのタスクにスケールでドローンを使用することにおける主要な懸念は、ナビゲーションシステムに対する敵対的な攻撃の潜在的な脅威であり、ユーザーをミッションクリティカルな障害、セキュリティ侵害、およびオペレーターや傍観者を危険にさらす可能性のある安全性の侵害にさらすことです。
以前の研究は、音響ベースのドローンローカリゼーションの印象的な進歩を示していますが、ドローンナビゲーションを介した敵対的攻撃の事前研究は、視覚センシングベースのシステムのみに対処します。
この作業では、音響ドローンの局在に対するPGD敵対攻撃の効果の包括的な分析を提供することにより、このギャップを補うことを目指しています。
さらに、敵対的な摂動回復のためのアルゴリズムを開発し、そのような攻撃の影響を著しく減少させることができます。
すべての実験を再現するためのコードは、公開時にリリースされます。

要約(オリジナル)

Multi-rotor aerial autonomous vehicles (MAVs, more widely known as ‘drones’) have been generating increased interest in recent years due to their growing applicability in a vast and diverse range of fields (e.g., agriculture, commercial delivery, search and rescue). The sensitivity of visual-based methods to lighting conditions and occlusions had prompted growing study of navigation reliant on other modalities, such as acoustic sensing. A major concern in using drones in scale for tasks in non-controlled environments is the potential threat of adversarial attacks over their navigational systems, exposing users to mission-critical failures, security breaches, and compromised safety outcomes that can endanger operators and bystanders. While previous work shows impressive progress in acoustic-based drone localization, prior research in adversarial attacks over drone navigation only addresses visual sensing-based systems. In this work, we aim to compensate for this gap by supplying a comprehensive analysis of the effect of PGD adversarial attacks over acoustic drone localization. We furthermore develop an algorithm for adversarial perturbation recovery, capable of markedly diminishing the affect of such attacks in our setting. The code for reproducing all experiments will be released upon publication.

arxiv情報

著者 Tamir Shor,Chaim Baskin,Alex Bronstein
発行日 2025-02-27 17:50:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SD, eess.AS | On Adversarial Attacks In Acoustic Drone Localization はコメントを受け付けていません

Trajectory-to-Action Pipeline (TAP): Automated Scenario Description Extraction for Autonomous Vehicle Behavior Comparison

要約

シナリオの説明言語(SDL)は、自動運転車(AVS)で遭遇するトラフィックシナリオを表す構造化された解釈可能な埋め込みを提供し、シナリオの類似性検索や安全分析のためのエッジケース検出などの重要なタスクをサポートします。
このペーパーでは、大規模な軌跡データセットからSDLラベルを抽出するためのスケーラブルで自動化された方法である軌道から行動間パイプライン(TAP)を紹介します。
TAPは、ルールベースのクロスエントロピー最適化アプローチを適用して、データから直接パラメーターを学習し、多様な運転コンテキスト全体の一般化を強化します。
Waymo Open Motion Dataset(WOMD)を使用して、TAPは、行動的に類似した軌跡を特定する際に、平均変位エラー(ADE)よりも30%の精度を達成し、動的タイムワーピング(DTW)よりも24%を達成します。
さらに、TAPを有効にして、独自の運転行動の自動検出を可能にし、AVテストのための安全評価プロセスを合理化します。
この作業は、マルチエージェントコンテキストを統合するための潜在的な拡張機能を備えたスケーラブルなシナリオベースのAV動作分析の基盤を提供します。

要約(オリジナル)

Scenario Description Languages (SDLs) provide structured, interpretable embeddings that represent traffic scenarios encountered by autonomous vehicles (AVs), supporting key tasks such as scenario similarity searches and edge case detection for safety analysis. This paper introduces the Trajectory-to-Action Pipeline (TAP), a scalable and automated method for extracting SDL labels from large trajectory datasets. TAP applies a rules-based cross-entropy optimization approach to learn parameters directly from data, enhancing generalization across diverse driving contexts. Using the Waymo Open Motion Dataset (WOMD), TAP achieves 30% greater precision than Average Displacement Error (ADE) and 24% over Dynamic Time Warping (DTW) in identifying behaviorally similar trajectories. Additionally, TAP enables automated detection of unique driving behaviors, streamlining safety evaluation processes for AV testing. This work provides a foundation for scalable scenario-based AV behavior analysis, with potential extensions for integrating multi-agent contexts.

arxiv情報

著者 Aron Harder,Madhur Behl
発行日 2025-02-27 18:27:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Trajectory-to-Action Pipeline (TAP): Automated Scenario Description Extraction for Autonomous Vehicle Behavior Comparison はコメントを受け付けていません

The Role of Tactile Sensing for Learning Reach and Grasp

要約

安定した堅牢なロボット握手は、現在および将来のロボットアプリケーションに不可欠です。
最近の作品では、大規模なデータセットと監視された学習の使用により、抗産型の把握における速度と精度が向上しました。
ただし、これらの方法では、大規模な計画視野による知覚とキャリブレーションエラーと格闘しています。
より堅牢で反応性のある把握動きを得るために、触覚センシングと組み合わせた補強学習を活用することは有望な方向です。
しかし、力ベースの触覚センシングの複雑さが、タスクを把握するための学習行動にどのように影響するかについての体系的な評価はありません。
このペーパーでは、アンチポダルグラッピングのための2つのモデルフリーの強化学習アプローチを使用して、さまざまな触覚と環境のセットアップを比較します。
私たちの調査結果は、不完全な視覚的認識の下で、さまざまな触覚の特徴が学習結果を改善し、複雑な触覚入力がトレーニングを複雑にすることを示唆しています。

要約(オリジナル)

Stable and robust robotic grasping is essential for current and future robot applications. In recent works, the use of large datasets and supervised learning has enhanced speed and precision in antipodal grasping. However, these methods struggle with perception and calibration errors due to large planning horizons. To obtain more robust and reactive grasping motions, leveraging reinforcement learning combined with tactile sensing is a promising direction. Yet, there is no systematic evaluation of how the complexity of force-based tactile sensing affects the learning behavior for grasping tasks. This paper compares various tactile and environmental setups using two model-free reinforcement learning approaches for antipodal grasping. Our findings suggest that under imperfect visual perception, various tactile features improve learning outcomes, while complex tactile inputs complicate training.

arxiv情報

著者 Boya Zhang,Iris Andrussow,Andreas Zell,Georg Martius
発行日 2025-02-27 18:36:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | The Role of Tactile Sensing for Learning Reach and Grasp はコメントを受け付けていません

Multi-Agent Path Planning in Complex Environments using Gaussian Belief Propagation with Global Path Finding

要約

マルチエージェントパス計画は、ロボット工学における重要な課題であり、エージェントが衝突を避け、旅行効率を最適化しながら複雑な環境をナビゲートする必要があります。
この作業は、ガウスの信念の伝播とパス統合を組み合わせて、新しい追跡要因を導入してグローバルなパスへの厳密な順守を確保することにより、既存のアプローチの制限に対処します。
提案された方法は、2つの異なるグローバルパス計画アプローチでテストされます。ランダムツリーと、定義されたレーン構造を活用して調整を改善する構造化されたプランナーを迅速に探索します。
シミュレーション環境は、さまざまなシナリオ全体で提案された方法を検証するために開発され、それぞれがナビゲーションと通信における独自の課題を提起しました。
シミュレーション結果は、追跡因子がパス偏差を単一エージェントで28%、マルチエージェントシナリオで16%減らすことを示しており、特に構造化されたグローバル計画と組み合わされた場合、マルチエージェント調整の改善における有効性を強調しています。

要約(オリジナル)

Multi-agent path planning is a critical challenge in robotics, requiring agents to navigate complex environments while avoiding collisions and optimizing travel efficiency. This work addresses the limitations of existing approaches by combining Gaussian belief propagation with path integration and introducing a novel tracking factor to ensure strict adherence to global paths. The proposed method is tested with two different global path-planning approaches: rapidly exploring random trees and a structured planner, which leverages predefined lane structures to improve coordination. A simulation environment was developed to validate the proposed method across diverse scenarios, each posing unique challenges in navigation and communication. Simulation results demonstrate that the tracking factor reduces path deviation by 28% in single-agent and 16% in multi-agent scenarios, highlighting its effectiveness in improving multi-agent coordination, especially when combined with structured global planning.

arxiv情報

著者 Jens Høigaard Jensen,Kristoffer Plagborg Bak Sørensen,Jonas le Fevre Sejersen,Andriy Sarabakha
発行日 2025-02-27 18:37:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO | Multi-Agent Path Planning in Complex Environments using Gaussian Belief Propagation with Global Path Finding はコメントを受け付けていません

ATLAS Navigator: Active Task-driven LAnguage-embedded Gaussian Splatting

要約

ロボットがリアルタイムで豊富なメトリックセマンチックなマップを漸進的に構築し、推論する必要がある非構造化された未知の環境でのタスク指向ナビゲーションの課題に対処します。
タスクには明確化または再仕様が必要になる場合があるため、マップ内の情報が幅広いタスクにわたって一般化を可能にするのに十分なほど豊富である必要があります。
自然言語で指定されたタスクを効果的に実行するために、衝突のないナビゲーションのためのオンライン操作と密集した幾何学的表現に役立つまばらなセマンティック計画の両方を可能にする言語埋め込まれたガウスのスプラッティングに基づいた階層表現を提案します。
散らかった屋内とキロメートルの屋外環境の両方で実施さ​​れた現実世界のロボット実験を通じて、私たちの方法の有効性を検証し、特権的なベースラインに対して約60%の競争比があります。
実験ビデオと詳細については、プロジェクトページ:https://atlasnav.github.ioをご覧ください。

要約(オリジナル)

We address the challenge of task-oriented navigation in unstructured and unknown environments, where robots must incrementally build and reason on rich, metric-semantic maps in real time. Since tasks may require clarification or re-specification, it is necessary for the information in the map to be rich enough to enable generalization across a wide range of tasks. To effectively execute tasks specified in natural language, we propose a hierarchical representation built on language-embedded Gaussian splatting that enables both sparse semantic planning that lends itself to online operation and dense geometric representation for collision-free navigation. We validate the effectiveness of our method through real-world robot experiments conducted in both cluttered indoor and kilometer-scale outdoor environments, with a competitive ratio of about 60% against privileged baselines. Experiment videos and more details can be found on our project page: https://atlasnav.github.io

arxiv情報

著者 Dexter Ong,Yuezhan Tao,Varun Murali,Igor Spasojevic,Vijay Kumar,Pratik Chaudhari
発行日 2025-02-27 18:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ATLAS Navigator: Active Task-driven LAnguage-embedded Gaussian Splatting はコメントを受け付けていません

Point Policy: Unifying Observations and Actions with Key Points for Robot Manipulation

要約

多様な環境とオブジェクトタイプを越えて動作できるロボットエージェントの構築は、依然として大きな課題であり、多くの場合、広範なデータ収集が必要です。
これは、各データポイントを現実の世界で物理的に実行する必要があるロボット工学では特に制限されています。
したがって、そのようなデータからの学習を可能にするロボット工学とフレームワークの代替データソースが重要な必要性があります。
この作業では、ポイントポリシーを提示します。これは、オフラインの人間のデモンストレーションビデオからのみロボットポリシーを学習するための新しい方法であり、テレオ操作データなしです。
ポイントポリシーは、最先端のビジョンモデルとポリシーアーキテクチャを活用して、人間のハンドポーズをロボットポーズに変換し、意味的に意味のあるキーポイントを通じてオブジェクト状態をキャプチャします。
このアプローチは、効果的な政策学習を促進する形態と存在の表現を生成します。
8つの現実世界のタスクでの実験は、トレーニングと同一の設定で評価された場合、以前の作業よりも全体的に75%の絶対的な改善を示しています。
さらに、ポイントポリシーは、新しいオブジェクトインスタンスのタスク全体で74%の増加を示し、重要なバックグラウンドクラッターに対して堅牢です。
ロボットのビデオは、https://point-policy.github.io/で最もよく見ることができます。

要約(オリジナル)

Building robotic agents capable of operating across diverse environments and object types remains a significant challenge, often requiring extensive data collection. This is particularly restrictive in robotics, where each data point must be physically executed in the real world. Consequently, there is a critical need for alternative data sources for robotics and frameworks that enable learning from such data. In this work, we present Point Policy, a new method for learning robot policies exclusively from offline human demonstration videos and without any teleoperation data. Point Policy leverages state-of-the-art vision models and policy architectures to translate human hand poses into robot poses while capturing object states through semantically meaningful key points. This approach yields a morphology-agnostic representation that facilitates effective policy learning. Our experiments on 8 real-world tasks demonstrate an overall 75% absolute improvement over prior works when evaluated in identical settings as training. Further, Point Policy exhibits a 74% gain across tasks for novel object instances and is robust to significant background clutter. Videos of the robot are best viewed at https://point-policy.github.io/.

arxiv情報

著者 Siddhant Haldar,Lerrel Pinto
発行日 2025-02-27 18:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Point Policy: Unifying Observations and Actions with Key Points for Robot Manipulation はコメントを受け付けていません