Mobile Robot Navigation Using Hand-Drawn Maps: A Vision Language Model Approach

要約

手描きのマップを使用して、自然で効率的な方法で人間とロボットの間のナビゲーションの指示を伝えることができます。
ただし、これらのマップには、多くの場合、スケールの歪みやモバイルロボットナビゲーションの課題を提示するランドマークの欠落などの不正確さが含まれます。
このペーパーでは、マップの存在下でも、マップの存在下でも、多様な環境、手描きスタイル、ロボットの実施形態を横切るロボットナビゲーションのために、事前に訓練されたビジョン言語モデル(VLM)を活用する新しい手描きのマップナビゲーション(HAM-NAV)アーキテクチャを紹介します。
HAM-NAVは、トポロジカルマップベースの位置推定とナビゲーション計画のためのユニークな選択的視覚的関連付けプロンプトアプローチ、および予測ナビゲーション計画パーサーを統合して、欠落しているランドマークを推測します。
ホイール付きロボットと脚の両方のロボットの両方を使用して、フォトリアリスティックシミュレーション環境で広範な実験が行われ、ナビゲーションの成功率とパスの長さの重み付けの成功の観点からHAM-NAVの有効性を実証しました。
さらに、現実世界の環境でのユーザー調査では、ロボットナビゲーションの手描きマップの実用的なユーティリティと、非描画マップアプローチと比較したナビゲーションの成功を強調しました。

要約(オリジナル)

Hand-drawn maps can be used to convey navigation instructions between humans and robots in a natural and efficient manner. However, these maps can often contain inaccuracies such as scale distortions and missing landmarks which present challenges for mobile robot navigation. This paper introduces a novel Hand-drawn Map Navigation (HAM-Nav) architecture that leverages pre-trained vision language models (VLMs) for robot navigation across diverse environments, hand-drawing styles, and robot embodiments, even in the presence of map inaccuracies. HAM-Nav integrates a unique Selective Visual Association Prompting approach for topological map-based position estimation and navigation planning as well as a Predictive Navigation Plan Parser to infer missing landmarks. Extensive experiments were conducted in photorealistic simulated environments, using both wheeled and legged robots, demonstrating the effectiveness of HAM-Nav in terms of navigation success rates and Success weighted by Path Length. Furthermore, a user study in real-world environments highlighted the practical utility of hand-drawn maps for robot navigation as well as successful navigation outcomes compared against a non-hand-drawn map approach.

arxiv情報

著者 Aaron Hao Tan,Angus Fung,Haitong Wang,Goldie Nejat
発行日 2025-04-28 18:14:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Mobile Robot Navigation Using Hand-Drawn Maps: A Vision Language Model Approach はコメントを受け付けていません

SOLAQUA: SINTEF Ocean Large Aquaculture Robotics Dataset

要約

このホワイトペーパーでは、海底の水産養殖環境で水中ロボットで収集されたデータセットを紹介します。
データは運用養殖場から収集され、ウォーターリンクされたA50 DVL、Nortek Nucleus 1000 DVL、Sonardyne Micro Ranger 2 USBL、Sonoptix Mulitbeam Sonar、Mono and Stereo Cameras、および電力使用量、IMU、温度などなどの車両センサーデータなどのセンサーからのデータが含まれています。
データ収集は、ネットペン構造の手動と自律性の両方のトラバーサル中に実行されます。
収集された視力データは、魚と海洋の成長が存在する損傷のないネットであり、研究コミュニティと養殖業界の両方が、提案されたSolaquaデータセットの利用から大きな恩恵を受けることが期待されています。

要約(オリジナル)

This paper presents a dataset gathered with an underwater robot in a sea-based aquaculture setting. Data was gathered from an operational fish farm and includes data from sensors such as the Waterlinked A50 DVL, the Nortek Nucleus 1000 DVL, Sonardyne Micro Ranger 2 USBL, Sonoptix Mulitbeam Sonar, mono and stereo cameras, and vehicle sensor data such as power usage, IMU, pressure, temperature, and more. Data acquisition is performed during both manual and autonomous traversal of the net pen structure. The collected vision data is of undamaged nets with some fish and marine growth presence, and it is expected that both the research community and the aquaculture industry will benefit greatly from the utilization of the proposed SOLAQUA dataset.

arxiv情報

著者 Sveinung Johan Ohrem,Bent Haugaløkken,Eleni Kelasidi
発行日 2025-04-28 18:57:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | SOLAQUA: SINTEF Ocean Large Aquaculture Robotics Dataset はコメントを受け付けていません

Improving trajectory continuity in drone-based crowd monitoring using a set of minimal-cost techniques and deep discriminative correlation filters

要約

ドローンベースの群衆監視は、監視、公共の安全、イベント管理におけるアプリケーションのための重要な技術です。
ただし、追跡の継続性と一貫性を維持することは依然として重要な課題です。
従来の検出回収追跡方法は、誤検知、偽陰性、および頻繁なアイデンティティスイッチとの闘いであり、劣化したカウントの精度と詳細な分析を不可能にします。
このペーパーでは、ドローンベースの群衆監視における軌道の連続性とカウントの信頼性をカウントするポイント指向のオンライン追跡アルゴリズムを紹介します。
当社の方法は、シンプルなオンラインおよびリアルタイムトラッキング(並べ替え)フレームワークに基づいて、元の境界ボックス割り当てをポイントダイスタンスメトリックに置き換えます。
このアルゴリズムは、カメラのモーション補償、高度認識の割り当て、および分類ベースの軌道検証の3つの費用対効果の高い手法で強化されています。
さらに、ニューラルネットワークリソース共有を介して計算効率を向上させるために、ローカリゼーションアルゴリズムから空間機能マップを再利用する深い識別相関フィルター(DDCF)が統合され、ノイズを減らし、見逃した検出を処理することによりオブジェクト追跡を改良します。
提案された方法は、DroneCrowdおよび新たに共有されたアップトラックデータセットで評価され、メトリックの追跡の大幅な改善を示し、カウントエラーをそれぞれ23%と15%に減らします。
また、結果は、高い追跡精度、ベースラインのオンライントラッカーを上回る、さらにはオフラインの貪欲な最適化方法を維持しながら、アイデンティティスイッチの大幅な削減を示しています。

要約(オリジナル)

Drone-based crowd monitoring is the key technology for applications in surveillance, public safety, and event management. However, maintaining tracking continuity and consistency remains a significant challenge. Traditional detection-assignment tracking methods struggle with false positives, false negatives, and frequent identity switches, leading to degraded counting accuracy and making in-depth analysis impossible. This paper introduces a point-oriented online tracking algorithm that improves trajectory continuity and counting reliability in drone-based crowd monitoring. Our method builds on the Simple Online and Real-time Tracking (SORT) framework, replacing the original bounding-box assignment with a point-distance metric. The algorithm is enhanced with three cost-effective techniques: camera motion compensation, altitude-aware assignment, and classification-based trajectory validation. Further, Deep Discriminative Correlation Filters (DDCF) that re-use spatial feature maps from localisation algorithms for increased computational efficiency through neural network resource sharing are integrated to refine object tracking by reducing noise and handling missed detections. The proposed method is evaluated on the DroneCrowd and newly shared UP-COUNT-TRACK datasets, demonstrating substantial improvements in tracking metrics, reducing counting errors to 23% and 15%, respectively. The results also indicate a significant reduction of identity switches while maintaining high tracking accuracy, outperforming baseline online trackers and even an offline greedy optimisation method.

arxiv情報

著者 Bartosz Ptak,Marek Kraft
発行日 2025-04-28 20:07:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Improving trajectory continuity in drone-based crowd monitoring using a set of minimal-cost techniques and deep discriminative correlation filters はコメントを受け付けていません

Deformable Multibody Modeling for Model Predictive Control in Legged Locomotion with Embodied Compliance

要約

この論文は、具体化されたコンプライアンスを備えた脚のあるロボットの動的歩行を安定させる方法を提示します。
私たちのアプローチでは、剛体と準拠体の統一された説明を導入して、変形と変形可能なマルチボディシステムの定式化を近似します。
変形可能なマルチボディシステムのcentroidal Composite Predultive変形慣性(CCPDI)テンソルを開発し、標準の実践モデル予測コントローラー(MPC)と統合する方法を示します。
シミュレーションは、結果の制御フレームワークが、同じMPC構成の下にある剛性と準拠の両方のスパインを備えた四葉ロボットのトロットステップを安定させることができることを示しています。
標準のMPCと比較して、開発されたCCPDI対応MPCは、身体バラン​​スのためにヒューリスティックに近い接地反応力を分布させるため、準拠ロボットの歩行を安定させる可能性が高くなります。
パラメトリック研究では、私たちの方法が、キーパラメーター値の適切なエンベロープ内である程度の堅牢性を保持することを示しています。

要約(オリジナル)

The paper presents a method to stabilize dynamic gait for a legged robot with embodied compliance. Our approach introduces a unified description for rigid and compliant bodies to approximate their deformation and a formulation for deformable multibody systems. We develop the centroidal composite predictive deformed inertia (CCPDI) tensor of a deformable multibody system and show how to integrate it with the standard-of-practice model predictive controller (MPC). Simulation shows that the resultant control framework can stabilize trot stepping on a quadrupedal robot with both rigid and compliant spines under the same MPC configurations. Compared to standard MPC, the developed CCPDI-enabled MPC distributes the ground reactive forces closer to the heuristics for body balance, and it is thus more likely to stabilize the gaits of the compliant robot. A parametric study shows that our method preserves some level of robustness within a suitable envelope of key parameter values.

arxiv情報

著者 Keran Ye,Konstantinos Karydis
発行日 2025-04-28 23:03:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Deformable Multibody Modeling for Model Predictive Control in Legged Locomotion with Embodied Compliance はコメントを受け付けていません

QMP: Q-switch Mixture of Policies for Multi-Task Behavior Sharing

要約

Multi-Task Rewnection Learning(MTRL)は、個別に学習するよりもサンプル効率を向上させるために、いくつかのタスクを同時に学習することを目指しています。
従来の方法は、タスク間でパラメーターまたは再生データを共有することにより、これを達成します。
この作業では、既存のMTRLメソッドに加えて使用できるタスク全体で行動ポリシーを共有するための新しいフレームワークを紹介します。
重要なアイデアは、他のタスクポリシーから行動を採用することにより、各タスクのオフポリシーデータ収集を改善することです。
別のタスクのトレーニングデータを収集するために1つのタスクで取得された有用な動作を選択的に共有すると、より高品質の軌道につながり、よりサンプル効率の高いMTRLにつながる可能性があります。
したがって、タスクのQ機能を使用して有用な共有行動を評価および選択することにより、異なるタスクポリシー間で行動を選択するように、ポリシーのQスイッチ混合(QMP)と呼ばれるシンプルで原則的なフレームワークを導入します。
QMPが基礎となるRLアルゴリズムのサンプル効率を改善する方法を理論的に分析します。
私たちの実験は、QMPの行動政策共有が多くの一般的なMTRLアルゴリズムに対して補完的な利益を提供し、さまざまな操作、移動、およびナビゲーション環境で行動を共有する代替方法を上回ることを示しています。
ビデオはhttps://qmp-mtrl.github.ioで入手できます。

要約(オリジナル)

Multi-task reinforcement learning (MTRL) aims to learn several tasks simultaneously for better sample efficiency than learning them separately. Traditional methods achieve this by sharing parameters or relabeled data between tasks. In this work, we introduce a new framework for sharing behavioral policies across tasks, which can be used in addition to existing MTRL methods. The key idea is to improve each task’s off-policy data collection by employing behaviors from other task policies. Selectively sharing helpful behaviors acquired in one task to collect training data for another task can lead to higher-quality trajectories, leading to more sample-efficient MTRL. Thus, we introduce a simple and principled framework called Q-switch mixture of policies (QMP) that selectively shares behavior between different task policies by using the task’s Q-function to evaluate and select useful shareable behaviors. We theoretically analyze how QMP improves the sample efficiency of the underlying RL algorithm. Our experiments show that QMP’s behavioral policy sharing provides complementary gains over many popular MTRL algorithms and outperforms alternative ways to share behaviors in various manipulation, locomotion, and navigation environments. Videos are available at https://qmp-mtrl.github.io.

arxiv情報

著者 Grace Zhang,Ayush Jain,Injune Hwang,Shao-Hua Sun,Joseph J. Lim
発行日 2025-04-28 23:27:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | QMP: Q-switch Mixture of Policies for Multi-Task Behavior Sharing はコメントを受け付けていません

System Identification of Thrust and Torque Characteristics for a Bipedal Robot with Integrated Propulsion

要約

二足歩行ロボットは、人間の形と動きをエミュレートするように設計された、驚くほど洗練されたロボット工学のクラスを表しています。
彼らの開発は、現場で重要なマイルストーンを示しています。
ただし、最先端の二足歩行ロボットでさえ、地形の変動、障害物の交渉、ペイロード管理、体重流通、つまずきからの回復に関連する課題に直面しています。
これらの課題は、不均一な地形の安定性を高め、障害物の回避を促進し、つまずき後の回復を改善するスラスタを組み込むことで緩和できます。
Harpyは、6つのジョイントと2つのスラスタを備えた二足歩行ロボットで、高度なコントロールアルゴリズムを実装およびテストするためのハードウェアプラットフォームとして機能します。
この論文は、Harpyのハードウェアを特徴付けて、システムの全体的な堅牢性、制御可能性、および予測可能性を改善することに焦点を当てています。
また、プロペラベースのメカニズムの推力を予測するためのシミュレーション結果、ハーピープラットフォームと関連するテスト、およびモータートルクの特性評価方法の探索と、閉ループの力ベースのインピーダンス制御に関連したハードウェアへの適用の調査も検討します。

要約(オリジナル)

Bipedal robots represent a remarkable and sophisticated class of robotics, designed to emulate human form and movement. Their development marks a significant milestone in the field. However, even the most advanced bipedal robots face challenges related to terrain variation, obstacle negotiation, payload management, weight distribution, and recovering from stumbles. These challenges can be mitigated by incorporating thrusters, which enhance stability on uneven terrain, facilitate obstacle avoidance, and improve recovery after stumbling. Harpy is a bipedal robot equipped with six joints and two thrusters, serving as a hardware platform for implementing and testing advanced control algorithms. This thesis focuses on characterizing Harpy’s hardware to improve the system’s overall robustness, controllability, and predictability. It also examines simulation results for predicting thrust in propeller-based mechanisms, the integration of thrusters into the Harpy platform and associated testing, as well as an exploration of motor torque characterization methods and their application to hardware in relation to closed-loop force-based impedance control.

arxiv情報

著者 Thomas Cahill
発行日 2025-04-28 23:54:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | System Identification of Thrust and Torque Characteristics for a Bipedal Robot with Integrated Propulsion はコメントを受け付けていません

NMPC-based Unified Posture Manipulation and Thrust Vectoring for Agile and Fault-Tolerant Flight of a Morphing Aerial Robot

要約

この論文は、航空モードでのマルチモーダルモビリティモルフォボット(M4)のアジャイルおよび断層耐性飛行のための統一された制御フレームワークを示しています。
M4ロボットは、地面と空中移動の間を移行できます。
明確な脚は、標準的な四輪プラットフォームよりも多くの動的な操作を可能にします。
非線形モデル予測制御(NMPC)アプローチが開発され、同時に姿勢操作とベクトル化アクションを推定し、ロボットがシャープなターンと動的飛行軌跡を実行できるようにします。
このフレームワークは、アクチュエータの障害を補償しながら積極的な操作の下で正確な追跡を可能にするアジャイルと断層耐性の制御ロジックを統合し、パフォーマンスの大幅な低下なしで継続的な動作を確保します。
シミュレーション結果は、提案された方法の有効性を検証し、正確な軌跡追跡と障害からの堅牢な回復を実証し、複雑な環境での回復力のある自律飛行に貢献します。

要約(オリジナル)

This thesis presents a unified control framework for agile and fault-tolerant flight of the Multi-Modal Mobility Morphobot (M4) in aerial mode. The M4 robot is capable of transitioning between ground and aerial locomotion. The articulated legs enable more dynamic maneuvers than a standard quadrotor platform. A nonlinear model predictive control (NMPC) approach is developed to simultaneously plan posture manipulation and thrust vectoring actions, allowing the robot to execute sharp turns and dynamic flight trajectories. The framework integrates an agile and fault-tolerant control logic that enables precise tracking under aggressive maneuvers while compensating for actuator failures, ensuring continued operation without significant performance degradation. Simulation results validate the effectiveness of the proposed method, demonstrating accurate trajectory tracking and robust recovery from faults, contributing to resilient autonomous flight in complex environments.

arxiv情報

著者 Shashwat Pandya
発行日 2025-04-29 00:33:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | NMPC-based Unified Posture Manipulation and Thrust Vectoring for Agile and Fault-Tolerant Flight of a Morphing Aerial Robot はコメントを受け付けていません

DRO: Doppler-Aware Direct Radar Odometry

要約

モバイルロボットアプリケーション向けのレーダーベースのセンシングのルネッサンスが進行中です。
カメラやリダーと比較して、ミリ波レーダーは、薄い壁、植生、大雨、霧、雪、ほこりなどの敵対的な気象条件を「見る」能力を持っています。
この論文では、周波数変調された連続波レーダーを回転させるための新しいSE(2)臭気測定アプローチを提案します。
この方法は、機能またはポイントクラウドの抽出を必要とせずに、すべてのレーダー強度情報を使用して、着信レーダーデータのスキャン間マップ登録を直接的に実行します。
このメソッドは、局所的に連続的な軌道推定を実行し、レーダースキャンの動きとドップラーの歪みの両方を説明します。
レーダーが放射状のドップラー速度を観察可能にする特定の周波数変調パターンを持っている場合、速度の推定を改善し、幾何学的に形成されるシナリオ(特徴のないトンネルなど)の速度測定を改善するために追加のドップラーベースの制約が策定されます。
当社の方法は、250km以上のオンロードデータ(Boreas and Mulran)から調達され、自動車プラットフォームを使用して収集されました。
ジャイロスコープの助けを借りて、最先端の方法よりも優れており、ボレアスリーダーボードで平均相対翻訳誤差が0.26%を達成します。
適切なドップラーを有効にする周波数変調パターンを使用してデータを使用する場合、類似の環境で翻訳エラーは0.18%に減少します。
また、さまざまなレベルの構造を持つオフロード環境でモバイルロボットと収集された1.5時間のデータを使用して、その汎用性を実証するアルゴリズムをベンチマークしました。
当社のリアルタイムの実装は、公開されています:https://github.com/utiasasrl/dro。

要約(オリジナル)

A renaissance in radar-based sensing for mobile robotic applications is underway. Compared to cameras or lidars, millimetre-wave radars have the ability to `see’ through thin walls, vegetation, and adversarial weather conditions such as heavy rain, fog, snow, and dust. In this paper, we propose a novel SE(2) odometry approach for spinning frequency-modulated continuous-wave radars. Our method performs scan-to-local-map registration of the incoming radar data in a direct manner using all the radar intensity information without the need for feature or point cloud extraction. The method performs locally continuous trajectory estimation and accounts for both motion and Doppler distortion of the radar scans. If the radar possesses a specific frequency modulation pattern that makes radial Doppler velocities observable, an additional Doppler-based constraint is formulated to improve the velocity estimate and enable odometry in geometrically feature-deprived scenarios (e.g., featureless tunnels). Our method has been validated on over 250km of on-road data sourced from public datasets (Boreas and MulRan) and collected using our automotive platform. With the aid of a gyroscope, it outperforms state-of-the-art methods and achieves an average relative translation error of 0.26% on the Boreas leaderboard. When using data with the appropriate Doppler-enabling frequency modulation pattern, the translation error is reduced to 0.18% in similar environments. We also benchmarked our algorithm using 1.5 hours of data collected with a mobile robot in off-road environments with various levels of structure to demonstrate its versatility. Our real-time implementation is publicly available: https://github.com/utiasASRL/dro.

arxiv情報

著者 Cedric Le Gentil,Leonardo Brizi,Daniil Lisus,Xinyuan Qiao,Giorgio Grisetti,Timothy D. Barfoot
発行日 2025-04-29 01:20:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | DRO: Doppler-Aware Direct Radar Odometry はコメントを受け付けていません

Scalable Surrogate Verification of Image-based Neural Network Control Systems using Composition and Unrolling

要約

画像を入力として使用するニューラルネットワーク制御システムの安全性を検証することは、特定のシステム状態から、現実世界で可能な画像を数学的にモデル化する既知の方法がないため、困難な問題です。
サロゲート検証アプローチを考慮し、条件付き生成敵対的ネットワーク(CGAN)を現実世界の代わりに画像ジェネレーターとしてトレーニングする最近の作業に基づいて構築します。
これにより、閉ループシステムのセットベースの正式な分析が可能になり、シミュレーションとテストを超えた分析を提供します。
既存の作業は小さな例で効果的ですが、単一の制御期間内および複数の制御期間の両方で過度の過度に近接することは、そのスケーラビリティを制限します。
これら2つのエラーソースを克服するためのアプローチを提案します。
まず、システムダイナミクスの単調解析のように入力状態と制御出力間の依存関係を失うことなく、システムのダイナミクスをCGANおよびニューラルネットワークコントローラーとともに構成することにより、1段階のエラーを克服します。
第二に、シングルステップ組成を繰り返すことでマルチステップエラーを減らし、基本的にコントロールループの複数のステップを大きなニューラルネットワークに展開します。
次に、既存のネットワーク検証ツールを活用して、複数のステップで正確な到達可能なセットを計算し、各ステップで抽象化エラーの蓄積を回避します。
2つのケーススタディを使用した精度とスケーラビリティの両方の観点から、アプローチの有効性を実証します:自律航空機のタクシーシステムと高度な緊急ブレーキシステム。
航空機のタキシングシステムでは、提案されたアプローチと比較して、以前のベースライン法を使用して、収束した到達可能なセットは175%大きくなっています。
緊急ブレーキシステムでは、CGANからの画像出力変数の24倍を備えた緊急ブレーキシステムでは、ベースラインメソッドが安全であることを証明できませんが、当社の改善によりセットベースの安全分析が可能になります。

要約(オリジナル)

Verifying safety of neural network control systems that use images as input is a difficult problem because, from a given system state, there is no known way to mathematically model what images are possible in the real-world. We build on recent work that considers a surrogate verification approach, training a conditional generative adversarial network (cGAN) as an image generator in place of the real world. This enables set-based formal analysis of the closed-loop system, providing analysis beyond simulation and testing. While existing work is effective on small examples, excessive overapproximation both within a single control period and across multiple control periods limits its scalability. We propose approaches to overcome these two sources of error. First, we overcome one-step error by composing the system’s dynamics along with the cGAN and neural network controller, without losing the dependencies between input states and the control outputs as in the monotonic analysis of the system dynamics. Second, we reduce multi-step error by repeating the single-step composition, essentially unrolling multiple steps of the control loop into a large neural network. We then leverage existing network verification tools to compute accurate reachable sets for multiple steps, avoiding the accumulation of abstraction error at each step. We demonstrate the effectiveness of our approach in terms of both accuracy and scalability using two case studies: an autonomous aircraft taxiing system and an advanced emergency braking system. On the aircraft taxiing system, the converged reachable set is 175% larger using the prior baseline method compared with our proposed approach. On the emergency braking system, with 24x the number of image output variables from the cGAN, the baseline method fails to prove any states are safe, whereas our improvements enable set-based safety analysis.

arxiv情報

著者 Feiyang Cai,Chuchu Fan,Stanley Bak
発行日 2025-04-29 01:28:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | Scalable Surrogate Verification of Image-based Neural Network Control Systems using Composition and Unrolling はコメントを受け付けていません

PRISM-DP: Spatial Pose-based Observations for Diffusion-Policies via Segmentation, Mesh Generation, and Pose Tracking

要約

拡散ベースの視覚運動ポリシーは、観測を条件とするアクション空間軌跡を除去することにより、ロボットの動きを生成します。
これらの観察結果は一般にRGB画像のストリームであり、その高次元にはかなりのタスクに関係のある情報が含まれているため、関連するパターンを抽出するために大きなモデルが必要です。
対照的に、時間の経過とともに重要なオブジェクトの空間ポーズ(位置と方向)などのより構造化された観測を使用すると、より少ないパラメーターで関連するパターンを認識できるよりコンパクトなポリシーをトレーニングできます。
ただし、オープンセットの実世界の環境で正確なオブジェクトのポーズを取得することは依然として困難です。
たとえば、関連するすべてのオブジェクトにマーカーが装備されていると仮定することは実用的ではありません。最近の学習ベースの6Dポーズ推定と追跡方法は、多くの場合、事前にスキャンされたオブジェクトメッシュに依存し、手動の再構築が必要です。
この作業では、PRISM-DPを提案します。これは、セグメンテーション、メッシュ生成、推定のポーズ、およびポーズ追跡モデルを活用して、タスク関連オブジェクトの空間的ポーズからコンパクトな拡散ポリシー学習を直接可能にすることを提案します。
重要なのは、PRISM-DPはメッシュ生成モデルを使用するため、手動メッシュの処理または作成の必要性を排除し、オープンセットの実世界の環境でのスケーラビリティと使いやすさを改善します。
シミュレーションと現実世界の両方の設定の両方のさまざまなタスクにわたる実験は、PRISM-DPが高次元の画像ベースの拡散ポリシーよりも優れていることを示しており、グラウンドトゥルース状態情報でトレーニングされたポリシーに匹敵するパフォーマンスを実現します。
私たちは、私たちのアプローチのより広い意味と限界についての議論で締めくくります。

要約(オリジナル)

Diffusion-based visuomotor policies generate robot motions by learning to denoise action-space trajectories conditioned on observations. These observations are commonly streams of RGB images, whose high dimensionality includes substantial task-irrelevant information, requiring large models to extract relevant patterns. In contrast, using more structured observations, such as the spatial poses (positions and orientations) of key objects over time, enables training more compact policies that can recognize relevant patterns with fewer parameters. However, obtaining accurate object poses in open-set, real-world environments remains challenging. For instance, it is impractical to assume that all relevant objects are equipped with markers, and recent learning-based 6D pose estimation and tracking methods often depend on pre-scanned object meshes, requiring manual reconstruction. In this work, we propose PRISM-DP, an approach that leverages segmentation, mesh generation, pose estimation, and pose tracking models to enable compact diffusion policy learning directly from the spatial poses of task-relevant objects. Crucially, because PRISM-DP uses a mesh generation model, it eliminates the need for manual mesh processing or creation, improving scalability and usability in open-set, real-world environments. Experiments across a range of tasks in both simulation and real-world settings show that PRISM-DP outperforms high-dimensional image-based diffusion policies and achieves performance comparable to policies trained with ground-truth state information. We conclude with a discussion of the broader implications and limitations of our approach.

arxiv情報

著者 Xiatao Sun,Yinxing Chen,Daniel Rakita
発行日 2025-04-29 01:53:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | PRISM-DP: Spatial Pose-based Observations for Diffusion-Policies via Segmentation, Mesh Generation, and Pose Tracking はコメントを受け付けていません