Enabling Novel Mission Operations and Interactions with ROSA: The Robot Operating System Agent

要約

ロボットシステムの進歩は多数の産業に革命をもたらしましたが、彼らの運用はしばしば専門的な技術知識を要求し、非専門家のアクセシビリティを制限しています。
このホワイトペーパーでは、Rosa(ロボットオペレーティングシステムエージェント)を紹介します。これは、ロボットオペレーティングシステム(ROS)と自然言語インターフェイスの間のギャップを埋めるAI駆動エージェントです。
最先端の言語モデルを活用し、オープンソースのフレームワークを統合することにより、Rosaはオペレーターが自然言語を使用してロボットと対話し、コマンドをアクションに変換し、明確に定義されたツールを介してROSとのインターフェースを可能にします。
Rosaの設計はモジュール式で拡張可能であり、ROS1とROS2の両方とのシームレスな統合と、パラメーターの検証や制約施行などの安全メカニズムを提供して、安全で信頼できる操作を確保します。
RosaはもともとROS向けに設計されていますが、他のロボティックスミドルウェアと連携して、ミッション全体の互換性を最大化するように拡張できます。
Rosaは、複雑なロボットシステムへのアクセスを民主化することにより、人間とロボットの相互作用を強化し、すべての専門知識レベルのユーザーが音声統合や視覚的認識などのマルチモーダル機能で力を与えます。
倫理的な考慮事項は、Asimovの3つのロボット法のような基礎原則に導かれ、AI統合が安全性、透明性、プライバシー、および説明責任を促進することを保証します。
Rosaは、ロボットテクノロジーをよりユーザーフレンドリーでアクセスしやすくすることで、運用効率を向上させるだけでなく、ロボット工学および潜在的に将来のミッションオペレーションでの責任あるAI使用の新しい基準を設定します。
このペーパーでは、ローザのアーキテクチャを紹介し、JPLの火星ヤード、実験室での初期モックアップ操作と、3つの異なるロボットを使用したシミュレーションを紹介します。
コアローザライブラリは、オープンソースとして利用できます。

要約(オリジナル)

The advancement of robotic systems has revolutionized numerous industries, yet their operation often demands specialized technical knowledge, limiting accessibility for non-expert users. This paper introduces ROSA (Robot Operating System Agent), an AI-powered agent that bridges the gap between the Robot Operating System (ROS) and natural language interfaces. By leveraging state-of-the-art language models and integrating open-source frameworks, ROSA enables operators to interact with robots using natural language, translating commands into actions and interfacing with ROS through well-defined tools. ROSA’s design is modular and extensible, offering seamless integration with both ROS1 and ROS2, along with safety mechanisms like parameter validation and constraint enforcement to ensure secure, reliable operations. While ROSA is originally designed for ROS, it can be extended to work with other robotics middle-wares to maximize compatibility across missions. ROSA enhances human-robot interaction by democratizing access to complex robotic systems, empowering users of all expertise levels with multi-modal capabilities such as speech integration and visual perception. Ethical considerations are thoroughly addressed, guided by foundational principles like Asimov’s Three Laws of Robotics, ensuring that AI integration promotes safety, transparency, privacy, and accountability. By making robotic technology more user-friendly and accessible, ROSA not only improves operational efficiency but also sets a new standard for responsible AI use in robotics and potentially future mission operations. This paper introduces ROSA’s architecture and showcases initial mock-up operations in JPL’s Mars Yard, a laboratory, and a simulation using three different robots. The core ROSA library is available as open-source.

arxiv情報

著者 Rob Royce,Marcel Kaufmann,Jonathan Becktor,Sangwoo Moon,Kalind Carpenter,Kai Pak,Amanda Towler,Rohan Thakker,Shehryar Khattak
発行日 2025-02-13 00:37:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO | Enabling Novel Mission Operations and Interactions with ROSA: The Robot Operating System Agent はコメントを受け付けていません

3D-Grounded Vision-Language Framework for Robotic Task Planning: Automated Prompt Synthesis and Supervised Reasoning

要約

ビジョン言語モデル(VLM)は、シーンの理解と知覚タスクで顕著な成功を収めており、ロボットが動的環境でアクションを適応的に計画および実行できるようにします。
ただし、ほとんどのマルチモーダルな大手言語モデルには、堅牢な3Dシーンのローカリゼーション機能がなく、きめ細かいロボット操作における有効性が制限されています。
さらに、認識の精度の低い、非効率性、貧弱な移動性、信頼性などの課題は、精度のタスクでの使用を妨げます。
これらの制限に対処するために、2D画像をポイントクラウドにマッピングして2Dプロンプト合成モジュールを統合し、VLM出力を監督するための小さな言語モデル(SLM)を組み込む新しいフレームワークを提案します。
2Dプロンプト合成モジュールは、2D画像とテキストでトレーニングされたVLMSを有効にし、手動介入なしに正確な3D空間情報を自律的に抽出し、3Dシーンの理解を大幅に向上させます。
一方、SLMはVLM出力を監督し、幻覚を軽減し、信頼できる実行可能なロボット制御コード生成を確保します。
私たちのフレームワークは、新しい環境での再訓練の必要性を排除し、それによりコスト効率と運用の堅牢性を改善します。
提案されたフレームワークが96.0 \%タスクの成功率(TSR)を達成し、他の方法を上回る実験結果。
アブレーション研究は、2Dプロンプト合成モジュールと出力監督モジュールの両方の重要な役割を実証しました(削除すると、67 \%TSRドロップが発生しました)。
これらの調査結果は、3D認識、タスク計画、およびロボットタスクの実行を改善する上でのフレームワークの有効性を検証します。

要約(オリジナル)

Vision-language models (VLMs) have achieved remarkable success in scene understanding and perception tasks, enabling robots to plan and execute actions adaptively in dynamic environments. However, most multimodal large language models lack robust 3D scene localization capabilities, limiting their effectiveness in fine-grained robotic operations. Additionally, challenges such as low recognition accuracy, inefficiency, poor transferability, and reliability hinder their use in precision tasks. To address these limitations, we propose a novel framework that integrates a 2D prompt synthesis module by mapping 2D images to point clouds, and incorporates a small language model (SLM) for supervising VLM outputs. The 2D prompt synthesis module enables VLMs, trained on 2D images and text, to autonomously extract precise 3D spatial information without manual intervention, significantly enhancing 3D scene understanding. Meanwhile, the SLM supervises VLM outputs, mitigating hallucinations and ensuring reliable, executable robotic control code generation. Our framework eliminates the need for retraining in new environments, thereby improving cost efficiency and operational robustness. Experimental results that the proposed framework achieved a 96.0\% Task Success Rate (TSR), outperforming other methods. Ablation studies demonstrated the critical role of both the 2D prompt synthesis module and the output supervision module (which, when removed, caused a 67\% TSR drop). These findings validate the framework’s effectiveness in improving 3D recognition, task planning, and robotic task execution.

arxiv情報

著者 Guoqin Tang,Qingxuan Jia,Zeyuan Huang,Gang Chen,Ning Ji,Zhipeng Yao
発行日 2025-02-13 02:40:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | 3D-Grounded Vision-Language Framework for Robotic Task Planning: Automated Prompt Synthesis and Supervised Reasoning はコメントを受け付けていません

FH-DRL: Exponential-Hyperbolic Frontier Heuristics with DRL for accelerated Exploration in Unknown Environments

要約

大規模または乱雑な環境での自律的なロボット探査は、インテリジェントな車両アプリケーションの中心的な課題のままです。
このペーパーでは、FH-DRLを紹介します。FH-DRLは、フロンティア検出のカスタマイズ可能なヒューリスティック関数を、連続した高速ローカルナビゲーションのツイン遅延DDPG(TD3)エージェントと統合する新しいフレームワークを紹介します。
提案されているヒューリスティックは、指数関数的な溶媒距離スコアに依存しており、これは長距離探査の利益との即時の近接性と、環境の開放性と障害物の密度をリアルタイムで説明します。
これらの適応メトリックを使用してフロンティアをランキングすることにより、FH-DRLは非常に有益でありながら扱いやすいウェイポイントをターゲットにし、冗長パスと総探索時間を最小限に抑えます。
複数のシミュレートされた現実世界のシナリオにわたってFH-DRLを徹底的に評価し、フロンティアのみまたは純粋にDRLベースの探索にわたる移動距離と完了時間の明確な改善を示しています。
構造化された廊下のレイアウトと迷路のようなトポロジーでは、私たちのアーキテクチャは、最寄りのフロンティア、コグネットフロンティア探査、目標駆動型の自律探査などの標準的な方法よりも一貫して優れています。
Turtlebot3プラットフォームを使用した実際のテストは、以前に見えていない、または乱雑な屋内スペースへの堅牢な適応をさらに確認します。
この結果は、FH-DRLが、大規模または部分的に既知の環境でのフロンティアベースの探索のための効率的で一般化可能なアプローチとして強調しており、さまざまな自律運転、産業、およびサービスロボットのタスクに有望な方向性を提供します。

要約(オリジナル)

Autonomous robot exploration in large-scale or cluttered environments remains a central challenge in intelligent vehicle applications, where partial or absent prior maps constrain reliable navigation. This paper introduces FH-DRL, a novel framework that integrates a customizable heuristic function for frontier detection with a Twin Delayed DDPG (TD3) agent for continuous, high-speed local navigation. The proposed heuristic relies on an exponential-hyperbolic distance score, which balances immediate proximity against long-range exploration gains, and an occupancy-based stochastic measure, accounting for environmental openness and obstacle densities in real time. By ranking frontiers using these adaptive metrics, FH-DRL targets highly informative yet tractable waypoints, thereby minimizing redundant paths and total exploration time. We thoroughly evaluate FH-DRL across multiple simulated and real-world scenarios, demonstrating clear improvements in travel distance and completion time over frontier-only or purely DRL-based exploration. In structured corridor layouts and maze-like topologies, our architecture consistently outperforms standard methods such as Nearest Frontier, Cognet Frontier Exploration, and Goal Driven Autonomous Exploration. Real-world tests with a Turtlebot3 platform further confirm robust adaptation to previously unseen or cluttered indoor spaces. The results highlight FH-DRL as an efficient and generalizable approach for frontier-based exploration in large or partially known environments, offering a promising direction for various autonomous driving, industrial, and service robotics tasks.

arxiv情報

著者 Seunghyeop Nam,Tuan Anh Nguyen,Eunmi Choi,Dugki Min
発行日 2025-02-13 02:46:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY | FH-DRL: Exponential-Hyperbolic Frontier Heuristics with DRL for accelerated Exploration in Unknown Environments はコメントを受け付けていません

EPN: An Ego Vehicle Planning-Informed Network for Target Trajectory Prediction

要約

軌道予測は、自動運転車の安全性を改善する上で重要な役割を果たします。
ただし、タスクの非常に動的でマルチモーダルな性質のため、ターゲット車両の将来の軌跡を正確に予測することは依然として重要な課題です。
この課題に対処するために、マルチモーダル軌道予測のためのエゴ車両計画情報ネットワーク(EPN)を提案します。
現実世界の運転では、車両の将来の軌跡は、それ自体の歴史的軌跡だけでなく、他の車両の行動によっても影響を受けます。
したがって、私たちは、車両間の相互の影響をシミュレートするための追加の入力として、エゴ車両の将来の計画された軌跡を組み込みます。
さらに、意図のあいまいさの課題と、運転の意図に基づいた方法でしばしば遭遇する大きな予測エラーに取り組むために、ターゲット車両のエンドポイント予測モジュールを提案します。
このモジュールは、ターゲットビークルエンドポイントを予測し、修正メカニズムを使用してそれらを改良し、マルチモーダル予測軌道を生成します。
実験結果は、EPNがNGSIMデータセットでRMSE、ADE、およびFDEで34.9%、30.7%、および30.4%の平均減少を達成し、RMSEで64.6%、64.5%、64.3%の平均減少、ADE、
highDデータセットのFDE。
コードは、手紙が受け入れられた後に開かれます。

要約(オリジナル)

Trajectory prediction plays a crucial role in improving the safety of autonomous vehicles. However, due to the highly dynamic and multimodal nature of the task, accurately predicting the future trajectory of a target vehicle remains a significant challenge. To address this challenge, we propose an Ego vehicle Planning-informed Network (EPN) for multimodal trajectory prediction. In real-world driving, the future trajectory of a vehicle is influenced not only by its own historical trajectory, but also by the behavior of other vehicles. So, we incorporate the future planned trajectory of the ego vehicle as an additional input to simulate the mutual influence between vehicles. Furthermore, to tackle the challenges of intention ambiguity and large prediction errors often encountered in methods based on driving intentions, we propose an endpoint prediction module for the target vehicle. This module predicts the target vehicle endpoints, refines them using a correction mechanism, and generates a multimodal predicted trajectory. Experimental results demonstrate that EPN achieves an average reduction of 34.9%, 30.7%, and 30.4% in RMSE, ADE, and FDE on the NGSIM dataset, and an average reduction of 64.6%, 64.5%, and 64.3% in RMSE, ADE, and FDE on the HighD dataset. The code will be open sourced after the letter is accepted.

arxiv情報

著者 Saiqian Peng,Duanfeng Chu,Guanjie Li,Liping Lu,Jinxiang Wang
発行日 2025-02-13 03:28:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | EPN: An Ego Vehicle Planning-Informed Network for Target Trajectory Prediction はコメントを受け付けていません

Training Trajectory Predictors Without Ground-Truth Data

要約

このペーパーでは、位置、見出し、速度を正確かつスムーズに推定できるフレームワークを紹介します。
この高品質の入力を使用して、Trajectron ++に基づいたシステムを提案し、正確な軌跡予測を一貫して生成できるようにします。
トレーニングに基本的な真実データを必要とする従来のモデルとは異なり、このアプローチはこの依存関係を排除します。
私たちの分析は、質の低い入力が騒々しいと信頼できない予測につながることを示しています。これはナビゲーションモジュールに有害である可能性があります。
入力データの品質とモデル出力の両方を評価して、入力ノイズの影響を説明します。
さらに、推定システムは、データが限られている場合でも、軌道予測モデルの効果的なトレーニングを可能にし、異なる環境で堅牢な予測を生成することを示しています。
実際のシナリオに軌道予測モデルを展開するためには、正確な推定が重要であり、当社のシステムは、さまざまなアプリケーションコンテキストで意味のある信頼できる結果を保証します。

要約(オリジナル)

This paper presents a framework capable of accurately and smoothly estimating position, heading, and velocity. Using this high-quality input, we propose a system based on Trajectron++, able to consistently generate precise trajectory predictions. Unlike conventional models that require ground-truth data for training, our approach eliminates this dependency. Our analysis demonstrates that poor quality input leads to noisy and unreliable predictions, which can be detrimental to navigation modules. We evaluate both input data quality and model output to illustrate the impact of input noise. Furthermore, we show that our estimation system enables effective training of trajectory prediction models even with limited data, producing robust predictions across different environments. Accurate estimations are crucial for deploying trajectory prediction models in real-world scenarios, and our system ensures meaningful and reliable results across various application contexts.

arxiv情報

著者 Mikolaj Kliniewski,Jesse Morris,Ian R. Manchester,Viorela Ila
発行日 2025-02-13 04:49:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Training Trajectory Predictors Without Ground-Truth Data はコメントを受け付けていません

SkyRover: A Modular Simulator for Cross-Domain Pathfinding

要約

無人航空機(UAV)と自動誘導車両(AGV)は、物流、監視、検査タスクなどでますます協力しています。
このペーパーでは、UAV-AGVマルチエージェントパスファインディング(MAPF)のモジュラーシミュレーターであるSkyroverを紹介します。
Skyroverは、リアルなエージェントダイナミクス、構成可能な3D環境、および外部ソルバーと学習方法のための便利なAPIをサポートしています。
地面と空中の操作を統一することにより、クロスドメインアルゴリズムの設計、テスト、およびベンチマークを促進します。
実験は、UAV-AGV調整における効率的なパスファインディングと高忠実度シミュレーションのためのSkyroverの能力を強調しています。
プロジェクトはhttps://sites.google.com/view/mapf3d/homeで入手できます。

要約(オリジナル)

Unmanned Aerial Vehicles (UAVs) and Automated Guided Vehicles (AGVs) increasingly collaborate in logistics, surveillance, inspection tasks and etc. However, existing simulators often focus on a single domain, limiting cross-domain study. This paper presents the SkyRover, a modular simulator for UAV-AGV multi-agent pathfinding (MAPF). SkyRover supports realistic agent dynamics, configurable 3D environments, and convenient APIs for external solvers and learning methods. By unifying ground and aerial operations, it facilitates cross-domain algorithm design, testing, and benchmarking. Experiments highlight SkyRover’s capacity for efficient pathfinding and high-fidelity simulations in UAV-AGV coordination. Project is available at https://sites.google.com/view/mapf3d/home.

arxiv情報

著者 Wenhui Ma,Wenhao Li,Bo Jin,Changhong Lu,Xiangfeng Wang
発行日 2025-02-13 05:13:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO | SkyRover: A Modular Simulator for Cross-Domain Pathfinding はコメントを受け付けていません

ImDy: Human Inverse Dynamics from Imitated Observations

要約

人間の運動観察から駆動されるトルクを再現することを目的とする逆ダイナミクス(ID)は、歩行分析のための重要なツールでした。
ただし、スケーラビリティが限られているため、より広いアプリケーションから一般的な動きに妨げられます。
従来の最適化ベースのIDには、高価な実験室のセットアップが必要であり、その可用性を制限します。
この問題を軽減するために、最近進歩的な人間の動き模倣アルゴリズムを活用して、データ駆動型の方法で人間の逆ダイナミクスを学習することを提案します。
重要な洞察は、人間のIDの知識は、直接適用されないものではないものの、モーション模倣者によって暗黙的に所有されているということです。
これに照らして、最先端のモーション模倣アルゴリズムと物理シミュレーターを備えた効率的なデータ収集パイプラインを考案し、その結果、模倣ダイナミクス(IMDY)としての大規模な人間の逆ダイナミクスベンチマークが得られます。
Imdyには、関節トルクと全身の接地反動力データを備えた150時間以上の動きが含まれています。
Imdyを使用すると、データ駆動型のヒト逆ダイナミクスソルバーIMDYS(OLVER)を完全に監視した方法でトレーニングします。
Imdyおよび実際のデータに関する実験は、人間の逆ダイナミクスと地上反力の推定におけるIMDYの印象的な能力を示しています。
さらに、基本的なモーション解析ツールとしてのIMDY(-S)の可能性は、ダウンストリームアプリケーションで展示されています。
プロジェクトページはhttps://foruck.github.io/imdy/です。

要約(オリジナル)

Inverse dynamics (ID), which aims at reproducing the driven torques from human kinematic observations, has been a critical tool for gait analysis. However, it is hindered from wider application to general motion due to its limited scalability. Conventional optimization-based ID requires expensive laboratory setups, restricting its availability. To alleviate this problem, we propose to exploit the recently progressive human motion imitation algorithms to learn human inverse dynamics in a data-driven manner. The key insight is that the human ID knowledge is implicitly possessed by motion imitators, though not directly applicable. In light of this, we devise an efficient data collection pipeline with state-of-the-art motion imitation algorithms and physics simulators, resulting in a large-scale human inverse dynamics benchmark as Imitated Dynamics (ImDy). ImDy contains over 150 hours of motion with joint torque and full-body ground reaction force data. With ImDy, we train a data-driven human inverse dynamics solver ImDyS(olver) in a fully supervised manner, which conducts ID and ground reaction force estimation simultaneously. Experiments on ImDy and real-world data demonstrate the impressive competency of ImDyS in human inverse dynamics and ground reaction force estimation. Moreover, the potential of ImDy(-S) as a fundamental motion analysis tool is exhibited with downstream applications. The project page is https://foruck.github.io/ImDy/.

arxiv情報

著者 Xinpeng Liu,Junxuan Liang,Zili Lin,Haowen Hou,Yong-Lu Li,Cewu Lu
発行日 2025-02-13 05:15:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.RO | ImDy: Human Inverse Dynamics from Imitated Observations はコメントを受け付けていません

Beyond Confidence: Adaptive Abstention in Dual-Threshold Conformal Prediction for Autonomous System Perception

要約

安全性の高い認識システムには、信頼できる不確実性の定量化と、さまざまな運用条件下で安全性を維持するための原則的な棄権メカニズムの両方が必要です。
統計的に保証された不確実性の推定値を提供しながら、リスクの高いシナリオで選択的な予測を可能にする新しいデュアル閾値立体化フレームワークを提示します。
私たちのアプローチは、ROC分析を通じて最適化された棄権のしきい値と有効な予測セットを確保するコンフォーマルしきい値を一意に組み合わせて、信頼できない予測を特定しながら、分布のないカバレッジ保証(> = 1 -Alpha)を提供します。
CIFAR-100、ImagENET1K、およびModelNet40データセットの包括的な評価を通じて、さまざまな環境摂動の下でカメラとライダーモダリティ全体で優れた堅牢性を示します。
このフレームワークは、環境の重大度が増加するにつれて、高いカバレッジ(> 90.0%)を維持し、適応棄権(13.5%から63.4%+/- 0.5)を維持しながら、厳しい条件下で例外的な検出性能(AUC:0.993〜0.995)を達成します。
Lidarベースの認識では、私たちのアプローチは特に強力なパフォーマンスを示し、堅牢なカバレッジ(> 84.5%)を維持しながら、信頼できない予測を適切に控えています。
特に、このフレームワークは、検出性能(AUC:0.995 +/- 0.001)で、重い摂動の下で顕著な安定性を示しています。
私たちの統一されたアプローチは、理論的保証と実用的な展開ニーズの間のギャップを橋渡しし、実際の条件に挑戦して動作する安全性が批判的な自律システムに堅牢なソリューションを提供します。

要約(オリジナル)

Safety-critical perception systems require both reliable uncertainty quantification and principled abstention mechanisms to maintain safety under diverse operational conditions. We present a novel dual-threshold conformalization framework that provides statistically-guaranteed uncertainty estimates while enabling selective prediction in high-risk scenarios. Our approach uniquely combines a conformal threshold ensuring valid prediction sets with an abstention threshold optimized through ROC analysis, providing distribution-free coverage guarantees (>= 1 – alpha) while identifying unreliable predictions. Through comprehensive evaluation on CIFAR-100, ImageNet1K, and ModelNet40 datasets, we demonstrate superior robustness across camera and LiDAR modalities under varying environmental perturbations. The framework achieves exceptional detection performance (AUC: 0.993 to 0.995) under severe conditions while maintaining high coverage (>90.0%) and enabling adaptive abstention (13.5% to 63.4% +/- 0.5) as environmental severity increases. For LiDAR-based perception, our approach demonstrates particularly strong performance, maintaining robust coverage (>84.5%) while appropriately abstaining from unreliable predictions. Notably, the framework shows remarkable stability under heavy perturbations, with detection performance (AUC: 0.995 +/- 0.001) significantly outperforming existing methods across all modalities. Our unified approach bridges the gap between theoretical guarantees and practical deployment needs, offering a robust solution for safety-critical autonomous systems operating in challenging real-world conditions.

arxiv情報

著者 Divake Kumar,Nastaran Darabi,Sina Tayebati,Amit Ranjan Trivedi
発行日 2025-02-13 06:35:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Beyond Confidence: Adaptive Abstention in Dual-Threshold Conformal Prediction for Autonomous System Perception はコメントを受け付けていません

MTDP: Modulated Transformer Diffusion Policy Model

要約

行動クローン(BC)に基づくロボット操作に関する最近の研究は、大きな進歩を遂げました。
拡散モデルとBCを組み合わせることにより、拡散ポリシーが提案されており、ロボットが成功率の高い操作タスクを迅速に学習できるようになりました。
ただし、拡散ポリシーを大容量の変圧器と統合することは課題を提示します。従来のトランスアーキテクチャは、ガイド条件を効果的に統合するのに苦労し、トランスベースのモデルを使用する際の操作タスクのパフォーマンスが低下します。
このホワイトペーパーでは、変圧器の主要なアーキテクチャ設計を調査し、拡散ポリシーのための変調変圧器拡散ポリシー(MTDP)モデルを提案することにより、従来の変圧器アーキテクチャを改善します。
このモデルのコアは、私たちが提案した変調された注意モジュールです。これにより、ガイド条件がメイン入力とより効果的に統合され、生成モデルの出力品質が向上し、その結果、ロボットのタスクの成功率が向上します。
6つの実験タスクでは、MTDPは、特に成功率が12 \%増加するToolhang実験で、既存のトランスモデルアーキテクチャよりも優れていました。
調整された注意の一般性を検証するために、UNETアーキテクチャに適用して、6つの実験すべてにわたって既存のUNETアーキテクチャよりも高い成功率を達成した変調されたUNET拡散ポリシーモデル(MUDP)を構築しました。
拡散ポリシーでは、拡散確率モデル(DDPM)を拡散モデルとして使用します。
これに基づいて、拡散暗黙モデル(DDIM)を拡散モデルとして除去することを調査し、MTDP-IおよびMUDP-Iモデルを構築しました。

要約(オリジナル)

Recent research on robot manipulation based on Behavior Cloning (BC) has made significant progress. By combining diffusion models with BC, diffusion policiy has been proposed, enabling robots to quickly learn manipulation tasks with high success rates. However, integrating diffusion policy with high-capacity Transformer presents challenges, traditional Transformer architectures struggle to effectively integrate guiding conditions, resulting in poor performance in manipulation tasks when using Transformer-based models. In this paper, we investigate key architectural designs of Transformers and improve the traditional Transformer architecture by proposing the Modulated Transformer Diffusion Policy (MTDP) model for diffusion policy. The core of this model is the Modulated Attention module we proposed, which more effectively integrates the guiding conditions with the main input, improving the generative model’s output quality and, consequently, increasing the robot’s task success rate. In six experimental tasks, MTDP outperformed existing Transformer model architectures, particularly in the Toolhang experiment, where the success rate increased by 12\%. To verify the generality of Modulated Attention, we applied it to the UNet architecture to construct Modulated UNet Diffusion Policy model (MUDP), which also achieved higher success rates than existing UNet architectures across all six experiments. The Diffusion Policy uses Denoising Diffusion Probabilistic Models (DDPM) as the diffusion model. Building on this, we also explored Denoising Diffusion Implicit Models (DDIM) as the diffusion model, constructing the MTDP-I and MUDP-I model, which nearly doubled the generation speed while maintaining performance.

arxiv情報

著者 Qianhao Wang,Yinqian Sun,Enmeng Lu,Qian Zhang,Yi Zeng
発行日 2025-02-13 07:35:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MTDP: Modulated Transformer Diffusion Policy Model はコメントを受け付けていません

FLAF: Focal Line and Feature-constrained Active View Planning for Visual Teach and Repeat

要約

このホワイトペーパーでは、FLAF、焦点ライン、およびモバイルロボットの機能ベースの視覚ナビゲーションにおける故障回避を追跡するための機能制約のアクティブビュー計画方法を紹介します。
FLAFベースの視覚ナビゲーションは、機能ベースのVisual Teach and Repeat(VT \&R)フレームワークに基づいて構築されています。これは、毎日の自律ナビゲーション要件のかなりの部分をカバーするさまざまなパスをナビゲートするためにロボットを教えることにより、多くのロボットアプリケーションをサポートします。
ただし、人間が作成した環境でテクステルのない領域によって引き起こされる機能ベースの視覚的な同時ローカリゼーションとマッピング(VSLAM)の追跡障害は、VT \&rが現実世界で採用されることを制限しています。
この問題に対処するために、提案されたビュープランナーは機能ベースのビジュアルスラムシステムに統合され、追跡障害を回避するアクティブなVT \&rシステムを構築します。
私たちのシステムでは、パンチルトユニット(PTU)ベースのアクティブカメラがモバイルロボットに取り付けられています。
FLAFを使用して、アクティブなカメラベースのVSLAMは、ティーチングフェーズ中に動作して完全なパスマップを構築し、繰り返しフェーズで安定した局在化を維持します。
FLAFは、パス学習中のマッピング障害を回避し、学習した軌跡をたどりながら、ローカリゼーションに有益であるパス学習中のマッピング障害を回避するために、より多くのマップポイントにロボットをオレントします。
実際のシナリオでの実験は、FLAFが機能の同一性を考慮しない方法を上回ることを示しており、私たちのアクティブなVT \&rシステムは、低テクスチャ領域を効果的に処理することにより、複雑な環境でうまく機能することを示しています。

要約(オリジナル)

This paper presents FLAF, a focal line and feature-constrained active view planning method for tracking failure avoidance in feature-based visual navigation of mobile robots. Our FLAF-based visual navigation is built upon a feature-based visual teach and repeat (VT\&R) framework, which supports many robotic applications by teaching a robot to navigate on various paths that cover a significant portion of daily autonomous navigation requirements. However, tracking failure in feature-based visual simultaneous localization and mapping (VSLAM) caused by textureless regions in human-made environments is still limiting VT\&R to be adopted in the real world. To address this problem, the proposed view planner is integrated into a feature-based visual SLAM system to build up an active VT\&R system that avoids tracking failure. In our system, a pan-tilt unit (PTU)-based active camera is mounted on the mobile robot. Using FLAF, the active camera-based VSLAM operates during the teaching phase to construct a complete path map and in the repeat phase to maintain stable localization. FLAF orients the robot toward more map points to avoid mapping failures during path learning and toward more feature-identifiable map points beneficial for localization while following the learned trajectory. Experiments in real scenarios demonstrate that FLAF outperforms the methods that do not consider feature-identifiability, and our active VT\&R system performs well in complex environments by effectively dealing with low-texture regions.

arxiv情報

著者 Changfei Fu,Weinan Chen,Hong Zhang
発行日 2025-02-13 08:04:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | FLAF: Focal Line and Feature-constrained Active View Planning for Visual Teach and Repeat はコメントを受け付けていません