An Addendum to NeBula: Towards Extending TEAM CoSTAR’s Solution to Larger Scale Environments

要約

このホワイトペーパーでは、DARPA地下挑戦に参加しているTeam CoSTar(共同地下の自律ロボット)が開発した元の星雲自律ソリューションの付録を提示します。
具体的には、このペーパーでは、探査環境の範囲とスケールの増加に焦点を当てた星雲のハードウェア、ソフトウェア、およびアルゴリズムコンポーネントの拡張を示します。
アルゴリズムの観点から、以下の拡張を元のNebulaフレームワークの拡張について説明します。(i)大規模な幾何学的およびセマンティック環境マッピング。
(ii)適応型ポジショニングシステム。
(iii)確率的通過性分析と現地計画。
(iv)大規模なPOMDPベースのグローバルモーションプランニングと探索行動。
(v)大規模なネットワーキングと分散型推論。
(vi)コミュニケーションアウェアミッション計画。
(vii)マルチモーダルの地上空中探索ソリューション。
Limestone Mine ExplorationシナリオやDARPA Subterranean Challengeでの展開など、さまざまな大規模な地下環境で提示されたシステムとソリューションのアプリケーションと展開を実証します。

要約(オリジナル)

This paper presents an appendix to the original NeBula autonomy solution developed by the TEAM CoSTAR (Collaborative SubTerranean Autonomous Robots), participating in the DARPA Subterranean Challenge. Specifically, this paper presents extensions to NeBula’s hardware, software, and algorithmic components that focus on increasing the range and scale of the exploration environment. From the algorithmic perspective, we discuss the following extensions to the original NeBula framework: (i) large-scale geometric and semantic environment mapping; (ii) an adaptive positioning system; (iii) probabilistic traversability analysis and local planning; (iv) large-scale POMDP-based global motion planning and exploration behavior; (v) large-scale networking and decentralized reasoning; (vi) communication-aware mission planning; and (vii) multi-modal ground-aerial exploration solutions. We demonstrate the application and deployment of the presented systems and solutions in various large-scale underground environments, including limestone mine exploration scenarios as well as deployment in the DARPA Subterranean challenge.

arxiv情報

著者 Ali Agha,Kyohei Otsu,Benjamin Morrell,David D. Fan,Sung-Kyun Kim,Muhammad Fadhil Ginting,Xianmei Lei,Jeffrey Edlund,Seyed Fakoorian,Amanda Bouman,Fernando Chavez,Taeyeon Kim,Gustavo J. Correa,Maira Saboia,Angel Santamaria-Navarro,Brett Lopez,Boseong Kim,Chanyoung Jung,Mamoru Sobue,Oriana Claudia Peltzer,Joshua Ott,Robert Trybula,Thomas Touma,Marcel Kaufmann,Tiago Stegun Vaquero,Torkom Pailevanian,Matteo Palieri,Yun Chang,Andrzej Reinke,Matthew Anderson,Frederik E. T. Schöller,Patrick Spieler,Lillian M. Clark,Avak Archanian,Kenny Chen,Hovhannes Melikyan,Anushri Dixit,Harrison Delecki,Daniel Pastor,Barry Ridge,Nicolas Marchal,Jose Uribe,Sharmita Dey,Kamak Ebadi,Kyle Coble,Alexander Nikitas Dimopoulos,Vivek Thangavelu,Vivek S. Varadharajan,Nicholas Palomo,Antoni Rosinol,Arghya Chatterjee,Christoforos Kanellakis,Bjorn Lindqvist,Micah Corah,Kyle Strickland,Ryan Stonebraker,Michael Milano,Christopher E. Denniston,Sami Sahnoune,Thomas Claudet,Seungwook Lee,Gautam Salhotra,Edward Terry,Rithvik Musuku,Robin Schmid,Tony Tran,Ara Kourchians,Justin Schachter,Hector Azpurua,Levi Resende,Arash Kalantari,Jeremy Nash,Josh Lee,Christopher Patterson,Jennifer G. Blank,Kartik Patath,Yuki Kubo,Ryan Alimo,Yasin Almalioglu,Aaron Curtis,Jacqueline Sly,Tesla Wells,Nhut T. Ho,Mykel Kochenderfer,Giovanni Beltrame,George Nikolakopoulos,David Shim,Luca Carlone,Joel Burdick
発行日 2025-04-18 04:38:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | An Addendum to NeBula: Towards Extending TEAM CoSTAR’s Solution to Larger Scale Environments はコメントを受け付けていません

Stochastic Trajectory Optimization for Robotic Skill Acquisition From a Suboptimal Demonstration

要約

デモンストレーション(LFD)から学ぶことは、ロボットが新しいスキルを獲得するための重要な方法として浮上しています。
ただし、人間の好みを反映する形状特性を備えた最適ではないが、スローモーションなどの下位の動的属性を備えた軌道軌跡デモンストレーションが与えられた場合、ロボットは動作を模倣するだけでなく、動的パフォーマンスを最適化する必要があります。
この作業では、最適化ベースの方法を活用して、形状が実証された軌道の形状と似ている優れたパフォーマンスの軌道を検索します。
具体的には、動的タイムワーピング(DTW)を使用して、2つの軌跡の違いを定量化し、衝突コストなどの追加のパフォーマンスメトリックと組み合わせてコスト関数を構築します。
さらに、MSTOMPと呼ばれるモーションプランニング(STOMP)の確率的軌道最適化のマルチポリティバージョンを開発します。これは、パラメーターの変更により安定して堅牢です。
実証された軌道でジッターに対処するために、周波数領域のゲイン制御方法をさらに利用して、デモンストレーションを除去し、周波数ドメインの軌跡の違いを測定するスペクトル(MSES)の平均平方根誤差(MSES)と呼ばれる計算的に効率的なメトリックを提案します。
また、時間領域と周波数領域のメソッド間の接続を理論的に強調します。
最後に、シミュレーション実験と実際の実験の両方で方法を検証し、既存の方法と比較して最適化のパフォーマンスと安定性の改善を紹介します。

要約(オリジナル)

Learning from Demonstration (LfD) has emerged as a crucial method for robots to acquire new skills. However, when given suboptimal task trajectory demonstrations with shape characteristics reflecting human preferences but subpar dynamic attributes such as slow motion, robots not only need to mimic the behaviors but also optimize the dynamic performance. In this work, we leverage optimization-based methods to search for a superior-performing trajectory whose shape is similar to that of the demonstrated trajectory. Specifically, we use Dynamic Time Warping (DTW) to quantify the difference between two trajectories and combine it with additional performance metrics, such as collision cost, to construct the cost function. Moreover, we develop a multi-policy version of the Stochastic Trajectory Optimization for Motion Planning (STOMP), called MSTOMP, which is more stable and robust to parameter changes. To deal with the jitter in the demonstrated trajectory, we further utilize the gain-controlling method in the frequency domain to denoise the demonstration and propose a computationally more efficient metric, called Mean Square Error in the Spectrum (MSES), that measures the trajectories’ differences in the frequency domain. We also theoretically highlight the connections between the time domain and the frequency domain methods. Finally, we verify our method in both simulation experiments and real-world experiments, showcasing its improved optimization performance and stability compared to existing methods.

arxiv情報

著者 Chenlin Ming,Zitong Wang,Boxuan Zhang,Zhanxiang Cao,Xiaoming Duan,Jianping He
発行日 2025-04-18 05:47:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Stochastic Trajectory Optimization for Robotic Skill Acquisition From a Suboptimal Demonstration はコメントを受け付けていません

Cross-cultural Deployment of Autonomous Vehicles Using Data-light Inverse Reinforcement Learning

要約

特定の交通規制の順守以上に、文化の促進は、より暗黙の部分 – 非公式で従来の、集合的な行動パターンに続いてドライバーがそれに続く、国、地域、さらには都市によって異なります。
このような文化的相違は、今日の多様な地域に自動運転車(AV)を展開する際の最大の課題の1つになっています。
データ駆動型の方法の現在の出現は、データからの学習を通じて文化互換の運転を可能にする潜在的なソリューションを示していますが、いくつかの未開発の地域が運転文化を知らせるのに十分なローカルデータを提供できない場合はどうでしょうか?
この問題は、より広範なグローバルAV市場で特に重要です。
ここでは、文化固有のAVSを再調整し、それらを他の文化に同化するように設計された、データ光逆補強学習と呼ばれるAVSの異文化展開スキームを提案します。
まず、ドイツ、中国、米国の3つの国の高速道路での自然主義的な運転データセットの包括的な比較分析を通じて、運転文化の発散を報告します。
次に、56084 kmを超える累積テストの走行距離を使用して、これら3か国で迅速な異文化展開をテストすることにより、スキームの有効性を実証します。
異文化間の展開が豊かなローカルデータなしで実行される場合、パフォーマンスは特に有利です。
結果は、局所データへの依存をせいぜい98.67%のマージンで減らすことができることを示しています。
この研究は、特に文化互換のAVを開発するのに十分なローカルデータを欠いている地域で、より広く、より公平なAVグローバル市場をもたらすことが期待されています。

要約(オリジナル)

More than the adherence to specific traffic regulations, driving culture touches upon a more implicit part – an informal, conventional, collective behavioral pattern followed by drivers – that varies across countries, regions, and even cities. Such cultural divergence has become one of the biggest challenges in deploying autonomous vehicles (AVs) across diverse regions today. The current emergence of data-driven methods has shown a potential solution to enable culture-compatible driving through learning from data, but what if some underdeveloped regions cannot provide sufficient local data to inform driving culture? This issue is particularly significant for a broader global AV market. Here, we propose a cross-cultural deployment scheme for AVs, called data-light inverse reinforcement learning, designed to re-calibrate culture-specific AVs and assimilate them into other cultures. First, we report the divergence in driving cultures through a comprehensive comparative analysis of naturalistic driving datasets on highways from three countries: Germany, China, and the USA. Then, we demonstrate the effectiveness of our scheme by testing the expeditious cross-cultural deployment across these three countries, with cumulative testing mileage of over 56084 km. The performance is particularly advantageous when cross-cultural deployment is carried out without affluent local data. Results show that we can reduce the dependence on local data by a margin of 98.67% at best. This study is expected to bring a broader, fairer AV global market, particularly in those regions that lack enough local data to develop culture-compatible AVs.

arxiv情報

著者 Hongliang Lu,Shuqi Shen,Junjie Yang,Chao Lu,Xinhu Zheng,Hai Yang
発行日 2025-04-18 05:59:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Cross-cultural Deployment of Autonomous Vehicles Using Data-light Inverse Reinforcement Learning はコメントを受け付けていません

SwitchMT: An Adaptive Context Switching Methodology for Scalable Multi-Task Learning in Intelligent Autonomous Agents

要約

複数のタスクでインテリジェントな自律エージェント(モバイルロボットなど)をトレーニングする機能は、動的な現実世界環境に適応するために重要です。
ただし、最先端の強化学習(RL)は、シングルタスク設定でのみ優れているため、タスク干渉のために複数のタスクを一般化するのに苦労しています。
さらに、実際の環境では、エージェントにデータストリーム処理機能を持つように要求します。
これに向けて、最先端の作業では、低出力/エネルギーイベントベースの操作を可能にしながら、データストリームで一時的な情報を活用することにより、マルチタスク学習を改善するために、スパイクニューラルネットワーク(SNN)を採用しています。
ただし、トレーニング中に固定コンテキスト/タスクスイッチング間隔に依存するため、マルチタスク学習のスケーラビリティと有効性が制限されます。
これらの制限に対処するために、自律エージェントのRLベースのマルチタスク学習のための新しい適応タスクスイッチング方法論であるSwitchMTを提案します。
具体的には、SwitchMTは次の重要なアイデアを採用しています。(1)アクティブな樹状突起と決闘構造を備えた深いスパイクQネットワーク。タスク固有のコンテキスト信号を利用して特殊なサブネットワークを作成します。
(2)ネットワークパラメーターの報酬と内部ダイナミクスの両方を活用する適応型タスクスイッチングポリシー。
実験結果は、SwitchMTが最新の方法と比較してマルチタスク学習で優れたパフォーマンスを達成することを示しています。
複数のAtariゲーム(つまり、Pong:-8.8、Breakout:5.6、およびEnduro:355.2)で競争力のあるスコアを達成し、最先端の学習能力を示しています。
これらの結果は、適応性のあるタスクスイッチングを通じてマルチタスク学習自動化を可能にしながら、タスク干渉に対処する際のSwitchMT方法論の有効性を強調し、それにより、スケーラブルなマルチタスク学習機能を備えたより効率的なジェネラリストエージェントへの道を開きます。

要約(オリジナル)

The ability to train intelligent autonomous agents (such as mobile robots) on multiple tasks is crucial for adapting to dynamic real-world environments. However, state-of-the-art reinforcement learning (RL) methods only excel in single-task settings, and still struggle to generalize across multiple tasks due to task interference. Moreover, real-world environments also demand the agents to have data stream processing capabilities. Toward this, a state-of-the-art work employs Spiking Neural Networks (SNNs) to improve multi-task learning by exploiting temporal information in data stream, while enabling lowpower/energy event-based operations. However, it relies on fixed context/task-switching intervals during its training, hence limiting the scalability and effectiveness of multi-task learning. To address these limitations, we propose SwitchMT, a novel adaptive task-switching methodology for RL-based multi-task learning in autonomous agents. Specifically, SwitchMT employs the following key ideas: (1) a Deep Spiking Q-Network with active dendrites and dueling structure, that utilizes task-specific context signals to create specialized sub-networks; and (2) an adaptive task-switching policy that leverages both rewards and internal dynamics of the network parameters. Experimental results demonstrate that SwitchMT achieves superior performance in multi-task learning compared to state-of-the-art methods. It achieves competitive scores in multiple Atari games (i.e., Pong: -8.8, Breakout: 5.6, and Enduro: 355.2) compared to the state-of-the-art, showing its better generalized learning capability. These results highlight the effectiveness of our SwitchMT methodology in addressing task interference while enabling multi-task learning automation through adaptive task switching, thereby paving the way for more efficient generalist agents with scalable multi-task learning capabilities.

arxiv情報

著者 Avaneesh Devkota,Rachmad Vidya Wicaksana Putra,Muhammad Shafique
発行日 2025-04-18 08:12:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE, cs.RO | SwitchMT: An Adaptive Context Switching Methodology for Scalable Multi-Task Learning in Intelligent Autonomous Agents はコメントを受け付けていません

Task Assignment and Exploration Optimization for Low Altitude UAV Rescue via Generative AI Enhanced Multi-agent Reinforcement Learning

要約

人工知能(AI)駆動型の畳み込みニューラルネットワークは、未知の環境で低高度の航海車両(UAV)および地上コンピューティングノード(GCN)によって実行される救助、検査、および監視タスクを強化します。
ただし、彼らの高い計算需要は、多くの場合、単一のUAVの容量を超えて、システムの不安定性につながり、GCNSの限定的かつ動的なリソースによってさらに悪化します。
これらの課題に対処するために、このペーパーでは、UAV、接地包まれたロボット(GERS)、および高高度プラットフォーム(HAPS)を含む新しい協力フレームワークを提案します。
具体的には、動的な長期最適化問題として、UAVにおけるタスクの割り当てと探査最適化の多目的最適化問題を定式化します。
私たちの目的は、時間の経過とともにシステムの安定性を確保しながら、タスクの完了時間とエネルギー消費を最小限に抑えることです。
これを達成するために、最初にリアプノフ最適化手法を採用して、安定性の制約を伴う元の問題をスロットごとの決定論的問題に変換します。
次に、ハンガリーのアルゴリズムを生成拡散モデル(GDM)ベースのマルチエージェントディープ決定論的ポリシー勾配(MADDPG)アプローチと組み合わせたHg-MADDPGという名前のアルゴリズムを提案します。
最初に、探査エリアの選択方法としてハンガリーのアルゴリズムを紹介し、環境との相互作用におけるUAV効率を高めます。
次に、GDMとマルチエージェントの深部決定論的ポリシーグラデーション(MADDPG)を革新的に統合して、タスクオフロードやリソース割り当てなどのタスク割り当て決定を最適化します。
シミュレーション結果は、提案されたアプローチの有効性を示しており、ベースラインの方法と比較して、タスクのオフロード効率、レイテンシーの削減、システムの安定性が大幅に改善されています。

要約(オリジナル)

Artificial Intelligence (AI)-driven convolutional neural networks enhance rescue, inspection, and surveillance tasks performed by low-altitude uncrewed aerial vehicles (UAVs) and ground computing nodes (GCNs) in unknown environments. However, their high computational demands often exceed a single UAV’s capacity, leading to system instability, further exacerbated by the limited and dynamic resources of GCNs. To address these challenges, this paper proposes a novel cooperation framework involving UAVs, ground-embedded robots (GERs), and high-altitude platforms (HAPs), which enable resource pooling through UAV-to-GER (U2G) and UAV-to-HAP (U2H) communications to provide computing services for UAV offloaded tasks. Specifically, we formulate the multi-objective optimization problem of task assignment and exploration optimization in UAVs as a dynamic long-term optimization problem. Our objective is to minimize task completion time and energy consumption while ensuring system stability over time. To achieve this, we first employ the Lyapunov optimization technique to transform the original problem, with stability constraints, into a per-slot deterministic problem. We then propose an algorithm named HG-MADDPG, which combines the Hungarian algorithm with a generative diffusion model (GDM)-based multi-agent deep deterministic policy gradient (MADDPG) approach. We first introduce the Hungarian algorithm as a method for exploration area selection, enhancing UAV efficiency in interacting with the environment. We then innovatively integrate the GDM and multi-agent deep deterministic policy gradient (MADDPG) to optimize task assignment decisions, such as task offloading and resource allocation. Simulation results demonstrate the effectiveness of the proposed approach, with significant improvements in task offloading efficiency, latency reduction, and system stability compared to baseline methods.

arxiv情報

著者 Xin Tang,Qian Chen,Wenjie Weng,Chao Jin,Zhang Liu,Jiacheng Wang,Geng Sun,Xiaohuan Li,Dusit Niyato
発行日 2025-04-18 08:44:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Task Assignment and Exploration Optimization for Low Altitude UAV Rescue via Generative AI Enhanced Multi-agent Reinforcement Learning はコメントを受け付けていません

Hysteresis-Aware Neural Network Modeling and Whole-Body Reinforcement Learning Control of Soft Robots

要約

ソフトロボットは固有のコンプライアンスと安全性を示し、外科手術などの人間との直接的な物理的相互作用を必要とするアプリケーションに特に適しています。
ただし、柔らかい材料の特性に起因する非線形およびヒステリックな挙動は、正確なモデリングと制御のための大きな課題を提示します。
この研究では、外科用途向けに設計されたソフトロボットシステムを紹介し、ヒステリックな挙動を含むソフトロボットの全身運動を正確にキャプチャおよび予測するヒステリシス対応全身ニューラルネットワークモデルを提案します。
高精度の動的モデルに基づいて、ソフトロボット制御のための高度な並列シミュレーション環境を構築し、ポリシー補強学習アルゴリズムを適用して、全身モーション制御戦略を効率的にトレーニングします。
訓練された制御ポリシーに基づいて、外科用途向けのソフトロボットシステムを開発し、物理的環境でのファントムベースのレーザーアブレーション実験を通じてそれを検証しました。
結果は、ヒステリシス認識モデリングが、従来のモデリング方法と比較して平均二乗誤差(MSE)が84.95%減少することを示しています。
展開されたコントロールアルゴリズムは、実際のソフトロボットで0.126〜0.250 mmの範囲の軌跡追跡エラーを達成し、実際の条件での精度を強調しました。
提案された方法は、ファントムベースの外科的実験で強力なパフォーマンスを示し、将来の現実世界の臨床アプリケーションを含む複雑なシナリオの可能性を示しています。

要約(オリジナル)

Soft robots exhibit inherent compliance and safety, which makes them particularly suitable for applications requiring direct physical interaction with humans, such as surgical procedures. However, their nonlinear and hysteretic behavior, resulting from the properties of soft materials, presents substantial challenges for accurate modeling and control. In this study, we present a soft robotic system designed for surgical applications and propose a hysteresis-aware whole-body neural network model that accurately captures and predicts the soft robot’s whole-body motion, including its hysteretic behavior. Building upon the high-precision dynamic model, we construct a highly parallel simulation environment for soft robot control and apply an on-policy reinforcement learning algorithm to efficiently train whole-body motion control strategies. Based on the trained control policy, we developed a soft robotic system for surgical applications and validated it through phantom-based laser ablation experiments in a physical environment. The results demonstrate that the hysteresis-aware modeling reduces the Mean Squared Error (MSE) by 84.95 percent compared to traditional modeling methods. The deployed control algorithm achieved a trajectory tracking error ranging from 0.126 to 0.250 mm on the real soft robot, highlighting its precision in real-world conditions. The proposed method showed strong performance in phantom-based surgical experiments and demonstrates its potential for complex scenarios, including future real-world clinical applications.

arxiv情報

著者 Zongyuan Chen,Yan Xia,Jiayuan Liu,Jijia Liu,Wenhao Tang,Jiayu Chen,Feng Gao,Longfei Ma,Hongen Liao,Yu Wang,Chao Yu,Boyu Zhang,Fei Xing
発行日 2025-04-18 09:34:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Hysteresis-Aware Neural Network Modeling and Whole-Body Reinforcement Learning Control of Soft Robots はコメントを受け付けていません

Haptic Perception via the Dynamics of Flexible Body Inspired by an Ostrich’s Neck

要約

生物学的系では、皮膚の感度と身体の柔軟性の両方が、触覚的知覚において重要な役割を果たします。
完全に柔らかいロボットは、多くの場合、構造的な脆弱性と感覚処理の遅延に悩まされ、実用的な機能を制限します。
筋骨格系は、柔らかい材料の適応性と剛体ロボットの耐久性を組み合わせています。
また、動的および適応行動のために、形態学的構造が情報処理に寄与する形態学的計算を活用します。
この研究は、鳥の筋肉骨格系を通じて正確な触覚的知覚を可能にする鳥の嘆きの行動に焦点を当てています。
物理的な貯水池コンピューティングは、ダチョウの首に触発された柔軟な構造に適用され、触覚的知覚と物理的特性の関係を分析します。
物理ロボットとシミュレーションの両方を使用した実験により、適切な粘弾性があるため、柔軟な構造はオブジェクトの柔らかさを識別し、行動を通じてその情報を保持できることが明らかになりました。
ダチョウの首からのこれらの発見と解剖学的洞察を利用して、柔軟な構造で分離性と行動記憶の両方を示す触覚認識システムが提案され、迅速な学習とリアルタイムの推論を可能にします。
結果は、柔軟な構造のダイナミクスを通じて、多様な機能がマニピュレーターとしての元の設計を超えて出現する可能性があることを示しています。

要約(オリジナル)

In biological systems, both skin sensitivity and body flexibility play crucial roles in haptic perception. Fully soft robots often suffer from structural fragility and delayed sensory processing, limiting their practical functionality. The musculoskeletal system combines the adaptability of soft materials with the durability of rigid-body robots. It also leverages morphological computation, where the morphological structures contribute to information processing, for dynamic and adaptive behaviors. This study focuses on the pecking behaviors of birds, which enables precise haptic perception through the musculoskeletal system of their flexible neck. Physical reservoir computing is applied to flexible structures inspired by an ostrich neck to analyze the relationship between haptic perception and physical characteristics. Experiments with both a physical robot and simulations reveal that, with appropriate viscoelasticity, the flexible structure can discriminate object softness and retain that information through behavior. Drawing on these findings and anatomical insights from the ostrich neck, a haptic perception system is proposed that exhibits both separability and behavioral memory in flexible structures, enabling rapid learning and real-time inference. The results demonstrate that through the dynamics of flexible structures, diverse functions can emerge beyond their original design as manipulators.

arxiv情報

著者 Kazashi Nakano,Katsuma Inoue,Yasuo Kuniyoshi,Kohei Nakajima
発行日 2025-04-18 09:38:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Haptic Perception via the Dynamics of Flexible Body Inspired by an Ostrich’s Neck はコメントを受け付けていません

Doppler-SLAM: Doppler-Aided Radar-Inertial and LiDAR-Inertial Simultaneous Localization and Mapping

要約

同時ローカリゼーションとマッピング(SLAM)は、自律システムにとって重要な機能です。
多くの場合、視覚やライダーセンサーに依存する従来のスラムアプローチは、低光や特徴のない環境などの不利な状態で大きな課題に直面しています。
これらの制限を克服するために、4Dレーダー、FMCW LIDAR、および慣性測定ユニットの相補的な強度を活用する、ドップラー支援レーダー介入およびLIDAR介入のスラムフレームワークを提案します。
当社のシステムは、ドップラー速度測定と空間データを、強固なフロントエンドとグラフの最適化バックエンドに統合し、強化されたエゴ速度推定、正確な臭気測定、および堅牢なマッピングを提供します。
また、ドップラーベースのスキャンマッチング手法を導入して、動的環境でのフロントエンドの匂いを改善します。
さらに、当社のフレームワークには、ドップラー速度とループ閉鎖を利用してセンサーアライメントを動的に維持するための革新的なオンライン外因性キャリブレーションメカニズムが組み込まれています。
公共および独自のデータセットの両方での広範な評価は、私たちのシステムが、正確さと堅牢性の観点から、最先端のレーダースラムとライダースラムのフレームワークを大幅に上回ることを示しています。
さらなる研究を奨励するために、ドップラースラムとデータセットのコードは、https://github.com/wayne-dwa/doppler-slamで入手できます。

要約(オリジナル)

Simultaneous localization and mapping (SLAM) is a critical capability for autonomous systems. Traditional SLAM approaches, which often rely on visual or LiDAR sensors, face significant challenges in adverse conditions such as low light or featureless environments. To overcome these limitations, we propose a novel Doppler-aided radar-inertial and LiDAR-inertial SLAM framework that leverages the complementary strengths of 4D radar, FMCW LiDAR, and inertial measurement units. Our system integrates Doppler velocity measurements and spatial data into a tightly-coupled front-end and graph optimization back-end to provide enhanced ego velocity estimation, accurate odometry, and robust mapping. We also introduce a Doppler-based scan-matching technique to improve front-end odometry in dynamic environments. In addition, our framework incorporates an innovative online extrinsic calibration mechanism, utilizing Doppler velocity and loop closure to dynamically maintain sensor alignment. Extensive evaluations on both public and proprietary datasets show that our system significantly outperforms state-of-the-art radar-SLAM and LiDAR-SLAM frameworks in terms of accuracy and robustness. To encourage further research, the code of our Doppler-SLAM and our dataset are available at: https://github.com/Wayne-DWA/Doppler-SLAM.

arxiv情報

著者 Dong Wang,Hannes Haag,Daniel Casado Herraez,Stefan May,Cyrill Stachniss,Andreas Nuechter
発行日 2025-04-18 09:55:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Doppler-SLAM: Doppler-Aided Radar-Inertial and LiDAR-Inertial Simultaneous Localization and Mapping はコメントを受け付けていません

LMPOcc: 3D Semantic Occupancy Prediction Utilizing Long-Term Memory Prior from Historical Traversals

要約

ビジョンベースの3Dセマンティック占有率予測は、自律的な運転に重要であり、静的インフラストラクチャと動的エージェントの統一モデリングを可能にします。
実際には、自動運転車は、天候の変動や照明の変化など、さまざまな環境条件の下で同一の地理的位置を繰り返し通過する可能性があります。
3D占有予測の既存の方法は、主に隣接する時間コンテキストを統合します。
ただし、これらの研究は、同一の地理的位置の歴史的なトラバーサルから取得される知覚情報を活用することを怠っています。
この論文では、歴史的なトラバーサル知覚出力から導き出された長期記憶前処理を活用する最初の3D占有率の方法論である長期記憶事前占有率(LMPOCC)を提案します。
長期的なメモリプライアーを統合して局所的な知覚を強化しながら、グローバルな占有表現を構築するプラグアンドプレイアーキテクチャを紹介します。
以前の機能と現在の機能を適応的に集約するために、効率的な軽量電流融合モジュールを開発します。
さらに、多様な占有予測ベースライン全体の互換性を確保するために、モデルに依存しない事前形式を提案します。
LMPOCCは、OCC3D-Nuscenesベンチマーク、特に静的セマンティックカテゴリで検証された最先端のパフォーマンスを実現しています。
さらに、実験結果は、マルチビェクルクラウドソーシングを通じて世界的な占有率を構築するLMPOCCの能力を示しています。

要約(オリジナル)

Vision-based 3D semantic occupancy prediction is critical for autonomous driving, enabling unified modeling of static infrastructure and dynamic agents. In practice, autonomous vehicles may repeatedly traverse identical geographic locations under varying environmental conditions, such as weather fluctuations and illumination changes. Existing methods in 3D occupancy prediction predominantly integrate adjacent temporal contexts. However, these works neglect to leverage perceptual information, which is acquired from historical traversals of identical geographic locations. In this paper, we propose Longterm Memory Prior Occupancy (LMPOcc), the first 3D occupancy prediction methodology that exploits long-term memory priors derived from historical traversal perceptual outputs. We introduce a plug-and-play architecture that integrates long-term memory priors to enhance local perception while simultaneously constructing global occupancy representations. To adaptively aggregate prior features and current features, we develop an efficient lightweight Current-Prior Fusion module. Moreover, we propose a model-agnostic prior format to ensure compatibility across diverse occupancy prediction baselines. LMPOcc achieves state-of-the-art performance validated on the Occ3D-nuScenes benchmark, especially on static semantic categories. Additionally, experimental results demonstrate LMPOcc’s ability to construct global occupancy through multi-vehicle crowdsourcing.

arxiv情報

著者 Shanshuai Yuan,Julong Wei,Muer Tie,Xiangyun Ren,Zhongxue Gan,Wenchao Ding
発行日 2025-04-18 09:58:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | LMPOcc: 3D Semantic Occupancy Prediction Utilizing Long-Term Memory Prior from Historical Traversals はコメントを受け付けていません

Training-free Task-oriented Grasp Generation

要約

このペーパーでは、事前に訓練された把握モデルとビジョン言語モデル(VLM)を組み合わせたタスク指向の把握生成のためのトレーニングフリーパイプラインを紹介します。
安定した握りのみに焦点を当てた従来のアプローチとは異なり、私たちの方法には、VLMSのセマンティック推論機能を活用することにより、タスク固有の要件が組み込まれています。
5つのクエリ戦略を評価し、それぞれが候補の握りの異なる視覚表現を利用し、把握成功率とタスクコンプライアンス率の両方でベースライン方法よりも大幅な改善を実証し、全体的な成功率が最大36.9%の絶対的な増加を示します。
私たちの結果は、タスク指向の操作を強化するVLMの可能性を強調し、ロボットグラッピングと人間とロボットの相互作用における将来の研究の洞察を提供します。

要約(オリジナル)

This paper presents a training-free pipeline for task-oriented grasp generation that combines pre-trained grasp generation models with vision-language models (VLMs). Unlike traditional approaches that focus solely on stable grasps, our method incorporates task-specific requirements by leveraging the semantic reasoning capabilities of VLMs. We evaluate five querying strategies, each utilizing different visual representations of candidate grasps, and demonstrate significant improvements over a baseline method in both grasp success and task compliance rates, with absolute gains of up to 36.9\% in overall success rate. Our results underline the potential of VLMs to enhance task-oriented manipulation, providing insights for future research in robotic grasping and human-robot interaction.

arxiv情報

著者 Jiaming Wang,Jizhuo Chen,Diwen Liu,Linh Kästner
発行日 2025-04-18 10:45:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Training-free Task-oriented Grasp Generation はコメントを受け付けていません