CTS-CBS: A New Approach for Multi-Agent Collaborative Task Sequencing and Path Finding

要約

このペーパーでは、共同タスクシーケンス – マルチエージェントパスファインディング(CTS-MAPF)と呼ばれるマルチエージェントパスファインディング(MAPF)の一般化問題に対処します。ここでは、エージェントが衝突のないパスを計画し、最終目的地に到達する前に特定の順序で一連の中間タスクの場所を訪問する必要があります。
この問題に対処するために、2レベルの検索を実施する新しいアプローチ、共同タスクシーケンス – 競合ベースの検索(CTS-CBS)を提案します。
高レベルでは、各ツリーがJTSPソリューションから派生したジョイントタスクシーケンスに対応する検索フォレストを生成します。
低レベルでは、CTS-CBSは、高レベルの制約を順守しながら、各エージェントのパスを生成するための制約付きシングルエージェントパス計画を実行します。
また、その完全性と最適性(または境界パラメーターを使用したサブ最適性)のanyめの保証も提供します。
CTS-CBSのパフォーマンスを評価するために、2つのデータセット、CTS-MAPFとMG-MAPFを作成し、包括的な実験を実施します。
結果は、MG-MAPFのCTS-CBS適応は、成功率(最大20倍)とランタイム(最大100倍高速)の観点からベースラインアルゴリズムを上回り、ソリューションの品質が10%未満であることを示しています。
さらに、CTS-CBSは、ユーザーがソリューションの品質と効率のバランスをとるために、最適なバインドされたオメガを調整できるようにすることで柔軟性を提供します。
最後に、実用的なロボットテストは、実際のシナリオでのアルゴリズムの適用性を示しています。

要約(オリジナル)

This paper addresses a generalization problem of Multi-Agent Pathfinding (MAPF), called Collaborative Task Sequencing – Multi-Agent Pathfinding (CTS-MAPF), where agents must plan collision-free paths and visit a series of intermediate task locations in a specific order before reaching their final destinations. To address this problem, we propose a new approach, Collaborative Task Sequencing – Conflict-Based Search (CTS-CBS), which conducts a two-level search. In the high level, it generates a search forest, where each tree corresponds to a joint task sequence derived from the jTSP solution. In the low level, CTS-CBS performs constrained single-agent path planning to generate paths for each agent while adhering to high-level constraints. We also provide heoretical guarantees of its completeness and optimality (or sub-optimality with a bounded parameter). To evaluate the performance of CTS-CBS, we create two datasets, CTS-MAPF and MG-MAPF, and conduct comprehensive experiments. The results show that CTS-CBS adaptations for MG-MAPF outperform baseline algorithms in terms of success rate (up to 20 times larger) and runtime (up to 100 times faster), with less than a 10% sacrifice in solution quality. Furthermore, CTS-CBS offers flexibility by allowing users to adjust the sub-optimality bound omega to balance between solution quality and efficiency. Finally, practical robot tests demonstrate the algorithm’s applicability in real-world scenarios.

arxiv情報

著者 Junkai Jiang,Ruochen Li,Yibin Yang,Yihe Chen,Yuning Wang,Shaobing Xu,Jianqiang Wang
発行日 2025-03-26 08:47:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO | CTS-CBS: A New Approach for Multi-Agent Collaborative Task Sequencing and Path Finding はコメントを受け付けていません

LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning

要約

Deep Renection Learning(DRL)は、ロボット制御において強力なパフォーマンスを実証していますが、分散排出(OOD)状態の影響を受けやすく、しばしば信頼できないアクションとタスクの障害をもたらします。
以前の方法では、OODの発生の最小化または防止に焦点を当てていますが、エージェントがそのような状態に遭遇すると、回復をほとんど無視しています。
最新の研究では、エージェントが分配内の状態に戻ることでこれに対処しようとしましたが、不確実性の推定への依存は、複雑な環境でのスケーラビリティを妨げます。
この制限を克服するために、不確実性の推定に依存することなく回復学習を可能にする、分散除外回復(Lamour)の言語モデルを導入します。
Lamourは、エージェントを元のタスクを正常に実行できる状態に戻す密な報酬コードを生成し、画像の説明、論理的推論、およびコード生成でLVLMSの機能を活用します。
実験結果は、Lamourが多様な移動タスク全体の回復効率を大幅に向上させ、既存の方法が苦労しているヒューマノイド移動やモバイル操作など、複雑な環境に効果的に一般化することさえあることを示しています。
コードと補足資料は、https://lamour-rl.github.io/で入手できます。

要約(オリジナル)

Deep Reinforcement Learning (DRL) has demonstrated strong performance in robotic control but remains susceptible to out-of-distribution (OOD) states, often resulting in unreliable actions and task failure. While previous methods have focused on minimizing or preventing OOD occurrences, they largely neglect recovery once an agent encounters such states. Although the latest research has attempted to address this by guiding agents back to in-distribution states, their reliance on uncertainty estimation hinders scalability in complex environments. To overcome this limitation, we introduce Language Models for Out-of-Distribution Recovery (LaMOuR), which enables recovery learning without relying on uncertainty estimation. LaMOuR generates dense reward codes that guide the agent back to a state where it can successfully perform its original task, leveraging the capabilities of LVLMs in image description, logical reasoning, and code generation. Experimental results show that LaMOuR substantially enhances recovery efficiency across diverse locomotion tasks and even generalizes effectively to complex environments, including humanoid locomotion and mobile manipulation, where existing methods struggle. The code and supplementary materials are available at https://lamour-rl.github.io/.

arxiv情報

著者 Chan Kim,Seung-Woo Seo,Seong-Woo Kim
発行日 2025-03-26 08:55:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning はコメントを受け付けていません

ManiCM: Real-time 3D Diffusion Policy via Consistency Model for Robotic Manipulation

要約

拡散モデルは、自然な画像から運動軌道への複雑な分布を生成するのに効果的であることが検証されています。
最近の拡散ベースの方法は、3Dロボット操作タスクで印象的なパフォーマンスを示していますが、特に高次元の観察では、複数の除去ステップによる重度のランタイム非効率性に苦しんでいます。
この目的のために、モデルが1段階の推論のみでロボットアクションを生成できるように、拡散プロセスに一貫性の制約を課すマニックという名前のリアルタイムロボット操作モデルを提案します。
具体的には、ポイントクラウド入力を条件とするロボットアクションスペースに一貫した拡散プロセスを策定します。ここでは、オードの軌跡に沿った任意のポイントから直接除去する必要があります。
このプロセスをモデル化するために、一貫性蒸留技術を設計して、低次元アクションマニホールドでの高速収束のためにビジョンコミュニティ内のノイズを予測する代わりに、アクションサンプルを直接予測します。
AdroitとMetaworldからの31のロボット操作タスクでManicmを評価します。結果は、競争力のある平均成功率を維持しながら、私たちのアプローチが平均推論速度で最先端の方法を10倍加速することを示しています。

要約(オリジナル)

Diffusion models have been verified to be effective in generating complex distributions from natural images to motion trajectories. Recent diffusion-based methods show impressive performance in 3D robotic manipulation tasks, whereas they suffer from severe runtime inefficiency due to multiple denoising steps, especially with high-dimensional observations. To this end, we propose a real-time robotic manipulation model named ManiCM that imposes the consistency constraint to the diffusion process, so that the model can generate robot actions in only one-step inference. Specifically, we formulate a consistent diffusion process in the robot action space conditioned on the point cloud input, where the original action is required to be directly denoised from any point along the ODE trajectory. To model this process, we design a consistency distillation technique to predict the action sample directly instead of predicting the noise within the vision community for fast convergence in the low-dimensional action manifold. We evaluate ManiCM on 31 robotic manipulation tasks from Adroit and Metaworld, and the results demonstrate that our approach accelerates the state-of-the-art method by 10 times in average inference speed while maintaining competitive average success rate.

arxiv情報

著者 Guanxing Lu,Zifeng Gao,Tianxing Chen,Wenxun Dai,Ziwei Wang,Wenbo Ding,Yansong Tang
発行日 2025-03-26 09:00:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | ManiCM: Real-time 3D Diffusion Policy via Consistency Model for Robotic Manipulation はコメントを受け付けていません

MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation

要約

マルチモーダル大手言語モデル(MLLM)は、複雑な言語と視覚データの理解に優れており、ジェネラリストのロボットシステムが命令を解釈し、具体化されたタスクを実行できるようにします。
それにもかかわらず、彼らの現実世界の展開は、実質的な計算とストレージの要求によって妨げられています。
LLM層の均質なパターンに関する最近の洞察は、早期出口やトークン剪定など、これらの課題に対処するためのスパース化技術に影響を与えました。
ただし、これらの方法は、下流のロボットタスクに最も関連するセマンティック情報をエンコードする最終レイヤーの重要な役割をしばしば無視します。
神経科学における浅い脳仮説(SBH)の最近のブレークスルーとモデルのスパース化における専門家の混合に合わせて、各LLM層を専門家として概念化し、ダイナミックLLM層活性化のための混合物の視覚演算モデル(Mole-VLA、または単にモル)アーキテクチャを提案します。
Mole向けに空間的意識のあるルーター(星)を導入して、ロボットの現在の状態に基づいて層の一部のみを選択的にアクティブにし、認知と因果推論に特化した脳の明確なシグナル経路を模倣します。
さらに、ほくろで失われたLLMの認知能力を補うために、認知自己認識蒸留(COGKD)フレームワークを考案します。
COGKDは、タスクの要求の理解を高め、認知機能を活用することにより、タスク関連のアクションシーケンスの生成を改善します。
RLBenchシミュレーションと現実世界の両方の環境で実施された広範な実験は、効率とパフォーマンスの両方におけるモルVLAの優位性を示しています。
具体的には、Mole-VLAは、標準のLLMと比較して、10のタスクにわたって平均成功率の平均成功率が8%改善され、計算コストをx5.6まで削減します。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) excel in understanding complex language and visual data, enabling generalist robotic systems to interpret instructions and perform embodied tasks. Nevertheless, their real-world deployment is hindered by substantial computational and storage demands. Recent insights into the homogeneous patterns in the LLM layer have inspired sparsification techniques to address these challenges, such as early exit and token pruning. However, these methods often neglect the critical role of the final layers that encode the semantic information most relevant to downstream robotic tasks. Aligning with the recent breakthrough of the Shallow Brain Hypothesis (SBH) in neuroscience and the mixture of experts in model sparsification, we conceptualize each LLM layer as an expert and propose a Mixture-of-Layers Vision-Language-Action model (MoLe-VLA, or simply MoLe) architecture for dynamic LLM layer activation. We introduce a Spatial-Temporal Aware Router (STAR) for MoLe to selectively activate only parts of the layers based on the robot’s current state, mimicking the brain’s distinct signal pathways specialized for cognition and causal reasoning. Additionally, to compensate for the cognitive ability of LLMs lost in MoLe, we devise a Cognition Self-Knowledge Distillation (CogKD) framework. CogKD enhances the understanding of task demands and improves the generation of task-relevant action sequences by leveraging cognitive features. Extensive experiments conducted in both RLBench simulation and real-world environments demonstrate the superiority of MoLe-VLA in both efficiency and performance. Specifically, MoLe-VLA achieves an 8% improvement in the mean success rate across ten tasks while reducing computational costs by up to x5.6 compared to standard LLMs.

arxiv情報

著者 Rongyu Zhang,Menghang Dong,Yuan Zhang,Liang Heng,Xiaowei Chi,Gaole Dai,Li Du,Dan Wang,Yuan Du,Shanghang Zhang
発行日 2025-03-26 10:05:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation はコメントを受け付けていません

The Morphology-Control Trade-Off: Insights into Soft Robotic Efficiency

要約

ソフトロボットは、動的環境で適応性のある適応可能なシステムを有効にするための変革の可能性を備えています。
ただし、形態学と制御の複雑さとタスクのパフォーマンスへの集合的な影響との相互作用は、依然としてよく理解されていません。
したがって、この研究では、4つのよく使用されている形態学的複雑さメトリックとフロップで測定された複雑さを制御するためのさまざまな難易度のタスク全体でこれらのトレードオフを調査します。
これらの要因が、進化的ロボット実験を利用することにより、タスクのパフォーマンスにどのように影響するかを調査します。
結果は、最適なパフォーマンスは形態と制御の間の整合に依存することを示しています。より単純な形態と軽量コントローラーは、タスクを容易にするために十分であり、より難しいタスクは両方の次元でより高い複雑さを必要とします。
さらに、同じタスクパフォ​​ーマンスを達成する形態学的複雑さと制御複雑さの間の明確なトレードオフを観察できます。
さらに、個々の形態学的メトリックのタスク固有の貢献を公開するための感度分析も提案します。
私たちの研究は、形態、制御、およびタスクのパフォーマンスの関係を調査するためのフレームワークを確立し、計算効率と適応性のバランスをとるタスク固有のロボット設計の開発を進めます。
この研究は、実質的な洞察を提供することにより、実際のシナリオでソフトロボット工学の実際の応用に貢献しています。

要約(オリジナル)

Soft robotics holds transformative potential for enabling adaptive and adaptable systems in dynamic environments. However, the interplay between morphological and control complexities and their collective impact on task performance remains poorly understood. Therefore, in this study, we investigate these trade-offs across tasks of differing difficulty levels using four well-used morphological complexity metrics and control complexity measured by FLOPs. We investigate how these factors jointly influence task performance by utilizing the evolutionary robot experiments. Results show that optimal performance depends on the alignment between morphology and control: simpler morphologies and lightweight controllers suffice for easier tasks, while harder tasks demand higher complexities in both dimensions. In addition, a clear trade-off between morphological and control complexities that achieve the same task performance can be observed. Moreover, we also propose a sensitivity analysis to expose the task-specific contributions of individual morphological metrics. Our study establishes a framework for investigating the relationships between morphology, control, and task performance, advancing the development of task-specific robotic designs that balance computational efficiency with adaptability. This study contributes to the practical application of soft robotics in real-world scenarios by providing actionable insights.

arxiv情報

著者 Yue Xie,Kai-fung Chu,Xing Wang,Fumiya Iida
発行日 2025-03-26 10:07:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.NE, cs.RO | The Morphology-Control Trade-Off: Insights into Soft Robotic Efficiency はコメントを受け付けていません

Perspective-Shifted Neuro-Symbolic World Models: A Framework for Socially-Aware Robot Navigation

要約

環境で人間と一緒にナビゲートするには、エージェントが不確実性の下で推論し、周囲の人々の信念と意図を説明する必要があります。
連続的な意思決定フレームワークの下で、自己中心的なナビゲーションは、自然にマルコフ決定プロセス(MDP)として表現できます。
しかし、社会的航法にはさらに、他者の隠された信念についての推論が必要であり、本質的に部分的に観察可能なマルコフ決定プロセス(POMDP)につながります。
心の理論と認識論的計画に触発された私たちは、(1)社会的航法のための神経協力モデルベースの強化学習アーキテクチャを提案し、部分的に観察可能な環境での信念追跡の課題に対処します。
(2)構造化されたマルチエージェント設定における影響ベースの抽象化(IBA)に関する最近の研究を活用して、信念の推定のためのパースペクティブシフトオペレーター。

要約(オリジナル)

Navigating in environments alongside humans requires agents to reason under uncertainty and account for the beliefs and intentions of those around them. Under a sequential decision-making framework, egocentric navigation can naturally be represented as a Markov Decision Process (MDP). However, social navigation additionally requires reasoning about the hidden beliefs of others, inherently leading to a Partially Observable Markov Decision Process (POMDP), where agents lack direct access to others’ mental states. Inspired by Theory of Mind and Epistemic Planning, we propose (1) a neuro-symbolic model-based reinforcement learning architecture for social navigation, addressing the challenge of belief tracking in partially observable environments; and (2) a perspective-shift operator for belief estimation, leveraging recent work on Influence-based Abstractions (IBA) in structured multi-agent settings.

arxiv情報

著者 Kevin Alcedo,Pedro U. Lima,Rachid Alami
発行日 2025-03-26 10:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Perspective-Shifted Neuro-Symbolic World Models: A Framework for Socially-Aware Robot Navigation はコメントを受け付けていません

Decremental Dynamics Planning for Robot Navigation

要約

すべてではないにしても、ほとんどのロボットナビゲーションシステムは、グローバルおよびローカル計画を含む分解された計画フレームワークを採用しています。
オンボードの計算と計画の品質をトレードオフするには、現在のシステムは、ローカルプランナー内でのみすべてのロボットダイナミクスの考慮事項を制限する必要がありますが、グローバルレベルで非常に単純化されたロボット表現(ダイナミクスのないポイントマスホロノミックモデルなど)を活用する必要があります。
ただし、ロボットダイナミクスの完全またはゼロの考慮に基づいたこのような人工分解は、2つのレベル間のギャップにつながる可能性があります。たとえば、特に高度に制約された障害環境では、ホロノミックポイントマスモデルに基づくグローバルパスは、非ホロノミックロボットによって実現できない場合があります。
このような制限に動機付けられて、私たちは、新しいパラダイム、ダイナミックな制約を計画プロセス全体に統合する減少ダイナミクス計画を提案します。
このパラダイムの有効性を検証するために、DDPを使用して3つの異なるプランナーを増やし、全体的な改善された計画パフォーマンスを示します。
また、2025 Barn Challengeのシミュレーションフェーズで1位を達成する新しいDDPベースのナビゲーションシステムも開発します。
シミュレートされた実験と物理実験の両方が、DDPの仮説的な利益を検証します。

要約(オリジナル)

Most, if not all, robot navigation systems employ a decomposed planning framework that includes global and local planning. To trade-off onboard computation and plan quality, current systems have to limit all robot dynamics considerations only within the local planner, while leveraging an extremely simplified robot representation (e.g., a point-mass holonomic model without dynamics) in the global level. However, such an artificial decomposition based on either full or zero consideration of robot dynamics can lead to gaps between the two levels, e.g., a global path based on a holonomic point-mass model may not be realizable by a non-holonomic robot, especially in highly constrained obstacle environments. Motivated by such a limitation, we propose a novel paradigm, Decremental Dynamics Planning that integrates dynamic constraints into the entire planning process, with a focus on high-fidelity dynamics modeling at the beginning and a gradual fidelity reduction as the planning progresses. To validate the effectiveness of this paradigm, we augment three different planners with DDP and show overall improved planning performance. We also develop a new DDP-based navigation system, which achieves first place in the simulation phase of the 2025 BARN Challenge. Both simulated and physical experiments validate DDP’s hypothesized benefits.

arxiv情報

著者 Yuanjie Lu,Tong Xu,Linji Wang,Nick Hawes,Xuesu Xiao
発行日 2025-03-26 13:08:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Decremental Dynamics Planning for Robot Navigation はコメントを受け付けていません

Combining Machine Learning and Sampling-Based Search for Multi-Goal Motion Planning with Dynamics

要約

このペーパーでは、衝突を避けながらロボットが複数の地域に到達するために必要な非構造化されていない障害物が豊富な環境でのマルチゴールモーション計画を検討します。
計画された動きは、ロボットのダイナミクスによって課される差別的制約も満たさなければなりません。
ソリューションを効率的に見つけるために、このペーパーでは、機械学習、旅行セールスマンの問題(TSP)、およびサンプリングベースのモーション計画を活用しています。
このアプローチは、衝突のない動的に実行可能な軌跡を分岐として追加することにより、モーションツリーを拡張します。
TSPソルバーは、各ノードのツアーを計算するために使用され、コストマトリックスを使用して残りの目標に到達する順序を決定します。
アプローチの重要な側面は、ランタイムと距離の予測をシングルゴールモーションプランの問題と組み合わせることにより、機械学習を活用してコストマトリックスを構築することです。
モーションツリーの拡張中に、低コストのツアーに関連付けられたノードが優先されます。
障害物が豊富な環境で動作する車両モデルを使用した実験は、アプローチの計算効率とスケーラビリティを示しています。

要約(オリジナル)

This paper considers multi-goal motion planning in unstructured, obstacle-rich environments where a robot is required to reach multiple regions while avoiding collisions. The planned motions must also satisfy the differential constraints imposed by the robot dynamics. To find solutions efficiently, this paper leverages machine learning, Traveling Salesman Problem (TSP), and sampling-based motion planning. The approach expands a motion tree by adding collision-free and dynamically-feasible trajectories as branches. A TSP solver is used to compute a tour for each node to determine the order in which to reach the remaining goals by utilizing a cost matrix. An important aspect of the approach is that it leverages machine learning to construct the cost matrix by combining runtime and distance predictions to single-goal motion-planning problems. During the motion-tree expansion, priority is given to nodes associated with low-cost tours. Experiments with a vehicle model operating in obstacle-rich environments demonstrate the computational efficiency and scalability of the approach.

arxiv情報

著者 Yuanjie Lu,Erion Plaku
発行日 2025-03-26 13:21:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Combining Machine Learning and Sampling-Based Search for Multi-Goal Motion Planning with Dynamics はコメントを受け付けていません

Safety integrity framework for automated driving

要約

このペーパーでは、BMWの最初のSAEレベル3自動化された運転システムの開発、リリースプロセス、および規制当局の承認を支えた包括的な安全枠組みについて説明します。
このフレームワークは、システムエンジニアリング、エンジニアリングリスク分析、ベイジアンデータ分析、実験の設計、および統計学習の分野からの確立された定性的および定量的方法を新しい方法で組み合わせています。
このアプローチは、ハードウェアとソフトウェアの障害、パフォーマンスの制限、および肯定的なリスクバランスを達成する許容レベルまでの不十分な仕様に関連するリスクを体系的に最小化します。
フレームワークの中心にあるのは、ハザードシナリオに関連する不確実性の体系的な識別と定量化と、設計された実験、フィールドデータ、および専門知識に基づいて冗長に設計されたシステムです。
システムの残留リスクは、確率的シミュレーションを通じて推定され、感度分析によって評価されます。
これらの高度な分析手法をVモデルに統合することにより、フレームワークは既存の自動車安全基準を満たし、統一し、補完します。
したがって、自動化された運転システムの開発と展開のために、包括的で厳格で透明な安全保証プロセスを提供します。

要約(オリジナル)

This paper describes the comprehensive safety framework that underpinned the development, release process, and regulatory approval of BMW’s first SAE Level 3 Automated Driving System. The framework combines established qualitative and quantitative methods from the fields of Systems Engineering, Engineering Risk Analysis, Bayesian Data Analysis, Design of Experiments, and Statistical Learning in a novel manner. The approach systematically minimizes the risks associated with hardware and software faults, performance limitations, and insufficient specifications to an acceptable level that achieves a Positive Risk Balance. At the core of the framework is the systematic identification and quantification of uncertainties associated with hazard scenarios and the redundantly designed system based on designed experiments, field data, and expert knowledge. The residual risk of the system is then estimated through Stochastic Simulation and evaluated by Sensitivity Analysis. By integrating these advanced analytical techniques into the V-Model, the framework fulfills, unifies, and complements existing automotive safety standards. It therefore provides a comprehensive, rigorous, and transparent safety assurance process for the development and deployment of Automated Driving Systems.

arxiv情報

著者 Moritz Werling,Rainer Faller,Wolfgang Betz,Daniel Straub
発行日 2025-03-26 13:40:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Safety integrity framework for automated driving はコメントを受け付けていません

UAV-Assisted Self-Supervised Terrain Awareness for Off-Road Navigation

要約

地形の認識は、真に自律的なオフロードナビゲーションを可能にするために不可欠なマイルストーンです。
地形の特性を正確に予測することで、潜在的な危険に対する車両の経路を最適化できます。
最近の方法では、深いニューラルネットワークを使用して、トレーニング信号としての固有受容に依存して、自己監視方法で移動性関連の地形特性を予測しています。
ただし、オンボードカメラは、地面に比べて視点によって本質的に制限され、閉塞と距離のある消失ピクセル密度に苦しんでいます。
このペーパーでは、ホバリングドローンからの空中の視点を使用して、自立した地形の特性評価のための新しいアプローチを紹介します。
地上車両で環境をサンプリングしながら、地形に配置された画像をキャプチャし、振動、隆起、エネルギー消費の単純な予測因子を効果的にトレーニングします。
当社のデータセットには、13の484の地上画像と12 935の空中画像で構成される森林環境で収集された2.8 kmのオフロードデータが含まれています。
私たちの調査結果は、ドローンの画像が、地上ロボット画像と比較して、データセット全体で地形の特性の予測を21.37%、高植生で37.35%改善することを示しています。
これらのパフォーマンスの改善の主な原因を特定するために、アブレーション研究を実施します。
また、ドローンで目に見えないエリアを偵察し、地面に最適化されたパスを計画および実行することにより、アプローチの現実世界の適用性を示します。

要約(オリジナル)

Terrain awareness is an essential milestone to enable truly autonomous off-road navigation. Accurately predicting terrain characteristics allows optimizing a vehicle’s path against potential hazards. Recent methods use deep neural networks to predict traversability-related terrain properties in a self-supervised manner, relying on proprioception as a training signal. However, onboard cameras are inherently limited by their point-of-view relative to the ground, suffering from occlusions and vanishing pixel density with distance. This paper introduces a novel approach for self-supervised terrain characterization using an aerial perspective from a hovering drone. We capture terrain-aligned images while sampling the environment with a ground vehicle, effectively training a simple predictor for vibrations, bumpiness, and energy consumption. Our dataset includes 2.8 km of off-road data collected in forest environment, comprising 13 484 ground-based images and 12 935 aerial images. Our findings show that drone imagery improves terrain property prediction by 21.37 % on the whole dataset and 37.35 % in high vegetation, compared to ground robot images. We conduct ablation studies to identify the main causes of these performance improvements. We also demonstrate the real-world applicability of our approach by scouting an unseen area with a drone, planning and executing an optimized path on the ground.

arxiv情報

著者 Jean-Michel Fortin,Olivier Gamache,William Fecteau,Effie Daum,William Larrivée-Hardy,François Pomerleau,Philippe Giguère
発行日 2025-03-26 14:02:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | UAV-Assisted Self-Supervised Terrain Awareness for Off-Road Navigation はコメントを受け付けていません