MOBODY: Model Based Off-Dynamics Offline Reinforcement Learning

要約

私たちは、オフラインの強化学習問題を研究します。ここでは、ソースおよびターゲットドメインから収集されたオフラインデータセットから、不一致の移行を伴うポリシーを学習することです。
既存のオフダイナミックオフラインRLメソッドは、通常、ターゲットドメインのものに似たフィルターソース遷移のいずれかを、ターゲットドメインから利用可能な限られた遷移によって制約されるソースデータに報酬の増強を適用します。
その結果、学習したポリシーでは、オフラインデータセットを超えてターゲットドメインを探索できません。
学習したダイナミクスを介してターゲットドメインの探索を可能にすることにより、この制限に対処するモデルベースのオフラインRLアルゴリズムであるMoBodyを提案します。
Mobodyは、モデルロールアウトを介してターゲットドメインで新しい合成遷移を生成します。これは、オフラインポリシー学習中にデータ増強として使用されます。
単一のドメインからダイナミクスを学習する既存のモデルベースの方法とは異なり、MoBodyは、ソースデータセットとターゲットデータセットの両方を活用することにより、不一致のダイナミクスの課題に取り組みます。
これらのデータセットを直接マージすると、学習モデルをソースダイナミクスにバイアスすることができます。
代わりに、Mobodyは、表現学習を通じて、ドメイン全体の状態と遷移の共有された潜在的な表現を発見することにより、ターゲットダイナミクスを学習します。
トレーニングを安定させるために、Mobodyは、ポリシーを正規化する動作クローニング損失を組み込みます。
具体的には、データセット内のすべてのアクションを均一に模倣するのではなく、ターゲットドメインQ値が高いアクションに向けたポリシーを正規化するQ強調の動作クローニング損失を導入します。
これらのQ値は、オフラインのターゲットデータ、拡張ソースデータ、および学習されたターゲットダイナミクスからの展開データで構成される拡張されたターゲットデータセットから学習されます。
Mujoco BenchmarksでMobodyを評価し、特に挑戦的なシナリオの改善が顕著になっていることを示しています。

要約(オリジナル)

We study the off-dynamics offline reinforcement learning problem, where the goal is to learn a policy from offline datasets collected from source and target domains with mismatched transition. Existing off-dynamics offline RL methods typically either filter source transitions that resemble those of the target domain or apply reward augmentation to source data, both constrained by the limited transitions available from the target domain. As a result, the learned policy is unable to explore target domain beyond the offline datasets. We propose MOBODY, a Model-Based Off-Dynamics offline RL algorithm that addresses this limitation by enabling exploration of the target domain via learned dynamics. MOBODY generates new synthetic transitions in the target domain through model rollouts, which are used as data augmentation during offline policy learning. Unlike existing model-based methods that learn dynamics from a single domain, MOBODY tackles the challenge of mismatched dynamics by leveraging both source and target datasets. Directly merging these datasets can bias the learned model toward source dynamics. Instead, MOBODY learns target dynamics by discovering a shared latent representation of states and transitions across domains through representation learning. To stabilize training, MOBODY incorporates a behavior cloning loss that regularizes the policy. Specifically, we introduce a Q-weighted behavior cloning loss that regularizes the policy toward actions with high target-domain Q-values, rather than uniformly imitating all actions in the dataset. These Q-values are learned from an enhanced target dataset composed of offline target data, augmented source data, and rollout data from the learned target dynamics. We evaluate MOBODY on MuJoCo benchmarks and show that it significantly outperforms state-of-the-art baselines, with especially pronounced improvements in challenging scenarios.

arxiv情報

著者 Yihong Guo,Yu Yang,Pan Xu,Anqi Liu
発行日 2025-06-10 05:36:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | MOBODY: Model Based Off-Dynamics Offline Reinforcement Learning はコメントを受け付けていません

Hybrid Reasoning for Perception, Explanation, and Autonomous Action in Manufacturing

要約

環境とタスクはしばしば予測不可能であるため、産業プロセスは堅牢で適応性がありますが、運用上のエラーはコストがかかり、検出が困難なままです。
AIベースの制御システムは、前進するパスを提供しますが、通常、広範なラベル付きデータセットを使用した監視された学習に依存しているため、変数およびデータスカースの産業設定を一般化する能力が制限されます。
基礎モデルは、より広範な推論と知識の統合を可能にする可能性がありますが、エンジニアリングアプリケーションが要求する定量的精度を提供することはめったにありません。
ここでは、ハイブリッドの専門知識と推論(Cipher)を介した生産の解釈を導入し、産業制御のための人間のような推論を再現することを目的としたビジョン言語アクション(VLA)モデルフレームワークを目指しています。
プロセスエキスパート、エンジニアリングタスクに必要なシステム状態の定量的特性評価を可能にする回帰モデルを統合します。
Cipherはまた、検索された高級世代を組み込み、外部の専門知識にアクセスし、物理学に基づいた、考え方の連鎖的な推論をサポートしています。
このハイブリッドアーキテクチャは、分散除外タスクに強い一般化を示します。
それは、プロセス監視からの視覚的またはテキスト入力を解釈し、その決定を説明し、明示的な注釈を必要とせずに正確な機械命令を自律的に生成します。
したがって、Cipherは、正確に、コンテキストとの理由で動作する自律システムの基礎を築き、産業環境での安全で信頼できる展開をサポートし、透過的に意思決定を伝えます。

要約(オリジナル)

Industrial processes must be robust and adaptable, as environments and tasks are often unpredictable, while operational errors remain costly and difficult to detect. AI-based control systems offer a path forward, yet typically depend on supervised learning with extensive labelled datasets, which limits their ability to generalize across variable and data-scarce industrial settings. Foundation models could enable broader reasoning and knowledge integration, but rarely deliver the quantitative precision demanded by engineering applications. Here, we introduceControl and Interpretation of Production via Hybrid Expertise and Reasoning (CIPHER): a vision-language-action (VLA) model framework aiming to replicate human-like reasoning for industrial control, instantiated in a commercial-grade 3D printer. It integrates a process expert, a regression model enabling quantitative characterization of system states required for engineering tasks. CIPHER also incorporates retrieval-augmented generation to access external expert knowledge and support physics-informed, chain-of-thought reasoning. This hybrid architecture exhibits strong generalization to out-of-distribution tasks. It interprets visual or textual inputs from process monitoring, explains its decisions, and autonomously generates precise machine instructions, without requiring explicit annotations. CIPHER thus lays the foundations for autonomous systems that act with precision, reason with context, and communicate decisions transparently, supporting safe and trusted deployment in industrial settings.

arxiv情報

著者 Christos Margadji,Sebastian W. Pattinson
発行日 2025-06-10 05:37:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO, cs.SY, eess.SY | Hybrid Reasoning for Perception, Explanation, and Autonomous Action in Manufacturing はコメントを受け付けていません

How to Provably Improve Return Conditioned Supervised Learning?

要約

連続的な意思決定の問題では、Return-Conditioned Chupthised Learning(RCSL)は、現代の意思決定タスクにおけるその単純さと安定性に対する認識を高めています。
従来のオフライン強化学習(RL)アルゴリズムとは異なり、RCSLは、状態を入力して戻ることの両方を取得することにより、監視された学習問題としてポリシー学習を枠組みします。
このアプローチは、オフラインRLでの時間差(TD)学習にしばしば関連する不安定性を排除します。
ただし、RCSLはステッチプロパティが不足していると批判されています。つまり、そのパフォーマンスは、オフラインデータセットを生成するために使用されるポリシーの品質によって本質的に制限されています。
この制限に対処するために、補強RCSLと呼ばれる原則的でシンプルなフレームワークを提案します。
私たちのフレームワークの主要な革新は、ディストリビューションに最適な復帰と呼ばれる概念の導入です。
このメカニズムは、私たちのポリシーを活用して、現在の状態に基づいて最良の達成可能な将来の将来のリターンを特定し、複雑なリターン増強技術の必要性を回避します。
私たちの理論分析は、強化されたRCSLが標準のRCSLアプローチを一貫して上回ることができることを示しています。
経験的結果は、私たちの主張をさらに検証し、さまざまなベンチマーク全体で大幅なパフォーマンスの改善を示しています。

要約(オリジナル)

In sequential decision-making problems, Return-Conditioned Supervised Learning (RCSL) has gained increasing recognition for its simplicity and stability in modern decision-making tasks. Unlike traditional offline reinforcement learning (RL) algorithms, RCSL frames policy learning as a supervised learning problem by taking both the state and return as input. This approach eliminates the instability often associated with temporal difference (TD) learning in offline RL. However, RCSL has been criticized for lacking the stitching property, meaning its performance is inherently limited by the quality of the policy used to generate the offline dataset. To address this limitation, we propose a principled and simple framework called Reinforced RCSL. The key innovation of our framework is the introduction of a concept we call the in-distribution optimal return-to-go. This mechanism leverages our policy to identify the best achievable in-dataset future return based on the current state, avoiding the need for complex return augmentation techniques. Our theoretical analysis demonstrates that Reinforced RCSL can consistently outperform the standard RCSL approach. Empirical results further validate our claims, showing significant performance improvements across a range of benchmarks.

arxiv情報

著者 Zhishuai Liu,Yu Yang,Ruhan Wang,Pan Xu,Dongruo Zhou
発行日 2025-06-10 05:37:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | How to Provably Improve Return Conditioned Supervised Learning? はコメントを受け付けていません

Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning

要約

メモリは、エージェントが時間的および空間的依存関係を備えた複雑なタスクに取り組むことを可能にするために重要です。
多くの強化学習(RL)アルゴリズムにはメモリが組み込まれていますが、フィールドには多様なシナリオ全体でエージェントのメモリ機能を評価するための普遍的なベンチマークがありません。
このギャップは、部分的な観察性を備えたタスクを解決し、堅牢なパフォーマンスを確保するためにメモリが不可欠であるが、標準化されたベンチマークが存在しないためにメモリが不可欠である卓上ロボット操作で特に顕著です。
これに対処するために、メモリRLの包括的なベンチマークであるMikasa(エージェントのメモリ集約型スキル評価スイート)を紹介します。(1)メモリ集約型RLタスクの包括的な分類フレームワークを提案します(2)Mikasa-Baseを収集します。
Mikasa-Robo(PIPインストールMikasa-Robo-Suite) – 卓上ロボット操作におけるメモリ機能を評価する32の慎重に設計されたメモリ集約型タスクの新しいベンチマーク。
私たちの研究では、メモリRLの研究を進めるための統一されたフレームワークを紹介し、実際の使用のためのより堅牢なシステムを可能にします。
Mikasaはhttps://tinyurl.com/membenchrobotsで入手できます。

要約(オリジナル)

Memory is crucial for enabling agents to tackle complex tasks with temporal and spatial dependencies. While many reinforcement learning (RL) algorithms incorporate memory, the field lacks a universal benchmark to assess an agent’s memory capabilities across diverse scenarios. This gap is particularly evident in tabletop robotic manipulation, where memory is essential for solving tasks with partial observability and ensuring robust performance, yet no standardized benchmarks exist. To address this, we introduce MIKASA (Memory-Intensive Skills Assessment Suite for Agents), a comprehensive benchmark for memory RL, with three key contributions: (1) we propose a comprehensive classification framework for memory-intensive RL tasks, (2) we collect MIKASA-Base — a unified benchmark that enables systematic evaluation of memory-enhanced agents across diverse scenarios, and (3) we develop MIKASA-Robo (pip install mikasa-robo-suite) — a novel benchmark of 32 carefully designed memory-intensive tasks that assess memory capabilities in tabletop robotic manipulation. Our work introduces a unified framework to advance memory RL research, enabling more robust systems for real-world use. MIKASA is available at https://tinyurl.com/membenchrobots.

arxiv情報

著者 Egor Cherepanov,Nikita Kachaev,Alexey K. Kovalev,Aleksandr I. Panov
発行日 2025-06-10 06:57:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning はコメントを受け付けていません

Teaching Physical Awareness to LLMs through Sounds

要約

大規模な言語モデル(LLM)は、テキストとマルチモーダル処理に顕著な能力を示していますが、実際の物理的現象の理解には、物理​​的な認識が根本的に欠けています。
この作業では、ドップラー効果、マルチパス効果、空間的関係などの基本的な物理現象に焦点を当てた音を通してLLMSの物理的認識を教えるフレームワークであるAcornを提示します。
データ不足を克服するために、Acornは、実際の音源と制御された物理チャネルを組み合わせた物理ベースのシミュレーターを導入して、多様なトレーニングデータを生成します。
このシミュレーターを使用して、包括的なオーディオ質問アンウェーデータセットであるAQA-PHYを構築し、マグニチュード情報とフェーズ情報の両方を処理するオーディオエンコーダーを提案します。
オーディオエンコーダーを最先端のLLMSに接続することにより、見通しの検出、ドップラー効果の推定、到着方向の推定など、シミュレーションと現実世界の両方のタスクで合理的な結果を示し、LLMSが物理的な世界を理解する方法を開明します。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable capabilities in text and multimodal processing, yet they fundamentally lack physical awareness–understanding of real-world physical phenomena. In this work, we present ACORN, a framework that teaches LLMs physical awareness through sound, focusing on fundamental physical phenomena like the Doppler effect, multipath effect, and spatial relationships. To overcome data scarcity, ACORN introduce a physics-based simulator combining real-world sound sources with controlled physical channels to generate diverse training data. Using this simulator, we build AQA-PHY, a comprehensive Audio Question-Answer dataset, and propose an audio encoder that processes both magnitude and phase information. By connecting our audio encoder to state-of-the-art LLMs, we demonstrate reasonable results in both simulated and real-world tasks, such as line-of-sight detection, Doppler effect estimation, and Direction-of-Arrival estimation, paving the way for enabling LLMs to understand physical world.

arxiv情報

著者 Weiguo Wang,Andy Nie,Wenrui Zhou,Yi Kai,Chengchen Hu
発行日 2025-06-10 07:42:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MM, cs.RO, cs.SD, eess.AS | Teaching Physical Awareness to LLMs through Sounds はコメントを受け付けていません

LMPOcc: 3D Semantic Occupancy Prediction Utilizing Long-Term Memory Prior from Historical Traversals

要約

ビジョンベースの3Dセマンティック占有率予測は、自律的な運転に重要であり、静的インフラストラクチャと動的エージェントの統一モデリングを可能にします。
実際には、自動運転車は、天候の変動や照明の変化など、さまざまな環境条件の下で同一の地理的位置を繰り返し通過する可能性があります。
3D占有予測の既存の方法は、主に隣接する時間コンテキストを統合します。
ただし、これらの研究は、同一の地理的位置の歴史的なトラバーサルから取得される知覚情報を活用することを怠っています。
この論文では、歴史的なトラバーサル知覚出力から導き出された長期記憶前処理を活用する最初の3D占有率の方法論である長期記憶事前占有率(LMPOCC)を提案します。
長期的なメモリプライアーを統合して局所的な知覚を強化しながら、グローバルな占有表現を構築するプラグアンドプレイアーキテクチャを紹介します。
以前の機能と現在の機能を適応的に集約するために、効率的な軽量電流融合モジュールを開発します。
さらに、多様な占有予測ベースライン全体の互換性を確保するために、モデルに依存しない事前形式を提案します。
LMPOCCは、OCC3D-Nuscenesベンチマーク、特に静的セマンティックカテゴリで検証された最先端のパフォーマンスを実現しています。
さらに、実験結果は、マルチビェクルクラウドソーシングを通じて世界的な占有率を構築するLMPOCCの能力を示しています。

要約(オリジナル)

Vision-based 3D semantic occupancy prediction is critical for autonomous driving, enabling unified modeling of static infrastructure and dynamic agents. In practice, autonomous vehicles may repeatedly traverse identical geographic locations under varying environmental conditions, such as weather fluctuations and illumination changes. Existing methods in 3D occupancy prediction predominantly integrate adjacent temporal contexts. However, these works neglect to leverage perceptual information, which is acquired from historical traversals of identical geographic locations. In this paper, we propose Longterm Memory Prior Occupancy (LMPOcc), the first 3D occupancy prediction methodology that exploits long-term memory priors derived from historical traversal perceptual outputs. We introduce a plug-and-play architecture that integrates long-term memory priors to enhance local perception while simultaneously constructing global occupancy representations. To adaptively aggregate prior features and current features, we develop an efficient lightweight Current-Prior Fusion module. Moreover, we propose a model-agnostic prior format to ensure compatibility across diverse occupancy prediction baselines. LMPOcc achieves state-of-the-art performance validated on the Occ3D-nuScenes benchmark, especially on static semantic categories. Additionally, experimental results demonstrate LMPOcc’s ability to construct global occupancy through multi-vehicle crowdsourcing.

arxiv情報

著者 Shanshuai Yuan,Julong Wei,Muer Tie,Xiangyun Ren,Zhongxue Gan,Wenchao Ding
発行日 2025-06-10 07:54:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | LMPOcc: 3D Semantic Occupancy Prediction Utilizing Long-Term Memory Prior from Historical Traversals はコメントを受け付けていません

EVA: An Embodied World Model for Future Video Anticipation

要約

ビデオ生成モデルは、将来の状態をシミュレートする際に大きな進歩を遂げ、具体化されたシナリオの世界シミュレータとしての可能性を示しています。
ただし、既存のモデルには堅牢な理解が欠けていることが多く、マルチステップの予測を実行したり、分散除外(OOD)シナリオを処理する能力を制限しています。
この課題に対処するために、ビデオ予測を強化するために設計された中間推論戦略のセットであるGeneration of Generation(ROG)を反映します。
事前に訓練されたビジョン言語およびビデオ生成モデルの補完的な強さを活用して、具体化されたシナリオの世界モデルとして機能することができます。
ROGをサポートするために、ドメイン内とOODデータセットの両方を利用して、多様なタスクとシナリオにわたって具体化された世界モデルを評価する包括的なベンチマークである、具体化されたビデオ予想ベンチマーク(EVA-Bench)を紹介します。
この基盤に基づいて、私たちは世界モデル、具体化されたビデオ予測者(EVA)を考案します。これは、高忠実度のビデオフレームを生成し、より長いビデオシーケンスの適応的一般化を可能にする自己回帰戦略を生成するための多段階トレーニングパラダイムに従います。
広範な実験は、ビデオ生成やロボット工学などのさまざまな下流タスクにおけるEVAの有効性を示しているため、実際のビデオ予測アプリケーションで大規模な事前訓練を受けたモデルへの道を開いています。
ビデオデモは、\ HyperLink {https://sites.google.com/view/icml-eva} {https://sites.google.com/view/icml-eva}で入手できます。

要約(オリジナル)

Video generation models have made significant progress in simulating future states, showcasing their potential as world simulators in embodied scenarios. However, existing models often lack robust understanding, limiting their ability to perform multi-step predictions or handle Out-of-Distribution (OOD) scenarios. To address this challenge, we propose the Reflection of Generation (RoG), a set of intermediate reasoning strategies designed to enhance video prediction. It leverages the complementary strengths of pre-trained vision-language and video generation models, enabling them to function as a world model in embodied scenarios. To support RoG, we introduce Embodied Video Anticipation Benchmark(EVA-Bench), a comprehensive benchmark that evaluates embodied world models across diverse tasks and scenarios, utilizing both in-domain and OOD datasets. Building on this foundation, we devise a world model, Embodied Video Anticipator (EVA), that follows a multistage training paradigm to generate high-fidelity video frames and apply an autoregressive strategy to enable adaptive generalization for longer video sequences. Extensive experiments demonstrate the efficacy of EVA in various downstream tasks like video generation and robotics, thereby paving the way for large-scale pre-trained models in real-world video prediction applications. The video demos are available at \hyperlink{https://sites.google.com/view/icml-eva}{https://sites.google.com/view/icml-eva}.

arxiv情報

著者 Xiaowei Chi,Chun-Kai Fan,Hengyuan Zhang,Xingqun Qi,Rongyu Zhang,Anthony Chen,Chi-min Chan,Wei Xue,Qifeng Liu,Shanghang Zhang,Yike Guo
発行日 2025-06-10 08:08:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.RO | EVA: An Embodied World Model for Future Video Anticipation はコメントを受け付けていません

Predictability Awareness for Efficient and Robust Multi-Agent Coordination

要約

マルチエージェント設定のモーション計画の問題を安全かつ効率的に解決するために、ほとんどのアプローチは、他のエージェントでトリガーされた応答を明示的に説明する共同最適化を解決しようとします。
これにより、指数関数的な計算の複雑さを伴うソリューションが発生することが多く、これらの方法は、多くのエージェントとの複雑なシナリオに扱いにくいものになります。
シーケンシャルな予測と計画のアプローチはよりスケーラブルですが、非常にインタラクティブな環境ではパフォーマンスが低下する傾向があります。
このペーパーでは、最適化目標として予測可能性を導入することにより、マルチエージェントナビゲーション問題におけるシーケンシャルな予測と計画のインタラクティブな機能を改善する方法を提案します。
エージェントが自分自身を予測し、これらの外部予測とどのように整合するかを推定できるようにすることにより、一般的な予測モデルを使用して予測可能性を解釈します。
システムのフリーエネルギーを通じてこの動作を正式に導入します。これは、計画と予測の間のカルバック繰り返しの相違の適切な境界の下で減少し、予測不可能な軌跡のペナルティとしてこれを使用します。
この予測可能性対応計画が、より低コストの軌跡につながり、ヒトドライバーデータを使用した自律運転実験を含む一連のマルチロボット問題の計画努力を減らす方法を示します。ここでは、予測可能性を考慮することの利点がこの戦略を使用している場合でも適用されることを示します。

要約(オリジナル)

To safely and efficiently solve motion planning problems in multi-agent settings, most approaches attempt to solve a joint optimization that explicitly accounts for the responses triggered in other agents. This often results in solutions with an exponential computational complexity, making these methods intractable for complex scenarios with many agents. While sequential predict-and-plan approaches are more scalable, they tend to perform poorly in highly interactive environments. This paper proposes a method to improve the interactive capabilities of sequential predict-and-plan methods in multi-agent navigation problems by introducing predictability as an optimization objective. We interpret predictability through the use of general prediction models, by allowing agents to predict themselves and estimate how they align with these external predictions. We formally introduce this behavior through the free-energy of the system, which reduces under appropriate bounds to the Kullback-Leibler divergence between plan and prediction, and use this as a penalty for unpredictable trajectories.The proposed interpretation of predictability allows agents to more robustly leverage prediction models, and fosters a soft social convention that accelerates agreement on coordination strategies without the need of explicit high level control or communication. We show how this predictability-aware planning leads to lower-cost trajectories and reduces planning effort in a set of multi-robot problems, including autonomous driving experiments with human driver data, where we show that the benefits of considering predictability apply even when only the ego-agent uses this strategy.

arxiv情報

著者 Roman Chiva Gil,Daniel Jarne Ornia,Khaled A. Mustafa,Javier Alonso Mora
発行日 2025-06-10 08:18:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Predictability Awareness for Efficient and Robust Multi-Agent Coordination はコメントを受け付けていません

Adaptive path planning for efficient object search by UAVs in agricultural fields

要約

このペーパーでは、UAVを使用して農業分野でのオブジェクト検索の適応パスプランナーを紹介します。
パスプランナーは、高度のカバレッジフライトパスを使用し、検出ネットワークが不確かな場合、追加の低高度検査を計画しています。
パスプランナーは、実際の画像を含むオフラインシミュレーション環境で評価されました。
Yolov8検出ネットワークを訓練して、草原に配置された人工植物を検出して、パスプランナーの可能性を紹介しました。
さまざまな検出の確実性測定の効果を評価し、パス計画パラメーターを最適化し、局在エラーの効果と、フィールド内の異なる数のオブジェクトを調査しました。
Yolov8検出信頼性は、真と偽陽性の検出を区別するために最適に機能したため、適応プランナーで使用されました。
パスプランナーの最適なパラメーターは、フィールド内のオブジェクトの分布に依存していました。
オブジェクトが均一に分布している場合、オブジェクトの不均一な分布と比較して、より低い高度検査が必要であり、その結果、経路の長さが長くなりました。
適応プランナーは、ローカリゼーションの不確実性に対して堅牢であることが証明されました。
オブジェクトの数を増やすと、特にオブジェクトが均一に分布している場合、飛行経路の長さが増加しました。
オブジェクトが不均一に分布している場合、適応パスプランナーは、多数のオブジェクトであっても、低高度のカバレッジパスよりも短いパスを生成しました。
全体として、提示された適応パスプランナーは、カバレッジパスプランナーよりも速いフィールドで不均一な分散オブジェクトを見つけることを可能にし、互換性のある検出精度をもたらしました。
パスプランナーはhttps://github.com/wur-abe/uav_adaptive_plannerで利用可能になります。

要約(オリジナル)

This paper presents an adaptive path planner for object search in agricultural fields using UAVs. The path planner uses a high-altitude coverage flight path and plans additional low-altitude inspections when the detection network is uncertain. The path planner was evaluated in an offline simulation environment containing real-world images. We trained a YOLOv8 detection network to detect artificial plants placed in grass fields to showcase the potential of our path planner. We evaluated the effect of different detection certainty measures, optimized the path planning parameters, investigated the effects of localization errors, and different numbers of objects in the field. The YOLOv8 detection confidence worked best to differentiate between true and false positive detections and was therefore used in the adaptive planner. The optimal parameters of the path planner depended on the distribution of objects in the field. When the objects were uniformly distributed, more low-altitude inspections were needed compared to a non-uniform distribution of objects, resulting in a longer path length. The adaptive planner proved to be robust against localization uncertainty. When increasing the number of objects, the flight path length increased, especially when the objects were uniformly distributed. When the objects were non-uniformly distributed, the adaptive path planner yielded a shorter path than a low-altitude coverage path, even with a high number of objects. Overall, the presented adaptive path planner allowed finding non-uniformly distributed objects in a field faster than a coverage path planner and resulted in a compatible detection accuracy. The path planner is made available at https://github.com/wur-abe/uav_adaptive_planner.

arxiv情報

著者 Rick van Essen,Eldert van Henten,Lammert Kooistra,Gert Kootstra
発行日 2025-06-10 08:39:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Adaptive path planning for efficient object search by UAVs in agricultural fields はコメントを受け付けていません

Noise Analysis and Hierarchical Adaptive Body State Estimator For Biped Robot Walking With ESVC Foot

要約

人間の足のロールオーバー形状に触発されたロボットフットデザインであるESVC(楕円ベースのセグメント変化する曲率)足は、ロボットウォーキング歩行のエネルギー効率を大幅に向上させます。
ただし、サポートレッグの傾きにより、接触モデルの誤差が増幅され、ロボット状態の推定がより困難になります。
したがって、このペーパーでは、ESVCフットで歩くロボットのノイズ分析と状態推定に焦点を当てています。
まず、物理的なロボット実験を通じて、ESVCフットのロボット測定ノイズとプロセスノイズに対する効果を調査します。
スライドウィンドウ戦略を使用したノイズタイム回帰モデルが開発されています。
次に、ESVCフットを備えた2倍のロボットの階層的適応状態推定器が提案されています。
状態推定器は、前推定と挙動後の2つの段階で構成されています。
推定前の段階では、感覚データを処理するためにデータ融合ベースの推定が採用されています。
推定後、質量中心の加速が最初に推定され、次にノイズ共分散行列が回帰モデルに基づいて調整されます。
それに続いて、EKF(拡張カルマンフィルター)ベースのアプローチが適用され、ロボットウォーキング中の重心状態を推定します。
物理的実験は、ESVCフットで歩く二重型ロボットの提案された適応状態推定器が、EKFと適応型EKFの両方よりも高い精度を提供するだけでなく、さまざまな騒音条件下でより速く収束することを示しています。

要約(オリジナル)

The ESVC(Ellipse-based Segmental Varying Curvature) foot, a robot foot design inspired by the rollover shape of the human foot, significantly enhances the energy efficiency of the robot walking gait. However, due to the tilt of the supporting leg, the error of the contact model are amplified, making robot state estimation more challenging. Therefore, this paper focuses on the noise analysis and state estimation for robot walking with the ESVC foot. First, through physical robot experiments, we investigate the effect of the ESVC foot on robot measurement noise and process noise. and a noise-time regression model using sliding window strategy is developed. Then, a hierarchical adaptive state estimator for biped robots with the ESVC foot is proposed. The state estimator consists of two stages: pre-estimation and post-estimation. In the pre-estimation stage, a data fusion-based estimation is employed to process the sensory data. During post-estimation, the acceleration of center of mass is first estimated, and then the noise covariance matrices are adjusted based on the regression model. Following that, an EKF(Extended Kalman Filter) based approach is applied to estimate the centroid state during robot walking. Physical experiments demonstrate that the proposed adaptive state estimator for biped robot walking with the ESVC foot not only provides higher precision than both EKF and Adaptive EKF, but also converges faster under varying noise conditions.

arxiv情報

著者 Boyang Chen,Xizhe Zang,Chao Song,Yue Zhang,Xuehe Zhang,Jie Zhao
発行日 2025-06-10 08:48:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Noise Analysis and Hierarchical Adaptive Body State Estimator For Biped Robot Walking With ESVC Foot はコメントを受け付けていません