No Minima, No Collisions: Combining Modulation and Control Barrier Function Strategies for Feasible Dynamical Collision Avoidance

要約

顕著なリアルタイムの安全性クリティカルな反応性制御技術として、制御バリア関数二次プログラム(CBF-QPS)は、コントロールアフィンシステムのために機能しますが、生成された軌跡の局所的な最小値をもたらし、その結果、目標への収束を確保することはできません。
反対に、通常、参照、およびオンマニフォールドMOD-DSを含む動的システム(MOD-DSS)の変調は、局所的な最小値が少なく、拘束されていないコントローラー出力の違いを最適に最小限に抑えることができず、障害物の回避を達成します。
、およびそのアプリケーションは、完全に作用したシステムに限定されています。
CBF-QPとMOD-DSの理論的基礎に飛び込み、その明確な起源にもかかわらず、通常のMOD-DSはCBF-QPの特殊なケースであり、参照MOD-DSのソリューションは数学的にCBFのそれに関連していることを証明します。
1つの方程式からQP。
CBF-QPとMOD-DSの間の発表された理論的接続の上に構築され、参照MODベースのCBF-QPとオンマニホールドMODベースのCBF-QPコントローラーが提案され、CBF-QPとMOD-DSアプローチの強度を組み合わせることが提案されています。
そして、一般的な制御アフィンシステムのためのローカル最小の無効反応性障害物の回避を実現します。
シミュレートされた病院環境と、完全に作用したシステム用のRidgebackを使用した実世界の実験の両方で方法を検証し、不十分なシステム用にロボットをフェッチします。
MODベースのCBF-QPSは、CBF-QPSを上回り、すべての実験で提案した最適に制約されているMOD-DSアプローチを上回ります。

要約(オリジナル)

As prominent real-time safety-critical reactive control techniques, Control Barrier Function Quadratic Programs (CBF-QPs) work for control affine systems in general but result in local minima in the generated trajectories and consequently cannot ensure convergence to the goals. Contrarily, Modulation of Dynamical Systems (Mod-DSs), including normal, reference, and on-manifold Mod-DS, achieve obstacle avoidance with few and even no local minima but have trouble optimally minimizing the difference between the constrained and the unconstrained controller outputs, and its applications are limited to fully-actuated systems. We dive into the theoretical foundations of CBF-QP and Mod-DS, proving that despite their distinct origins, normal Mod-DS is a special case of CBF-QP, and reference Mod-DS’s solutions are mathematically connected to that of the CBF-QP through one equation. Building on top of the unveiled theoretical connections between CBF-QP and Mod-DS, reference Mod-based CBF-QP and on-manifold Mod-based CBF-QP controllers are proposed to combine the strength of CBF-QP and Mod-DS approaches and realize local-minimum-free reactive obstacle avoidance for control affine systems in general. We validate our methods in both simulated hospital environments and real-world experiments using Ridgeback for fully-actuated systems and Fetch robots for underactuated systems. Mod-based CBF-QPs outperform CBF-QPs as well as the optimally constrained-enforcing Mod-DS approaches we proposed in all experiments.

arxiv情報

著者 Yifan Xue,Nadia Figueroa
発行日 2025-02-20 04:07:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | No Minima, No Collisions: Combining Modulation and Control Barrier Function Strategies for Feasible Dynamical Collision Avoidance はコメントを受け付けていません

Mem2Ego: Empowering Vision-Language Models with Global-to-Ego Memory for Long-Horizon Embodied Navigation

要約

大規模な言語モデル(LLMS)およびビジョン言語モデル(VLM)の最近の進歩により、具体化されたナビゲーションの強力なツールが作成され、エージェントが馴染みのない環境での効率的な調査のためのコモンセンスと空間的推論を活用できます。
既存のLLMベースのアプローチは、セマンティックマップやトポロジマップなどのグローバルメモリを言語の説明に変換して、ナビゲーションをガイドします。
これにより効率が向上し、冗長な探索が減少しますが、言語ベースの表現における幾何学的情報の喪失は、特に複雑な環境での空間的推論を妨げます。
これに対処するために、VLMベースのアプローチは、エゴ中心の視覚入力を直接処理して、探索の最適な方向を選択します。
ただし、一人称の視点にのみ依存することで、ナビゲーションは部分的に観察された意思決定の問題となり、複雑な環境で最適ではない決定につながります。
このペーパーでは、グローバルメモリモジュールからタスク関連のキューを適応的に取得し、エージェントのエゴセントリック観測と統合することにより、これらの課題に対処する新しいビジョン言語モデル(VLM)ベースのナビゲーションフレームワークを紹介します。
グローバルなコンテキスト情報をローカルの認識と動的に整合することにより、私たちのアプローチは、長老課題における空間的推論と意思決定を強化します。
実験結果は、提案された方法がオブジェクトナビゲーションタスクで以前の最先端のアプローチを上回り、具体化されたナビゲーションのためのより効果的でスケーラブルなソリューションを提供することを示しています。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) and Vision-Language Models (VLMs) have made them powerful tools in embodied navigation, enabling agents to leverage commonsense and spatial reasoning for efficient exploration in unfamiliar environments. Existing LLM-based approaches convert global memory, such as semantic or topological maps, into language descriptions to guide navigation. While this improves efficiency and reduces redundant exploration, the loss of geometric information in language-based representations hinders spatial reasoning, especially in intricate environments. To address this, VLM-based approaches directly process ego-centric visual inputs to select optimal directions for exploration. However, relying solely on a first-person perspective makes navigation a partially observed decision-making problem, leading to suboptimal decisions in complex environments. In this paper, we present a novel vision-language model (VLM)-based navigation framework that addresses these challenges by adaptively retrieving task-relevant cues from a global memory module and integrating them with the agent’s egocentric observations. By dynamically aligning global contextual information with local perception, our approach enhances spatial reasoning and decision-making in long-horizon tasks. Experimental results demonstrate that the proposed method surpasses previous state-of-the-art approaches in object navigation tasks, providing a more effective and scalable solution for embodied navigation.

arxiv情報

著者 Lingfeng Zhang,Yuecheng Liu,Zhanguang Zhang,Matin Aghaei,Yaochen Hu,Hongjian Gu,Mohammad Ali Alomrani,David Gamaliel Arcos Bravo,Raika Karimi,Atia Hamidizadeh,Haoping Xu,Guowei Huang,Zhanpeng Zhang,Tongtong Cao,Weichao Qiu,Xingyue Quan,Jianye Hao,Yuzheng Zhuang,Yingxue Zhang
発行日 2025-02-20 04:41:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Mem2Ego: Empowering Vision-Language Models with Global-to-Ego Memory for Long-Horizon Embodied Navigation はコメントを受け付けていません

VICtoR: Learning Hierarchical Vision-Instruction Correlation Rewards for Long-horizon Manipulation

要約

アクションフリーのビデオや言語の指示から学習することにより、長老操作タスクの報酬モデルを研究します。これは、視覚的インストラクション相関(VIC)の問題と呼ばれます。
クロスモダリティモデリングの最近の進歩により、視覚と言語の相関を通じて報酬モデリングの可能性が強調されています。
ただし、既存のVICメソッドは、サブステージの認識の欠如、タスクの複雑さのモデリングの難しさ、およびオブジェクト状態の推定が不十分であるため、長期式タスクの報酬を学習する際の課題に直面しています。
これらの課題に対処するために、長老操作タスクに効果的な報酬信号を提供できる新しい階層ヴィック報酬モデルであるVictorを紹介します。
Victorは、新しいステージ検出器とモーション進行評価者を通じてさまざまなレベルでのタスクの進捗を正確に評価し、タスクを効果的に学習するエージェントに洞察に富んだガイダンスを提供します。
ビクターの有効性を検証するために、シミュレートされた環境と実世界の両方の環境で広範な実験を実施しました。
結果は、ビクターが既存の最高のVICメソッドを上回り、長老タスクの成功率を43%改善したことを示唆しています。

要約(オリジナル)

We study reward models for long-horizon manipulation tasks by learning from action-free videos and language instructions, which we term the visual-instruction correlation (VIC) problem. Recent advancements in cross-modality modeling have highlighted the potential of reward modeling through visual and language correlations. However, existing VIC methods face challenges in learning rewards for long-horizon tasks due to their lack of sub-stage awareness, difficulty in modeling task complexities, and inadequate object state estimation. To address these challenges, we introduce VICtoR, a novel hierarchical VIC reward model capable of providing effective reward signals for long-horizon manipulation tasks. VICtoR precisely assesses task progress at various levels through a novel stage detector and motion progress evaluator, offering insightful guidance for agents learning the task effectively. To validate the effectiveness of VICtoR, we conducted extensive experiments in both simulated and real-world environments. The results suggest that VICtoR outperformed the best existing VIC methods, achieving a 43% improvement in success rates for long-horizon tasks.

arxiv情報

著者 Kuo-Han Hung,Pang-Chi Lo,Jia-Fong Yeh,Han-Yuan Hsu,Yi-Ting Chen,Winston H. Hsu
発行日 2025-02-20 04:45:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | VICtoR: Learning Hierarchical Vision-Instruction Correlation Rewards for Long-horizon Manipulation はコメントを受け付けていません

An Efficient Learning Control Framework With Sim-to-Real for String-Type Artificial Muscle-Driven Robotic Systems

要約

人工筋肉によって駆動されるロボットシステムは、アクチュエーターの非線形ダイナミクスと機械構造の複雑な設計により、独自の課題を提示します。
従来のモデルベースのコントローラーは、多くの場合、このようなシステムで望ましい制御性能を達成するのに苦労しています。
ロボット制御に広く採用されているトレンド機械学習技術であるディープ補強学習(DRL)は、有望な代替手段を提供します。
ただし、これらのロボットシステムにDRLを統合すると、大量のトレーニングデータの要件や、実際のロボットに展開されたときの避けられないSIMからリアルギャップなど、重要な課題に直面しています。
このペーパーでは、これらの課題に対処するために、SIMから現実的な転送を備えた効率的な強化学習制御フレームワークを提案しています。
ブートストラップと増強の強化は、ベースラインDRLアルゴリズムのデータ効率を改善するように設計されていますが、SIMからリアルへの転送手法、つまり筋肉のダイナミクスのランダム化が採用され、シミュレーションと現実世界の展開とのギャップを埋めるために採用されます。
広範な実験とアブレーション研究は、2つのフリードームのロボットの眼と並列ロボットリストを含む2つの弦型の人工筋肉駆動型ロボットシステムを使用して実施されます。

要約(オリジナル)

Robotic systems driven by artificial muscles present unique challenges due to the nonlinear dynamics of actuators and the complex designs of mechanical structures. Traditional model-based controllers often struggle to achieve desired control performance in such systems. Deep reinforcement learning (DRL), a trending machine learning technique widely adopted in robot control, offers a promising alternative. However, integrating DRL into these robotic systems faces significant challenges, including the requirement for large amounts of training data and the inevitable sim-to-real gap when deployed to real-world robots. This paper proposes an efficient reinforcement learning control framework with sim-to-real transfer to address these challenges. Bootstrap and augmentation enhancements are designed to improve the data efficiency of baseline DRL algorithms, while a sim-to-real transfer technique, namely randomization of muscle dynamics, is adopted to bridge the gap between simulation and real-world deployment. Extensive experiments and ablation studies are conducted utilizing two string-type artificial muscle-driven robotic systems including a two degree-of-freedom robotic eye and a parallel robotic wrist, the results of which demonstrate the effectiveness of the proposed learning control strategy.

arxiv情報

著者 Jiyue Tao,Yunsong Zhang,Sunil Kumar Rajendran,Feitian Zhang
発行日 2025-02-20 07:22:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | An Efficient Learning Control Framework With Sim-to-Real for String-Type Artificial Muscle-Driven Robotic Systems はコメントを受け付けていません

MAGNNET: Multi-Agent Graph Neural Network-based Efficient Task Allocation for Autonomous Vehicles with Deep Reinforcement Learning

要約

このペーパーでは、通信制約の下で動作する不均一なマルチエージェントシステム内の分散型タスク割り当ての課題に対処します。
グラフニューラルネットワーク(GNNS)を集中トレーニングと分散型実行(CTDE)パラダイムと統合する新しいフレームワークを紹介します。
私たちのアプローチにより、無人航空機(UAV)と無人の地上車両(UGV)は、3Dグリッド環境で中央の調整を必要とせずにタスクを効率的に配分することができます。
このフレームワークは、総移動時間を最小限に抑えながら、タスクの割り当ての競合を同時に回避します。
コストの計算とルーティングには、予約ベースのA*およびR*パスプランナーを採用しています。
実験結果は、私たちの方法が、集中型ハンガリーの方法と比較して7.49%のパフォーマンスギャップしかない92.5%の競合のない成功率を達成することを明らかにしました。
さらに、このフレームワークは、2.8秒の割り当て処理と動的に生成されたタスクに応答する堅牢性を持つ最大20エージェントのスケーラビリティを示し、複雑なマルチエージェントシナリオでの実際のアプリケーションの可能性を強調しています。

要約(オリジナル)

This paper addresses the challenge of decentralized task allocation within heterogeneous multi-agent systems operating under communication constraints. We introduce a novel framework that integrates graph neural networks (GNNs) with a centralized training and decentralized execution (CTDE) paradigm, further enhanced by a tailored Proximal Policy Optimization (PPO) algorithm for multi-agent deep reinforcement learning (MARL). Our approach enables unmanned aerial vehicles (UAVs) and unmanned ground vehicles (UGVs) to dynamically allocate tasks efficiently without necessitating central coordination in a 3D grid environment. The framework minimizes total travel time while simultaneously avoiding conflicts in task assignments. For the cost calculation and routing, we employ reservation-based A* and R* path planners. Experimental results revealed that our method achieves a high 92.5% conflict-free success rate, with only a 7.49% performance gap compared to the centralized Hungarian method, while outperforming the heuristic decentralized baseline based on greedy approach. Additionally, the framework exhibits scalability with up to 20 agents with allocation processing of 2.8 s and robustness in responding to dynamically generated tasks, underscoring its potential for real-world applications in complex multi-agent scenarios.

arxiv情報

著者 Lavanya Ratnabala,Aleksey Fedoseev,Robinroy Peter,Dzmitry Tsetserukou
発行日 2025-02-20 09:14:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, cs.RO | MAGNNET: Multi-Agent Graph Neural Network-based Efficient Task Allocation for Autonomous Vehicles with Deep Reinforcement Learning はコメントを受け付けていません

Digital Twins Meet the Koopman Operator: Data-Driven Learning for Robust Autonomy

要約

オンロードの自律航海に反して、オフロードの自律性は、感覚の課題から地形の変動性に至るまでのさまざまな要因によって複雑になります。
このような環境では、複雑な車両と環境の相互作用を効果的にキャプチャするために、データ駆動型のアプローチが一般的に採用されています。
ただし、データ駆動型の方法の成功は、データの品質と量に決定的に依存し、オフロード環境での大きなばらつきによって損なわれる可能性があります。
これらの懸念に対処するために、ドメイン固有のデータ生成のために、正確な車両とそのターゲット動作条件をデジタルで再現する新しい方法論を提示します。
これにより、Koopmanオペレーター理論を使用してシミュレーションデータからオフロード車両のダイナミクスを効果的にモデル化し、ローカルモーション計画と最適な車両制御のために得られたモデルを採用することができます。
提案された方法論の能力は、グローバルミッション計画に地形に基づいたプランナーが採用されている1:5スケール車両の自律的なナビゲーション問題を通じて実証されています。
結果は、提案されたアルゴリズム(5.84x)でオフロードナビゲーションパフォーマンスの大幅な改善を示し、サンプル効率を改善し(3.2倍)、SIM2REALギャップを減らす(5.2%)、デジタルツインニングの有効性を強調しています。

要約(オリジナル)

Contrary to on-road autonomous navigation, off-road autonomy is complicated by various factors ranging from sensing challenges to terrain variability. In such a milieu, data-driven approaches have been commonly employed to capture intricate vehicle-environment interactions effectively. However, the success of data-driven methods depends crucially on the quality and quantity of data, which can be compromised by large variability in off-road environments. To address these concerns, we present a novel methodology to recreate the exact vehicle and its target operating conditions digitally for domain-specific data generation. This enables us to effectively model off-road vehicle dynamics from simulation data using the Koopman operator theory, and employ the obtained models for local motion planning and optimal vehicle control. The capabilities of the proposed methodology are demonstrated through an autonomous navigation problem of a 1:5 scale vehicle, where a terrain-informed planner is employed for global mission planning. Results indicate a substantial improvement in off-road navigation performance with the proposed algorithm (5.84x) and underscore the efficacy of digital twinning in terms of improving the sample efficiency (3.2x) and reducing the sim2real gap (5.2%).

arxiv情報

著者 Chinmay Vilas Samak,Tanmay Vilas Samak,Ajinkya Joglekar,Umesh Vaidya,Venkat Krovi
発行日 2025-02-20 09:43:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Digital Twins Meet the Koopman Operator: Data-Driven Learning for Robust Autonomy はコメントを受け付けていません

ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model

要約

人間は、物理的な世界を認識し、理解し、相互作用する統一された認知能力を持っています。
なぜ大規模な言語モデルがこの全体的な理解を再現できないのですか?
ビジョン言語アクションモデル(VLA)における既存のトレーニングパラダイムの体系的な分析を通じて、2つの重要な課題を特定します。ロボットトレーニングが重要な視覚テキストアラインメントを上書きする偽の忘却と、タスクの干渉を競うタスク干渉パフォーマンスの低下と理解を理解する
共同で訓練されたとき。
これらの制限を克服するために、初期制御の習得後にマルチモーダルデータを段階的に統合する段階的なアライメントトレーニングを特徴とする新しいフレームワークと、タスクの干渉を最小限に抑えるための専門家アーキテクチャを段階的に統合するChatVlaを提案します。
CHATVLAは、視覚的な質問アンウェーデータセットで競争力のあるパフォーマンスを発揮し、マルチモーダル理解ベンチマークで最先端のビジョン言語アクション(VLA)メソッドを大幅に上回ります。
特に、MMMUで6倍高いパフォーマンスを達成し、ECOTよりもパラメーター効率の高い設計でMMStarで47.2%を獲得します。
さらに、CHATVLAは、OpenVLAなどの既存のVLAメソッドと比較して、25の実際のロボット操作タスクで優れたパフォーマンスを示しています。
私たちの調査結果は、堅牢なマルチモーダル理解と効果的なロボット制御の両方を達成するための統一されたフレームワークの可能性を強調しています。

要約(オリジナル)

Humans possess a unified cognitive ability to perceive, comprehend, and interact with the physical world. Why can’t large language models replicate this holistic understanding? Through a systematic analysis of existing training paradigms in vision-language-action models (VLA), we identify two key challenges: spurious forgetting, where robot training overwrites crucial visual-text alignments, and task interference, where competing control and understanding tasks degrade performance when trained jointly. To overcome these limitations, we propose ChatVLA, a novel framework featuring Phased Alignment Training, which incrementally integrates multimodal data after initial control mastery, and a Mixture-of-Experts architecture to minimize task interference. ChatVLA demonstrates competitive performance on visual question-answering datasets and significantly surpasses state-of-the-art vision-language-action (VLA) methods on multimodal understanding benchmarks. Notably, it achieves a six times higher performance on MMMU and scores 47.2% on MMStar with a more parameter-efficient design than ECoT. Furthermore, ChatVLA demonstrates superior performance on 25 real-world robot manipulation tasks compared to existing VLA methods like OpenVLA. Our findings highlight the potential of our unified framework for achieving both robust multimodal understanding and effective robot control.

arxiv情報

著者 Zhongyi Zhou,Yichen Zhu,Minjie Zhu,Junjie Wen,Ning Liu,Zhiyuan Xu,Weibin Meng,Ran Cheng,Yaxin Peng,Chaomin Shen,Feifei Feng
発行日 2025-02-20 10:16:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model はコメントを受け付けていません

On Onboard LiDAR-based Flying Object Detection

要約

このホワイトペーパーでは、非常に動的な空中遮断とアジャイルマルチロボット相互作用を目的として、飛行オブジェクトの検出とローカリゼーションのための新しい堅牢で正確なアプローチを示します。
このアプローチは、3Dライダーセンサーを装備した自律航空車両のボードで使用するために提案されています。
ターゲット検出のための新しい3D占有ボクセルマッピング方法に依存しており、ターゲットのさまざまな環境と外観の変化に関して高いローカリゼーションの精度と堅牢性を提供します。
提案されたクラスターベースのマルチターゲットトラッカーと組み合わせて、散発的な偽陽性が抑制され、ターゲットの状態推定が提供され、検出レイテンシは無視できます。
これにより、他のロボットの高速で正確な、および堅牢な相対局在化が重要な自律航空挿入や形成制御など、アジャイルマルチロボット相互作用のタスクにシステムが適切になります。
20mの範囲で、私たちのシステムがほぼ100%のリコール、0.2mの精度、20msでマイクロスケールUAVを確実に検出できることを実証するシミュレートされた実世界の実験におけるシステムの実行可能性とパフォーマンスを評価します。
遅れ。

要約(オリジナル)

A new robust and accurate approach for the detection and localization of flying objects with the purpose of highly dynamic aerial interception and agile multi-robot interaction is presented in this paper. The approach is proposed for use on board of autonomous aerial vehicles equipped with a 3D LiDAR sensor. It relies on a novel 3D occupancy voxel mapping method for the target detection that provides high localization accuracy and robustness with respect to varying environments and appearance changes of the target. In combination with a proposed cluster-based multi-target tracker, sporadic false positives are suppressed, state estimation of the target is provided, and the detection latency is negligible. This makes the system suitable for tasks of agile multi-robot interaction, such as autonomous aerial interception or formation control where fast, precise, and robust relative localization of other robots is crucial. We evaluate the viability and performance of the system in simulated and real-world experiments which demonstrate that at a range of 20m, our system is capable of reliably detecting a micro-scale UAV with an almost 100% recall, 0.2m accuracy, and 20ms delay.

arxiv情報

著者 Matouš Vrba,Viktor Walter,Václav Pritzl,Michal Pliska,Tomáš Báča,Vojtěch Spurný,Daniel Heřt,Martin Saska
発行日 2025-02-20 11:00:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, I.5.4 | On Onboard LiDAR-based Flying Object Detection はコメントを受け付けていません

An Efficient Ground-aerial Transportation System for Pest Control Enabled by AI-based Autonomous Nano-UAVs

要約

効率的な作物生産には、害虫の発生とタイムリーな治療の早期発見が必要です。
私たちは、害虫と検出されたアウトブレイクを訪れて治療を提供する害虫と単一の遅い重車両を視覚的に検出するために、複数の自律型小型の無人航空機(ナノUAV)の艦隊に基づくソリューションを検討します。
ナノUAVの極端な制限に対処するために、たとえば低解像度センサーやサブ100 MWの計算電力予算、害虫検出用の小さな画像ベースの畳み込みニューラルネットワーク(CNN)を設計、微調整、最適化します。
CNNのサイズが小さい(つまり、0.58 GOPS/推論)にもかかわらず、データセットでは、有害なバグの検出で0.79の平均平均精度(MAP)を獲得します。
文献でCNNを実行します。
CNNは6.8フレーム/sでリアルタイムで実行され、Crazyflie Nano-Uavに乗っているGWT Gap9システムオンチップで33 MWが必要です。
次に、フィールド内の予期しない障害に対処するために、A*アルゴリズムに基づいてグローバル+ローカルパスプランナーを活用します。
グローバルパスプランナーは、Nano-UAVがエリア全体をスイープするための最適なルートを決定しますが、ローカルはナノUAVに乗って最大50 Hzを実行し、短距離パスを調整することで衝突を防ぎます。
最後に、25のナノUAV艦隊が200×200 mブドウ園を組み合わせた後、収集された情報を使用してトラクターに最適なパスを計画し、すべての必要なホットスポットを訪問するために収集された情報を使用できることを示すシミュレーター内実験で実証します。
このシナリオでは、検査と治療の両方を実行している従来の単層車両と比較して、効率的な輸送システムは、最大20時間の労働時間を節約できます。

要約(オリジナル)

Efficient crop production requires early detection of pest outbreaks and timely treatments; we consider a solution based on a fleet of multiple autonomous miniaturized unmanned aerial vehicles (nano-UAVs) to visually detect pests and a single slower heavy vehicle that visits the detected outbreaks to deliver treatments. To cope with the extreme limitations aboard nano-UAVs, e.g., low-resolution sensors and sub-100 mW computational power budget, we design, fine-tune, and optimize a tiny image-based convolutional neural network (CNN) for pest detection. Despite the small size of our CNN (i.e., 0.58 GOps/inference), on our dataset, it scores a mean average precision (mAP) of 0.79 in detecting harmful bugs, i.e., 14% lower mAP but 32x fewer operations than the best-performing CNN in the literature. Our CNN runs in real-time at 6.8 frame/s, requiring 33 mW on a GWT GAP9 System-on-Chip aboard a Crazyflie nano-UAV. Then, to cope with in-field unexpected obstacles, we leverage a global+local path planner based on the A* algorithm. The global path planner determines the best route for the nano-UAV to sweep the entire area, while the local one runs up to 50 Hz aboard our nano-UAV and prevents collision by adjusting the short-distance path. Finally, we demonstrate with in-simulator experiments that once a 25 nano-UAVs fleet has combed a 200×200 m vineyard, collected information can be used to plan the best path for the tractor, visiting all and only required hotspots. In this scenario, our efficient transportation system, compared to a traditional single-ground vehicle performing both inspection and treatment, can save up to 20 h working time.

arxiv情報

著者 Luca Crupi,Luca Butera,Alberto Ferrante,Alessandro Giusti,Daniele Palossi
発行日 2025-02-20 11:14:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | An Efficient Ground-aerial Transportation System for Pest Control Enabled by AI-based Autonomous Nano-UAVs はコメントを受け付けていません

Watch Less, Feel More: Sim-to-Real RL for Generalizable Articulated Object Manipulation via Motion Adaptation and Impedance Control

要約

オブジェクト自体は動的な環境を表すため、明確なオブジェクトの操作は、剛性のあるオブジェクト操作と比較して独自の課題を提起します。
この作業では、一般化可能な明確なオブジェクト操作の可変インピーダンス制御とモーション適応のレバレッジ履歴を装備した新しいRLベースのパイプラインを紹介し、ゼロショットSIMからリアルの転送中の滑らかで器用な動きに焦点を当てています。
SIMからリアルのギャップを緩和するために、パイプラインは、Visionデータ機能(RGBD/PointCloud)をポリシー入力として直接レバレバリングせずに、既製のモジュールを介して最初に有用な低次元データを抽出することにより、ビジョンへの依存を減少させます。
さらに、観察履歴を介してオブジェクトの動きとその固有の特性を推測するだけでなく、シミュレーションと現実世界の両方でインピーダンス制御を利用することにより、SIMからリアルのギャップが少なくなります。
さらに、優れたランダム化を備えた適切に設計されたトレーニング設定と、ヒューリスティックモーションプランニングなしでマルチステージ、エンドツーエンドの操作を可能にする専門の報酬システム(タスクアウェアおよびモーションアウェア)を開発します。
私たちの知る限り、私たちのポリシーは、さまざまな目に見えないオブジェクトを使用した広範な実験を介して、現実の世界で84 \%の成功率を最初に報告しました。

要約(オリジナル)

Articulated object manipulation poses a unique challenge compared to rigid object manipulation as the object itself represents a dynamic environment. In this work, we present a novel RL-based pipeline equipped with variable impedance control and motion adaptation leveraging observation history for generalizable articulated object manipulation, focusing on smooth and dexterous motion during zero-shot sim-to-real transfer. To mitigate the sim-to-real gap, our pipeline diminishes reliance on vision by not leveraging the vision data feature (RGBD/pointcloud) directly as policy input but rather extracting useful low-dimensional data first via off-the-shelf modules. Additionally, we experience less sim-to-real gap by inferring object motion and its intrinsic properties via observation history as well as utilizing impedance control both in the simulation and in the real world. Furthermore, we develop a well-designed training setting with great randomization and a specialized reward system (task-aware and motion-aware) that enables multi-staged, end-to-end manipulation without heuristic motion planning. To the best of our knowledge, our policy is the first to report 84\% success rate in the real world via extensive experiments with various unseen objects.

arxiv情報

著者 Tan-Dzung Do,Nandiraju Gireesh,Jilong Wang,He Wang
発行日 2025-02-20 11:18:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Watch Less, Feel More: Sim-to-Real RL for Generalizable Articulated Object Manipulation via Motion Adaptation and Impedance Control はコメントを受け付けていません