FrontierNet: Learning Visual Cues to Explore

要約

不明な環境の探索は、自律的なロボットにとって重要です。
マッピング、オブジェクトの発見、環境評価など、さまざまなタスクに対して取得する新しいデータを積極的に推論し、決定することができます。
フロンティアベースの探査アプローチなどの既存のソリューションは、マップの品質によって制限されている3Dマップ操作に大きく依存しています。
この作業は、効率的な自律探索のための2D視覚キューを活用し、3Dマップから目標ポーズを抽出することの制限に対処することを目的としています。
FrontierNetをコアコンポーネントとして視覚的にのみフロンティアベースの探索システムを提案します。
Frontienetは、(i)フロンティアを提案する学習ベースのモデルであり、(ii)単眼の深さの前層によって強化されたポーズのRGB画像からの情報ゲインを予測します。
当社のアプローチは、既存の3D依存の目標抽出アプローチに代わるものを提供し、広範なシミュレーションと実際の実験を通じて検証されたように、初期段階の探査効率の15%の改善を達成します。
このプロジェクトは、https://github.com/cvg/frontiernetで入手できます。

要約(オリジナル)

Exploration of unknown environments is crucial for autonomous robots; it allows them to actively reason and decide on what new data to acquire for different tasks, such as mapping, object discovery, and environmental assessment. Existing solutions, such as frontier-based exploration approaches, rely heavily on 3D map operations, which are limited by map quality and, more critically, often overlook valuable context from visual cues. This work aims at leveraging 2D visual cues for efficient autonomous exploration, addressing the limitations of extracting goal poses from a 3D map. We propose a visual-only frontier-based exploration system, with FrontierNet as its core component. FrontierNet is a learning-based model that (i) proposes frontiers, and (ii) predicts their information gain, from posed RGB images enhanced by monocular depth priors. Our approach provides an alternative to existing 3D-dependent goal-extraction approaches, achieving a 15\% improvement in early-stage exploration efficiency, as validated through extensive simulations and real-world experiments. The project is available at https://github.com/cvg/FrontierNet.

arxiv情報

著者 Boyang Sun,Hanzhi Chen,Stefan Leutenegger,Cesar Cadena,Marc Pollefeys,Hermann Blum
発行日 2025-05-07 23:28:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | FrontierNet: Learning Visual Cues to Explore はコメントを受け付けていません

D-CODA: Diffusion for Coordinated Dual-Arm Data Augmentation

要約

2つの腕の間で必要な高次元と緊密な調整のために、双方向の操作を学ぶことは困難です。
手首に取り付けられたカメラを使用する目を見張るような模倣学習は、タスクに関連するビューに焦点を当てることにより、知覚を簡素化します。
ただし、多様なデモンストレーションの収集は依然としてコストがかかり、スケーラブルなデータ増強の必要性を動機付けています。
以前の作業では、単一の腕の設定での視覚的増強を調査していますが、これらのアプローチを両手操作に拡張するには、両腕全体で視点一貫性のある観測を生成し、有効で実現可能な対応するアクションラベルを生成する必要があります。
この作業では、調整されたデュアルアームデータ増強(D-CODA)の拡散を提案します。これは、拡散モデルを訓練するために拡散モデルを訓練し、両腕を同時に腕に合成しながら、拡散モデルを訓練するための拡散モデルを訓練するオフラインデータ増強の方法です。
制約された最適化を採用して、グリッパー間接触を含む増強された状態が、双方向の調整に適した制約に準拠していることを保証します。
5つのシミュレーションと3つの実際のタスクでD-Codaを評価します。
2250のシミュレーショントライアルと300の実世界の試験における我々の結果は、それがベースラインとアブレーションを上回ることを示しており、目の中の両手操作におけるスケーラブルなデータ増強の可能性を示しています。
プロジェクトのWebサイトは、https://dcodaaug.github.io/d-coda/にあります。

要約(オリジナル)

Learning bimanual manipulation is challenging due to its high dimensionality and tight coordination required between two arms. Eye-in-hand imitation learning, which uses wrist-mounted cameras, simplifies perception by focusing on task-relevant views. However, collecting diverse demonstrations remains costly, motivating the need for scalable data augmentation. While prior work has explored visual augmentation in single-arm settings, extending these approaches to bimanual manipulation requires generating viewpoint-consistent observations across both arms and producing corresponding action labels that are both valid and feasible. In this work, we propose Diffusion for COordinated Dual-arm Data Augmentation (D-CODA), a method for offline data augmentation tailored to eye-in-hand bimanual imitation learning that trains a diffusion model to synthesize novel, viewpoint-consistent wrist-camera images for both arms while simultaneously generating joint-space action labels. It employs constrained optimization to ensure that augmented states involving gripper-to-object contacts adhere to constraints suitable for bimanual coordination. We evaluate D-CODA on 5 simulated and 3 real-world tasks. Our results across 2250 simulation trials and 300 real-world trials demonstrate that it outperforms baselines and ablations, showing its potential for scalable data augmentation in eye-in-hand bimanual manipulation. Our project website is at: https://dcodaaug.github.io/D-CODA/.

arxiv情報

著者 I-Chun Arthur Liu,Jason Chen,Gaurav Sukhatme,Daniel Seita
発行日 2025-05-08 00:03:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | D-CODA: Diffusion for Coordinated Dual-Arm Data Augmentation はコメントを受け付けていません

SatAOI: Delimitating Area of Interest for Swing-Arm Troweling Robot for Construction

要約

建物の建設のためのコンクリートのこてでは、ロボットはワークロードを大幅に削減し、自動化レベルを改善できます。
ただし、複雑なシーンでの関心のあるエリア(AOI)を描写するためのカバレッジパス計画(CPP)の主要なタスクとして、特により複雑な作業モードを備えたスイングアームロボットにとっては、依然として困難です。
したがって、この研究では、スイングアームテローロボット(SATAOIアルゴリズム)のAOIを区切るアルゴリズムを提案しています。
ロボットと障害物マップの特性を分析することにより、数学モデルと衝突原理が確立されます。
これに基づいて、SATAOIアルゴリズムは、グローバルな検索と衝突検出によりAOI境界を達成します。
異なる障害物マップの実験は、AOIが異なる複雑さの下でシーンで効果的に区切られる可能性があり、アルゴリズムが障害物マップの接続性を完全に考慮できることを示しています。
この研究は、CPPアルゴリズムの基礎として機能し、スイングアームテローロボットの完全なプロセスシミュレーションです。

要約(オリジナル)

In concrete troweling for building construction, robots can significantly reduce workload and improve automation level. However, as a primary task of coverage path planning (CPP) for troweling, delimitating area of interest (AOI) in complex scenes is still challenging, especially for swing-arm robots with more complex working modes. Thus, this research proposes an algorithm to delimitate AOI for swing-arm troweling robot (SatAOI algorithm). By analyzing characteristics of the robot and obstacle maps, mathematical models and collision principles are established. On this basis, SatAOI algorithm achieves AOI delimitation by global search and collision detection. Experiments on different obstacle maps indicate that AOI can be effectively delimitated in scenes under different complexity, and the algorithm can fully consider the connectivity of obstacle maps. This research serves as a foundation for CPP algorithm and full process simulation of swing-arm troweling robots.

arxiv情報

著者 Jia-Rui Lin,Shaojie Zhou,Peng Pan,Ruijia Cai,Gang Chen
発行日 2025-05-08 00:55:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SatAOI: Delimitating Area of Interest for Swing-Arm Troweling Robot for Construction はコメントを受け付けていません

CubeDAgger: Improved Robustness of Interactive Imitation Learning without Violation of Dynamic Stability

要約

インタラクティブな模倣学習により、エージェントのコントロールポリシーは、専門家からの段階的な監督によって堅牢になります。
最近のアルゴリズムは、主に監督のタイミングを限定的に選択することにより、専門家のエージェントスイッチングシステムを使用して専門家の負担を軽減しています。
ただし、正確な選択は困難であり、そのような切り替えはアクションの急激な変化を引き起こし、動的安定性が損傷します。
したがって、このホワイトペーパーでは、いわゆるCubedaggerを提案します。これにより、ベースラインメソッドの3つの改善を行うことで動的な安定性違反を減らしながら堅牢性が向上します。
最初の改善により、正則化が追加され、監督のタイミングを決定するためのしきい値を明示的にアクティブ化します。
2番目は、エキスパートエージェントスイッチングシステムを複数のアクション候補の最適なコンセンサスシステムに変換します。
第三に、アクションに自己回帰色のノイズが導入され、確率的探索が時間の経過とともに一貫しています。
これらの改善はシミュレーションによって検証され、学習したポリシーは相互作用中に動的安定性を維持しながら十分に堅牢であることを示しています。

要約(オリジナル)

Interactive imitation learning makes an agent’s control policy robust by stepwise supervisions from an expert. The recent algorithms mostly employ expert-agent switching systems to reduce the expert’s burden by limitedly selecting the supervision timing. However, the precise selection is difficult and such a switching causes abrupt changes in actions, damaging the dynamic stability. This paper therefore proposes a novel method, so-called CubeDAgger, which improves robustness while reducing dynamic stability violations by making three improvements to a baseline method, EnsembleDAgger. The first improvement adds a regularization to explicitly activate the threshold for deciding the supervision timing. The second transforms the expert-agent switching system to an optimal consensus system of multiple action candidates. Third, autoregressive colored noise to the actions is introduced to make the stochastic exploration consistent over time. These improvements are verified by simulations, showing that the learned policies are sufficiently robust while maintaining dynamic stability during interaction.

arxiv情報

著者 Taisuke Kobayashi
発行日 2025-05-08 02:18:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | CubeDAgger: Improved Robustness of Interactive Imitation Learning without Violation of Dynamic Stability はコメントを受け付けていません

Real-Time Model Predictive Control of Vehicles with Convex-Polygon-Aware Collision Avoidance in Tight Spaces

要約

このホワイトペーパーでは、車両と障害物の両方のポリゴン近似をモデル予測制御(MPC)フレームワークに組み込むことにより、タイトなスペースでの障害物回避を伴う車両モーション計画方法を提案します。
これらの形状を表すことは、狭いスペースでのナビゲーションにとって重要であり、正確な衝突検出を確保します。
ただし、多角形の近似を組み込むことは、MPC製剤の分離または制約につながり、混合整数プログラミングを必要とし、かなりの計算コストを引き起こします。
これを克服するために、扱いやすい接続詞および制約として分離または制約を再定式化する2つの異なる衝突回避制約を提案します。
タイトスペースの駐車シナリオやさまざまな形の障害物コース、およびRCカープラットフォームでのハードウェア実験など、広範なシミュレーションを通じて両方の方法を検証します。
我々の結果は、SVMベースのアプローチが制約された環境で優れたナビゲーション精度を達成することを示しています。
対照的に、MSDEアプローチはリアルタイムで実行され、衝突回避パフォーマンスがわずかに減少します。

要約(オリジナル)

This paper proposes vehicle motion planning methods with obstacle avoidance in tight spaces by incorporating polygonal approximations of both the vehicle and obstacles into a model predictive control (MPC) framework. Representing these shapes is crucial for navigation in tight spaces to ensure accurate collision detection. However, incorporating polygonal approximations leads to disjunctive OR constraints in the MPC formulation, which require a mixed integer programming and cause significant computational cost. To overcome this, we propose two different collision-avoidance constraints that reformulate the disjunctive OR constraints as tractable conjunctive AND constraints: (1) a Support Vector Machine (SVM)-based formulation that recasts collision avoidance as a SVM optimization problem, and (2) a Minimum Signed Distance to Edges (MSDE) formulation that leverages minimum signed-distance metrics. We validate both methods through extensive simulations, including tight-space parking scenarios and varied-shape obstacle courses, as well as hardware experiments on an RC-car platform. Our results demonstrate that the SVM-based approach achieves superior navigation accuracy in constrained environments; the MSDE approach, by contrast, runs in real time with only a modest reduction in collision-avoidance performance.

arxiv情報

著者 Haruki Kojima,Kohei Honda,Hiroyuki Okuda,Tatsuya Suzuki
発行日 2025-05-08 04:26:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Real-Time Model Predictive Control of Vehicles with Convex-Polygon-Aware Collision Avoidance in Tight Spaces はコメントを受け付けていません

DiSPo: Diffusion-SSM based Policy Learning for Coarse-to-Fine Action Discretization

要約

私たちは、デモンストレーション(LFD)から学習する粗から洗練されたスキルを生成する問題を解決することを目指しています。
精度をスケーリングするために、従来のLFDアプローチは、一般化機能が限られている外部補間またはダイナミクスモデルを備えた広範な微細なデモンストレーションに依存することがよくあります。
メモリ効率の高い学習と便利な粒度の変化のために、多様な粗いスキルから学習し、状態空間モデルであるMAMBAを活用することによりさまざまな制御尺度のアクションを生成する新しい拡散SSMベースのポリシー(Dispo)を提案します。
Our evaluations show the adoption of Mamba and the proposed step-scaling method enable DiSPo to outperform in three coarse-to-fine benchmark tests with maximum 81% higher success rate than baselines.
さらに、Dispoは、それほど重要でない領域で粗い動きを生成することにより、推論効率を改善します。
最終的に、シミュレーションおよび実際の操作タスクを使用したアクションのスケーラビリティを実証します。

要約(オリジナル)

We aim to solve the problem of generating coarse-to-fine skills learning from demonstrations (LfD). To scale precision, traditional LfD approaches often rely on extensive fine-grained demonstrations with external interpolations or dynamics models with limited generalization capabilities. For memory-efficient learning and convenient granularity change, we propose a novel diffusion-SSM based policy (DiSPo) that learns from diverse coarse skills and produces varying control scales of actions by leveraging a state-space model, Mamba. Our evaluations show the adoption of Mamba and the proposed step-scaling method enable DiSPo to outperform in three coarse-to-fine benchmark tests with maximum 81% higher success rate than baselines. In addition, DiSPo improves inference efficiency by generating coarse motions in less critical regions. We finally demonstrate the scalability of actions with simulation and real-world manipulation tasks.

arxiv情報

著者 Nayoung Oh,Jaehyeong Jang,Moonkyeong Jung,Daehyung Park
発行日 2025-05-08 04:54:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | DiSPo: Diffusion-SSM based Policy Learning for Coarse-to-Fine Action Discretization はコメントを受け付けていません

Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding

要約

複雑な3Dシーンの理解は注目を集めており、シーンをエンコードする戦略がこの成功に重要な役割を果たしています。
ただし、さまざまなシナリオの戦略をエンコードする最適なシーンは、特に画像ベースのカウンターパートと比較して、不明のままです。
この問題に対処するために、3Dシーンの理解のためのさまざまな視覚エンコーディングモデルを調査し、さまざまなシナリオ全体の各モデルの強みと制限を特定する包括的な研究を提示します。
私たちの評価は、画像ベース、ビデオベース、3Dファンデーションモデルを含む7つのVision Foundationエンコーダーに及びます。
これらのモデルを4つのタスクで評価します:ビジョン言語シーンの推論、視覚的接地、セグメンテーション、登録、それぞれがシーンの理解のさまざまな側面に焦点を当てています。
私たちの評価は重要な調査結果をもたらします:DINOV2は優れたパフォーマンスを実証し、ビデオモデルはオブジェクトレベルのタスクに優れており、拡散モデルは幾何学的なタスクに利益をもたらし、言語で基づいたモデルは言語関連のタスクに予期しない制限を示します。
これらの洞察は、いくつかの従来の理解に挑戦し、Visual Foundationモデルの活用に関する新しい視点を提供し、将来のビジョン言語とシーンに理解できるタスクにおけるより柔軟なエンコーダー選択の必要性を強調しています。
コード:https://github.com/yunzeman/lexicon3d

要約(オリジナル)

Complex 3D scene understanding has gained increasing attention, with scene encoding strategies playing a crucial role in this success. However, the optimal scene encoding strategies for various scenarios remain unclear, particularly compared to their image-based counterparts. To address this issue, we present a comprehensive study that probes various visual encoding models for 3D scene understanding, identifying the strengths and limitations of each model across different scenarios. Our evaluation spans seven vision foundation encoders, including image-based, video-based, and 3D foundation models. We evaluate these models in four tasks: Vision-Language Scene Reasoning, Visual Grounding, Segmentation, and Registration, each focusing on different aspects of scene understanding. Our evaluations yield key findings: DINOv2 demonstrates superior performance, video models excel in object-level tasks, diffusion models benefit geometric tasks, and language-pretrained models show unexpected limitations in language-related tasks. These insights challenge some conventional understandings, provide novel perspectives on leveraging visual foundation models, and highlight the need for more flexible encoder selection in future vision-language and scene-understanding tasks. Code: https://github.com/YunzeMan/Lexicon3D

arxiv情報

著者 Yunze Man,Shuhong Zheng,Zhipeng Bao,Martial Hebert,Liang-Yan Gui,Yu-Xiong Wang
発行日 2025-05-08 05:10:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding はコメントを受け付けていません

ADD: Physics-Based Motion Imitation with Adversarial Differential Discriminators

要約

複数の用語の同時最適化を必要とする多目的最適化問題は、多数のアプリケーションで一般的です。
既存の多目的最適化方法は、多くの場合、手動で調整された集約関数に依存して、共同最適化ターゲットを策定します。
このような手で調整された方法のパフォーマンスは、慎重な重量選択、時間のかかる面倒なプロセスに大きく依存しています。
これらの制限は、物理的にシミュレートされたキャラクターの補強学習ベースのモーション追跡の設定でも発生します。ここでは、複雑に作成された報酬機能が通常、高忠実度の結果を達成するために使用されます。
このようなソリューションは、ドメインの専門知識と重要な手動調整を必要とするだけでなく、多様なスキル全体で結果の報酬機能の適用性を制限します。
このギャップを埋めるために、モーショントラッキングを含むさまざまな多目的最適化問題に広く適用できる、新しい敵対的な多目的最適化手法を提示します。
提案されている敵対的な差別装置は、単一の正のサンプルを受け取りますが、最適化プロセスの指導にはまだ効果的です。
当社の手法により、キャラクターはさまざまなアクロバティックでアジャイルな行動を密接に複製できることを実証し、手動で調整された報酬機能に依存することなく、最先端のモーショントラッキング方法に匹敵する品質を達成できます。
結果は、https://youtu.be/rz8byce9e2wを通じて最もよく視覚化されています。

要約(オリジナル)

Multi-objective optimization problems, which require the simultaneous optimization of multiple terms, are prevalent across numerous applications. Existing multi-objective optimization methods often rely on manually tuned aggregation functions to formulate a joint optimization target. The performance of such hand-tuned methods is heavily dependent on careful weight selection, a time-consuming and laborious process. These limitations also arise in the setting of reinforcement-learning-based motion tracking for physically simulated characters, where intricately crafted reward functions are typically used to achieve high-fidelity results. Such solutions not only require domain expertise and significant manual adjustment, but also limit the applicability of the resulting reward function across diverse skills. To bridge this gap, we present a novel adversarial multi-objective optimization technique that is broadly applicable to a range of multi-objective optimization problems, including motion tracking. The proposed adversarial differential discriminator receives a single positive sample, yet is still effective at guiding the optimization process. We demonstrate that our technique can enable characters to closely replicate a variety of acrobatic and agile behaviors, achieving comparable quality to state-of-the-art motion-tracking methods, without relying on manually tuned reward functions. Results are best visualized through https://youtu.be/rz8BYCE9E2w.

arxiv情報

著者 Ziyu Zhang,Sergey Bashkirov,Dun Yang,Michael Taylor,Xue Bin Peng
発行日 2025-05-08 05:42:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.RO | ADD: Physics-Based Motion Imitation with Adversarial Differential Discriminators はコメントを受け付けていません

An Efficient Method for Accurate Pose Estimation and Error Correction of Cuboidal Objects

要約

このペーパーで概説されている提案されたシステムは、高精度で組織化されたまたは組織化されていないパイルからの立方体オブジェクトの自律的なピッキングを必要とするユースケースの解決策です。
この論文は、ターゲットポーズのエラーを時間効率の良い方法で削減することを目的とする、立方体型のオブジェクトの正確なポーズ推定の効率的な方法を提示します。
グローバルポイントクラウド登録などの典型的なポーズ推定方法は、一般にポーズの精度を向上させるためにローカル登録アルゴリズムが使用されるマイナーなポーズエラーが発生しやすいです。
ただし、実行時間オーバーヘッドと最終達成ポーズのエラーの不確実性により、ポーズエラーの推定と修正のために、代替の線形時間アプローチが提案されています。
このペーパーでは、ソリューションの概要と、提案されたアルゴリズムの個々のモジュールの詳細な説明を示します。

要約(オリジナル)

The proposed system outlined in this paper is a solution to a use case that requires the autonomous picking of cuboidal objects from an organized or unorganized pile with high precision. This paper presents an efficient method for precise pose estimation of cuboid-shaped objects, which aims to reduce errors in target pose in a time-efficient manner. Typical pose estimation methods like global point cloud registrations are prone to minor pose errors for which local registration algorithms are generally used to improve pose accuracy. However, due to the execution time overhead and uncertainty in the error of the final achieved pose, an alternate, linear time approach is proposed for pose error estimation and correction. This paper presents an overview of the solution followed by a detailed description of individual modules of the proposed algorithm.

arxiv情報

著者 Utsav Rai,Hardik Mehta,Vismay Vakharia,Aditya Choudhary,Amit Parmar,Rolif Lima,Kaushik Das
発行日 2025-05-08 05:43:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | An Efficient Method for Accurate Pose Estimation and Error Correction of Cuboidal Objects はコメントを受け付けていません

AI and Vision based Autonomous Navigation of Nano-Drones in Partially-Known Environments

要約

センサーとプロセッサの小型化、接続されたエッジインテリジェンスの進歩、および人工知能への指数関数は、ロボットのエコシステムのインターネットにおける自律的なナノサイズのドローンの肯定を後押ししています。
ただし、これらの小さなプラットフォームでの探索や監視などの安全な自律的なナビゲーションと高レベルのタスクを達成することは、リソースが限られているため、非常に困難です。
この作業は、部分的に既知の環境でCrazyFlie 2.1と呼ばれるポケットサイズの30グラムのプラットフォームの安全で自律的な飛行を可能にすることに焦点を当てています。
統合されたセンシング、コンピューティング、通信パラダイムの範囲で障害物回避のための、視覚ベースの新しいリアクティブ計画方法を提案します。
ナビゲーションタスクを2つの部分に分割することにより、ナノドローンの制約に対処します。計画アルゴリズムが搭載されている間、ディープラーニングベースのオブジェクト検出器がエッジで実行されます(外部ハードウェア)。
結果は、ドローンを$ \ sim8 $ frames-secondでコマンドする能力と、$ 60.8 $のココ平均平均前処理に達するモデルパフォーマンスを示しています。
野外実験は、ドローンが$ 1 $ m/sの最高速度で飛行しながら、未知の位置に配置され、ターゲットの目的地に到達する障害から離れて、ドローンが飛んでいるという解決の実現可能性を示しています。
結果は、通信遅延の互換性と、リアルタイムナビゲーションタスクの要件とモデルのパフォーマンスを強調しています。
Nano-Dronesを使用した自律調査に拡張できる、完全にオンボードの実装に代わる実現可能な代替品を提供します。

要約(オリジナル)

The miniaturisation of sensors and processors, the advancements in connected edge intelligence, and the exponential interest in Artificial Intelligence are boosting the affirmation of autonomous nano-size drones in the Internet of Robotic Things ecosystem. However, achieving safe autonomous navigation and high-level tasks such as exploration and surveillance with these tiny platforms is extremely challenging due to their limited resources. This work focuses on enabling the safe and autonomous flight of a pocket-size, 30-gram platform called Crazyflie 2.1 in a partially known environment. We propose a novel AI-aided, vision-based reactive planning method for obstacle avoidance under the ambit of Integrated Sensing, Computing and Communication paradigm. We deal with the constraints of the nano-drone by splitting the navigation task into two parts: a deep learning-based object detector runs on the edge (external hardware) while the planning algorithm is executed onboard. The results show the ability to command the drone at $\sim8$ frames-per-second and a model performance reaching a COCO mean-average-precision of $60.8$. Field experiments demonstrate the feasibility of the solution with the drone flying at a top speed of $1$ m/s while steering away from an obstacle placed in an unknown position and reaching the target destination. The outcome highlights the compatibility of the communication delay and the model performance with the requirements of the real-time navigation task. We provide a feasible alternative to a fully onboard implementation that can be extended to autonomous exploration with nano-drones.

arxiv情報

著者 Mattia Sartori,Chetna Singhal,Neelabhro Roy,Davide Brunelli,James Gross
発行日 2025-05-08 06:16:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NI, cs.RO | AI and Vision based Autonomous Navigation of Nano-Drones in Partially-Known Environments はコメントを受け付けていません