2HandedAfforder: Learning Precise Actionable Bimanual Affordances from Human Videos

要約

オブジェクトと相互作用する場合、人間は、意図したアクション、つまりオブジェクトのアフォーダンス領域に対してどのオブジェクトの領域が実行可能であるかについて事実上、効果的に推論します。
また、実行されるタスクに基づいて、オブジェクト領域の微妙な違いや、1つまたは2つの手を使用する必要があるかどうかを説明することもできます。
ただし、現在の視力ベースのアフォーダンス予測方法は、多くの場合、問題を素朴なオブジェクトパーツセグメンテーションに減らします。
この作業では、人間のアクティビティビデオデータセットからアフォーダンスデータを抽出するためのフレームワークを提案します。
抽出された2handsデータセットには、実行されるアクティビティのナレーションとして、正確なオブジェクトアフォーダンス領域セグメンテーションとアフォーダンスクラスラベルが含まれています。
データはまた、両手の行動、つまり、1つ以上のオブジェクトを調整し、相互作用する両手を説明します。
VLMベースのアフォーダンス予測モデルである2Handedafforderを提示し、データセットで訓練され、さまざまなアクティビティのアフォーダンス地域セグメンテーションのベースラインよりも優れたパフォーマンスを示します。
最後に、予測されたアフォーダンス領域が実行可能であることを示しています。つまり、ロボット操作シナリオのデモンストレーションを通じて、タスクを実行するエージェントが使用できることを示します。

要約(オリジナル)

When interacting with objects, humans effectively reason about which regions of objects are viable for an intended action, i.e., the affordance regions of the object. They can also account for subtle differences in object regions based on the task to be performed and whether one or two hands need to be used. However, current vision-based affordance prediction methods often reduce the problem to naive object part segmentation. In this work, we propose a framework for extracting affordance data from human activity video datasets. Our extracted 2HANDS dataset contains precise object affordance region segmentations and affordance class-labels as narrations of the activity performed. The data also accounts for bimanual actions, i.e., two hands co-ordinating and interacting with one or more objects. We present a VLM-based affordance prediction model, 2HandedAfforder, trained on the dataset and demonstrate superior performance over baselines in affordance region segmentation for various activities. Finally, we show that our predicted affordance regions are actionable, i.e., can be used by an agent performing a task, through demonstration in robotic manipulation scenarios.

arxiv情報

著者 Marvin Heidinger,Snehal Jauhri,Vignesh Prasad,Georgia Chalvatzaki
発行日 2025-03-12 12:12:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | 2HandedAfforder: Learning Precise Actionable Bimanual Affordances from Human Videos はコメントを受け付けていません

NVP-HRI: Zero Shot Natural Voice and Posture-based Human-Robot Interaction via Large Language Model

要約

効果的な人間とロボットの相互作用(HRI)は、老化社会における将来のサービスロボットにとって非常に重要です。
既存のソリューションは、よく訓練されたオブジェクトのみに偏っており、新しいオブジェクトを扱うときにギャップを作成します。
現在、事前に定義されたジェスチャーまたは言語トークンを使用したHRIシステムは、すべての個人、特に高齢者に課題をもたらします。
これらの課題には、コマンドのリコール、手のジェスチャーの記憶、新しい名前の学習の困難が含まれます。
このホワイトペーパーでは、音声コマンドと敬意の姿勢を組み合わせた直感的なマルチモーダルHRIパラダイムであるNVP-HRIを紹介します。
NVP-HRIは、視覚的な手がかりと深さデータを分析するために、あらゆるモデル(SAM)を使用して、正確な構造オブジェクト表現を可能にします。
事前に訓練されたSAMネットワークを通じて、NVP-HRIは、事前の知識がなくても、ゼロショット予測を介して新しいオブジェクトとの相互作用を可能にします。
NVP-HRIは、マルチモーダルコマンド用の大規模な言語モデル(LLM)と統合され、衝突のない軌道ソリューションのためにオブジェクトの選択とシーン分布とリアルタイムで調整します。
また、LLMの幻覚リスクを減らすために、必須の制御構文を使用してアクションシーケンスを調節します。
ビデオhttps://youtu.be/ebc7al2wiacに示されているように、ユニバーサルロボットを使用した多様な現実世界のタスクの評価は、従来のジェスチャーコントロールよりも最大59.2 \%の効率改善を紹介しました。
コードとデザインは、https://github.com/laiyuzhi/nvp-hri.gitで公然と入手できます。

要約(オリジナル)

Effective Human-Robot Interaction (HRI) is crucial for future service robots in aging societies. Existing solutions are biased toward only well-trained objects, creating a gap when dealing with new objects. Currently, HRI systems using predefined gestures or language tokens for pretrained objects pose challenges for all individuals, especially elderly ones. These challenges include difficulties in recalling commands, memorizing hand gestures, and learning new names. This paper introduces NVP-HRI, an intuitive multi-modal HRI paradigm that combines voice commands and deictic posture. NVP-HRI utilizes the Segment Anything Model (SAM) to analyze visual cues and depth data, enabling precise structural object representation. Through a pre-trained SAM network, NVP-HRI allows interaction with new objects via zero-shot prediction, even without prior knowledge. NVP-HRI also integrates with a large language model (LLM) for multimodal commands, coordinating them with object selection and scene distribution in real time for collision-free trajectory solutions. We also regulate the action sequence with the essential control syntax to reduce LLM hallucination risks. The evaluation of diverse real-world tasks using a Universal Robot showcased up to 59.2\% efficiency improvement over traditional gesture control, as illustrated in the video https://youtu.be/EbC7al2wiAc. Our code and design will be openly available at https://github.com/laiyuzhi/NVP-HRI.git.

arxiv情報

著者 Yuzhi Lai,Shenghai Yuan,Youssef Nassar,Mingyu Fan,Thomas Weber,Matthias Rätsch
発行日 2025-03-12 12:30:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | NVP-HRI: Zero Shot Natural Voice and Posture-based Human-Robot Interaction via Large Language Model はコメントを受け付けていません

Robust Fault-Tolerant Control and Agile Trajectory Planning for Modular Aerial Robotic Systems

要約

モジュラー航空ロボットシステム(MARS)は、さまざまなミッション要件や障害条件に適応するために自己再構成できる複数のドローンユニットで構成されています。
ただし、既存の断層耐性制御方法は、ドッキングと分離中に大きな振動を示し、システムの安定性に影響を与えます。
この問題に対処するために、任意の数のモジュラーロボットとそのアセンブリ層に適応する新しい障害耐性制御再配置方法を提案します。
アルゴリズムは、火星の中心に比べて瞬間の腕に応じて、火星に必要な予想される集団力とトルクを個々のユニットに再分配します。
さらに、arbitrary意的な構成の火星のためのアジャイル軌道計画方法を提案します。
私たちの仕事は、火星のためのフォールトトレラントおよび衝突回避飛行を可能にする最初の包括的なアプローチを表しています。
広範なシミュレーションを通じて方法を検証し、障害トレランスの改善、軌道追跡の精度の向上、乱雑な環境での堅牢性の向上を実証します。
この作業のビデオとソースコードは、https://github.com/ruihuangnus/mars-ftcc/で入手できます。

要約(オリジナル)

Modular Aerial Robotic Systems (MARS) consist of multiple drone units that can self-reconfigure to adapt to various mission requirements and fault conditions. However, existing fault-tolerant control methods exhibit significant oscillations during docking and separation, impacting system stability. To address this issue, we propose a novel fault-tolerant control reallocation method that adapts to arbitrary number of modular robots and their assembly formations. The algorithm redistributes the expected collective force and torque required for MARS to individual unit according to their moment arm relative to the center of MARS mass. Furthermore, We propose an agile trajectory planning method for MARS of arbitrary configurations, which is collision-avoiding and dynamically feasible. Our work represents the first comprehensive approach to enable fault-tolerant and collision avoidance flight for MARS. We validate our method through extensive simulations, demonstrating improved fault tolerance, enhanced trajectory tracking accuracy, and greater robustness in cluttered environments. The videos and source code of this work are available at https://github.com/RuiHuangNUS/MARS-FTCC/

arxiv情報

著者 Rui Huang,Zhenyu Zhang,Siyu Tang,Zhiqian Cai,Lin Zhao
発行日 2025-03-12 12:52:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Robust Fault-Tolerant Control and Agile Trajectory Planning for Modular Aerial Robotic Systems はコメントを受け付けていません

Robust Self-Reconfiguration for Fault-Tolerant Control of Modular Aerial Robot Systems

要約

モジュラー航空ロボットシステム(MARS)は、単一の統合された剛性フライングプラットフォームに組み立てられた複数のドローンユニットで構成されています。
固有の冗長性により、火星は異なる構成に自己再構成することができ、ローターまたはユニットの障害を緩和し、安定した飛行を維持できます。
ただし、火星の自己再構成に関する既存の作業は、再組み立てプロセス中に形成された中間構造の実用的な制御性を見落としていることが多く、適用性が制限されます。
このホワイトペーパーでは、火星の制御制御動的モデルを考慮し、各中間段階で制御可能性マージンを最大化する堅牢で効率的な自己再構成アルゴリズムを提案することにより、このギャップに対処します。
具体的には、最適で制御可能な分解とアセンブリシーケンスを計算するためのアルゴリズムを開発し、堅牢な自己再構成を可能にします。
最後に、いくつかの困難な障害耐性の自己再構成シナリオで私たちの方法を検証し、アセンブリステップの数を減らしながら制御性と軌跡追跡の両方の大幅な改善を示します。
この作業のビデオとソースコードは、https://github.com/ruihuangnus/mars-reconfig/で入手できます。

要約(オリジナル)

Modular Aerial Robotic Systems (MARS) consist of multiple drone units assembled into a single, integrated rigid flying platform. With inherent redundancy, MARS can self-reconfigure into different configurations to mitigate rotor or unit failures and maintain stable flight. However, existing works on MARS self-reconfiguration often overlook the practical controllability of intermediate structures formed during the reassembly process, which limits their applicability. In this paper, we address this gap by considering the control-constrained dynamic model of MARS and proposing a robust and efficient self-reconstruction algorithm that maximizes the controllability margin at each intermediate stage. Specifically, we develop algorithms to compute optimal, controllable disassembly and assembly sequences, enabling robust self-reconfiguration. Finally, we validate our method in several challenging fault-tolerant self-reconfiguration scenarios, demonstrating significant improvements in both controllability and trajectory tracking while reducing the number of assembly steps. The videos and source code of this work are available at https://github.com/RuiHuangNUS/MARS-Reconfig/

arxiv情報

著者 Rui Huang,Siyu Tang,Zhiqian Cai,Lin Zhao
発行日 2025-03-12 13:27:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Robust Self-Reconfiguration for Fault-Tolerant Control of Modular Aerial Robot Systems はコメントを受け付けていません

PCLA: A Framework for Testing Autonomous Agents in the CARLA Simulator

要約

特にシミュレーション環境では、自律運転剤のテストに関する最近の研究が大幅に増加しています。
カーラシミュレーターは多くの場合、好ましい選択であり、カーラリーダーボードチャレンジの自律エージェントは、この環境内で最高のパフォーマンスのエージェントと見なされています。
ただし、これらのエージェントをゼロからトレーニングするのではなく、これらのエージェントをテストする研究者は、カスタマイズされたテスト環境やシナリオ内でそれらを利用する際に課題に直面することがよくあります。
これらの課題に対処するために、リーダーボードの課題からの9つの高性能の事前訓練を受けた自律エージェントを含むオープンソースPythonテストフレームワークであるPCLA(前処理されたカーラリーダーボードエージェント)を紹介します。
PCLAは、任意のカーラ環境/シナリオでさまざまな自律エージェントをテストするために特別に設計された最初のインフラストラクチャです。
PCLAは、リーダーボードコードベースに頼らずにリーダーボードエージェントを車両に展開する簡単な方法を提供します。これにより、研究者はカーラバージョンやプログラミング環境の変更を必要とせずにエージェントを簡単に切り替えることができます。
PCLAはhttps://github.com/masoudjtehrani/pclaで公開されています。

要約(オリジナル)

Recent research on testing autonomous driving agents has grown significantly, especially in simulation environments. The CARLA simulator is often the preferred choice, and the autonomous agents from the CARLA Leaderboard challenge are regarded as the best-performing agents within this environment. However, researchers who test these agents, rather than training their own ones from scratch, often face challenges in utilizing them within customized test environments and scenarios. To address these challenges, we introduce PCLA (Pretrained CARLA Leaderboard Agents), an open-source Python testing framework that includes nine high-performing pre-trained autonomous agents from the Leaderboard challenges. PCLA is the first infrastructure specifically designed for testing various autonomous agents in arbitrary CARLA environments/scenarios. PCLA provides a simple way to deploy Leaderboard agents onto a vehicle without relying on the Leaderboard codebase, it allows researchers to easily switch between agents without requiring modifications to CARLA versions or programming environments, and it is fully compatible with the latest version of CARLA while remaining independent of the Leaderboard’s specific CARLA version. PCLA is publicly accessible at https://github.com/MasoudJTehrani/PCLA.

arxiv情報

著者 Masoud Jamshidiyan Tehrani,Jinhan Kim,Paolo Tonella
発行日 2025-03-12 13:29:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SE, cs.SY, eess.SY | PCLA: A Framework for Testing Autonomous Agents in the CARLA Simulator はコメントを受け付けていません

Neural-Augmented Incremental Nonlinear Dynamic Inversion for Quadrotors with Payload Adaptation

要約

マルチローターアプリケーションの複雑さの増加により、ロボットに作用するすべての力を確実に予測できる、より正確なフライトコントローラーが必要になりました。
従来のフライトコントローラーは、力の大部分をモデル化しますが、いわゆる残留力を考慮しないでください。
この理由は、残差力を正確に計算することが計算上高価である可能性があることです。
インクリメンタル非線形動的反転(INDI)は、これらの残留力を推定するために、異なるセンサー測定値間の違いを計算する方法です。
INDIの主な問題は、非常に騒がしい特別なセンサー測定に依存していることです。
また、最近の研究では、学習ベースの方法を使用して残留力を予測できることも示されています。
この作業では、学習アルゴリズムが追加のセンサー測定を必要とせずに、よりスムーズなバージョンのINDI出力を予測できることを実証します。
さらに、学習ベースの予測とINDIを組み合わせた新しい方法を紹介します。
また、2つのアプローチを適応させて、スラングタイプのペイロードを運ぶ四角体で作業します。
結果は、ニューラルネットワークを使用して残留力を予測することで、ニューラルネットワークとインディの組み合わせを使用すると、各方法よりもさらに良い結果が得られる可能性があることを示しています。

要約(オリジナル)

The increasing complexity of multirotor applications has led to the need of more accurate flight controllers that can reliably predict all forces acting on the robot. Traditional flight controllers model a large part of the forces but do not take so called residual forces into account. A reason for this is that accurately computing the residual forces can be computationally expensive. Incremental Nonlinear Dynamic Inversion (INDI) is a method that computes the difference between different sensor measurements in order to estimate these residual forces. The main issue with INDI is it’s reliance on special sensor measurements which can be very noisy. Recent work has also shown that residual forces can be predicted using learning-based methods. In this work, we demonstrate that a learning algorithm can predict a smoother version of INDI outputs without requiring additional sensor measurements. In addition, we introduce a new method that combines learning based predictions with INDI. We also adapt the two approaches to work on quadrotors carrying a slung-type payload. The results show that using a neural network to predict residual forces can outperform INDI while using the combination of neural network and INDI can yield even better results than each method individually.

arxiv情報

著者 Eckart Cobo-Briesewitz,Khaled Wahba,Wolfgang Hönig
発行日 2025-03-12 14:39:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Neural-Augmented Incremental Nonlinear Dynamic Inversion for Quadrotors with Payload Adaptation はコメントを受け付けていません

EHC-MM: Embodied Holistic Control for Mobile Manipulation

要約

モバイル操作は通常、モビリティのベース、正確な操作のためのアーム、および知覚のためのカメラを必要とします。
遠いモビリティ、緊密な把握(DMCG)の原則は、全体的なコントロールに不可欠です。
SIG(W)の具体化された関数を使用して、モバイル操作(EHC-MM)の具体化されたホリスティックコントロールを提案します。DMCG原理を二次プログラミング(QP)問題として策定することにより、SIG(W)は、ロボットの状態と環境の考慮とのロボットの動きと操作の強調の動きとのバランスをとります。
さらに、SIG(W)を使用したモニターポジションベースのサーボ(MPBS)を提案し、操作中にターゲットの追跡を可能にします。
このアプローチにより、ロボットのベース、アーム、カメラ間の調整された制御が可能になり、タスク効率が向上します。
大規模なシミュレーションと現実世界の実験を通じて、私たちのアプローチにより、モバイル操作タスクの成功率と効率の両方が大幅に向上し、現実世界のシナリオで95.6%の成功率と時間効率が52.8%増加します。

要約(オリジナル)

Mobile manipulation typically entails the base for mobility, the arm for accurate manipulation, and the camera for perception. The principle of Distant Mobility, Close Grasping(DMCG) is essential for holistic control. We propose Embodied Holistic Control for Mobile Manipulation(EHC-MM) with the embodied function of sig(w): By formulating the DMCG principle as a Quadratic Programming (QP) problem, sig(w) dynamically balances the robot’s emphasis between movement and manipulation with the consideration of the robot’s state and environment. In addition, we propose the Monitor-Position-Based Servoing (MPBS) with sig(w), enabling the tracking of the target during the operation. This approach enables coordinated control among the robot’s base, arm, and camera, enhancing task efficiency. Through extensive simulations and real-world experiments, our approach significantly improves both the success rate and efficiency of mobile manipulation tasks, achieving a 95.6% success rate in real-world scenarios and a 52.8% increase in time efficiency.

arxiv情報

著者 Jiawen Wang,Yixiang Jin,Jun Shi,Yong A,Dingzhe Li,Fuchun Sun,Dingsheng Luo,Bin Fang
発行日 2025-03-12 14:42:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | EHC-MM: Embodied Holistic Control for Mobile Manipulation はコメントを受け付けていません

ReloPush: Multi-object Rearrangement in Confined Spaces with a Nonholonomic Mobile Robot Pusher

要約

非致死的に制約されたモバイルロボットを使用したプッシュベースのマルチオブジェクト再配置計画に焦点を当てています。
同時幾何学、運動学、および物理学の制約により、この問題は特に困難になります。
再配置計画に関する以前の作業は、しばしば、器用なハードウェア、プレヘンシル操作、またはまばらに占有されているワークスペースを仮定することにより、これらの制約の一部を緩和します。
私たちの重要な洞察は、これらの制約を統一された表現にキャプチャすることにより、環境を有利に変更することにより、抑制されたロボットに困難な問題インスタンスに取り組むことができるということです。
この目的のために、プッシュトラバース性グラフを導入します。その頂点は、ロボットがオブジェクトからプッシュできるポーズを表し、エッジはそれらの間の最適で運動的に実行可能で、安定した遷移を表します。
このグラフに基づいて、複雑なマルチオブジェクト再配置タスクを入力し、それを単一オブジェクトプッシュタスクのシーケンスに分割するグラフベースの計画フレームワークであるRelopushを開発します。
1/10スケールのロボットレースカーを使用して、最大9つのオブジェクトを備えた密集したワークスペースの再配置を含む、一連の挑戦的なシナリオ全体でリロップラッシュを評価します。
ReLopushは、提案されたグラフ構造を欠いている2つのベースラインと比較して、実行時間の低下とオブジェクト接触の損失の減少で証明された、現実の世界では、数桁の速度が速くなり、大幅に堅牢な実行を示します。

要約(オリジナル)

We focus on push-based multi-object rearrangement planning using a nonholonomically constrained mobile robot. The simultaneous geometric, kinematic, and physics constraints make this problem especially challenging. Prior work on rearrangement planning often relaxes some of these constraints by assuming dexterous hardware, prehensile manipulation, or sparsely occupied workspaces. Our key insight is that by capturing these constraints into a unified representation, we could empower a constrained robot to tackle difficult problem instances by modifying the environment in its favor. To this end, we introduce a Push-Traversability graph, whose vertices represent poses that the robot can push objects from, and edges represent optimal, kinematically feasible, and stable transitions between them. Based on this graph, we develop ReloPush, a graph-based planning framework that takes as input a complex multi-object rearrangement task and breaks it down into a sequence of single-object pushing tasks. We evaluate ReloPush across a series of challenging scenarios, involving the rearrangement of densely cluttered workspaces with up to nine objects, using a 1/10-scale robot racecar. ReloPush exhibits orders of magnitude faster runtimes and significantly more robust execution in the real world, evidenced in lower execution times and fewer losses of object contact, compared to two baselines lacking our proposed graph structure.

arxiv情報

著者 Jeeho Ahn,Christoforos Mavrogiannis
発行日 2025-03-12 16:15:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ReloPush: Multi-object Rearrangement in Confined Spaces with a Nonholonomic Mobile Robot Pusher はコメントを受け付けていません

Action-Aware Pro-Active Safe Exploration for Mobile Robot Mapping

要約

不明な環境の安全な自律調査は、モバイルロボットが多様な重要なタスクのために環境マッピングを効果的かつ適応的に実行するための不可欠なスキルです。
そのシンプルさのため、ほとんどの既存の探査方法は、標準的なフロンティアベースの探査戦略に依存しており、環境に関する新しい情報を取得するために、既知の安全性と未知の未開の空間の境界をロボットに指示します。
これは通常、再発した永続的な計画戦略に従い、最初に有益なフロンティアの視点を選択し、次にロボットを選択した視点に到達するまで移動し、終了するまでこれらのステップを繰り返します。
ただし、持続的な計画を使用した探索は、継続的に更新されたマップへの適応性が欠けている可能性がありますが、オンライン計画での高度に適応的な探索は、多くの場合、高度な計算コストとリベロックに関する潜在的な問題に苦しんでいます。
この論文では、適応性の低い永続的な計画と費用のかかるオンライン計画の代替として、冗長で情報のないラストマイル探索モーションを避けるために、すぐに利用可能な実用的な情報を使用して、効果的な調査のための新しい予防的な再生戦略を紹介します。
また、視点の実用的な情報を、探索のための体系的な終了基準として使用します。
知覚と行動のギャップを埋めるために、検出された障害物との衝突のリスクと未開の地域までの距離を最小限に抑える安全で有益なパス計画を実行し、総ナビゲーションコストごとに最大の情報ユーティリティを備えたアクションアウェアの視点選択を適用します。
数値シミュレーションとハードウェア実験におけるアクションを意識するプロアクティブ探索方法の有効性を実証します。

要約(オリジナル)

Safe autonomous exploration of unknown environments is an essential skill for mobile robots to effectively and adaptively perform environmental mapping for diverse critical tasks. Due to its simplicity, most existing exploration methods rely on the standard frontier-based exploration strategy, which directs a robot to the boundary between the known safe and the unknown unexplored spaces to acquire new information about the environment. This typically follows a recurrent persistent planning strategy, first selecting an informative frontier viewpoint, then moving the robot toward the selected viewpoint until reaching it, and repeating these steps until termination. However, exploration with persistent planning may lack adaptivity to continuously updated maps, whereas highly adaptive exploration with online planning often suffers from high computational costs and potential issues with livelocks. In this paper, as an alternative to less-adaptive persistent planning and costly online planning, we introduce a new proactive preventive replanning strategy for effective exploration using the immediately available actionable information at a viewpoint to avoid redundant, uninformative last-mile exploration motion. We also use the actionable information of a viewpoint as a systematic termination criterion for exploration. To close the gap between perception and action, we perform safe and informative path planning that minimizes the risk of collision with detected obstacles and the distance to unexplored regions, and we apply action-aware viewpoint selection with maximal information utility per total navigation cost. We demonstrate the effectiveness of our action-aware proactive exploration method in numerical simulations and hardware experiments.

arxiv情報

著者 Aykut İşleyen,René van de Molengraft,Ömür Arslan
発行日 2025-03-12 16:25:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T40, cs.RO, I.2.9 | Action-Aware Pro-Active Safe Exploration for Mobile Robot Mapping はコメントを受け付けていません

DeepUKF-VIN: Adaptively-tuned Deep Unscented Kalman Filter for 3D Visual-Inertial Navigation based on IMU-Vision-Net

要約

このペーパーでは、6つの自由度(6-DOF)で3次元(3D)空間で動作する車両の方向、位置、および速度を推定するという課題に対処します。
深い学習ベースの適応メカニズム(DLAM)は、IMU-Vision-netを活用して、視覚型ナビゲーション(VIN)問題のカルマン型フィルターのノイズ共分散マトリックスを適応的に調整するために提案されています。
その後、3D VIN(DeepUKF-VIN)用の適応的に調整された深い学習の無濃縮カルマンフィルターが導入され、提案されたDLAMを利用して、方向、位置、線形速度などの主要なナビゲーションコンポーネントを堅牢に推定します。
提案されたDeepUKF-Vinは、オンボードセンサー、特にカメラから抽出された慣性測定ユニット(IMU)と視覚的特徴ポイントからのデータを統合し、GPS除去ナビゲーションに適用できます。
Quaternionベースの設計は、ナビゲーションの非線形性を効果的にキャプチャし、Euler-Angleベースのフィルターで一般的に遭遇する特異性を回避します。
Deepukf-Vinは、個別のスペースに実装されており、実用的なフィルター展開を促進します。
フィルターのパフォーマンスは、IMUから収集された実際のデータと、低サンプリングレートでステレオカメラを使用して評価されます。
結果は、フィルターの安定性と推定エラーの急速な減衰を示しており、その高い推定精度を強調しています。
さらに、2つのシナリオでの標準の無香性Kalmanフィルター(UKF)に対する比較テストは、すべてのナビゲーションコンポーネントにわたって一貫して優れたパフォーマンスを示し、それによって提案されたDeepUKF-Vinの有効性と堅牢性を検証します。
キーワード:ディープラーニング、無香料のカルマンフィルター、適応チューニング、推定、ナビゲーション、無人航空機、センサー融合。

要約(オリジナル)

This paper addresses the challenge of estimating the orientation, position, and velocity of a vehicle operating in three-dimensional (3D) space with six degrees of freedom (6-DoF). A Deep Learning-based Adaptation Mechanism (DLAM) is proposed to adaptively tune the noise covariance matrices of Kalman-type filters for the Visual-Inertial Navigation (VIN) problem, leveraging IMU-Vision-Net. Subsequently, an adaptively tuned Deep Learning Unscented Kalman Filter for 3D VIN (DeepUKF-VIN) is introduced to utilize the proposed DLAM, thereby robustly estimating key navigation components, including orientation, position, and linear velocity. The proposed DeepUKF-VIN integrates data from onboard sensors, specifically an inertial measurement unit (IMU) and visual feature points extracted from a camera, and is applicable for GPS-denied navigation. Its quaternion-based design effectively captures navigation nonlinearities and avoids the singularities commonly encountered with Euler-angle-based filters. Implemented in discrete space, the DeepUKF-VIN facilitates practical filter deployment. The filter’s performance is evaluated using real-world data collected from an IMU and a stereo camera at low sampling rates. The results demonstrate filter stability and rapid attenuation of estimation errors, highlighting its high estimation accuracy. Furthermore, comparative testing against the standard Unscented Kalman Filter (UKF) in two scenarios consistently shows superior performance across all navigation components, thereby validating the efficacy and robustness of the proposed DeepUKF-VIN. Keywords: Deep Learning, Unscented Kalman Filter, Adaptive tuning, Estimation, Navigation, Unmanned Aerial Vehicle, Sensor-fusion.

arxiv情報

著者 Khashayar Ghanizadegan,Hashim A. Hashim
発行日 2025-03-12 17:21:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | DeepUKF-VIN: Adaptively-tuned Deep Unscented Kalman Filter for 3D Visual-Inertial Navigation based on IMU-Vision-Net はコメントを受け付けていません