Tool-as-Interface: Learning Robot Policies from Human Tool Usage through Imitation Learning

要約

ロボットが複雑な現実世界のタスクを実行できるようにするには、ツールの使用が重要であり、人間のツール使用データを活用することは、ロボットを教えるために役立つ可能性があります。
ただし、テレオ操作などの既存のデータ収集方法は遅く、遅延を制御する傾向があり、動的タスクには適していません。
対照的に、人間がツールを使用してタスクを直接実行する人間の自然データは、効率的で簡単に収集しやすい自然で非構造化されていない相互作用を提供します。
人間とロボットが同じツールを共有できるという洞察に基づいて、人間のデータからロボットにツール使用の知識を転送するフレームワークを提案します。
2つのRGBカメラを使用して、私たちの方法は3D再構成を生成し、新しいビューの増強にガウスのスプラッティングを適用し、セグメンテーションモデルを使用して具体化された観測観測を抽出し、タスク空間ツールアクション表現を活用して視覚運動ポリシーを訓練します。
ミートボールのスクープ、パンフリッピング、ワインボトルバランス、その他の複雑なタスクなど、多様な現実世界のタスクに関するアプローチを検証します。
私たちの方法では、テレオ操作データで訓練された拡散ポリシーと比較して71 \%高い平均成功率を達成し、データ収集時間を77%削減し、一部のタスクはフレームワークでのみ解決可能です。
ハンドヘルドグリッパーと比較して、この方法ではデータ収集時間を41 \%削減します。
さらに、この方法は、具体化のギャップを橋渡しし、カメラの視点とロボット構成の変動に対する堅牢性を向上させ、オブジェクトと空間セットアップ全体で効果的に一般化します。

要約(オリジナル)

Tool use is critical for enabling robots to perform complex real-world tasks, and leveraging human tool-use data can be instrumental for teaching robots. However, existing data collection methods like teleoperation are slow, prone to control delays, and unsuitable for dynamic tasks. In contrast, human natural data, where humans directly perform tasks with tools, offers natural, unstructured interactions that are both efficient and easy to collect. Building on the insight that humans and robots can share the same tools, we propose a framework to transfer tool-use knowledge from human data to robots. Using two RGB cameras, our method generates 3D reconstruction, applies Gaussian splatting for novel view augmentation, employs segmentation models to extract embodiment-agnostic observations, and leverages task-space tool-action representations to train visuomotor policies. We validate our approach on diverse real-world tasks, including meatball scooping, pan flipping, wine bottle balancing, and other complex tasks. Our method achieves a 71\% higher average success rate compared to diffusion policies trained with teleoperation data and reduces data collection time by 77\%, with some tasks solvable only by our framework. Compared to hand-held gripper, our method cuts data collection time by 41\%. Additionally, our method bridges the embodiment gap, improves robustness to variations in camera viewpoints and robot configurations, and generalizes effectively across objects and spatial setups.

arxiv情報

著者 Haonan Chen,Cheng Zhu,Yunzhu Li,Katherine Driggs-Campbell
発行日 2025-04-06 20:40:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Tool-as-Interface: Learning Robot Policies from Human Tool Usage through Imitation Learning はコメントを受け付けていません

Modeling, Translation, and Analysis of Different examples using Simulink, Stateflow, SpaceEx, and FlowStar

要約

このレポートでは、6台の車両小隊、2つのバウンスボール、3つのタンクシステム、および連続およびハイブリッドシステムを表す4次元線形スイッチングなど、複数のベンチマークの翻訳とテストについて詳しく説明しています。
これらのベンチマークは、SpaceEx、Flow*、Hyst、Matlab-Simulink、StateFlowなどの多様な検証ツールを含む過去のインスタンスから収集されました。これらは、ハイブリッドオートマトンとしてモデル化されたさまざまなシステムをカバーし、分析と評価のための包括的なセットを提供します。
最初は、さまざまな適切なツールを使用して、4つのシステムすべてのモデルを作成しました。
その後、これらのモデルはSpaceEx形式に変換され、さまざまな検証ツールと互換性のある異なる形式に変換されました。
各システムの動的特性へのアプローチを適応させると、それぞれの検証ツールを使用して到達可能性分析を実行しました。

要約(オリジナル)

This report details the translation and testing of multiple benchmarks, including the Six Vehicle Platoon, Two Bouncing Ball, Three Tank System, and Four-Dimensional Linear Switching, which represent continuous and hybrid systems. These benchmarks were gathered from past instances involving diverse verification tools such as SpaceEx, Flow*, HyST, MATLAB-Simulink, Stateflow, etc. They cover a range of systems modeled as hybrid automata, providing a comprehensive set for analysis and evaluation. Initially, we created models for all four systems using various suitable tools. Subsequently, these models were converted to the SpaceEx format and then translated into different formats compatible with various verification tools. Adapting our approach to the dynamic characteristics of each system, we performed reachability analysis using the respective verification tools.

arxiv情報

著者 Yogesh Gajula,Ravi Varma Lingala
発行日 2025-04-06 23:04:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Modeling, Translation, and Analysis of Different examples using Simulink, Stateflow, SpaceEx, and FlowStar はコメントを受け付けていません

Reliable-loc: Robust sequential LiDAR global localization in large-scale street scenes based on verifiable cues

要約

ウェアラブルレーザースキャン(WLS)システムには、柔軟性と移植性の利点があります。
これは、先行マップ内のユーザーのパスを決定するために使用できます。これは、歩行者ナビゲーション、共同マッピング、拡張現実、および緊急救助のアプリケーションに対する大きな需要です。
ただし、既存のLIDARベースのグローバルローカリゼーション方法は、特に不十分な機能が不十分で、前のマップの不完全なカバレッジを備えた複雑な大規模な屋外シーンでは、堅牢性が不十分です。
このような課題に対処するために、LIDARベースの信頼できるグローバルローカリゼーション(信頼できるロック)を提案します。
まず、空間的に検証可能なキューに基づいてモンテカルロローカリゼーション(MCL)を提案します。粒子の重みを調整するためにローカルな特徴に埋め込まれた豊富な情報を利用して、誤った領域に収束する粒子を回避します。
第二に、順次のポーズ不確実性によって導かれたローカリゼーションステータス監視メカニズムを提案し、ローカリゼーションシステムのクラッシュを回避するために、時間的に検証可能なキューを使用してローカリゼーションモードを適応的に切り替えます。
提案されている信頼できるロックの実験を検証するために、高精度の車両マウントモバイルレーザースキャン(MLS)ポイントクラウドとヘルメットに取り付けられたWLSポイントクラウドで構成される大規模な不均一ポイントクラウドデータセットで行われました。
実験結果は、信頼できるロックが、大規模な複雑なストリートシーンで高い堅牢性、精度、効率性を示すことを示しています。
コードと詳細な実験結果については、https://github.com/zouxianghong/reliable-locを参照してください。

要約(オリジナル)

Wearable laser scanning (WLS) system has the advantages of flexibility and portability. It can be used for determining the user’s path within a prior map, which is a huge demand for applications in pedestrian navigation, collaborative mapping, augmented reality, and emergency rescue. However, existing LiDAR-based global localization methods suffer from insufficient robustness, especially in complex large-scale outdoor scenes with insufficient features and incomplete coverage of the prior map. To address such challenges, we propose LiDAR-based reliable global localization (Reliable-loc) exploiting the verifiable cues in the sequential LiDAR data. First, we propose a Monte Carlo Localization (MCL) based on spatially verifiable cues, utilizing the rich information embedded in local features to adjust the particles’ weights hence avoiding the particles converging to erroneous regions. Second, we propose a localization status monitoring mechanism guided by the sequential pose uncertainties and adaptively switching the localization mode using the temporal verifiable cues to avoid the crash of the localization system. To validate the proposed Reliable-loc, comprehensive experiments have been conducted on a large-scale heterogeneous point cloud dataset consisting of high-precision vehicle-mounted mobile laser scanning (MLS) point clouds and helmet-mounted WLS point clouds, which cover various street scenes with a length of over 30 km. The experimental results indicate that Reliable-loc exhibits high robustness, accuracy, and efficiency in large-scale, complex street scenes, with a position accuracy of 2.91 m, yaw accuracy of 3.74 degrees, and achieves real-time performance. For the code and detailed experimental results, please refer to https://github.com/zouxianghong/Reliable-loc.

arxiv情報

著者 Xianghong Zou,Jianping Li,Weitong Wu,Fuxun Liang,Bisheng Yang,Zhen Dong
発行日 2025-04-07 03:12:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Reliable-loc: Robust sequential LiDAR global localization in large-scale street scenes based on verifiable cues はコメントを受け付けていません

Distortion Bounds of Subdivision Models for SO(3)

要約

ロボットパス計画への区画アプローチでは、さまざまな計算を実行するために、ロボットの構成スペースを素敵なセルに分割する必要があります。
剛性のある空間ロボットの場合、この構成スペースは$ se(3)= \ mathbb {r}^3 \ times so(3)$です。
$ \ mathbb {r}^3 $の区画は標準ですが、これまでのところ、$ so(3)$のグローバルな区画スキームはありません。
最近、サブディビジョンに適した$(3)$の表現を導入しました。
このペーパーでは、$ so(3)$の自然メトリックの歪みを、表現によって引き起こされます。
この研究の適切なフレームワークは、$ so(3)$のRiemannian幾何学にあり、シャープな歪み境界を取得できるようにします。

要約(オリジナル)

In the subdivision approach to robot path planning, we need to subdivide the configuration space of a robot into nice cells to perform various computations. For a rigid spatial robot, this configuration space is $SE(3)=\mathbb{R}^3\times SO(3)$. The subdivision of $\mathbb{R}^3$ is standard but so far, there are no global subdivision schemes for $SO(3)$. We recently introduced a representation for $SO(3)$ suitable for subdivision. This paper investigates the distortion of the natural metric on $SO(3)$ caused by our representation. The proper framework for this study lies in the Riemannian geometry of $SO(3)$, enabling us to obtain sharp distortion bounds.

arxiv情報

著者 Zhaoqi Zhang,Chee Yap
発行日 2025-04-07 03:14:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Distortion Bounds of Subdivision Models for SO(3) はコメントを受け付けていません

Inverse++: Vision-Centric 3D Semantic Occupancy Prediction Assisted with 3D Object Detection

要約

3Dセマンティック占有率予測は、オンボードサラウンドビューカメラを使用した自動運転車(AVS)の周辺環境の詳細な幾何学的およびセマンティック情報を予測することを目的としています。
既存の方法は、主に複雑な内部構造モジュール設計に焦点を当て、効率的な機能サンプリングと集約プロセスや中間機能表現形式など、モデルのパフォーマンスを向上させます。
この論文では、追加の3Dオブジェクト検出補助ブランチを組み込むことにより、追加の3D監督信号を導入することにより、マルチタスク学習を探索します。
この余分な3D監督信号は、中間機能の能力を強化してシーン内の小さな動的オブジェクトをキャプチャすることにより、モデルの全体的なパフォーマンスを向上させます。これらの小さな動的オブジェクトには、脆弱な道路ユーザー、すなわち自転車、オートバイ、歩行者が含まれます。
雨の多いシナリオや夜間のシナリオを含むヌスケンデータセットで実施された広範な実験は、私たちのアプローチが最新の結果を達成し、IOUスコアが31.73%とMIOUスコア20.91%を達成し、脆弱な道路利用者(VRU)を検出することに優れていることを示しています。
コードは、https://github.com/danielming123/inverse++で利用可能になります

要約(オリジナル)

3D semantic occupancy prediction aims to forecast detailed geometric and semantic information of the surrounding environment for autonomous vehicles (AVs) using onboard surround-view cameras. Existing methods primarily focus on intricate inner structure module designs to improve model performance, such as efficient feature sampling and aggregation processes or intermediate feature representation formats. In this paper, we explore multitask learning by introducing an additional 3D supervision signal by incorporating an additional 3D object detection auxiliary branch. This extra 3D supervision signal enhances the model’s overall performance by strengthening the capability of the intermediate features to capture small dynamic objects in the scene, and these small dynamic objects often include vulnerable road users, i.e. bicycles, motorcycles, and pedestrians, whose detection is crucial for ensuring driving safety in autonomous vehicles. Extensive experiments conducted on the nuScenes datasets, including challenging rainy and nighttime scenarios, showcase that our approach attains state-of-the-art results, achieving an IoU score of 31.73% and a mIoU score of 20.91% and excels at detecting vulnerable road users (VRU). The code will be made available at:https://github.com/DanielMing123/Inverse++

arxiv情報

著者 Zhenxing Ming,Julie Stephany Berrio,Mao Shan,Stewart Worrall
発行日 2025-04-07 05:08:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Inverse++: Vision-Centric 3D Semantic Occupancy Prediction Assisted with 3D Object Detection はコメントを受け付けていません

Online POMDP Planning with Anytime Deterministic Optimality Guarantees

要約

不確実性の下での意思決定は、不完全な情報のために多くの実用的な自律システムの重要な側面です。
部分的に観察可能なマルコフ決定プロセス(POMDP)は、そのような条件下で意思決定の問題を策定するための数学的に原則的なフレームワークを提供します。
ただし、POMDPの最適なソリューションを見つけることは一般に扱いにくいです。
近年、オンラインツリー検索ソルバーを使用して、小規模から中程度のサイズの問題から中程度の問題から拡大するという大きな進歩があります。
多くの場合、このような近似ソルバーは、最適なソリューションに対する確率的または漸近保証に限定されます。
この論文では、近似と最適な解との間の離散POMDPの決定論的関係を導き出します。
いつでも、既存のソリューションと最適なソリューションの間に関連する境界を導き出すことができることを示します。
私たちの派生物は、新しい一連のアルゴリズムの手段を提供し、既存のアルゴリズムに添付できることを示しています。これらのアルゴリズムは、特定の構造を備えており、わずかな計算オーバーヘッドで決定的な保証を提供します。
その見返りに、ソリューションの品質を証明するだけでなく、決定論的保証に基づいて決定を下すと、決定論的認証なしの元のアルゴリズムと比較して優れたパフォーマンスが発生する可能性があることを実証します。

要約(オリジナル)

Decision-making under uncertainty is a critical aspect of many practical autonomous systems due to incomplete information. Partially Observable Markov Decision Processes (POMDPs) offer a mathematically principled framework for formulating decision-making problems under such conditions. However, finding an optimal solution for a POMDP is generally intractable. In recent years, there has been a significant progress of scaling approximate solvers from small to moderately sized problems, using online tree search solvers. Often, such approximate solvers are limited to probabilistic or asymptotic guarantees towards the optimal solution. In this paper, we derive a deterministic relationship for discrete POMDPs between an approximated and the optimal solution. We show that at any time, we can derive bounds that relate between the existing solution and the optimal one. We show that our derivations provide an avenue for a new set of algorithms and can be attached to existing algorithms that have a certain structure to provide them with deterministic guarantees with marginal computational overhead. In return, not only do we certify the solution quality, but we demonstrate that making a decision based on the deterministic guarantee may result in superior performance compared to the original algorithm without the deterministic certification.

arxiv情報

著者 Moran Barenboim,Vadim Indelman
発行日 2025-04-07 05:29:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Online POMDP Planning with Anytime Deterministic Optimality Guarantees はコメントを受け付けていません

Grounding 3D Object Affordance with Language Instructions, Visual Observations and Interactions

要約

接地3Dオブジェクトアフォーダンスは、操作できる3Dスペースにオブジェクトを配置するタスクであり、具体化されたインテリジェンスの知覚とアクションをリンクします。
たとえば、インテリジェントロボットの場合、オブジェクトのアフォーダンスを正確に接地し、人間の指示に従って把握する必要があります。
この論文では、認知科学に触発された言語の指示、視覚的観察、および相互作用に基づいて、3Dオブジェクトアフォーダンスを根拠とする新しいタスクを紹介します。
提案されたタスクをサポートするために、ポイント、画像、言語指示(AGPIL)を備えたアフォーダンス接地データセットを収集します。
3Dの物理的世界では、観測配向、オブジェクトの回転、または空間閉塞により、オブジェクトの部分的な観測しか得られません。
したがって、このデータセットには、フルビュー、部分的なビュー、および回転ビューの視点からのオブジェクトのアフォーダンス推定が含まれます。
このタスクを達成するために、2Dおよび3Dの空間機能をセマンティック機能と融合するためにビジョン言語モデルを適用する最初のマルチモーダル、言語誘導3DアフォーダンスグラウンドネットワークであるLmaffordance3Dを提案します。
AGPILに関する包括的な実験は、目に見えない実験環境であっても、このタスクに対する方法の有効性と優位性を示しています。
当社のプロジェクトは、https://sites.google.com/view/lmaffordance3dで入手できます。

要約(オリジナル)

Grounding 3D object affordance is a task that locates objects in 3D space where they can be manipulated, which links perception and action for embodied intelligence. For example, for an intelligent robot, it is necessary to accurately ground the affordance of an object and grasp it according to human instructions. In this paper, we introduce a novel task that grounds 3D object affordance based on language instructions, visual observations and interactions, which is inspired by cognitive science. We collect an Affordance Grounding dataset with Points, Images and Language instructions (AGPIL) to support the proposed task. In the 3D physical world, due to observation orientation, object rotation, or spatial occlusion, we can only get a partial observation of the object. So this dataset includes affordance estimations of objects from full-view, partial-view, and rotation-view perspectives. To accomplish this task, we propose LMAffordance3D, the first multi-modal, language-guided 3D affordance grounding network, which applies a vision-language model to fuse 2D and 3D spatial features with semantic features. Comprehensive experiments on AGPIL demonstrate the effectiveness and superiority of our method on this task, even in unseen experimental settings. Our project is available at https://sites.google.com/view/lmaffordance3d.

arxiv情報

著者 He Zhu,Quyu Kong,Kechun Xu,Xunlong Xia,Bing Deng,Jieping Ye,Rong Xiong,Yue Wang
発行日 2025-04-07 05:38:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Grounding 3D Object Affordance with Language Instructions, Visual Observations and Interactions はコメントを受け付けていません

Continuous Locomotive Crowd Behavior Generation

要約

群衆の行動のモデリングと再現は、心理学、ロボット工学、輸送工学、仮想環境などのさまざまなドメインで重要です。
従来の方法では、現実世界の群衆の継続的な性質を複製するのが困難な瞬間的なシーンの合成に焦点を当てています。
この論文では、個人間の異種の行動と相互作用を備えた連続的で現実的な群衆の軌跡を自動的に生成するための新しい方法を紹介します。
最初にクラウドエミッタモデルを設計します。
これを行うために、群衆の生成前に、セグメンテーションマップ、外観マップ、人口密度マップ、母集団の確率を含む単一の入力画像から空間レイアウトを取得します。
その後、エミッタは、拡散モデルを使用してエージェントのタイプ、ペース、開始/終了位置などの独立した動作特性を割り当てることにより、個人をタイムラインに継続的に配置します。
次に、クラウドシミュレーターは長期的な運動を生成します。
多様なアクションをシミュレートするために、マルコフ連鎖に基づいて行動を強化できます。
その結果、私たちの全体的なフレームワークは、提案されたエミッターとシミュレータを交互に行うことにより、シーンに不均一な群衆の行動を導入します。
提案されたフレームワークのすべてのコンポーネントはユーザー制御可能であることに注意してください。
最後に、シーンレベルの人口ダイナミクスと個人レベルの軌道精度の観点から、生成された群衆のリアリズムと品質を評価するためのベンチマークプロトコルを提案します。
私たちのアプローチは、さまざまな地理的環境で多様な群衆の行動パターンを効果的にモデル化し、よく一般化することを実証します。
コードはhttps://github.com/inhwanbae/crowdesで公開されています。

要約(オリジナル)

Modeling and reproducing crowd behaviors are important in various domains including psychology, robotics, transport engineering and virtual environments. Conventional methods have focused on synthesizing momentary scenes, which have difficulty in replicating the continuous nature of real-world crowds. In this paper, we introduce a novel method for automatically generating continuous, realistic crowd trajectories with heterogeneous behaviors and interactions among individuals. We first design a crowd emitter model. To do this, we obtain spatial layouts from single input images, including a segmentation map, appearance map, population density map and population probability, prior to crowd generation. The emitter then continually places individuals on the timeline by assigning independent behavior characteristics such as agents’ type, pace, and start/end positions using diffusion models. Next, our crowd simulator produces their long-term locomotions. To simulate diverse actions, it can augment their behaviors based on a Markov chain. As a result, our overall framework populates the scenes with heterogeneous crowd behaviors by alternating between the proposed emitter and simulator. Note that all the components in the proposed framework are user-controllable. Lastly, we propose a benchmark protocol to evaluate the realism and quality of the generated crowds in terms of the scene-level population dynamics and the individual-level trajectory accuracy. We demonstrate that our approach effectively models diverse crowd behavior patterns and generalizes well across different geographical environments. Code is publicly available at https://github.com/InhwanBae/CrowdES .

arxiv情報

著者 Inhwan Bae,Junoh Lee,Hae-Gon Jeon
発行日 2025-04-07 06:08:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Continuous Locomotive Crowd Behavior Generation はコメントを受け付けていません

Extended URDF: Accounting for parallel mechanism in robot description

要約

ロボットデザインは、複雑なメカニズムを強力なロボットに提供することにより、最近の進歩において重要な役割を果たしました。
最近の多くのシステムは、より明るい手足を提供し、より複雑な動きを可能にするために、並列作動に依存しています。
ただし、これらの新興アーキテクチャは、最も使用される説明形式の範囲外にあり、これらのシステムのモデルを設計、保存、共有する際に困難につながります。
このペーパーでは、広く使用されているUnified Robot説明形式(URDF)の拡張機能を紹介して、閉ループの運動構造をサポートします。
私たちのアプローチは、既存の設計およびシミュレーションフレームワークとの互換性を維持しながら、複雑なロボットシステムのより効率的なモデリングを可能にするために、最小限の追加情報でURDFを増強することに依存しています。
この方法は、並列メカニズムを効率的に処理するために、説明形式の基本要件を設定します。
この拡張された説明形式を生成および解析するためのツールとともに、並列ロボットのオープンソースコレクションを提供することにより、アプローチの適用性を実証します。
提案された拡張機能は、ロボットモデリングを簡素化し、冗長性を削減し、高度なロボットアプリケーションの使いやすさを向上させます。

要約(オリジナル)

Robotic designs played an important role in recent advances by providing powerful robots with complex mechanics. Many recent systems rely on parallel actuation to provide lighter limbs and allow more complex motion. However, these emerging architectures fall outside the scope of most used description formats, leading to difficulties when designing, storing, and sharing the models of these systems. This paper introduces an extension to the widely used Unified Robot Description Format (URDF) to support closed-loop kinematic structures. Our approach relies on augmenting URDF with minimal additional information to allow more efficient modeling of complex robotic systems while maintaining compatibility with existing design and simulation frameworks. This method sets the basic requirement for a description format to handle parallel mechanisms efficiently. We demonstrate the applicability of our approach by providing an open-source collection of parallel robots, along with tools for generating and parsing this extended description format. The proposed extension simplifies robot modeling, reduces redundancy, and improves usability for advanced robotic applications.

arxiv情報

著者 Virgile Batto,Ludovic de Matteïs,Nicolas Mansard
発行日 2025-04-07 06:42:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Extended URDF: Accounting for parallel mechanism in robot description はコメントを受け付けていません

HDVIO2.0: Wind and Disturbance Estimation with Hybrid Dynamics VIO

要約

視覚慣性臭気(VIO)は、オンボードセンサーを使用した自律マイクロ航空車両の状態推定に広く使用されています。
現在の方法は、トランスレーショナルビークルのダイナミクスのモデルを組み込むことによりVioを改善しますが、低精度の車両モデルまたは風のような継続的な外乱に直面した場合、パフォーマンスは低下します。
さらに、これらのモデルに回転ダイナミクスを組み込むことは、閉ループ制御システムなどのオンラインアプリケーションに展開される場合、計算に非常に扱いにくいものです。
HDVIO2.0を紹介します。HDVIO2.0は、6-DOF、トランスレーショナル、回転、車両のダイナミクスを完全にモデル化し、ランタイムへの影響を最小限に抑えてVioにしっかりと組み込みます。
HDVIO2.0は、以前の作業であるHDVIOに基づいており、ポイントマス車両モデルと学習ベースのコンポーネントとコントロールコマンドとIMUの履歴へのアクセスを組み合わせたハイブリッドダイナミクスモデルを通じて、複雑な空力効果をキャプチャするために、これらの課題に対処します。
回転ダイナミクスのモデリングの背後にある重要なアイデアは、連続時間関数でそれらを表すことです。
HDVIO2.0は、実際の動きとハイブリッドダイナミクスモデルからの予測される動きとの相違を活用して、ロボット状態と同様に外力を推定します。
当社のシステムは、パブリックおよび新しいドローンダイナミクスデータセットを使用した実験で最先端の方法のパフォーマンスを上回り、最大25 km/hまでの風の実際の飛行を超えています。
既存のアプローチとは異なり、完全な車両状態の正確な知識なしに、正確な車両のダイナミクス予測が達成可能であることも示します。

要約(オリジナル)

Visual-inertial odometry (VIO) is widely used for state estimation in autonomous micro aerial vehicles using onboard sensors. Current methods improve VIO by incorporating a model of the translational vehicle dynamics, yet their performance degrades when faced with low-accuracy vehicle models or continuous external disturbances, like wind. Additionally, incorporating rotational dynamics in these models is computationally intractable when they are deployed in online applications, e.g., in a closed-loop control system. We present HDVIO2.0, which models full 6-DoF, translational and rotational, vehicle dynamics and tightly incorporates them into a VIO with minimal impact on the runtime. HDVIO2.0 builds upon the previous work, HDVIO, and addresses these challenges through a hybrid dynamics model combining a point-mass vehicle model with a learning-based component, with access to control commands and IMU history, to capture complex aerodynamic effects. The key idea behind modeling the rotational dynamics is to represent them with continuous-time functions. HDVIO2.0 leverages the divergence between the actual motion and the predicted motion from the hybrid dynamics model to estimate external forces as well as the robot state. Our system surpasses the performance of state-of-the-art methods in experiments using public and new drone dynamics datasets, as well as real-world flights in winds up to 25 km/h. Unlike existing approaches, we also show that accurate vehicle dynamics predictions are achievable without precise knowledge of the full vehicle state.

arxiv情報

著者 Giovanni Cioffi,Leonard Bauersfeld,Davide Scaramuzza
発行日 2025-04-07 06:48:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | HDVIO2.0: Wind and Disturbance Estimation with Hybrid Dynamics VIO はコメントを受け付けていません