Opt2Skill: Imitating Dynamically-feasible Whole-Body Trajectories for Versatile Humanoid Loco-Manipulation

要約

ヒューマノイドロボットは、多様な局所操作タスクを実行するように設計されています。
しかし、彼らは、彼らの高次元的で不安定なダイナミクスと、タスクの複雑な接触豊富な性質のために課題に直面しています。
モデルベースの最適制御方法は、正確な動きを定義する柔軟性を提供しますが、高い計算の複雑さと正確な接触センシングによって制限されます。
一方、強化学習(RL)は、強い堅牢性を持つ高次元空間を処理しますが、非効率的な学習、不自然な動き、SIMからリアルのギャップに苦しんでいます。
これらの課題に対処するために、モデルベースの軌跡の最適化とRLを組み合わせて堅牢な全身操作を実現するエンドツーエンドのパイプラインであるOpt2Skillを紹介します。
Opt2skillは、微分動的プログラミング(DDP)とTrains RLポリシーを使用して、これらの最適な軌跡を追跡するために、Digit Humanoid Robotの動的に実行可能な連絡可能な参照モーションを生成します。
我々の結果は、Opt2skillが、モーショントラッキングとタスクの成功率の両方で、人間のデモと逆運動学ベースの参照に依存するベースラインを上回ることを示しています。
さらに、軌跡をトルク情報に組み込むことで、テーブルの拭き取りなどの接触装備タスクの接触力追跡が改善されることを示します。
現実世界のアプリケーションへのアプローチを正常に転送しました。

要約(オリジナル)

Humanoid robots are designed to perform diverse loco-manipulation tasks. However, they face challenges due to their high-dimensional and unstable dynamics, as well as the complex contact-rich nature of the tasks. Model-based optimal control methods offer flexibility to define precise motion but are limited by high computational complexity and accurate contact sensing. On the other hand, reinforcement learning (RL) handles high-dimensional spaces with strong robustness but suffers from inefficient learning, unnatural motion, and sim-to-real gaps. To address these challenges, we introduce Opt2Skill, an end-to-end pipeline that combines model-based trajectory optimization with RL to achieve robust whole-body loco-manipulation. Opt2Skill generates dynamic feasible and contact-consistent reference motions for the Digit humanoid robot using differential dynamic programming (DDP) and trains RL policies to track these optimal trajectories. Our results demonstrate that Opt2Skill outperforms baselines that rely on human demonstrations and inverse kinematics-based references, both in motion tracking and task success rates. Furthermore, we show that incorporating trajectories with torque information improves contact force tracking in contact-involved tasks, such as wiping a table. We have successfully transferred our approach to real-world applications.

arxiv情報

著者 Fukang Liu,Zhaoyuan Gu,Yilin Cai,Ziyi Zhou,Hyunyoung Jung,Jaehwi Jang,Shijie Zhao,Sehoon Ha,Yue Chen,Danfei Xu,Ye Zhao
発行日 2025-06-17 02:34:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Opt2Skill: Imitating Dynamically-feasible Whole-Body Trajectories for Versatile Humanoid Loco-Manipulation はコメントを受け付けていません

Graph-Convolutional-Beta-VAE for Synthetic Abdominal Aorta Aneurysm Generation

要約

合成データ生成は、プライバシーの懸念を軽減し、大規模な患者データ分析を可能にすることにより、医学研究において重要な役割を果たします。
この研究では、合成腹部大動脈瘤(AAA)を生成するためのベータ変性自動エンコーダーグラフ畳み込みニューラルネットワークフレームワークを提示します。
小さな現実世界のデータセットを使用して、私たちのアプローチは重要な解剖学的特徴を抽出し、コンパクトな解放された潜在的な潜在空間内で複雑な統計関係をキャプチャします。
データの制限に対処するために、Procrustes分析に基づいた低衝突データ増強が採用され、解剖学的完全性が維持されました。
決定論的で確率的である生成戦略は、リアリズムを確保しながら、データの多様性を強化することができます。
PCAベースのアプローチと比較して、私たちのモデルは、複雑で非線形の解剖学的変動をキャプチャすることにより、目に見えないデータに対してより堅牢に実行されます。
これにより、元のデータセットだけよりも包括的な臨床的および統計的分析が可能になります。
結果として生じる合成AAAデータセットは、患者のプライバシーを維持しながら、医学研究、デバイステスト、および計算モデリングのためのスケーラブルな基盤を提供します。

要約(オリジナル)

Synthetic data generation plays a crucial role in medical research by mitigating privacy concerns and enabling large-scale patient data analysis. This study presents a beta-Variational Autoencoder Graph Convolutional Neural Network framework for generating synthetic Abdominal Aorta Aneurysms (AAA). Using a small real-world dataset, our approach extracts key anatomical features and captures complex statistical relationships within a compact disentangled latent space. To address data limitations, low-impact data augmentation based on Procrustes analysis was employed, preserving anatomical integrity. The generation strategies, both deterministic and stochastic, manage to enhance data diversity while ensuring realism. Compared to PCA-based approaches, our model performs more robustly on unseen data by capturing complex, nonlinear anatomical variations. This enables more comprehensive clinical and statistical analyses than the original dataset alone. The resulting synthetic AAA dataset preserves patient privacy while providing a scalable foundation for medical research, device testing, and computational modeling.

arxiv情報

著者 Francesco Fabbri,Martino Andrea Scarpolini,Angelo Iollo,Francesco Viola,Francesco Tudisco
発行日 2025-06-17 04:36:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.TO | Graph-Convolutional-Beta-VAE for Synthetic Abdominal Aorta Aneurysm Generation はコメントを受け付けていません

Lecture Video Visual Objects (LVVO) Dataset: A Benchmark for Visual Object Detection in Educational Videos

要約

教育ビデオコンテンツでの視覚オブジェクト検出のための新しいベンチマークである講義ビデオVisual Objects(LVVO)データセットを紹介します。
データセットは、生物学、コンピューターサイエンス、地球科学にまたがる245の講義ビデオから抽出された4,000フレームで構成されています。
LVVO_1Kと呼ばれる1,000フレームのサブセットには、テーブル、チャートグラフ、写真イメージ、視覚イロストの4つの視覚カテゴリの境界ボックスが手動で注釈が付けられています。
各フレームは2つのアノテーターによって独立してラベル付けされ、アノテーター間F1スコアが83.41%になり、強力な一致が示されています。
高品質のコンセンサス注釈を確保するために、3番目の専門家は、紛争解決プロセスを通じて意見の不一致のすべてのケースをレビューおよび解決しました。
データセットを拡張するために、残りの3,000フレームを自動的に注釈してLVVO_3Kを形成するために、半監視されたアプローチを採用しました。
完全なデータセットは、教育ビデオで視覚的なコンテンツ検出のための監視されたおよび半監視された方法の両方を開発および評価するための貴重なリソースを提供します。
LVVOデータセットは、このドメインでのさらなる研究をサポートするために公開されています。

要約(オリジナル)

We introduce the Lecture Video Visual Objects (LVVO) dataset, a new benchmark for visual object detection in educational video content. The dataset consists of 4,000 frames extracted from 245 lecture videos spanning biology, computer science, and geosciences. A subset of 1,000 frames, referred to as LVVO_1k, has been manually annotated with bounding boxes for four visual categories: Table, Chart-Graph, Photographic-image, and Visual-illustration. Each frame was labeled independently by two annotators, resulting in an inter-annotator F1 score of 83.41%, indicating strong agreement. To ensure high-quality consensus annotations, a third expert reviewed and resolved all cases of disagreement through a conflict resolution process. To expand the dataset, a semi-supervised approach was employed to automatically annotate the remaining 3,000 frames, forming LVVO_3k. The complete dataset offers a valuable resource for developing and evaluating both supervised and semi-supervised methods for visual content detection in educational videos. The LVVO dataset is publicly available to support further research in this domain.

arxiv情報

著者 Dipayan Biswas,Shishir Shah,Jaspal Subhlok
発行日 2025-06-17 04:05:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Lecture Video Visual Objects (LVVO) Dataset: A Benchmark for Visual Object Detection in Educational Videos はコメントを受け付けていません

VideoPDE: Unified Generative PDE Solving via Video Inpainting Diffusion Models

要約

ビデオインペインティング拡散トランスモデルを使用して、部分微分方程式(PDE)を解くための統一されたフレームワークを提示します。
完全または部分的な観察下での順方向または逆問題の特殊な戦略を考案する既存の方法とは異なり、私たちのアプローチは、単一の柔軟な生成フレームワークの下でこれらのタスクを統合します。
具体的には、PDE解決を一般化されたインポインティングの問題としてリキャストします。たとえば、将来の状態の不足している時空情報を初期条件から推測するものとして、前方予測を扱います。
この目的のために、既知のデータの任意のパターンを条件として、時間と空間にわたって欠損値を推測するトランスベースのアーキテクチャを設計します。
私たちの方法では、階層モデリングを通じて計算効率を高めながら、微調整された高忠実度のインピンティングとコンディショニングのピクセル空間ビデオ拡散モデルを提案しています。
広範な実験では、ビデオのインペインティングベースの拡散モデルが、幅広いPDEと問題のセットアップにわたって正確で汎用性の高いソリューションを提供し、最先端のベースラインを上回ることが示されています。

要約(オリジナル)

We present a unified framework for solving partial differential equations (PDEs) using video-inpainting diffusion transformer models. Unlike existing methods that devise specialized strategies for either forward or inverse problems under full or partial observation, our approach unifies these tasks under a single, flexible generative framework. Specifically, we recast PDE-solving as a generalized inpainting problem, e.g., treating forward prediction as inferring missing spatiotemporal information of future states from initial conditions. To this end, we design a transformer-based architecture that conditions on arbitrary patterns of known data to infer missing values across time and space. Our method proposes pixel-space video diffusion models for fine-grained, high-fidelity inpainting and conditioning, while enhancing computational efficiency through hierarchical modeling. Extensive experiments show that our video inpainting-based diffusion model offers an accurate and versatile solution across a wide range of PDEs and problem setups, outperforming state-of-the-art baselines.

arxiv情報

著者 Edward Li,Zichen Wang,Jiahe Huang,Jeong Joon Park
発行日 2025-06-17 02:15:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | VideoPDE: Unified Generative PDE Solving via Video Inpainting Diffusion Models はコメントを受け付けていません

CHARM: Considering Human Attributes for Reinforcement Modeling

要約

人間のフィードバックからの強化学習は最近、さまざまな分野で大きな成功を収めており、そのパフォーマンスはフィードバックの質に非常に関連しています。
多くの以前の研究は、人間の教師の特性が人間のフィードバックパターンに影響を与えることを認めていましたが、実際の効果を綿密に調査した作業はほとんどありません。
この作業では、人間のフィードバックパターンが人間の特性にどのように関連しているかを調査する探索的研究を設計しました。
2つの長い地平線タスクと46人の参加者を使用して、パブリックスペーススタディを実施しました。
フィードバックパターンは、報酬などのタスク統計と相関するだけでなく、参加者の特性、特にロボットの経験や教育的背景と相関することがわかりました。
さらに、タスク統計のみを使用する場合と比較して、人間のフィードバック値を人間の特性でより正確に予測できることを実証しました。
私たちが収集したすべての人間のフィードバックと特性、およびデータ収集とより正確な人間のフィードバックの予測のためのコードは、https://github.com/aabl-lab/charmで入手できます。

要約(オリジナル)

Reinforcement Learning from Human Feedback has recently achieved significant success in various fields, and its performance is highly related to feedback quality. While much prior work acknowledged that human teachers’ characteristics would affect human feedback patterns, there is little work that has closely investigated the actual effects. In this work, we designed an exploratory study investigating how human feedback patterns are associated with human characteristics. We conducted a public space study with two long horizon tasks and 46 participants. We found that feedback patterns are not only correlated with task statistics, such as rewards, but also correlated with participants’ characteristics, especially robot experience and educational background. Additionally, we demonstrated that human feedback value can be more accurately predicted with human characteristics compared to only using task statistics. All human feedback and characteristics we collected, and codes for our data collection and predicting more accurate human feedback are available at https://github.com/AABL-Lab/CHARM

arxiv情報

著者 Qidi Fang,Hang Yu,Shijie Fang,Jindan Huang,Qiuyu Chen,Reuben M. Aronson,Elaine S. Short
発行日 2025-06-16 03:57:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | CHARM: Considering Human Attributes for Reinforcement Modeling はコメントを受け付けていません

IKDiffuser: Fast and Diverse Inverse Kinematics Solution Generation for Multi-arm Robotic Systems

要約

逆運動学(IK)の問題を解決することは、ロボット工学の基本ですが、主に単一のシリアルマニピュレーターで成功しています。
マルチアームロボットシステムの場合、IKは複雑なセルフコリジション、結合ジョイント、および高次元の冗長性のために依然として困難です。
これらの複雑さにより、従来のIKソルバーが遅くなり、故障する傾向があり、ソリューションの多様性が欠けています。
この論文では、マルチアームロボットシステム向けの高速で多様なIKソリューション生成向けに設計された拡散ベースのモデルであるIkdiffuserを紹介します。
Ikdiffuserは、構成スペースを介して共同分布を学習し、複雑な依存関係をキャプチャし、異なる構造のマルチアームロボットシステムにシームレスな一般化を可能にします。
さらに、Ikdiffuserは、再訓練せずに推論中に追加の目標を組み込むことができ、タスク固有の要件に汎用性と適応性を提供できます。
6つの異なるマルチアームシステムに関する実験では、提案されたIKDiffuserは、既存のソルバーと比較して、優れたソリューションの精度、精度、多様性、および計算効率を達成します。
提案されているIkdiffuserフレームワークは、マルチアームIKの問題を解決するためのスケーラブルで統一されたアプローチを提供し、リアルタイムの操作タスクにおけるマルチアームロボットシステムの可能性を促進します。

要約(オリジナル)

Solving Inverse Kinematics (IK) problems is fundamental to robotics, but has primarily been successful with single serial manipulators. For multi-arm robotic systems, IK remains challenging due to complex self-collisions, coupled joints, and high-dimensional redundancy. These complexities make traditional IK solvers slow, prone to failure, and lacking in solution diversity. In this paper, we present IKDiffuser, a diffusion-based model designed for fast and diverse IK solution generation for multi-arm robotic systems. IKDiffuser learns the joint distribution over the configuration space, capturing complex dependencies and enabling seamless generalization to multi-arm robotic systems of different structures. In addition, IKDiffuser can incorporate additional objectives during inference without retraining, offering versatility and adaptability for task-specific requirements. In experiments on 6 different multi-arm systems, the proposed IKDiffuser achieves superior solution accuracy, precision, diversity, and computational efficiency compared to existing solvers. The proposed IKDiffuser framework offers a scalable, unified approach to solving multi-arm IK problems, facilitating the potential of multi-arm robotic systems in real-time manipulation tasks.

arxiv情報

著者 Zeyu Zhang,Ziyuan Jiao
発行日 2025-06-16 04:12:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | IKDiffuser: Fast and Diverse Inverse Kinematics Solution Generation for Multi-arm Robotic Systems はコメントを受け付けていません

SuperPoint-SLAM3: Augmenting ORB-SLAM3 with Deep Features, Adaptive NMS, and Learning-Based Loop Closure

要約

視覚的な同時ローカリゼーションとマッピング(SLAM)は、極端な視点、スケール、照明のバリエーションの下で正確なままでなければなりません。
広く採用されているORB-SLAM3は、これらの体制で手作りのORBキーポイントに依存しているため、これらの体制でぐらつきます。
SuperPoint-SLAM3を導入します。これは、(i)ORBを自己監視スーパーポイント検出器に置き換えるドロップインアップグレード – デスプリシcor、(ii)適応性のない非最大抑制(ANM)を介して空間的に均一なキーポイントを施行し、(iii)は、学習ベースのループフローチャのための軽量のNetvlad Place-Recognition Headを統合します。
Kitti Odometryでは、ベンチマークSuperPoint-SLAM3は平均翻訳誤差を4.15%から0.34%に減らし、平均回転誤差は0.0027度/mから0.0010 deg/mに減少します。
Euroc MAVデータセットでは、すべてのシーケンスにわたって両方のエラーをほぼ半分にします(例:V2 \ _03:1.58% – > 0.79%)。
これらの利益は、現代の深い特徴を学んだループクロージャーモジュールと融合することで、リアルタイムの操作を維持しながらOrb-Slam3の精度が著​​しく向上することを確認しています。
実装、前処理された重み、再現性スクリプトは、https://github.com/shahram95/superpointslam3で入手できます。

要約(オリジナル)

Visual simultaneous localization and mapping (SLAM) must remain accurate under extreme viewpoint, scale and illumination variations. The widely adopted ORB-SLAM3 falters in these regimes because it relies on hand-crafted ORB keypoints. We introduce SuperPoint-SLAM3, a drop-in upgrade that (i) replaces ORB with the self-supervised SuperPoint detector–descriptor, (ii) enforces spatially uniform keypoints via adaptive non-maximal suppression (ANMS), and (iii) integrates a lightweight NetVLAD place-recognition head for learning-based loop closure. On the KITTI Odometry benchmark SuperPoint-SLAM3 reduces mean translational error from 4.15% to 0.34% and mean rotational error from 0.0027 deg/m to 0.0010 deg/m. On the EuRoC MAV dataset it roughly halves both errors across every sequence (e.g., V2\_03: 1.58% -> 0.79%). These gains confirm that fusing modern deep features with a learned loop-closure module markedly improves ORB-SLAM3 accuracy while preserving its real-time operation. Implementation, pretrained weights and reproducibility scripts are available at https://github.com/shahram95/SuperPointSLAM3.

arxiv情報

著者 Shahram Najam Syed,Ishir Roongta,Kavin Ravie,Gangadhar Nageswar
発行日 2025-06-16 04:27:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, I.2.10 | SuperPoint-SLAM3: Augmenting ORB-SLAM3 with Deep Features, Adaptive NMS, and Learning-Based Loop Closure はコメントを受け付けていません

Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System

要約

不均一なマルチロボットシステムは、ハイブリッド協力を必要とする複雑なタスクで大きな可能性を示しています。
ただし、静的モデルに依存する従来のアプローチは、タスクの多様性と動的環境に苦労することがよくあります。
これは、不均一なエージェント全体で低レベルの実行で高レベルの推論を埋めることができる一般化可能なインテリジェンスの必要性を強調しています。
これに対処するために、プロンプトの大きな言語モデル(LLM)とグリッドマスクが強化された微調整されたビジョン言語モデル(VLM)を統合する階層フレームワークを提案します。
LLMはタスクを分解し、グローバルセマンティックマップを構築しますが、VLMは航空画像からタスク指定のセマンティックラベルと2D空間情報を抽出して、ローカル計画をサポートします。
このフレームワーク内で、空中ロボットは最適化されたグローバルセマンティックパスをたどり、鳥類観測画像を継続的に提供し、地上ロボットのローカルセマンティックナビゲーションと操作を導きます。
実際のキューブまたはオブジェクトの配置タスクに関する実験は、動的環境でのフレームワークの適応性と堅牢性を示しています。
私たちの知る限り、これは、VLMベースの認識をLLM駆動型タスクの推論とモーション計画と統合する航空機の不均一システムの最初のデモンストレーションです。

要約(オリジナル)

Heterogeneous multi-robot systems show great potential in complex tasks requiring hybrid cooperation. However, traditional approaches relying on static models often struggle with task diversity and dynamic environments. This highlights the need for generalizable intelligence that can bridge high-level reasoning with low-level execution across heterogeneous agents. To address this, we propose a hierarchical framework integrating a prompted Large Language Model (LLM) and a GridMask-enhanced fine-tuned Vision Language Model (VLM). The LLM decomposes tasks and constructs a global semantic map, while the VLM extracts task-specified semantic labels and 2D spatial information from aerial images to support local planning. Within this framework, the aerial robot follows an optimized global semantic path and continuously provides bird-view images, guiding the ground robot’s local semantic navigation and manipulation, including target-absent scenarios where implicit alignment is maintained. Experiments on real-world cube or object arrangement tasks demonstrate the framework’s adaptability and robustness in dynamic environments. To the best of our knowledge, this is the first demonstration of an aerial-ground heterogeneous system integrating VLM-based perception with LLM-driven task reasoning and motion planning.

arxiv情報

著者 Haokun Liu,Zhaoqi Ma,Yunong Li,Junichiro Sugihara,Yicheng Chen,Jinjie Li,Moju Zhao
発行日 2025-06-16 05:10:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System はコメントを受け付けていません

A Novel ViDAR Device With Visual Inertial Encoder Odometry and Reinforcement Learning-Based Active SLAM Method

要約

同時ローカリゼーションとマッピング(SLAM)のためのマルチセンサー融合の分野では、単眼カメラとIMUSは、シンプルで効果的な視覚慣性システムを構築するために広く使用されています。
ただし、限られた研究では、スラムのパフォーマンスを向上させるためのモーターエンコーダーデバイスの統合を調査しました。
このようなデバイスを組み込むことにより、最小限の追加コストと構造の複雑さでアクティブな能力と視野(FOV)を大幅に改善することが可能です。
このホワイトペーパーでは、Vidar(ビデオ検出および範囲)デバイスに基づいた新しい視覚慣性エンコーダーが厳密に結合した臭気(VIEO)を提案します。
VIEOの正確な初期化を確保するために、Vidarキャリブレーション方法が導入されています。
さらに、ディープ補強学習(DRL)に基づいたプラットフォームモーションのデカップされたアクティブスラム法が提案されています。
実験データは、提案されたVIDARとVIEOアルゴリズムが、対応する視覚慣性臭気(VIO)アルゴリズムと比較して、交差フレームの同時性関係を大幅に増加させ、状態推定精度を改善することを示しています。
さらに、プラットフォームの動きから切り離す機能を備えたDRLベースのアクティブスラムアルゴリズムは、特徴ポイントの多様性の重量を増加させ、VIEOアルゴリズムのパフォーマンスをさらに強化することができます。
提案された方法論は、複雑な環境でのアクティブなスラムシステムの更新されたプラットフォーム設計と分離されたアプローチの両方に新たな洞察を投げかけます。

要約(オリジナル)

In the field of multi-sensor fusion for simultaneous localization and mapping (SLAM), monocular cameras and IMUs are widely used to build simple and effective visual-inertial systems. However, limited research has explored the integration of motor-encoder devices to enhance SLAM performance. By incorporating such devices, it is possible to significantly improve active capability and field of view (FOV) with minimal additional cost and structural complexity. This paper proposes a novel visual-inertial-encoder tightly coupled odometry (VIEO) based on a ViDAR (Video Detection and Ranging) device. A ViDAR calibration method is introduced to ensure accurate initialization for VIEO. In addition, a platform motion decoupled active SLAM method based on deep reinforcement learning (DRL) is proposed. Experimental data demonstrate that the proposed ViDAR and the VIEO algorithm significantly increase cross-frame co-visibility relationships compared to its corresponding visual-inertial odometry (VIO) algorithm, improving state estimation accuracy. Additionally, the DRL-based active SLAM algorithm, with the ability to decouple from platform motion, can increase the diversity weight of the feature points and further enhance the VIEO algorithm’s performance. The proposed methodology sheds fresh insights into both the updated platform design and decoupled approach of active SLAM systems in complex environments.

arxiv情報

著者 Zhanhua Xin,Zhihao Wang,Shenghao Zhang,Wanchao Chi,Yan Meng,Shihan Kong,Yan Xiong,Chong Zhang,Yuzhen Liu,Junzhi Yu
発行日 2025-06-16 05:11:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 93C85, cs.CV, cs.RO, I.4 | A Novel ViDAR Device With Visual Inertial Encoder Odometry and Reinforcement Learning-Based Active SLAM Method はコメントを受け付けていません

Underwater target 6D State Estimation via UUV Attitude Enhance Observability

要約

非協力的なターゲットを追跡するための無人の水中車両(UUV)の正確な相対状態観測は、GPS、複雑な水中ダイナミクス、およびセンサーの制限がないため、依然として重要な課題です。
既存のローカリゼーションアプローチは、グローバルなポジショニングインフラストラクチャまたはマルチUUVコラボレーションのいずれかに依存しています。どちらも、大規模または未知の環境で動作する単一のUUVでは非現実的です。
これに対処するために、単一のUUVが2つの単stat弾ソナーセンサーからの連続した騒音範囲測定のみを使用して、その相対動きを非協力ターゲットに推定できるようにする新しい持続的な相対的な6D状態推定フレームワークを提案します。
私たちの重要な貢献は、観測可能性強化態度制御戦略です。これは、UUVの方向を最適に調整して、カルマンフィルターを使用した相対状態推定の観測可能性を改善し、センサーノイズとドリフトの蓄積の影響を効果的に軽減します。
さらに、UUVが最適な測定範囲を維持し、局所化エラーが時間の経過とともに発散するのを防ぐことにより、長期的な安定性を保証する厳密に証明されたリャプノフベースの追跡制御戦略を導入します。
理論的分析とシミュレーションを通じて、私たちの方法は、従来のアプローチと比較して6D相対状態推定の精度と堅牢性を大幅に改善することを実証します。
この作業は、水中で非協力的なターゲットを追跡するUUVSのためのスケーラブルなインフラストラクチャフリーのソリューションを提供します。

要約(オリジナル)

Accurate relative state observation of Unmanned Underwater Vehicles (UUVs) for tracking uncooperative targets remains a significant challenge due to the absence of GPS, complex underwater dynamics, and sensor limitations. Existing localization approaches rely on either global positioning infrastructure or multi-UUV collaboration, both of which are impractical for a single UUV operating in large or unknown environments. To address this, we propose a novel persistent relative 6D state estimation framework that enables a single UUV to estimate its relative motion to a non-cooperative target using only successive noisy range measurements from two monostatic sonar sensors. Our key contribution is an observability-enhanced attitude control strategy, which optimally adjusts the UUV’s orientation to improve the observability of relative state estimation using a Kalman filter, effectively mitigating the impact of sensor noise and drift accumulation. Additionally, we introduce a rigorously proven Lyapunov-based tracking control strategy that guarantees long-term stability by ensuring that the UUV maintains an optimal measurement range, preventing localization errors from diverging over time. Through theoretical analysis and simulations, we demonstrate that our method significantly improves 6D relative state estimation accuracy and robustness compared to conventional approaches. This work provides a scalable, infrastructure-free solution for UUVs tracking uncooperative targets underwater.

arxiv情報

著者 Fen Liu,Chengfeng Jia,Na Zhang,Shenghai Yuan,Rong Su
発行日 2025-06-16 05:24:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Underwater target 6D State Estimation via UUV Attitude Enhance Observability はコメントを受け付けていません