MAT-DiSMech: A Discrete Differential Geometry-based Computational Tool for Simulation of Rods, Shells, and Soft Robots

要約

ロボット工学には正確で効率的なシミュレーションツールが不可欠であり、システムのダイナミクスの視覚化と、物理的実験にリソースをコミットする前に制御法則の検証を可能にします。
物理的に正確なシミュレーションツールを開発することは、主に幾何学的に非線形変形の有病率のために、ソフトロボット工学で特に困難です。
さまざまなロボットシミュレーターが、サンプリングされた質量モデルなどの単純化されたモデリング手法を使用して、実際のアプリケーションの物理的な不正確さにつながることにより、この課題に取り組みます。
一方、有限要素分析などのソフト構造の高忠実度シミュレーション方法により、精度が向上しますが、計算コストが高くなります。
これに照らして、物理的精度と計算速度のバランスを提供する離散微分ジオメトリベースのシミュレーターを提示します。
ソフトロボットのロッドとシェルベースの表現に関する広範な研究団体に基づいて、当社のツールは、計算的に扱いやすい方法でソフトロボットを正確にモデル化する経路を提供します。
オープンソースMATLABベースのフレームワークは、主に暗黙の統合技術を利用して、ロッド、シェル、およびそれらの組み合わせの変形をシミュレートすることができます。
ソフトウェア設計は、ユーザーがコードをカスタマイズするためのモジュラーです。たとえば、新しい外力を追加してカスタム境界条件を課します。
重力、接触、動力学および粘性摩擦、空力抗力など、ロボット工学で遭遇する一般的な力の実装が提供されています。
機能を紹介し、シミュレータの物理的精度を検証するいくつかの例を提供します。
オープンソースコードは、https://github.com/structurescomp/dismech-matlabで入手できます。
提案されたシミュレーターは、効果的なデジタルツインツールとして機能し、ソフトロボット研究のSIM2real経路を強化できると予想しています。

要約(オリジナル)

Accurate and efficient simulation tools are essential in robotics, enabling the visualization of system dynamics and the validation of control laws before committing resources to physical experimentation. Developing physically accurate simulation tools is particularly challenging in soft robotics, largely due to the prevalence of geometrically nonlinear deformation. A variety of robot simulators tackle this challenge by using simplified modeling techniques — such as lumped mass models — which lead to physical inaccuracies in real-world applications. On the other hand, high-fidelity simulation methods for soft structures, like finite element analysis, offer increased accuracy but lead to higher computational costs. In light of this, we present a Discrete Differential Geometry-based simulator that provides a balance between physical accuracy and computational speed. Building on an extensive body of research on rod and shell-based representations of soft robots, our tool provides a pathway to accurately model soft robots in a computationally tractable manner. Our open-source MATLAB-based framework is capable of simulating the deformations of rods, shells, and their combinations, primarily utilizing implicit integration techniques. The software design is modular for the user to customize the code, for example, add new external forces and impose custom boundary conditions. The implementations for prevalent forces encountered in robotics, including gravity, contact, kinetic and viscous friction, and aerodynamic drag, have been provided. We provide several illustrative examples that showcase the capabilities and validate the physical accuracy of the simulator. The open-source code is available at https://github.com/StructuresComp/dismech-matlab. We anticipate that the proposed simulator can serve as an effective digital twin tool, enhancing the Sim2Real pathway in soft robotics research.

arxiv情報

著者 Radha Lahoti,M. Khalid Jawed
発行日 2025-04-24 01:40:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Simultaneous Collision Detection and Force Estimation for Dynamic Quadrupedal Locomotion

要約

この論文では、ジョイントエンコーダー情報とロボットダイナミクスのみを使用した四重距離移動の同時衝突検出と力推定問題についてのみ取り組みます。
ロボットに発揮される外力と複数の可能なコンタクトモードに推定される相互作用するマルチモデルカルマンフィルター(IMM-KF)を設計します。
この方法は、あらゆる歩行パターン設計に不変です。
当社のアプローチは、ロボットのダイナミクスとエンコーダー情報に基づいて、外力の擬似測定情報を活用しています。
推定された接触モードと外力に基づいて、脚の参照モーションを調整することで衝突を避けるために、スイングレッグの反射運動とアドミタンスコントローラーを設計します。
さらに、バランスを強化するために、力に適したモデル予測コントローラーを実装します。
シミュレーションのアブレーション研究と実験は、アプローチの有効性を示しています。

要約(オリジナル)

In this paper we address the simultaneous collision detection and force estimation problem for quadrupedal locomotion using joint encoder information and the robot dynamics only. We design an interacting multiple-model Kalman filter (IMM-KF) that estimates the external force exerted on the robot and multiple possible contact modes. The method is invariant to any gait pattern design. Our approach leverages pseudo-measurement information of the external forces based on the robot dynamics and encoder information. Based on the estimated contact mode and external force, we design a reflex motion and an admittance controller for the swing leg to avoid collisions by adjusting the leg’s reference motion. Additionally, we implement a force-adaptive model predictive controller to enhance balancing. Simulation ablatation studies and experiments show the efficacy of the approach.

arxiv情報

著者 Ziyi Zhou,Stefano Di Cairano,Yebin Wang,Karl Berntorp
発行日 2025-04-24 02:25:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

MARFT: Multi-Agent Reinforcement Fine-Tuning

要約

LLMベースのマルチエージェントシステムは、高品質のプレゼンテーションスライドの生成から洗練された科学研究の実施まで、多面的な推論とコラボレーションを必要とする複雑なエージェントタスクに対処する際に、顕著な機能を実証しています。
一方、RLはエージェントインテリジェンスの強化における有効性について広く認識されていますが、限られた研究では、基礎RL技術を使用したLAMAの微調整を調査しています。
さらに、MARL方法論のラマスへの直接的な適用は、ラマに固有のユニークな特性とメカニズムに起因する重要な課題をもたらします。
これらの課題に対処するために、この記事では、LLMベースのMARLの包括的な研究を提示し、マルチエージェント強化微調整(MARFT)と呼ばれる新しいパラダイムを提案します。
ラマに合わせて調整された普遍的なアルゴリズムフレームワークを紹介し、概念的な基盤、重要な区別、実用的な実装戦略の概要を説明します。
まず、RLからの進化を確認して、微調整を強化し、マルチエージェントドメインの並列分析の段階を設定します。
ラマの文脈では、MarlとMarftの間の重大な違いを解明します。
これらの違いは、RFTの斬新なラマス指向の定式化への移行を動機付けます。
この作業の中心は、堅牢でスケーラブルなMarftフレームワークのプレゼンテーションです。
コアアルゴリズムについて詳しく説明し、採用とさらなる研究を促進するために、完全なオープンソースの実装を提供します。
論文の後者のセクションでは、MARFTでの現実世界のアプリケーションの視点と課題を開くことを探ります。
理論的な基盤を実用的な方法論で橋渡しすることにより、この作業は、エージェントシステムの回復力のある適応ソリューションに向けてMarftを前進させようとする研究者のロードマップとして機能することを目的としています。
提案されたフレームワークの実装は、https://github.com/jwliao-ai/marftで公開されています。

要約(オリジナル)

LLM-based Multi-Agent Systems have demonstrated remarkable capabilities in addressing complex, agentic tasks requiring multifaceted reasoning and collaboration, from generating high-quality presentation slides to conducting sophisticated scientific research. Meanwhile, RL has been widely recognized for its effectiveness in enhancing agent intelligence, but limited research has investigated the fine-tuning of LaMAS using foundational RL techniques. Moreover, the direct application of MARL methodologies to LaMAS introduces significant challenges, stemming from the unique characteristics and mechanisms inherent to LaMAS. To address these challenges, this article presents a comprehensive study of LLM-based MARL and proposes a novel paradigm termed Multi-Agent Reinforcement Fine-Tuning (MARFT). We introduce a universal algorithmic framework tailored for LaMAS, outlining the conceptual foundations, key distinctions, and practical implementation strategies. We begin by reviewing the evolution from RL to Reinforcement Fine-Tuning, setting the stage for a parallel analysis in the multi-agent domain. In the context of LaMAS, we elucidate critical differences between MARL and MARFT. These differences motivate a transition toward a novel, LaMAS-oriented formulation of RFT. Central to this work is the presentation of a robust and scalable MARFT framework. We detail the core algorithm and provide a complete, open-source implementation to facilitate adoption and further research. The latter sections of the paper explore real-world application perspectives and opening challenges in MARFT. By bridging theoretical underpinnings with practical methodologies, this work aims to serve as a roadmap for researchers seeking to advance MARFT toward resilient and adaptive solutions in agentic systems. Our implementation of the proposed framework is publicly available at: https://github.com/jwliao-ai/MARFT.

arxiv情報

著者 Junwei Liao,Muning Wen,Jun Wang,Weinan Zhang
発行日 2025-04-24 02:54:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO | コメントする

Robotic Grinding Skills Learning Based on Geodesic Length Dynamic Motion Primitives

要約

模倣学習を介した人間の職人からの学習スキルは、ロボット加工の重要な研究トピックになりました。
それらの強力な一般化と外乱に対する堅牢性により、動的運動プリミティブ(DMP)は、ロボット研削スキル学習のための有望なアプローチを提供します。
ただし、DMPを粉砕タスクに直接適用すると、低い方向の精度、非シヌーライズされた位置指向力、表面軌跡の限られた一般化などの課題に直面します。
これらの問題に対処するために、このホワイトペーパーでは、測地性長DMP(GEO-DMP)に基づいたロボット研削スキル学習方法を提案します。
第一に、複数のデモから幾何学的特徴を抽出するために、正規化された2D加重ガウスカーネルと固有の平均クラスタリングアルゴリズムが開発されました。
次に、方向マニホールド距離メトリックにより、従来の方向DMPの時間依存性が削除され、GEO-DMPを介した正確な方向学習が可能になります。
測地線の長さベースの位相関数を使用して、共同モデルの位置、方向、および力を共同でモデル化するように、同期エンコードフレームワークがさらに提案されます。
このフレームワークにより、任意の2つの表面点の間でロボット研削アクションを生成できます。
ロボット面積の研削と自由形式の表面研削の実験では、提案された方法がスキルエンコーディングと生成において高い幾何学的精度と一般化を達成することを検証します。
私たちの知る限り、これはDMPを使用して、モデルのない表面の位置、方向、および力を共同で学習し、生成するために最初の試みであり、ロボット研削のための新しいパスを提供します。

要約(オリジナル)

Learning grinding skills from human craftsmen via imitation learning has become a key research topic in robotic machining. Due to their strong generalization and robustness to external disturbances, Dynamical Movement Primitives (DMPs) offer a promising approach for robotic grinding skill learning. However, directly applying DMPs to grinding tasks faces challenges, such as low orientation accuracy, unsynchronized position-orientation-force, and limited generalization for surface trajectories. To address these issues, this paper proposes a robotic grinding skill learning method based on geodesic length DMPs (Geo-DMPs). First, a normalized 2D weighted Gaussian kernel and intrinsic mean clustering algorithm are developed to extract geometric features from multiple demonstrations. Then, an orientation manifold distance metric removes the time dependency in traditional orientation DMPs, enabling accurate orientation learning via Geo-DMPs. A synchronization encoding framework is further proposed to jointly model position, orientation, and force using a geodesic length-based phase function. This framework enables robotic grinding actions to be generated between any two surface points. Experiments on robotic chamfer grinding and free-form surface grinding validate that the proposed method achieves high geometric accuracy and generalization in skill encoding and generation. To our knowledge, this is the first attempt to use DMPs for jointly learning and generating grinding skills in position, orientation, and force on model-free surfaces, offering a novel path for robotic grinding.

arxiv情報

著者 Shuai Ke,Huan Zhao,Xiangfei Li,Zhiao Wei,Yecan Yin,Han Ding
発行日 2025-04-24 03:14:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Demonstrating Berkeley Humanoid Lite: An Open-source, Accessible, and Customizable 3D-printed Humanoid Robot

要約

ヒューマノイドロボット工学の大きな関心と進歩にもかかわらず、ほとんどの既存の市販のハードウェアは、ロボット界のコミュニティ内では、高コスト、閉鎖、および非透明のままです。
このアクセシビリティとカスタマイズの欠如は、フィールドの成長とヒューマノイド技術のより広範な開発を妨げます。
これらの課題に対処し、ヒューマノイドロボット工学の民主化を促進するために、コミュニティ全体にアクセスし、カスタマイズ可能で、有益になるように設計されたオープンソースヒューマノイドロボットであるバークレーヒューマノイドライトを示します。
このデザインのコアは、アクチュエーターとロボット本体向けのモジュラー3Dプリントギアボックスです。
すべてのコンポーネントは、広く利用可能なeコマースプラットフォームから調達し、標準のデスクトップ3Dプリンターを使用して製造でき、合計ハードウェアコストは5,000ドル(米国の市場価格に基づいて)未満に保ちます。
このデザインは、モジュール性と製造の容易さを強調しています。
金属の代替品と比較して強度の低下や耐久性など、3Dプリントされたギアボックスの固有の制限に対処するために、このコンテキストで最適なフォームファクターを提供するサイクロイドギア設計を採用しました。
3Dプリントされたアクチュエーターで広範なテストが実施され、耐久性を検証し、プラスチック成分の信頼性に関する懸念を軽減しました。
バークレーヒューマノイドライトの能力を実証するために、補強学習を使用した移動コントローラーの開発を含む一連の実験を実施しました。
これらの実験は、シミュレーションからハードウェアへのゼロショットポリシー転送を正常に紹介し、研究検証に対するプラットフォームの適合性を強調しました。
ハードウェア設計、組み込みコード、トレーニングおよび展開フレームワークを完全にオープンすることにより、バークレーヒューマンライトがヒューマノイドロボット工学の開発を民主化するための極めて重要なステップとして機能することを目指しています。
すべてのリソースは、https://lite.berkeley-humanoid.orgで入手できます。

要約(オリジナル)

Despite significant interest and advancements in humanoid robotics, most existing commercially available hardware remains high-cost, closed-source, and non-transparent within the robotics community. This lack of accessibility and customization hinders the growth of the field and the broader development of humanoid technologies. To address these challenges and promote democratization in humanoid robotics, we demonstrate Berkeley Humanoid Lite, an open-source humanoid robot designed to be accessible, customizable, and beneficial for the entire community. The core of this design is a modular 3D-printed gearbox for the actuators and robot body. All components can be sourced from widely available e-commerce platforms and fabricated using standard desktop 3D printers, keeping the total hardware cost under $5,000 (based on U.S. market prices). The design emphasizes modularity and ease of fabrication. To address the inherent limitations of 3D-printed gearboxes, such as reduced strength and durability compared to metal alternatives, we adopted a cycloidal gear design, which provides an optimal form factor in this context. Extensive testing was conducted on the 3D-printed actuators to validate their durability and alleviate concerns about the reliability of plastic components. To demonstrate the capabilities of Berkeley Humanoid Lite, we conducted a series of experiments, including the development of a locomotion controller using reinforcement learning. These experiments successfully showcased zero-shot policy transfer from simulation to hardware, highlighting the platform’s suitability for research validation. By fully open-sourcing the hardware design, embedded code, and training and deployment frameworks, we aim for Berkeley Humanoid Lite to serve as a pivotal step toward democratizing the development of humanoid robotics. All resources are available at https://lite.berkeley-humanoid.org.

arxiv情報

著者 Yufeng Chi,Qiayuan Liao,Junfeng Long,Xiaoyu Huang,Sophia Shao,Borivoje Nikolic,Zhongyu Li,Koushil Sreenath
発行日 2025-04-24 04:58:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

NGM-SLAM: Gaussian Splatting SLAM with Radiance Field Submap

要約

Gaussian Spluttingに基づいたSLAMシステムは、迅速なリアルタイムレンダリングと高忠実度マッピングの能力により、注目を集めています。
ただし、現在のガウススプラットスラムシステムは通常、大きなシーン表現に苦労しており、効果的なループ閉鎖検出がありません。
これらの問題に対処するために、進歩的なシーン表現のために神経放射輝度フィールドサブマップを利用し、神経放射輝度フィールドと3Dガウスのスプラッティングの強度を効果的に統合する最初の3DGSベースのスラムシステムであるNGM-SLAMを紹介します。
ニューラルラディアンスフィールドサブマップを監督として利用し、融合サブマップのガウスレンダリングを通じて高品質のシーン表現とオンラインループ閉鎖調整を実現します。
複数の現実世界のシーンと大規模なシーンデータセットでの結果は、この方法が正確な穴の充填と高品質のシーン表現を実現し、単眼、ステレオ、RGB-Dの入力をサポートし、最先端のシーンの再構築と追跡パフォーマンスを達成できることを示しています。

要約(オリジナル)

SLAM systems based on Gaussian Splatting have garnered attention due to their capabilities for rapid real-time rendering and high-fidelity mapping. However, current Gaussian Splatting SLAM systems usually struggle with large scene representation and lack effective loop closure detection. To address these issues, we introduce NGM-SLAM, the first 3DGS based SLAM system that utilizes neural radiance field submaps for progressive scene expression, effectively integrating the strengths of neural radiance fields and 3D Gaussian Splatting. We utilize neural radiance field submaps as supervision and achieve high-quality scene expression and online loop closure adjustments through Gaussian rendering of fused submaps. Our results on multiple real-world scenes and large-scale scene datasets demonstrate that our method can achieve accurate hole filling and high-quality scene expression, supporting monocular, stereo, and RGB-D inputs, and achieving state-of-the-art scene reconstruction and tracking performance.

arxiv情報

著者 Jingwei Huang,Mingrui Li,Lei Sun,Aaron Xuxiang Tian,Tianchen Deng,Hongyu Wang
発行日 2025-04-24 05:07:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning

要約

このペーパーでは、四足動物言語アクション(quar-VLA)タスクにマルチモーダルラージランゲージモデル(MLLM)の展開に関連する固有の推論潜在性の課題に対処します。
私たちの調査は、従来のパラメーター削減手法が最終的に、アクション命令調整段階で言語基盤モデルのパフォーマンスを損ない、この目的には不適切であることを明らかにしています。
言語基礎モデルのパフォーマンスを低下させることなく推論効率を高めるように設計された、Quart-Onlineと呼ばれる、新しいレイテンシフリーのクアドゥルアップMLLMモデルを導入します。
アクションチャンク離散化(ACD)を組み込むことにより、元のアクション表現スペースを圧縮し、重要な情報を保存しながら、より小さなディスクリート代表ベクトルのセットに連続的なアクション値をマッピングします。
その後、MLLMを微調整して、ビジョン、言語、および圧縮アクションを統合されたセマンティックスペースに統合します。
実験結果は、Quart-Onlineが既存のMLLMシステムと連携して動作し、基礎となるコントローラー周波数と同期してリアルタイムの推論を達成し、さまざまなタスクの成功率を65%上昇させることを示しています。
プロジェクトページはhttps://quart-online.github.ioです。

要約(オリジナル)

This paper addresses the inherent inference latency challenges associated with deploying multimodal large language models (MLLM) in quadruped vision-language-action (QUAR-VLA) tasks. Our investigation reveals that conventional parameter reduction techniques ultimately impair the performance of the language foundation model during the action instruction tuning phase, making them unsuitable for this purpose. We introduce a novel latency-free quadruped MLLM model, dubbed QUART-Online, designed to enhance inference efficiency without degrading the performance of the language foundation model. By incorporating Action Chunk Discretization (ACD), we compress the original action representation space, mapping continuous action values onto a smaller set of discrete representative vectors while preserving critical information. Subsequently, we fine-tune the MLLM to integrate vision, language, and compressed actions into a unified semantic space. Experimental results demonstrate that QUART-Online operates in tandem with the existing MLLM system, achieving real-time inference in sync with the underlying controller frequency, significantly boosting the success rate across various tasks by 65%. Our project page is https://quart-online.github.io.

arxiv情報

著者 Xinyang Tong,Pengxiang Ding,Yiguo Fan,Donglin Wang,Wenjie Zhang,Can Cui,Mingyang Sun,Han Zhao,Hongyin Zhang,Yonghao Dang,Siteng Huang,Shangke Lyu
発行日 2025-04-24 08:00:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

S2S-Net: Addressing the Domain Gap of Heterogeneous Sensor Systems in LiDAR-Based Collective Perception

要約

集団認識(CP)は、自律運転の文脈における個々の認識の限界を克服するための有望なアプローチとして浮上しています。
集団的認識を実現するために、さまざまなアプローチが提案されています。
ただし、接続および自動化された車両(CAVS)のさまざまなセンサーシステムの利用から生じるSensor2Sensorドメインギャップは、ほとんど対処されていません。
これは主に、Cavs間の不均一なセンサーのセットアップを含むデータセットの不足によるものです。
最近リリースされたスコープデータセットは、各CAVに3つの異なるLIDARセンサーからのデータを提供することにより、この問題に対処します。
この研究は、車両(V2V)集団認識の車両のSensor2Sensorドメインギャップに最初に取り組むことです。
まず、センサードメインの堅牢なアーキテクチャS2S-NETを紹介します。
次に、SCOPEデータセット上のS2S-NETのSENSOR2SENSORドメイン適応機能の詳細な分析が実行されます。
S2S-NETは、目に見えないセンサードメインで非常に高いパフォーマンスを維持する機能を実証し、スコープデータセットで最先端の結果を達成しました。

要約(オリジナル)

Collective Perception (CP) has emerged as a promising approach to overcome the limitations of individual perception in the context of autonomous driving. Various approaches have been proposed to realize collective perception; however, the Sensor2Sensor domain gap that arises from the utilization of different sensor systems in Connected and Automated Vehicles (CAVs) remains mostly unaddressed. This is primarily due to the paucity of datasets containing heterogeneous sensor setups among the CAVs. The recently released SCOPE datasets address this issue by providing data from three different LiDAR sensors for each CAV. This study is the first to tackle the Sensor2Sensor domain gap in vehicle to vehicle (V2V) collective perception. First, we present our sensor-domain robust architecture S2S-Net. Then an in-depth analysis of the Sensor2Sensor domain adaptation capabilities of S2S-Net on the SCOPE dataset is conducted. S2S-Net demonstrates the capability to maintain very high performance in unseen sensor domains and achieved state-of-the-art results on the SCOPE dataset.

arxiv情報

著者 Sven Teufel,Jörg Gamerdinger,Oliver Bringmann
発行日 2025-04-24 09:38:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

Label-Free Model Failure Detection for Lidar-based Point Cloud Segmentation

要約

自動運転車は毎年何百万マイルもの道路を走行しています。
このような状況では、展開された機械学習モデルは、一見正常な状況と外れ値の存在下で故障する傾向があります。
ただし、トレーニング段階では、小さな検証とテストセットでのみ評価されます。これらは、シナリオのカバレッジが限られているためモデルの障害を明らかにすることができません。
評価のために大規模で代表的なラベルのあるデータセットを取得することは困難で高価ですが、通常、大規模な非標識データセットが利用可能です。
この作業では、LIDARベースのポイントクラウドセグメンテーションのラベルフリーモデル障害検出を導入し、利用可能な豊富な非標識データを活用します。
障害モードを検出するために、同じタスクに対して監視された自己監視されたストリームをトレーニングすることにより、さまざまなデータ特性を活用します。
大規模な定性分析を実行し、広範な定量分析のために、実際のライダーデータにラベル付けされた異常を備えた最初の公開データセットであるLidarcodaを提示します。

要約(オリジナル)

Autonomous vehicles drive millions of miles on the road each year. Under such circumstances, deployed machine learning models are prone to failure both in seemingly normal situations and in the presence of outliers. However, in the training phase, they are only evaluated on small validation and test sets, which are unable to reveal model failures due to their limited scenario coverage. While it is difficult and expensive to acquire large and representative labeled datasets for evaluation, large-scale unlabeled datasets are typically available. In this work, we introduce label-free model failure detection for lidar-based point cloud segmentation, taking advantage of the abundance of unlabeled data available. We leverage different data characteristics by training a supervised and self-supervised stream for the same task to detect failure modes. We perform a large-scale qualitative analysis and present LidarCODA, the first publicly available dataset with labeled anomalies in real-world lidar data, for an extensive quantitative analysis.

arxiv情報

著者 Daniel Bogdoll,Finn Sartoris,Vincent Geppert,Svetlana Pavlitska,J. Marius Zöllner
発行日 2025-04-24 09:40:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

Bias-Eliminated PnP for Stereo Visual Odometry: Provably Consistent and Large-Scale Localization

要約

この論文では、最初に、確かな一貫性を備えたステレオ視覚臭気(VO)のバイアス除去重量(バイアス-ELI-W)パースペクティブ-Nポイント(PNP)推定器を提示します。
具体的には、統計理論を活用して、漸近的に偏りのない{n} $を発症します – さまざまな3D三角測量の不確実性を説明する一貫したPNP推定器を開発し、特徴の数が増えるにつれて相対ポーズ推定値がグラウンドトゥルースに収束することを保証します。
次に、ステレオVOパイプライン側では、新しいフレームを追跡するための現代的な機能を継続的に三角形にし、ポーズと3Dポイントエラーの間の時間的依存性を効果的に切り離すフレームワークを提案します。
バイアス-ELI-W PNP推定器を提案されたステレオVOパイプラインに統合し、ポーズ推定エラーの抑制を強化する相乗効果を生み出します。
KittiおよびOxford Robotcarデータセットでの方法のパフォーマンスを検証します。
実験結果は、我々の方法が次のことを示しています。1)大規模環境での相対的なポーズ誤差と絶対軌道誤差の両方で大幅な改善を達成することを示しています。
2)不安定で予測不可能なロボットモーションの下で信頼できるローカリゼーションを提供します。
ステレオVOにおけるバイアス-ELI-W PNPの実装が成功したことは、PNPが重要な成分である多様なアプリケーションに光を当て、高不確実性測定を備えたロボット推定タスクにおける情報スクリーニングの重要性を示しています。

要約(オリジナル)

In this paper, we first present a bias-eliminated weighted (Bias-Eli-W) perspective-n-point (PnP) estimator for stereo visual odometry (VO) with provable consistency. Specifically, leveraging statistical theory, we develop an asymptotically unbiased and $\sqrt {n}$-consistent PnP estimator that accounts for varying 3D triangulation uncertainties, ensuring that the relative pose estimate converges to the ground truth as the number of features increases. Next, on the stereo VO pipeline side, we propose a framework that continuously triangulates contemporary features for tracking new frames, effectively decoupling temporal dependencies between pose and 3D point errors. We integrate the Bias-Eli-W PnP estimator into the proposed stereo VO pipeline, creating a synergistic effect that enhances the suppression of pose estimation errors. We validate the performance of our method on the KITTI and Oxford RobotCar datasets. Experimental results demonstrate that our method: 1) achieves significant improvements in both relative pose error and absolute trajectory error in large-scale environments; 2) provides reliable localization under erratic and unpredictable robot motions. The successful implementation of the Bias-Eli-W PnP in stereo VO indicates the importance of information screening in robotic estimation tasks with high-uncertainty measurements, shedding light on diverse applications where PnP is a key ingredient.

arxiv情報

著者 Guangyang Zeng,Yuan Shen,Ziyang Hong,Yuze Hong,Viorela Ila,Guodong Shi,Junfeng Wu
発行日 2025-04-24 10:03:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする