4D Radar-Inertial Odometry based on Gaussian Modeling and Multi-Hypothesis Scan Matching

要約

4dミリ波(mmwave)レーダーは、有害な気象条件(雨、雪、霧など)に対して堅牢性を提供するセンサーであり、そのため、臭気とスラムのアプリケーションにますます使用されています。
ただし、返されたスキャンデータのノイズが多く、まばらな性質は、既存のポイントクラウドマッチングベースのソリューション、特に元々Lidarなどのより正確なセンサーを対象としたソリューションの困難な障害であることがわかります。
3Dガウスのスプラッティングに関する視覚的な臭気研究に触発されたこのペーパーでは、自由に配置された3Dガウス症を使用して、センサーノイズに耐性のあるレーダーポイントクラウドの要約表現を作成し、その後、登録に固有の確率分布関数を活用します(NDTと同様)。
さらに、関数のローカルオプティマに対するシステムの堅牢性をさらに高めるために、複数のスキャンマッチング仮説を同時に最適化することを提案します。
最後に、ガウスモデリングを融合し、一致するアルゴリズムをスキャンして、現在のベストプラクティスの後に設計されたEKFレーダー介入臭気システムになります。
公開されている4Dレーダーデータセットを使用した実験は、ガウスベースの臭気測定が既存の登録アルゴリズムに匹敵し、いくつかのシーケンスでそれらを上回ることを示しています。

要約(オリジナル)

4D millimeter-wave (mmWave) radars are sensors that provide robustness against adverse weather conditions (rain, snow, fog, etc.), and as such they are increasingly being used for odometry and SLAM applications. However, the noisy and sparse nature of the returned scan data proves to be a challenging obstacle for existing point cloud matching based solutions, especially those originally intended for more accurate sensors such as LiDAR. Inspired by visual odometry research around 3D Gaussian Splatting, in this paper we propose using freely positioned 3D Gaussians to create a summarized representation of a radar point cloud tolerant to sensor noise, and subsequently leverage its inherent probability distribution function for registration (similar to NDT). Moreover, we propose simultaneously optimizing multiple scan matching hypotheses in order to further increase the robustness of the system against local optima of the function. Finally, we fuse our Gaussian modeling and scan matching algorithms into an EKF radar-inertial odometry system designed after current best practices. Experiments using publicly available 4D radar datasets show that our Gaussian-based odometry is comparable to existing registration algorithms, outperforming them in several sequences.

arxiv情報

著者 Fernando Amodeo,Luis Merino,Fernando Caballero
発行日 2025-06-11 10:49:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | 4D Radar-Inertial Odometry based on Gaussian Modeling and Multi-Hypothesis Scan Matching はコメントを受け付けていません

Analytic Task Scheduler: Recursive Least Squares Based Method for Continual Learning in Embodied Foundation Models

要約

具体化された基礎モデルは、固有受容、ビジョン、言語などのマルチモーダル入力を統合して、人間の意図を理解し、ロボットを制御するアクションを生成することにより、人工知能(AI)の物理的世界と相互作用するために重要です。
これらのモデルは、強力な一般化と少数のショット学習能力を示していますが、以前に学んだスキルを忘れずに新しいスキルを継続的に獲得することにおいて、壊滅的な忘却として知られる問題を継続的に獲得することに大きな課題に直面しています。
この問題に対処するために、具体化された基礎モデルで継続的な学習のための新しいフレームワークであるAnalytic Task Scheduler(ATS)を提案します。
ATSはタスク固有のモデルライブラリで構成されており、各モデルは単一のタスクで独立して微調整されており、再帰的最小二乗(RLS)を使用して訓練された分析スケジューラが言語命令とタスク固有のモデルの間のマッピングを学習します。
このアーキテクチャにより、正確なタスク認識と動的モデルの選択が可能になり、タスク全体のパラメーター干渉を根本的に回避できます。
スケジューラは、統計のみ(自己相関と相互相関行列)のみを使用してそのパラメーターを段階的に更新し、履歴データを再訪する必要なく耐性のある学習を可能にします。
現実世界のロボットプラットフォーム(RM65B)でATSを検証し、忘却に対する優れた抵抗とタスクのバリエーションに対する強力な適応性を示しています。
この結果は、ATSが複雑で動的な環境で動作する具体化された基礎モデルで継続的な学習のための効果的でスケーラブルで展開可能なソリューションとして強調しています。
当社のコードは、https://github.com/miaa-embodied-ai/analyticticskschedulerで入手できます

要約(オリジナル)

Embodied foundation models are crucial for Artificial Intelligence (AI) interacting with the physical world by integrating multi-modal inputs, such as proprioception, vision and language, to understand human intentions and generate actions to control robots. While these models demonstrate strong generalization and few-shot learning capabilities, they face significant challenges in continually acquiring new skills without forgetting previously learned skills, a problem known as catastrophic forgetting. To address this issue, we propose the Analytic Task Scheduler (ATS), a novel framework for continual learning in embodied foundation models. ATS consists of a task-specific model library, where each model is fine-tuned independently on a single task, and an analytic scheduler trained using recursive least squares (RLS) to learn the mapping between language instructions and task-specific models. This architecture enables accurate task recognition and dynamic model selection while fundamentally avoiding parameter interference across tasks. The scheduler updates its parameters incrementally using only statistics (autocorrelation and cross-correlation matrices), enabling forgetting-resistant learning without the need to revisit historical data. We validate ATS on a real-world robot platform (RM65B), demonstrating superior resistance to forgetting and strong adaptability to task variations. The results highlight ATS as an effective, scalable, and deployable solution for continual learning in embodied foundation models operating in complex, dynamic environments. Our code will be available at https://github.com/MIAA-Embodied-AI/AnalyticTaskScheduler

arxiv情報

著者 Lipei Xie,Yingxin Li,Huiping Zhuang
発行日 2025-06-11 11:28:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Analytic Task Scheduler: Recursive Least Squares Based Method for Continual Learning in Embodied Foundation Models はコメントを受け付けていません

V2I-Calib++: A Multi-terminal Spatial Calibration Approach in Urban Intersections for Collaborative Perception

要約

歩行者や車両の交通量が密集しており、高層ビルからのGPS信号障害によって悪化した都市の交差点は、都市交通システムで最も困難な地域の1つです。
従来の単一車両インテリジェンスシステムは、グローバルなトラフィックフロー情報が不足しているため、予期しないイベントに対応する能力により、このような環境では不十分に機能しません。
車両(V2X)テクノロジーは、車両(V2V)と車両からインフラストラクチャ(V2I)間のリアルタイム通信を通じて、堅牢なソリューションを提供します。
ただし、実用的なアプリケーションは依然として多くの課題に直面しています。
マルチエンドLIDARシステムの不均一な車両とインフラストラクチャエンドポイント間のキャリブレーションは、知覚システムデータの精度と一貫性を確保するために重要です。
ほとんどの既存のマルチエンドのキャリブレーション方法は、位置決めシステムによって提供される初期キャリブレーション値に依存していますが、都市の峡谷の高い建物によるGPSシグナルの不安定性は、これらの方法に深刻な課題をもたらします。
この問題に対処するために、このペーパーでは、初期外部パラメーターを決定するためにプライアーを配置する必要がない新しいマルチエンドLIDARシステムキャリブレーション方法を提案し、リアルタイムの要件を満たしています。
私たちの方法では、新しい全体的な距離メトリック(ODIST)を利用して知覚オブジェクト間の空間的関連を測定し、グローバルな一貫性検索アルゴリズムと最適な輸送理論を効果的に組み合わせて、革新的なマルチエンド認識オブジェクトアソシエーションの手法を紹介します。
これにより、外部パラメーターの計算と最適化のために、オブジェクト関連の結果から共存したターゲットを抽出できます。
シミュレートされたデータセットV2X-SIMおよび実際のデータセットDair-V2Xで行われた広範な比較およびアブレーション実験は、この方法の有効性と効率を確認します。
この方法のコードには、https://github.com/massimoqu/v2i-calibにアクセスできます。

要約(オリジナル)

Urban intersections, dense with pedestrian and vehicular traffic and compounded by GPS signal obstructions from high-rise buildings, are among the most challenging areas in urban traffic systems. Traditional single-vehicle intelligence systems often perform poorly in such environments due to a lack of global traffic flow information and the ability to respond to unexpected events. Vehicle-to-Everything (V2X) technology, through real-time communication between vehicles (V2V) and vehicles to infrastructure (V2I), offers a robust solution. However, practical applications still face numerous challenges. Calibration among heterogeneous vehicle and infrastructure endpoints in multi-end LiDAR systems is crucial for ensuring the accuracy and consistency of perception system data. Most existing multi-end calibration methods rely on initial calibration values provided by positioning systems, but the instability of GPS signals due to high buildings in urban canyons poses severe challenges to these methods. To address this issue, this paper proposes a novel multi-end LiDAR system calibration method that does not require positioning priors to determine initial external parameters and meets real-time requirements. Our method introduces an innovative multi-end perception object association technique, utilizing a new Overall Distance metric (oDist) to measure the spatial association between perception objects, and effectively combines global consistency search algorithms with optimal transport theory. By this means, we can extract co-observed targets from object association results for further external parameter computation and optimization. Extensive comparative and ablation experiments conducted on the simulated dataset V2X-Sim and the real dataset DAIR-V2X confirm the effectiveness and efficiency of our method. The code for this method can be accessed at: https://github.com/MassimoQu/v2i-calib.

arxiv情報

著者 Qianxin Qu,Xinyu Zhang,Yifan Cheng,Yijin Xiong,Chen Xia,Qian Peng,Ziqiang Song,Kang Liu,Xin Wu,Jun Li
発行日 2025-06-11 11:37:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | V2I-Calib++: A Multi-terminal Spatial Calibration Approach in Urban Intersections for Collaborative Perception はコメントを受け付けていません

R-CARLA: High-Fidelity Sensor Simulations with Interchangeable Dynamics for Autonomous Racing

要約

自律的なレースは、自律運転アルゴリズムの重要なテストベッドとして浮上しており、車両のダイナミクスとセンサーの両方の動作のためのシミュレーション環境を必要とします。
車両のダイナミクスとセンサーの精度の間の適切なバランスをとることは、車両をパフォーマンスの制限に押し込むために重要です。
ただし、自律レース開発者は、正確な車両のダイナミクスと高忠実度センサーシミュレーションの間のトレードオフに直面することがよくあります。
このペーパーでは、R-Carlaを紹介します。R-Carlaは、単一のシステムを使用して、知覚から制御まで、総合的なフルスタックテストをサポートするカーラシミュレーターの強化です。
正確な車両のダイナミクスをセンサーシミュレーション、NPCとしての対戦シミュレーション、および実際のロボットデータからデジタルツインを作成するためのパイプラインとシームレスに統合することにより、R-Carlaは研究者が自律レース開発の境界を押し広げることができます。
さらに、Carlaのリッチなセンサーシミュレーションスイートを使用して開発されています。
我々の結果は、提案されたデジタルツインフレームワークをR-CARLAに組み込むことで、より現実的なフルスタックテストが可能になり、さまざまなテストシナリオにわたってセンサーシミュレーションの場合、CARダイナミクスシミュレーションのSIMからリアルギャップが42%、82%減少することを示すことを示しています。

要約(オリジナル)

Autonomous racing has emerged as a crucial testbed for autonomous driving algorithms, necessitating a simulation environment for both vehicle dynamics and sensor behavior. Striking the right balance between vehicle dynamics and sensor accuracy is crucial for pushing vehicles to their performance limits. However, autonomous racing developers often face a trade-off between accurate vehicle dynamics and high-fidelity sensor simulations. This paper introduces R-CARLA, an enhancement of the CARLA simulator that supports holistic full-stack testing, from perception to control, using a single system. By seamlessly integrating accurate vehicle dynamics with sensor simulations, opponents simulation as NPCs, and a pipeline for creating digital twins from real-world robotic data, R-CARLA empowers researchers to push the boundaries of autonomous racing development. Furthermore, it is developed using CARLA’s rich suite of sensor simulations. Our results indicate that incorporating the proposed digital-twin framework into R-CARLA enables more realistic full-stack testing, demonstrating a significant reduction in the Sim-to-Real gap of car dynamics simulation by 42% and by 82% in the case of sensor simulation across various testing scenarios.

arxiv情報

著者 Maurice Brunner,Edoardo Ghignone,Nicolas Baumann,Michele Magno
発行日 2025-06-11 11:38:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | R-CARLA: High-Fidelity Sensor Simulations with Interchangeable Dynamics for Autonomous Racing はコメントを受け付けていません

Generalizable and Fast Surrogates: Model Predictive Control of Articulated Soft Robots using Physics-Informed Neural Networks

要約

ソフトロボットは、器用さと安全性に関する高い要求でいくつかのアプリケーションに革命をもたらすことができます。
これらのシステムを操作する場合、リアルタイムの推定と制御には、迅速かつ正確なモデルが必要です。
ただし、第一原理(FP)モデルを使用した予測は遅く、学習されたブラックボックスモデルの一般化は不十分です。
物理学に基づいた機械学習はここで優れた利点を提供しますが、現在、トレーニング後の変更を考慮せずに、シンプルで多くの場合シミュレートされたシステムに限定されています。
データ効率に焦点を当てた明確なソフトロボット(ASR)の物理学に基づいたニューラルネットワーク(PINN)を提案します。
高価な実世界のトレーニングデータの量は、1つのシステムドメインの1つのデータセットに最小限に削減されます。
異なるドメインの2時間のデータが、2つの金標準アプローチとの比較に使用されます。再発性ニューラルネットワークとは対照的に、PINNは高い一般化可能性を提供します。
正確なFPモデルの予測速度は、PINNを超えて、精度がわずかに低下して467倍まで超えられます。
これにより、空気圧ASRの非線形モデル予測制御(MPC)が可能になります。
47 Hzで実行されるMPCを使用した正確な位置追跡は、6つの動的実験で達成されます。

要約(オリジナル)

Soft robots can revolutionize several applications with high demands on dexterity and safety. When operating these systems, real-time estimation and control require fast and accurate models. However, prediction with first-principles (FP) models is slow, and learned black-box models have poor generalizability. Physics-informed machine learning offers excellent advantages here, but it is currently limited to simple, often simulated systems without considering changes after training. We propose physics-informed neural networks (PINNs) for articulated soft robots (ASRs) with a focus on data efficiency. The amount of expensive real-world training data is reduced to a minimum — one dataset in one system domain. Two hours of data in different domains are used for a comparison against two gold-standard approaches: In contrast to a recurrent neural network, the PINN provides a high generalizability. The prediction speed of an accurate FP model is exceeded with the PINN by up to a factor of 467 at slightly reduced accuracy. This enables nonlinear model predictive control (MPC) of a pneumatic ASR. Accurate position tracking with the MPC running at 47 Hz is achieved in six dynamic experiments.

arxiv情報

著者 Tim-Lukas Habich,Aran Mohammad,Simon F. G. Ehlers,Martin Bensch,Thomas Seel,Moritz Schappler
発行日 2025-06-11 12:07:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Generalizable and Fast Surrogates: Model Predictive Control of Articulated Soft Robots using Physics-Informed Neural Networks はコメントを受け付けていません

HopaDIFF: Holistic-Partial Aware Fourier Conditioned Diffusion for Referring Human Action Segmentation in Multi-Person Scenarios

要約

アクションセグメンテーションは、高レベルのビデオ理解における中心的な課題であり、トリミングされていないビデオをセグメントに分割し、事前定義されたアクションセットからそれぞれのラベルを割り当てることを目指しています。
既存の方法は、主に固定アクションシーケンスを使用した単一人のアクティビティに対処し、マルチパーソンシナリオを見落としています。
この作業では、マルチパーソン設定でのテキスト参照ガイド付きヒューマンアクションセグメンテーションの先駆者であり、テキストの説明がセグメンテーションのターゲット担当者を指定します。
人間のアクションセグメンテーションを参照するための最初のデータセット、つまり133の映画から構築され、33hのビデオデータを含む137の微調整されたアクションを注釈と、この新しいタスクのテキストの説明を紹介するための最初のデータセットを紹介します。
VLMベースの特徴抽出器を使用したRHAS133の既存のアクション認識方法のベンチマークは、ターゲットの人の視覚的な手がかりの限られたパフォーマンスと不十分な集約を明らかにします。
これに対処するために、全体的な特に意識したフーリエ条件付き拡散フレームワーク、すなわちホパディフを提案します。つまり、ホパジフは、新しいクロス入力ゲートの注意XLSTMを活用して、ホリスティックな特別な長距離推論と新しいフーリエ条件を強化して、アクションセグメンテーションの生成を改善するためのより微細なコントロールを導入します。
Hopadiffは、多様な評価設定でRHAS133で最新の結果を達成しています。
このコードは、https://github.com/kpeng9510/hopadiff.gitで入手できます。

要約(オリジナル)

Action segmentation is a core challenge in high-level video understanding, aiming to partition untrimmed videos into segments and assign each a label from a predefined action set. Existing methods primarily address single-person activities with fixed action sequences, overlooking multi-person scenarios. In this work, we pioneer textual reference-guided human action segmentation in multi-person settings, where a textual description specifies the target person for segmentation. We introduce the first dataset for Referring Human Action Segmentation, i.e., RHAS133, built from 133 movies and annotated with 137 fine-grained actions with 33h video data, together with textual descriptions for this new task. Benchmarking existing action recognition methods on RHAS133 using VLM-based feature extractors reveals limited performance and poor aggregation of visual cues for the target person. To address this, we propose a holistic-partial aware Fourier-conditioned diffusion framework, i.e., HopaDIFF, leveraging a novel cross-input gate attentional xLSTM to enhance holistic-partial long-range reasoning and a novel Fourier condition to introduce more fine-grained control to improve the action segmentation generation. HopaDIFF achieves state-of-the-art results on RHAS133 in diverse evaluation settings. The code is available at https://github.com/KPeng9510/HopaDIFF.git.

arxiv情報

著者 Kunyu Peng,Junchao Huang,Xiangsheng Huang,Di Wen,Junwei Zheng,Yufan Chen,Kailun Yang,Jiamin Wu,Chongqing Hao,Rainer Stiefelhagen
発行日 2025-06-11 12:13:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM, cs.RO, eess.IV | HopaDIFF: Holistic-Partial Aware Fourier Conditioned Diffusion for Referring Human Action Segmentation in Multi-Person Scenarios はコメントを受け付けていません

Human-robot collaborative transport personalization via Dynamic Movement Primitives and velocity scaling

要約

現在、業界は、特に共有されたタスクに対して、人間とロボットのコラボレーションに関心が高まっています。
これには、タスクの制約と高さや運動の好みなどの人間固有の要因の両方を考慮して、ロボットの動きを計画するためのインテリジェントな戦略が必要です。
この作業では、人間のフィードバックに基づいてリアルタイム速度スケーリングで強化された動的運動プリミティブ(DMP)を使用してパーソナライズされた軌跡を生成するための新しいアプローチを導入します。
この方法は、エンジンカウルリップセクションの共同輸送に焦点を当てた産業用グレードの実験で厳密にテストされました。
DMPで生成された軌跡と最先端のモーションプランナー(BITRRT)の比較分析は、速度スケーリングと組み合わせた適応性を強調しています。
主観的なユーザーフィードバックは、DMPベースの相互作用に対する明確な好みをさらに示しています。
脳と皮膚の活動からの生理学的測定値を含む客観的評価は、これらの発見を強化し、ヒトとロボットの相互作用を強化し、ユーザーエクスペリエンスの向上におけるDMPの利点を示します。

要約(オリジナル)

Nowadays, industries are showing a growing interest in human-robot collaboration, particularly for shared tasks. This requires intelligent strategies to plan a robot’s motions, considering both task constraints and human-specific factors such as height and movement preferences. This work introduces a novel approach to generate personalized trajectories using Dynamic Movement Primitives (DMPs), enhanced with real-time velocity scaling based on human feedback. The method was rigorously tested in industrial-grade experiments, focusing on the collaborative transport of an engine cowl lip section. Comparative analysis between DMP-generated trajectories and a state-of-the-art motion planner (BiTRRT) highlights their adaptability combined with velocity scaling. Subjective user feedback further demonstrates a clear preference for DMP- based interactions. Objective evaluations, including physiological measurements from brain and skin activity, reinforce these findings, showcasing the advantages of DMPs in enhancing human-robot interaction and improving user experience.

arxiv情報

著者 Paolo Franceschi,Andrea Bussolan,Vincenzo Pomponi,Oliver Avram,Stefano Baraldo,Anna Valente
発行日 2025-06-11 13:12:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Human-robot collaborative transport personalization via Dynamic Movement Primitives and velocity scaling はコメントを受け付けていません

STAR: Learning Diverse Robot Skill Abstractions through Rotation-Augmented Vector Quantization

要約

複雑なアクションを個別のスキル抽象化に変換することは、ロボット操作の強い可能性を実証しています。
既存のアプローチは、主に潜在変数モデル、例えばVQ-VAEを活用して、学習ベクトル(コードブック)を介してスキルの抽象化を学習しますが、コードブックの崩壊と学習スキル間の因果関係のモデル化に苦しんでいます。
これらの制限に対処するために、\ textbf {s} kill \ textbf {t} \ textbf {a} ugented \ textbf {r} otation(\ textbf {star})を紹介します。
具体的には、コードブックの崩壊を防ぐために、回転式の残留スキル量子化(RARSQ)を考案します。
回転ベースの勾配メカニズムにより、エンコーダー出力間の相対角度を勾配流にエンコードします。
同じスキルコード内のポイントは、グラデーションの方向に応じて、引き離されるか、近くに引っ張られることを余儀なくされます。
さらに、スキル間の因果関係を捉えるために、コヒーレントアクション生成の自己回帰メカニズムを通じてスキル表現間の依存関係を明示的にモデル化する因果スキルトランス(CST)を提示します。
広範な実験は、リベロのベンチマークとレアルワールドの両方のタスクでのスターの優位性を示しており、ベースラインよりも約12 \%が改善されています。

要約(オリジナル)

Transforming complex actions into discrete skill abstractions has demonstrated strong potential for robotic manipulation. Existing approaches mainly leverage latent variable models, e.g., VQ-VAE, to learn skill abstractions through learned vectors (codebooks), while they suffer from codebook collapse and modeling the causal relationship between learned skills. To address these limitations, we present \textbf{S}kill \textbf{T}raining with \textbf{A}ugmented \textbf{R}otation (\textbf{STAR}), a framework that advances both skill learning and composition to complete complex behaviors. Specifically, to prevent codebook collapse, we devise rotation-augmented residual skill quantization (RaRSQ). It encodes relative angles between encoder outputs into the gradient flow by rotation-based gradient mechanism. Points within the same skill code are forced to be either pushed apart or pulled closer together depending on gradient directions. Further, to capture the causal relationship between skills, we present causal skill transformer (CST) which explicitly models dependencies between skill representations through an autoregressive mechanism for coherent action generation. Extensive experiments demonstrate the superiority of STAR on both LIBERO benchmark and realworld tasks, with around 12\% improvement over the baselines.

arxiv情報

著者 Hao Li,Qi Lv,Rui Shao,Xiang Deng,Yinchuan Li,Jianye Hao,Liqiang Nie
発行日 2025-06-11 13:50:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | STAR: Learning Diverse Robot Skill Abstractions through Rotation-Augmented Vector Quantization はコメントを受け付けていません

Hierarchical Image Matching for UAV Absolute Visual Localization via Semantic and Structural Constraints

要約

グローバルな参照に関するエージェントの位置を決定することを目的とする絶対的なローカリゼーションは、さまざまなアプリケーションで無人航空機(UAV)にとって重要ですが、グローバルナビゲーション衛星システム(GNSS)信号が利用できない場合に困難になります。
参照衛星マップにUAVの現在のビューを位置付けるために、その位置を推定する視覚ベースの絶対ローカリゼーション方法は、GNSSが除去したシナリオで人気を博しています。
ただし、既存の方法は、主に従来の画像と低レベルの画像のマッチングに依存しており、クロスソースの矛盾と時間的変動によって導入された大きな違いにより困難に悩まされています。
これらの制限を克服するために、このホワイトペーパーでは、UAV絶対ローカリゼーションのために設計された階層的なクロスソース画像マッチング方法を紹介します。
具体的には、粗いマッチングモジュールでは、Vision Foundationモデルから派生したセマンティック機能は、最初にセマンティックおよび構造的制約の下で領域レベルの対応を確立します。
次に、微細に一致するモジュールが適用され、微細な機能を抽出し、ピクセルレベルの対応を確立します。
これに基づいて、主に提案された階層画像マッチングモジュールの前に画像検索モジュールを使用することにより、相対的なローカリゼーション技術に依存せずにUAV絶対視覚的ローカリゼーションパイプラインが構築されます。
パブリックベンチマークデータセットと新しく導入されたCS-UAVデータセットでの実験的評価は、さまざまな困難な条件下で提案された方法の優れた精度と堅牢性を示し、その有効性を確認します。

要約(オリジナル)

Absolute localization, aiming to determine an agent’s location with respect to a global reference, is crucial for unmanned aerial vehicles (UAVs) in various applications, but it becomes challenging when global navigation satellite system (GNSS) signals are unavailable. Vision-based absolute localization methods, which locate the current view of the UAV in a reference satellite map to estimate its position, have become popular in GNSS-denied scenarios. However, existing methods mostly rely on traditional and low-level image matching, suffering from difficulties due to significant differences introduced by cross-source discrepancies and temporal variations. To overcome these limitations, in this paper, we introduce a hierarchical cross-source image matching method designed for UAV absolute localization, which integrates a semantic-aware and structure-constrained coarse matching module with a lightweight fine-grained matching module. Specifically, in the coarse matching module, semantic features derived from a vision foundation model first establish region-level correspondences under semantic and structural constraints. Then, the fine-grained matching module is applied to extract fine features and establish pixel-level correspondences. Building upon this, a UAV absolute visual localization pipeline is constructed without any reliance on relative localization techniques, mainly by employing an image retrieval module before the proposed hierarchical image matching modules. Experimental evaluations on public benchmark datasets and a newly introduced CS-UAV dataset demonstrate superior accuracy and robustness of the proposed method under various challenging conditions, confirming its effectiveness.

arxiv情報

著者 Xiangkai Zhang,Xiang Zhou,Mao Chen,Yuchen Lu,Xu Yang,Zhiyong Liu
発行日 2025-06-11 13:53:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Hierarchical Image Matching for UAV Absolute Visual Localization via Semantic and Structural Constraints はコメントを受け付けていません

Learning to Optimize Package Picking for Large-Scale, Real-World Robot Induction

要約

倉庫の自動化は、運用効率を高め、コストを最小限に抑え、労働力の変動に対する回復力を向上させる上で極めて重要な役割を果たします。
以前の研究では、機械学習(ML)モデルが高度なパッケージとパッケージに優先順位を付けることにより、大規模なロボット艦隊のピッキング成功率を高める可能性を実証していますが、これらの取り組みは主に、ヒューリスティックな方法を使用してサンプリングされたピックの成功確率の予測に焦点を当てています。
ただし、サンプルピックを直接最適化して、規模のパフォーマンスを向上させるために、データ駆動型のアプローチを活用することには限られた注意が払われています。
この研究では、変換調整を予測するMLベースのフレームワークと、サンプリングされたピックのマルチサクチャーエンドエフェクターの吸引カップの選択を改善して、成功の確率を高めることを提案します。
このフレームワークは、パッケージ操作に使用されるAmazon Roboticsのロボット誘導(Robin)艦隊の操作に似たテストワークセルに統合および評価されました。
200万を超えるピックで評価されたこの提案された方法は、ヒューリスティックベースのピックサンプリングベースラインと比較して、ピック故障率の20 \%の削減を実現し、大規模な倉庫自動化シナリオでの有効性を示しています。

要約(オリジナル)

Warehouse automation plays a pivotal role in enhancing operational efficiency, minimizing costs, and improving resilience to workforce variability. While prior research has demonstrated the potential of machine learning (ML) models to increase picking success rates in large-scale robotic fleets by prioritizing high-probability picks and packages, these efforts primarily focused on predicting success probabilities for picks sampled using heuristic methods. Limited attention has been given, however, to leveraging data-driven approaches to directly optimize sampled picks for better performance at scale. In this study, we propose an ML-based framework that predicts transform adjustments as well as improving the selection of suction cups for multi-suction end effectors for sampled picks to enhance their success probabilities. The framework was integrated and evaluated in test workcells that resemble the operations of Amazon Robotics’ Robot Induction (Robin) fleet, which is used for package manipulation. Evaluated on over 2 million picks, the proposed method achieves a 20\% reduction in pick failure rates compared to a heuristic-based pick sampling baseline, demonstrating its effectiveness in large-scale warehouse automation scenarios.

arxiv情報

著者 Shuai Li,Azarakhsh Keipour,Sicong Zhao,Srinath Rajagopalan,Charles Swan,Kostas E. Bekris
発行日 2025-06-11 14:04:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Learning to Optimize Package Picking for Large-Scale, Real-World Robot Induction はコメントを受け付けていません