Semantic Segmentation and Scene Reconstruction of RGB-D Image Frames: An End-to-End Modular Pipeline for Robotic Applications

要約

構造化されていない環境で動作するロボットには、周囲の包括的な理解が必要であり、センサーデータからの幾何学的および意味情報が必要です。
従来のRGB-D処理パイプラインは、主に幾何学的再構築に焦点を当て、高度なロボット認識、計画、および相互作用をサポートする能力を制限します。
重要な課題は、正確な幾何学的表現を維持しながら、RGB-Dデータを意味的に意味のあるコンポーネントにセグメント化するための一般化された方法がないことです。
最先端のセマンティックセグメンテーション、人間の追跡、ポイントクラウド融合、シーンの再建を統合する新しいエンドツーエンドモジュラーパイプラインを紹介します。
私たちのアプローチは、基礎セグメンテーションモデルのSAM2をマスク生成とセマンティック分類モデルを組み合わせたハイブリッドメソッドで活用することにより、セマンティックセグメンテーションの精度を向上させ、よりシャープなマスクと高分類の精度をもたらします。
SegformerおよびOneFormerと比較して、私たちの方法は、同様のセマンティックセグメンテーション精度(ADE20Kデータセットで47.0%対45.9%のMIOU)を達成しますが、より正確なオブジェクト境界を提供します。
さらに、当社の人間の追跡アルゴリズムは、オブジェクトがオブジェクトの再識別によってフレームに再入力した場合でも連続追跡を可能にするセグメンテーションと相互作用します。
ポイントクラウドフュージョンアプローチは、セマンティック情報を活用することにより、25.3 mmの小さな平均再構成誤差を維持しながら、計算時間を1.81倍短縮します。
ベンチマークデータセットと実世界のKinect RGB-Dデータに関するアプローチを検証し、効率、精度、使いやすさの向上を示します。
ユニバーサルシーンの説明(USD)形式に保存されている構造化された表現は、効率的なクエリ、視覚化、ロボットシミュレーションをサポートし、実際の展開に実用的にします。

要約(オリジナル)

Robots operating in unstructured environments require a comprehensive understanding of their surroundings, necessitating geometric and semantic information from sensor data. Traditional RGB-D processing pipelines focus primarily on geometric reconstruction, limiting their ability to support advanced robotic perception, planning, and interaction. A key challenge is the lack of generalized methods for segmenting RGB-D data into semantically meaningful components while maintaining accurate geometric representations. We introduce a novel end-to-end modular pipeline that integrates state-of-the-art semantic segmentation, human tracking, point-cloud fusion, and scene reconstruction. Our approach improves semantic segmentation accuracy by leveraging the foundational segmentation model SAM2 with a hybrid method that combines its mask generation with a semantic classification model, resulting in sharper masks and high classification accuracy. Compared to SegFormer and OneFormer, our method achieves a similar semantic segmentation accuracy (mIoU of 47.0% vs 45.9% in the ADE20K dataset) but provides much more precise object boundaries. Additionally, our human tracking algorithm interacts with the segmentation enabling continuous tracking even when objects leave and re-enter the frame by object re-identification. Our point cloud fusion approach reduces computation time by 1.81x while maintaining a small mean reconstruction error of 25.3 mm by leveraging the semantic information. We validate our approach on benchmark datasets and real-world Kinect RGB-D data, demonstrating improved efficiency, accuracy, and usability. Our structured representation, stored in the Universal Scene Description (USD) format, supports efficient querying, visualization, and robotic simulation, making it practical for real-world deployment.

arxiv情報

著者 Zhiwu Zheng,Lauren Mentzer,Berk Iskender,Michael Price,Colm Prendergast,Audren Cloitre
発行日 2025-04-22 19:28:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Semantic Segmentation and Scene Reconstruction of RGB-D Image Frames: An End-to-End Modular Pipeline for Robotic Applications はコメントを受け付けていません

Mass-Adaptive Admittance Control for Robotic Manipulators

要約

不明または変化する質量を持つオブジェクトの処理は、ロボット工学の一般的な課題であり、制御システムがリアルタイムで適応できない場合、多くの場合エラーや不安定性につながります。
このホワイトペーパーでは、6度のフリードムロボットマニピュレーターが、未知のペイロード重量を自動的に推定および補償しながら、ウェイポイントを確実に追跡できるようにする新しいアプローチを紹介します。
私たちの方法は、アドミタンス制御フレームワークを質量推定器と統合し、ロボットがペイロード質量を補うために励起力を動的に更新できるようにします。
この戦略は、エンドエフェクターのたるみを軽減し、不明な重みのオブジェクトを処理するときに安定性を保持します。
クロスバーを備えた棚にある挑戦的なピックアンドプレイスタスクでのアプローチを実験的に検証し、ベースラインのアドロール制度と比較して、ウェイポイントに到達する際の正確性、準拠の動きを改善しました。
未知のペイロードに安全に対応することにより、私たちの作業はロボットオートメーションの柔軟性を高め、不確実な環境の適応制御における重要な前進を表しています。

要約(オリジナル)

Handling objects with unknown or changing masses is a common challenge in robotics, often leading to errors or instability if the control system cannot adapt in real-time. In this paper, we present a novel approach that enables a six-degrees-of-freedom robotic manipulator to reliably follow waypoints while automatically estimating and compensating for unknown payload weight. Our method integrates an admittance control framework with a mass estimator, allowing the robot to dynamically update an excitation force to compensate for the payload mass. This strategy mitigates end-effector sagging and preserves stability when handling objects of unknown weights. We experimentally validated our approach in a challenging pick-and-place task on a shelf with a crossbar, improved accuracy in reaching waypoints and compliant motion compared to a baseline admittance-control scheme. By safely accommodating unknown payloads, our work enhances flexibility in robotic automation and represents a significant step forward in adaptive control for uncertain environments.

arxiv情報

著者 Hossein Gholampour,Jonathon E. Slightam,Logan E. Beaver
発行日 2025-04-22 19:34:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Mass-Adaptive Admittance Control for Robotic Manipulators はコメントを受け付けていません

M2P2: A Multi-Modal Passive Perception Dataset for Off-Road Mobility in Extreme Low-Light Conditions

要約

長期、オフロード、自律的なミッションでは、周囲の照明条件に関係なく、ロボットが周囲を継続的に知覚する必要があります。
ほとんどの既存の自律システムは、環境ジオメトリとセマンティクスを認識するために、リダー、レーダー、フライト時間センサーなどのアクティブなセンシング、たとえば、使用可能なライトイメージングセンサー(カラーカメラなど)に大きく依存しています。
完全に受動的な認識が必要であり、照明条件が目に見えるライトカメラが認識できないほどに分解されるシナリオでは、障害物回避などのほとんどの下流のモビリティタスクが不可能になります。
このような課題に対処するために、このホワイトペーパーでは、低気光条件でオフロードモビリティを可能にするために、マルチモーダルパッシブ認識データセットM2P2を提示します。
サーマル、イベント、ステレオRGBカメラ、GPS、2つの慣性測定ユニット(IMUS)、およびグラウンドトゥルースの高解像度LIDARを含むマルチモーダルセンサースイートを設計します。
10時間の32 kmのデータセットには、ロボット臭気やアクションなどのモビリティデータも含まれており、舗装された、トレイル、およびトレイル外の地形とともに、明るい、低光、および無灯の条件をカバーしています。
我々の結果は、エンドツーエンドの学習と古典的計画を使用して、極端な低光条件での受動的認識のみを通じてオフロードモビリティが可能であることを示しています。
プロジェクトのウェブサイトは、https://cs.gmu.edu/~xiao/research/m2p2/にあります。

要約(オリジナル)

Long-duration, off-road, autonomous missions require robots to continuously perceive their surroundings regardless of the ambient lighting conditions. Most existing autonomy systems heavily rely on active sensing, e.g., LiDAR, RADAR, and Time-of-Flight sensors, or use (stereo) visible light imaging sensors, e.g., color cameras, to perceive environment geometry and semantics. In scenarios where fully passive perception is required and lighting conditions are degraded to an extent that visible light cameras fail to perceive, most downstream mobility tasks such as obstacle avoidance become impossible. To address such a challenge, this paper presents a Multi-Modal Passive Perception dataset, M2P2, to enable off-road mobility in low-light to no-light conditions. We design a multi-modal sensor suite including thermal, event, and stereo RGB cameras, GPS, two Inertia Measurement Units (IMUs), as well as a high-resolution LiDAR for ground truth, with a novel multi-sensor calibration procedure that can efficiently transform multi-modal perceptual streams into a common coordinate system. Our 10-hour, 32 km dataset also includes mobility data such as robot odometry and actions and covers well-lit, low-light, and no-light conditions, along with paved, on-trail, and off-trail terrain. Our results demonstrate that off-road mobility is possible through only passive perception in extreme low-light conditions using end-to-end learning and classical planning. The project website can be found at https://cs.gmu.edu/~xiao/Research/M2P2/

arxiv情報

著者 Aniket Datar,Anuj Pokhrel,Mohammad Nazeri,Madhan B. Rao,Chenhui Pan,Yufan Zhang,Andre Harrison,Maggie Wigness,Philip R. Osteen,Jinwei Ye,Xuesu Xiao
発行日 2025-04-22 21:09:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | M2P2: A Multi-Modal Passive Perception Dataset for Off-Road Mobility in Extreme Low-Light Conditions はコメントを受け付けていません

Vision Controlled Orthotic Hand Exoskeleton

要約

このペーパーでは、AI視力制御の装具のエクソスケットンの設計と実装を提示して、手動障害のある個人のリハビリテーションと支援機能を強化します。
このシステムは、6クラスのデータセットでトレーニングされたカスタマイズされたMobileNet \ _V2モデルを使用して、リアルタイムオブジェクト検出を有効にするために、Edge TPUを備えたGoogle Coral Dev Board Microを活用します。
外骨格は、オブジェクトを自律的に検出し、近接性を推定し、把握およびリリースタスクの空気圧作動をトリガーし、従来のEMGベースのシステムで必要なユーザー固有のキャリブレーションの必要性を排除します。
設計は、内部バッテリーを備えたコンパクトさを優先します。
1300 mAhのバッテリーで8時間のランタイムを実現します。
実験結果は、51msの推論速度を示し、以前の反復よりも大幅な改善ですが、さまざまな照明条件とオブジェクトの向きの下でモデルの堅牢性に課題が続きます。
最新のYoloモデル(Yolov11)は15.4 FPSパフォーマンスで可能性を示しましたが、量子化の問題は展開を妨げました。
このプロトタイプは、モデルの最適化とハードウェアの小型化の将来の方向を強調しながら、実世界の支援アプリケーションの視力制御エキソ販売の実行可能性、携帯性、効率、リアルタイムの応答性のバランスをとることを強調しています。

要約(オリジナル)

This paper presents the design and implementation of an AI vision-controlled orthotic hand exoskeleton to enhance rehabilitation and assistive functionality for individuals with hand mobility impairments. The system leverages a Google Coral Dev Board Micro with an Edge TPU to enable real-time object detection using a customized MobileNet\_V2 model trained on a six-class dataset. The exoskeleton autonomously detects objects, estimates proximity, and triggers pneumatic actuation for grasp-and-release tasks, eliminating the need for user-specific calibration needed in traditional EMG-based systems. The design prioritizes compactness, featuring an internal battery. It achieves an 8-hour runtime with a 1300 mAh battery. Experimental results demonstrate a 51ms inference speed, a significant improvement over prior iterations, though challenges persist in model robustness under varying lighting conditions and object orientations. While the most recent YOLO model (YOLOv11) showed potential with 15.4 FPS performance, quantization issues hindered deployment. The prototype underscores the viability of vision-controlled exoskeletons for real-world assistive applications, balancing portability, efficiency, and real-time responsiveness, while highlighting future directions for model optimization and hardware miniaturization.

arxiv情報

著者 Connor Blais,Md Abdul Baset Sarker,Masudul H. Imtiaz
発行日 2025-04-22 23:36:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.IV, eess.SY | Vision Controlled Orthotic Hand Exoskeleton はコメントを受け付けていません

PCF-Grasp: Converting Point Completion to Geometry Feature to Enhance 6-DoF Grasp

要約

ポイントクラウドに基づく6度の自由(DOF)把握方法は、ロボットがターゲットオブジェクトを把握できるようにする上で重要な可能性を示しています。
ただし、ほとんどの既存の方法は、シングルビュー深度画像から生成されたポイントクラウド(2.5Dポイント)に基づいています。
これらのポイントクラウドには、不完全なジオメトリ情報を提供するオブジェクトの1つの表面側のみがあり、ターゲットオブジェクトの形状を判断するために把握するアルゴリズムを誤解させ、把握精度が低くなります。
人間は、ジオメトリエクスペリエンスを活用してオブジェクトの形状を推定することにより、単一のビューからオブジェクトを正確に把握できます。
人間に触発されて、私たちは、6-dofグラップネットワークをトレーニングするためのオブジェクト形状の特徴としてポイント完成結果を変換する新しい6ドフグローシングフレームワークを提案します。
ここで、ポイント完了は、人間のジオメトリエクスペリエンスと同様の2.5Dポイントからおおよその完全なポイントを生成でき、形状機能としてそれを変換することは、それを利用して把握効率を向上させる方法です。
さらに、ネットワーク生成と実際の実行のギャップにより、スコアフィルターをフレームワークに統合して、実際のロボットのより多くの実行可能な把握提案を選択します。
これにより、私たちの方法は、カメラの視点で高い把握品質を維持することができます。
広範な実験では、完全なポイント機能を使用することで、より正確な把握提案の生成が可能になり、スコアフィルターを含めることで、実際のロボットグラッシングの信頼性が大幅に向上することが示されています。
私たちの方法は、実際の実験で最先端の方法よりも高い17.8 \%の成功率を達成します。

要約(オリジナル)

The 6-Degree of Freedom (DoF) grasp method based on point clouds has shown significant potential in enabling robots to grasp target objects. However, most existing methods are based on the point clouds (2.5D points) generated from single-view depth images. These point clouds only have one surface side of the object providing incomplete geometry information, which mislead the grasping algorithm to judge the shape of the target object, resulting in low grasping accuracy. Humans can accurately grasp objects from a single view by leveraging their geometry experience to estimate object shapes. Inspired by humans, we propose a novel 6-DoF grasping framework that converts the point completion results as object shape features to train the 6-DoF grasp network. Here, point completion can generate approximate complete points from the 2.5D points similar to the human geometry experience, and converting it as shape features is the way to utilize it to improve grasp efficiency. Furthermore, due to the gap between the network generation and actual execution, we integrate a score filter into our framework to select more executable grasp proposals for the real robot. This enables our method to maintain a high grasp quality in any camera viewpoint. Extensive experiments demonstrate that utilizing complete point features enables the generation of significantly more accurate grasp proposals and the inclusion of a score filter greatly enhances the credibility of real-world robot grasping. Our method achieves a 17.8\% success rate higher than the state-of-the-art method in real-world experiments.

arxiv情報

著者 Yaofeng Cheng,Fusheng Zha,Wei Guo,Pengfei Wang,Chao Zeng,Lining Sun,Chenguang Yang
発行日 2025-04-22 23:37:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | PCF-Grasp: Converting Point Completion to Geometry Feature to Enhance 6-DoF Grasp はコメントを受け付けていません

Crossing the Human-Robot Embodiment Gap with Sim-to-Real RL using One Human Demonstration

要約

ロボットの装備操作スキルを教えるには、多くの場合、ウェアラブルまたはテレオ操作を使用して何百ものデモンストレーションを収集する必要があります。
人間とオブジェクトの相互作用のビデオは収集して拡大するのが簡単ですが、ビデオからの明示的なアクションラベルとロボットと人間の手の形態学的な違いがないため、ロボット学習に直接レバレッジすることは困難です。
Human2Sim2robotは、タスクを実証する人間の1つのRGB-Dビデオのみを使用して、器用な操作ポリシーをトレーニングするための新しいリアルからシムからリアルのフレームワークであることを提案します。
私たちの方法では、シミュレーションで補強学習(RL)を利用して、ウェアラブル、テレオ操作、または模倣学習方法に通常必要な大規模なデータ収集に依存することなく、人間のロボットの具体化ギャップを越えます。
デモンストレーションから、2つのタスク固有のコンポーネントを抽出します。(1)オブジェクト中心の実施形態と存在する報酬関数を定義するオブジェクトが軌道を配置し、(2)操作前のハンドがRLトレーニング中に探索を初期化およびガイドするためにポーズをとる。
これらの2つのコンポーネントは、目的のタスクを学習するのに非常に効果的であり、タスク固有の報酬の形成とチューニングの必要性を排除することがわかりました。
Human2Sim2robotは、オブジェクトを意識しているオープンループ軌道リプレイを55%上回り、把握、非緩和操作、およびマルチステップタスク全体で68%のデータ増強を使用した模倣学習を上回ることを実証します。
プロジェクトサイト:https://human2sim2robot.github.io

要約(オリジナル)

Teaching robots dexterous manipulation skills often requires collecting hundreds of demonstrations using wearables or teleoperation, a process that is challenging to scale. Videos of human-object interactions are easier to collect and scale, but leveraging them directly for robot learning is difficult due to the lack of explicit action labels from videos and morphological differences between robot and human hands. We propose Human2Sim2Robot, a novel real-to-sim-to-real framework for training dexterous manipulation policies using only one RGB-D video of a human demonstrating a task. Our method utilizes reinforcement learning (RL) in simulation to cross the human-robot embodiment gap without relying on wearables, teleoperation, or large-scale data collection typically necessary for imitation learning methods. From the demonstration, we extract two task-specific components: (1) the object pose trajectory to define an object-centric, embodiment-agnostic reward function, and (2) the pre-manipulation hand pose to initialize and guide exploration during RL training. We found that these two components are highly effective for learning the desired task, eliminating the need for task-specific reward shaping and tuning. We demonstrate that Human2Sim2Robot outperforms object-aware open-loop trajectory replay by 55% and imitation learning with data augmentation by 68% across grasping, non-prehensile manipulation, and multi-step tasks. Project Site: https://human2sim2robot.github.io

arxiv情報

著者 Tyler Ga Wei Lum,Olivia Y. Lee,C. Karen Liu,Jeannette Bohg
発行日 2025-04-22 23:42:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Crossing the Human-Robot Embodiment Gap with Sim-to-Real RL using One Human Demonstration はコメントを受け付けていません

A Complete and Bounded-Suboptimal Algorithm for a Moving Target Traveling Salesman Problem with Obstacles in 3D

要約

障害物の移動ターゲットの巡回マンの問題(MT-TSP-O)は、指定された時間窓内に特定の移動ターゲットセットを傍受し、エージェントの開始位置に戻すエージェントに障害物のない軌跡を求めています。
各ターゲットは、時間ウィンドウ内で一定の速度で移動し、エージェントはターゲットの速度よりも小さくない速度制限を持っています。
MT-TSP-Oの最初の完全および境界線型アルゴリズムであるFMC*-TSPと、構成スペースが$ \ MathBB {r}^3 $であるエージェントの結果を提示します。
当社のアルゴリズムは、高レベルの検索と低レベルの検索を補強します。高レベルの検索では、タイムウィンドウ(GTSP-TW)の一般化された巡回セールスマンの問題を解決して、エージェントが訪問するためのターゲットと対応する時間ウィンドウのシーケンスを見つけます。
このようなシーケンスを考えると、低レベルの検索で関連するエージェントの軌跡が見つかります。
低レベルの計画問題を解決するために、FMC*と呼ばれる新しいアルゴリズムを開発します。これは、ターゲットの移動に特化した暗黙のグラフ検索と剪定技術を介して凸セット(GCS)のグラフで最も短いパスを見つけます。
最大40のターゲットを持つ280の問題インスタンスでFMC*-TSPをテストし、以前の作業に基づくベースラインよりもランタイムの中央値が小さいことを示します。

要約(オリジナル)

The moving target traveling salesman problem with obstacles (MT-TSP-O) seeks an obstacle-free trajectory for an agent that intercepts a given set of moving targets, each within specified time windows, and returns to the agent’s starting position. Each target moves with a constant velocity within its time windows, and the agent has a speed limit no smaller than any target’s speed. We present FMC*-TSP, the first complete and bounded-suboptimal algorithm for the MT-TSP-O, and results for an agent whose configuration space is $\mathbb{R}^3$. Our algorithm interleaves a high-level search and a low-level search, where the high-level search solves a generalized traveling salesman problem with time windows (GTSP-TW) to find a sequence of targets and corresponding time windows for the agent to visit. Given such a sequence, the low-level search then finds an associated agent trajectory. To solve the low-level planning problem, we develop a new algorithm called FMC*, which finds a shortest path on a graph of convex sets (GCS) via implicit graph search and pruning techniques specialized for problems with moving targets. We test FMC*-TSP on 280 problem instances with up to 40 targets and demonstrate its smaller median runtime than a baseline based on prior work.

arxiv情報

著者 Anoop Bhat,Geordan Gutow,Bhaskar Vundurthy,Zhongqiang Ren,Sivakumar Rathinam,Howie Choset
発行日 2025-04-23 00:08:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A Complete and Bounded-Suboptimal Algorithm for a Moving Target Traveling Salesman Problem with Obstacles in 3D はコメントを受け付けていません

Eigendecomposition Parameterization of Penalty Matrices for Enhanced Control Design: Aerospace Applications

要約

最新の制御アルゴリズムでは、パフォーマンスや安定性出力を改善するために、二次関数/コストに表示される平方重量/ペナルティマトリックスの調整が必要です。
ゲインチューニングの単純さと正の定義を強制するため、対角線のペナルティマトリックスは、線形二次レギュレーター(LQR)、モデル予測制御、リアプノフベースの制御などの制御方法で広く使用されます。
このホワイトペーパーでは、ペナルティマトリックスをパラメーター化するための固有カムポジションアプローチを提案し、非ゼロのオフダイアゴンエントリで正の定義を暗黙的に満たすことができます。
1)Zermeloのナビゲーション問題のバリエーション、2)LQRとLyapunovベースの両方の方法を使用した最小エネルギー宇宙船の態度制御、および3)最小燃料および最小タイムベースのLyapunovベースの低スラスト軌道設計。
粒子群最適化は、ペナルティマトリックスをパラメーター化する決定変数を最適化するために使用されます。
結果は、提案された方法を利用した問題の例で、パフォーマンス目標の最大65%の改善を示しています。

要約(オリジナル)

Modern control algorithms require tuning of square weight/penalty matrices appearing in quadratic functions/costs to improve performance and/or stability output. Due to simplicity in gain-tuning and enforcing positive-definiteness, diagonal penalty matrices are used extensively in control methods such as linear quadratic regulator (LQR), model predictive control, and Lyapunov-based control. In this paper, we propose an eigendecomposition approach to parameterize penalty matrices, allowing positive-definiteness with non-zero off-diagonal entries to be implicitly satisfied, which not only offers notable computational and implementation advantages, but broadens the class of achievable controls. We solve three control problems: 1) a variation of Zermelo’s navigation problem, 2) minimum-energy spacecraft attitude control using both LQR and Lyapunov-based methods, and 3) minimum-fuel and minimum-time Lyapunov-based low-thrust trajectory design. Particle swarm optimization is used to optimize the decision variables, which will parameterize the penalty matrices. The results demonstrate improvements of up to 65% in the performance objective in the example problems utilizing the proposed method.

arxiv情報

著者 Nicholas P. Nurre,Ehsan Taheri
発行日 2025-04-23 00:10:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, math.OC | Eigendecomposition Parameterization of Penalty Matrices for Enhanced Control Design: Aerospace Applications はコメントを受け付けていません

α-RACER: Real-Time Algorithm for Game-Theoretic Motion Planning and Control in Autonomous Racing using Near-Potential Function

要約

自律的なレースは、その物理的な限界でレースカーを制御するという課題を超えています。
プロのレーサーは、戦略的な操作を採用して、勝利を確保するために他の競合する敵を追い越します。
最新のコントロールアルゴリズムは、単一車シナリオのオフラインレースラインを計算することにより、人間レベルのパフォーマンスを実現できますが、マルチカーの自律レースのリアルタイムアルゴリズムに関する研究は限られています。
このギャップを埋めるために、私たちは、その限界で車を操作しながら、新しい政策パラメーター化を追い越してブロックするなど、自律レースの競争的側面を組み込んだゲーム理論モデリングフレームワークを開発します。
さらに、競合するエージェントの存在下での最適なアプローチを表す(近似)ナッシュ平衡戦略を計算するためのアルゴリズムアプローチを提案します。
具体的には、最近導入された動的近電位関数のフレームワークに触発されたアルゴリズムを導入し、NASH平衡のリアルタイム計算を可能にします。
私たちのアプローチは、オフラインとオンラインの2つのフェーズで構成されています。
オフラインフェーズでは、シミュレートされたレーシングデータを使用して、エージェントのユーティリティの変化に近似する近接関数を学習します。
この関数は、その価値を最大化することにより、近似ナッシュ平衡のオンライン計算を容易にします。
私たちは、いくつかの既存のベースラインと比較して優れたパフォーマンスを実証する、直接的な3台の車のレースシナリオで方法を評価します。

要約(オリジナル)

Autonomous racing extends beyond the challenge of controlling a racecar at its physical limits. Professional racers employ strategic maneuvers to outwit other competing opponents to secure victory. While modern control algorithms can achieve human-level performance by computing offline racing lines for single-car scenarios, research on real-time algorithms for multi-car autonomous racing is limited. To bridge this gap, we develop game-theoretic modeling framework that incorporates the competitive aspect of autonomous racing like overtaking and blocking through a novel policy parametrization, while operating the car at its limit. Furthermore, we propose an algorithmic approach to compute the (approximate) Nash equilibrium strategy, which represents the optimal approach in the presence of competing agents. Specifically, we introduce an algorithm inspired by recently introduced framework of dynamic near-potential function, enabling real-time computation of the Nash equilibrium. Our approach comprises two phases: offline and online. During the offline phase, we use simulated racing data to learn a near-potential function that approximates utility changes for agents. This function facilitates the online computation of approximate Nash equilibria by maximizing its value. We evaluate our method in a head-to-head 3-car racing scenario, demonstrating superior performance compared to several existing baselines.

arxiv情報

著者 Dvij Kalaria,Chinmay Maheshwari,Shankar Sastry
発行日 2025-04-23 00:41:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.RO | α-RACER: Real-Time Algorithm for Game-Theoretic Motion Planning and Control in Autonomous Racing using Near-Potential Function はコメントを受け付けていません

Road Similarity-Based BEV-Satellite Image Matching for UGV Localization

要約

GNSS-DENIEDオフロード環境における自律UGVローカリゼーションの課題に対処するために、この研究では、高精度のポジショニングを実現するためにBEV知覚画像と道路類似性空間内で衛星マップを活用するマッチングベースのローカリゼーション方法を提案します。
このアプローチは、グラウンドビュー画像と衛星マップの間の重要な視点の矛盾を軽減します。
次に、BEV画像と衛星マップが道路の類似性空間に投影され、正規化された交差相関(NCC)がマッチングスコアを評価するために計算されます。まず、粒子フィルターが車両のポーズの確率分布を推定するために使用されます。
3.41メートルの平面ユークリッドエラー。
さらに、夜間の条件下でも正確で安定したグローバルなローカリゼーションを維持し、その堅牢性と適応性をさらに検証しました。

要約(オリジナル)

To address the challenge of autonomous UGV localization in GNSS-denied off-road environments,this study proposes a matching-based localization method that leverages BEV perception image and satellite map within a road similarity space to achieve high-precision positioning.We first implement a robust LiDAR-inertial odometry system, followed by the fusion of LiDAR and image data to generate a local BEV perception image of the UGV. This approach mitigates the significant viewpoint discrepancy between ground-view images and satellite map. The BEV image and satellite map are then projected into the road similarity space, where normalized cross correlation (NCC) is computed to assess the matching score.Finally, a particle filter is employed to estimate the probability distribution of the vehicle’s pose.By comparing with GNSS ground truth, our localization system demonstrated stability without divergence over a long-distance test of 10 km, achieving an average lateral error of only 0.89 meters and an average planar Euclidean error of 3.41 meters. Furthermore, it maintained accurate and stable global localization even under nighttime conditions, further validating its robustness and adaptability.

arxiv情報

著者 Zhenping Sun,Chuang Yang,Yafeng Bu,Bokai Liu,Jun Zeng,Xiaohui Li
発行日 2025-04-23 01:46:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Road Similarity-Based BEV-Satellite Image Matching for UGV Localization はコメントを受け付けていません