Robust Gymnasium: A Unified Modular Benchmark for Robust Reinforcement Learning

要約

固有の不確実性とSIMからリアルのギャップによって駆動される堅牢な強化学習(RL)は、エージェントと環境の連続相互作用の複雑さと変動に対する回復力を改善しようとしています。
多数のRLベンチマークが存在しているにもかかわらず、堅牢なRL用の標準化されたベンチマークが不足しています。
現在の堅牢なRLポリシーは、多くの場合、特定のタイプの不確実性に焦点を当てており、明確な1回限りの環境で評価されます。
この作業では、すべての主要なRLコンポーネントの観察された状態と報酬、エージェントの行動、および環境にわたってさまざまな混乱をサポートする堅牢なRLのために設計された統一されたモジュラーベンチマークである堅牢なジムナシウムを紹介します。
制御とロボット工学、安全なRL、およびマルチエージェントRLにまたがる60を超える多様なタスク環境を提供し、コミュニティが現在の方法を評価し、堅牢なRLアルゴリズムの開発を促進するためのオープンソースとユーザーフレンドリーなツールを提供します。
さらに、このフレームワーク内で既存の標準と堅牢なRLアルゴリズムをベンチマークし、それぞれの重大な欠陥を明らかにし、新しい洞察を提供します。

要約(オリジナル)

Driven by inherent uncertainty and the sim-to-real gap, robust reinforcement learning (RL) seeks to improve resilience against the complexity and variability in agent-environment sequential interactions. Despite the existence of a large number of RL benchmarks, there is a lack of standardized benchmarks for robust RL. Current robust RL policies often focus on a specific type of uncertainty and are evaluated in distinct, one-off environments. In this work, we introduce Robust-Gymnasium, a unified modular benchmark designed for robust RL that supports a wide variety of disruptions across all key RL components-agents’ observed state and reward, agents’ actions, and the environment. Offering over sixty diverse task environments spanning control and robotics, safe RL, and multi-agent RL, it provides an open-source and user-friendly tool for the community to assess current methods and foster the development of robust RL algorithms. In addition, we benchmark existing standard and robust RL algorithms within this framework, uncovering significant deficiencies in each and offering new insights.

arxiv情報

著者 Shangding Gu,Laixi Shi,Muning Wen,Ming Jin,Eric Mazumdar,Yuejie Chi,Adam Wierman,Costas Spanos
発行日 2025-02-27 00:50:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Robust Gymnasium: A Unified Modular Benchmark for Robust Reinforcement Learning はコメントを受け付けていません

High-Quality Unknown Object Instance Segmentation via Quadruple Boundary Error Refinement

要約

構造化されていない環境での未知のオブジェクトの正確で効率的なセグメンテーションは、ロボット操作に不可欠です。
不明なオブジェクトインスタンスセグメンテーション(UOIS)は、不明なカテゴリと背景のすべてのオブジェクトを識別することを目的としており、さまざまなロボットタスクの重要な機能となっています。
ただし、既存の方法は、過剰セグメンテーションとセグメンテーションを過小評価することに苦労しており、把握などの操作タスクの失敗につながります。
これらの課題に対処するために、高品質のUOIのための新しいエラー情報の改良アプローチであるQuber(四重境界誤差の改良)を提案します。
Quberは、最初の推定四重境界誤差 – 正常陽性、真のネガティブ、偽陽性、および偽陰性ピクセル – 初期セグメンテーションのインスタンス境界で。
次に、エラーガイド付き融合メカニズムを使用してセグメンテーションを改良し、微細粒度とインスタンスレベルのセグメンテーションエラーの両方を効果的に修正します。
3つのパブリックベンチマークでの広範な評価は、Quberが最先端の方法を上回り、0.1秒未満の高速推論時間を維持しながら、さまざまなUOIメソッドを一貫して改善することを示しています。
さらに、Quberが乱雑な環境でターゲットオブジェクトを把握することの成功率を改善することを示します。
コードと補足資料は、https://sites.google.com/view/uois-quberで入手できます。

要約(オリジナル)

Accurate and efficient segmentation of unknown objects in unstructured environments is essential for robotic manipulation. Unknown Object Instance Segmentation (UOIS), which aims to identify all objects in unknown categories and backgrounds, has become a key capability for various robotic tasks. However, existing methods struggle with over-segmentation and under-segmentation, leading to failures in manipulation tasks such as grasping. To address these challenges, we propose QuBER (Quadruple Boundary Error Refinement), a novel error-informed refinement approach for high-quality UOIS. QuBER first estimates quadruple boundary errors-true positive, true negative, false positive, and false negative pixels-at the instance boundaries of the initial segmentation. It then refines the segmentation using an error-guided fusion mechanism, effectively correcting both fine-grained and instance-level segmentation errors. Extensive evaluations on three public benchmarks demonstrate that QuBER outperforms state-of-the-art methods and consistently improves various UOIS methods while maintaining a fast inference time of less than 0.1 seconds. Furthermore, we show that QuBER improves the success rate of grasping target objects in cluttered environments. Code and supplementary materials are available at https://sites.google.com/view/uois-quber.

arxiv情報

著者 Seunghyeok Back,Sangbeom Lee,Kangmin Kim,Joosoon Lee,Sungho Shin,Jemo Maeng,Kyoobin Lee
発行日 2025-02-27 01:27:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | High-Quality Unknown Object Instance Segmentation via Quadruple Boundary Error Refinement はコメントを受け付けていません

Autonomous Guidewire Navigation for Robot-assisted Endovascular Interventions: A Knowledge-Driven Visual Guidance Approach

要約

血管内介入のための自律的なロボットは、正確にガイドワイヤーをナビゲートし、人為的エラーを最小限に抑え、外科時間を短縮することにより、手続き上の安全性と信頼性を高める大きな可能性を秘めています。
ただし、ガイドワイヤーナビゲーションの既存の方法は、手動のデモデータに依存しており、最適ではない成功率があります。
この作業では、ガイドワイヤーナビゲーションを促進するために介入イメージングから利用可能な視覚情報を活用する知識主導型の視覚ガイダンス(KVG)メソッドを提案します。
私たちのアプローチは、画像のセグメンテーションと検出技術を統合して、血管マップやガイドワイヤー位置などの外科的知識を抽出します。
ガイドワイヤーナビゲーションの軌跡計画を最適化するために、境界距離制約を備えた新しいパス計画アルゴリズムであるBDA-STARを紹介します。
この方法を検証するために、KVD-Reincortion Learning環境を開発しました。観測は、ガイドワイヤーのチップ位置と計画されたパスを強調するリアルタイムのガイドワイヤー給餌画像で構成されています。
ガイドワイヤーの先端から計画されたパスとターゲットの両方の距離とエージェントのアクションを評価するための報酬関数を提案しました。解法では、生のピクセルからの直接学習に関連する安定性の問題と遅い収束率に対処するために、機能抽出のためのポリシーネットワークに事前に訓練された畳み込み神経ネットワークを組み込みました。
大動脈シミュレーション自律ガイドワイヤーナビゲーションプラットフォームで実施された実験により、提案された方法は、左鎖骨下動脈を標的とし、左頸動脈と腕下門動脈を標的とし、100 \%のガイドワイヤナビゲーションの成功率を達成し、動きと収縮距離の減少と路注射がヴェッセルの中心に傾くことが実証されました。

要約(オリジナル)

Autonomous robots for endovascular interventions hold significant potential to enhance procedural safety and reliability by navigating guidewires with precision, minimizing human error, and reducing surgical time. However, existing methods of guidewire navigation rely on manual demonstration data and have a suboptimal success rate. In this work, we propose a knowledge-driven visual guidance (KVG) method that leverages available visual information from interventional imaging to facilitate guidewire navigation. Our approach integrates image segmentation and detection techniques to extract surgical knowledge, including vascular maps and guidewire positions. We introduce BDA-star, a novel path planning algorithm with boundary distance constraints, to optimize trajectory planning for guidewire navigation. To validate the method, we developed the KVD-Reinforcement Learning environment, where observations consist of real-time guidewire feeding images highlighting the guidewire tip position and the planned path. We proposed a reward function based on the distances from both the guidewire tip to the planned path and the target to evaluate the agent’s actions.Additionally, to address stability issues and slow convergence rates associated with direct learning from raw pixels, we incorporated a pre-trained convolutional neural network into the policy network for feature extraction. Experiments conducted on the aortic simulation autonomous guidewire navigation platform demonstrated that the proposed method, targeting the left subclavian artery, left carotid artery and the brachiocephalic artery, achieved a 100\% guidewire navigation success rate, along with reduced movement and retraction distances and trajectories tend to the center of the vessels.

arxiv情報

著者 Wentao Liu,Weijin Xu,Xiaochuan Li,Bowen Liang,Ziyang He,Mengke Zhu,Jingzhou Song,Huihua Yang,Qingsheng Lu
発行日 2025-02-27 01:33:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Autonomous Guidewire Navigation for Robot-assisted Endovascular Interventions: A Knowledge-Driven Visual Guidance Approach はコメントを受け付けていません

Risk-aware Integrated Task and Motion Planning for Versatile Snake Robots under Localization Failures

要約

ヘビロボットは、極端な地形と地上および宇宙アプリケーションの限られた環境を通して機動性を可能にします。
ただし、ヘビロボットの堅牢な知覚とローカリゼーションは、限られた視野と組み合わされた地面へのセンサーペイロードが近接しているため、オープンな挑戦のままです。
この問題に対処するために、固有受容のみのモビリティと断続的なスキャンを組み合わせた断続的にスケジュールされたスキャン(至福)を使用した盲目モーションを提案します。
Blissは統合されたタスクとモーションプランニング(TAMP)の問題として定式化されており、歴史の呪いのために計算可能に扱いやすいことが知られている偶然に制約のある部分的に観察可能なマルコフ決定プロセス(CC-HPOMDP)につながります。
私たちの目新しさは、CC-HPOMDPを扱いやすく凸混合整数線形プログラムとして再定式化することにあります。
これにより、Bliss-Tampを大幅に速く解決し、最適なタスクモーション計画を共同で導き出すことができます。
ウナギスネークロボットのシミュレーションとハードウェアの実験は、最先端のPOMDPプランナーと比較して、数桁の計算改善と、$ 50> 50 \%のより良いナビゲーション時間の最適性と古典的な2段階の計画者と比較して、1桁の計算改善を達成することを示しています。

要約(オリジナル)

Snake robots enable mobility through extreme terrains and confined environments in terrestrial and space applications. However, robust perception and localization for snake robots remain an open challenge due to the proximity of the sensor payload to the ground coupled with a limited field of view. To address this issue, we propose Blind-motion with Intermittently Scheduled Scans (BLISS) which combines proprioception-only mobility with intermittent scans to be resilient against both localization failures and collision risks. BLISS is formulated as an integrated Task and Motion Planning (TAMP) problem that leads to a Chance-Constrained Hybrid Partially Observable Markov Decision Process (CC-HPOMDP), known to be computationally intractable due to the curse of history. Our novelty lies in reformulating CC-HPOMDP as a tractable, convex Mixed Integer Linear Program. This allows us to solve BLISS-TAMP significantly faster and jointly derive optimal task-motion plans. Simulations and hardware experiments on the EELS snake robot show our method achieves over an order of magnitude computational improvement compared to state-of-the-art POMDP planners and $>$ 50\% better navigation time optimality versus classical two-stage planners.

arxiv情報

著者 Ashkan Jasour,Guglielmo Daddi,Masafumi Endo,Tiago S. Vaquero,Michael Paton,Marlin P. Strub,Sabrina Corpino,Michel Ingham,Masahiro Ono,Rohan Thakker
発行日 2025-02-27 02:02:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY, I.2.8 | Risk-aware Integrated Task and Motion Planning for Versatile Snake Robots under Localization Failures はコメントを受け付けていません

AoECR: AI-ization of Elderly Care Robot

要約

高齢者ケアロボットの効果的な使用には、自律的な相互作用が重要です。
ただし、ロボット構成の多様性とデータセットの不足により、ユニバーサルAIアーキテクチャの開発は非常に困難です。
AOECRと呼ばれる高齢者ケアロボットのAI化のための普遍的な建築を提案しました。
具体的には、看護ベッドに基づいて、高齢者のケアシナリオ用に合わせた患者看護師の相互作用データセットを開発し、看護操作を実行できるように大きな言語モデルを微調整しました。
さらに、推論プロセスには、制御コマンドのセキュリティを確保するためのセルフチェックチェーンが含まれていました。
専門家の最適化プロセスは、インタラクティブな応答の人間化とパーソナライズをさらに強化しました。
物理的実験は、AOECRが多様なシナリオ全体でゼロショット一般化機能を示し、患者の指示を理解し、安全な制御コマンドを実装し、人間化およびパーソナライズされたインタラクティブな応答を提供することを実証しました。
一般に、私たちの研究は、高齢者ケアロボットに貴重なデータセットリファレンスとAI化ソリューションを提供します。

要約(オリジナル)

Autonomous interaction is crucial for the effective use of elderly care robots. However, developing universal AI architectures is extremely challenging due to the diversity in robot configurations and a lack of dataset. We proposed a universal architecture for the AI-ization of elderly care robots, called AoECR. Specifically, based on a nursing bed, we developed a patient-nurse interaction dataset tailored for elderly care scenarios and fine-tuned a large language model to enable it to perform nursing manipulations. Additionally, the inference process included a self-check chain to ensure the security of control commands. An expert optimization process further enhanced the humanization and personalization of the interactive responses. The physical experiment demonstrated that the AoECR exhibited zero-shot generalization capabilities across diverse scenarios, understood patients’ instructions, implemented secure control commands, and delivered humanized and personalized interactive responses. In general, our research provides a valuable dataset reference and AI-ization solutions for elderly care robots.

arxiv情報

著者 Linkun Zhou,Jian Li,Yadong Mo,Xiangyan Zhang,Ying Zhang,Shimin Wei
発行日 2025-02-27 02:47:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | AoECR: AI-ization of Elderly Care Robot はコメントを受け付けていません

Neural Configuration Distance Function for Continuum Robot Control

要約

この論文では、連続体ロボットの形状をニューラル構成ユークリッド距離関数(N-CEDF)としてモデル化するための新しい方法を紹介します。
各リンクの個別の距離フィールドを学習し、運動学チェーンを介してそれらを組み合わせることにより、学習したN-CEDFは、ロボットの形状を正確かつ計算効率的な表現を提供します。
連続体ロボットの距離関数表現の重要な利点は、ポイントクラウドの観測であっても、動的および乱雑な環境でのモーション計画を効率的に衝突することを可能にすることです。
N-CEDFをモデル予測パス積分(MPPI)コントローラーに統合して、マルチセグメント連続ロボットの安全な軌跡を生成します。
提案されたアプローチは、静的および動的な障害物を備えたいくつかのシミュレートされた環境で、さまざまなリンクを持つ連続ロボットのために検証されます。

要約(オリジナル)

This paper presents a novel method for modeling the shape of a continuum robot as a Neural Configuration Euclidean Distance Function (N-CEDF). By learning separate distance fields for each link and combining them through the kinematics chain, the learned N-CEDF provides an accurate and computationally efficient representation of the robot’s shape. The key advantage of a distance function representation of a continuum robot is that it enables efficient collision checking for motion planning in dynamic and cluttered environments, even with point-cloud observations. We integrate the N-CEDF into a Model Predictive Path Integral (MPPI) controller to generate safe trajectories for multi-segment continuum robots. The proposed approach is validated for continuum robots with various links in several simulated environments with static and dynamic obstacles.

arxiv情報

著者 Kehan Long,Hardik Parwana,Georgios Fainekos,Bardh Hoxha,Hideki Okamoto,Nikolay Atanasov
発行日 2025-02-27 05:03:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Neural Configuration Distance Function for Continuum Robot Control はコメントを受け付けていません

ConvoyLLM: Dynamic Multi-Lane Convoy Control Using LLMs

要約

このペーパーでは、大規模な言語モデル(LLM)を使用して動的な高速道路環境での調整の課題に取り組むマルチレーンコンボイ層コントロールの新しい方法を提案します。
輸送船団の接続された各車両と自動運転車は、知識主導のアプローチを使用して、さまざまなシナリオに基づいてリアルタイムの適応決定を行います。
当社の方法により、車両は、障害物の回避、輸送船団への参加/退去、エスコートフォーメーションのスイッチングなど、全体的なコンボイ構造を維持しながら、タスクを動的に実行できます。
局所的に動的な分散グラフに基づいて、介入されたフォーメーション制御戦略を設計し、輸送船団が安定して柔軟なままでいることを保証します。
複数のトラフィックシナリオにわたってSUMOシミュレーションプラットフォームで広範な実験を実施し、結果は、提案された方法が効果的で堅牢で、動的環境に適応できることを示しています。
このコードは、https://github.com/chuduanfeng/convoyllmで入手できます。

要約(オリジナル)

This paper proposes a novel method for multi-lane convoy formation control that uses large language models (LLMs) to tackle coordination challenges in dynamic highway environments. Each connected and autonomous vehicle in the convoy uses a knowledge-driven approach to make real-time adaptive decisions based on various scenarios. Our method enables vehicles to dynamically perform tasks, including obstacle avoidance, convoy joining/leaving, and escort formation switching, all while maintaining the overall convoy structure. We design a Interlaced formation control strategy based on locally dynamic distributed graphs, ensuring the convoy remains stable and flexible. We conduct extensive experiments in the SUMO simulation platform across multiple traffic scenarios, and the results demonstrate that the proposed method is effective, robust, and adaptable to dynamic environments. The code is available at: https://github.com/chuduanfeng/ConvoyLLM.

arxiv情報

著者 Liping Lu,Zhican He,Duanfeng Chu,Rukang Wang,Saiqian Peng,Pan Zhou
発行日 2025-02-27 05:35:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO | ConvoyLLM: Dynamic Multi-Lane Convoy Control Using LLMs はコメントを受け付けていません

ServoLNN: Lagrangian Neural Networks Driven by Servomechanisms

要約

深い学習と古典的な物理学を組み合わせることで、正確な動的モデルの効率的な作成が促進されます。
ニューラルネットワークの最近のクラスでは、ラグランジアンメカニクスがアーキテクチャにハードコーディングされており、ネットワークのトレーニングは特定のシステムを学習します。
ただし、現在のアーキテクチャは、サーボメカニズム(サルボモーター、ステッパーモーター、電流源、体積ポンプなど)によって駆動される動的システムのモデリングを促進しません。
この記事では、サーブメカニズムによって駆動される動的システムをモデル化する新しいアーキテクチャであるServolnnを紹介します。
Servolnnは、運転の動きがジャストインタイムのみが知られているリアルタイムアプリケーションでの使用に互換性があります。
ServolnnのPytorch実装が提供されます。
派生と結果は、トレーニングが収束する可能性のある解決策の可能性のあるファミリーの発生を明らかにしています。
ソリューションのファミリーを単一のソリューションに減らすための解決策と同様に、予測された物理量に対するソリューションファミリーの効果が調査されます。
その結果、アーキテクチャは、エネルギー、パワー、作業速度、質量マトリックス、一般化された加速、一般化された力、およびサーブメカニズムを駆動する一般化された力を同時に正確に見つけることができます。

要約(オリジナル)

Combining deep learning with classical physics facilitates the efficient creation of accurate dynamical models. In a recent class of neural network, Lagrangian mechanics is hard-coded into the architecture, and training the network learns the given system. However, the current architectures do not facilitate the modelling of dynamical systems that are driven by servomechanisms (e.g. servomotors, stepper motors, current sources, volumetric pumps). This article presents ServoLNN, a new architecture to model dynamical systems that are driven by servomechanisms. ServoLNN is compatible for use in real-time applications, where the driving motion is known only just-in-time. A PyTorch implementation of ServoLNN is provided. The derivations and results reveal the occurrence of a possible family of solutions that the training may converge on. The effect of the family of solutions on the predicted physical quantities is explored, as is the resolution to reduce the family of solutions to a single solution. Resultantly, the architecture can simultaneously accurately find the energies, power, rate of work, mass matrix, generalised accelerations, generalised forces, and the generalised forces that drive the servomechanisms.

arxiv情報

著者 Brandon Johns,Zhuomin Zhou,Elahe Abdi
発行日 2025-02-27 06:21:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, I.2.9, math.DS | ServoLNN: Lagrangian Neural Networks Driven by Servomechanisms はコメントを受け付けていません

Tracailer: An Efficient Trajectory Planner for Tractor-Trailer Vehicles in Unstructured Environments

要約

トラクタートレーラー車両(ロボット)は、運転可能なトラクターと、ヒッチを介して接続された1つ以上の非運転不能なトレーラーで構成されています。
典型的な車のようなロボットと比較して、トレーラーを追加すると、輸送能力が向上します。
ただし、これはまた、ロボットの複雑な運動学、高次元状態空間、および変形可能な構造により、モーション計画を複雑にします。
ロボットの運動学的制約を順守し、そのユニークな機能によってもたらされる課題に対処する安全で最適な軌跡を効率的に計画するために、このペーパーでは、トラクタートレーラーロボットの軽量でコンパクトで高次の滑らかな軌道表現を導入します。
それに基づいて、私たちは効率的に溶媒可能な時空間軌道最適化問題を設計します。
衝突回避の困難につながる変形可能な構造に対処するために、環境の衝突のない領域を完全に活用し、連続空間の軌跡に変形を直接適用します。
このアプローチでは、各最適化の前に衝突のないシードポイントを介して凸近似を使用して環境から安全な領域を構築する必要はありません。溶液スペースの損失を回避するため、最適化の初期値への依存性が低下します。
さらに、最適化の初期値を生成するために、マルチターミナルファストパス検索アルゴリズムが提案されています。
広範なシミュレーション実験は、我々のアプローチが既存のアルゴリズムと比較して効率の数倍の改善を達成すると同時に、曲率と軌道の持続時間を確保することを示しています。
屋内と屋外の両方のシナリオでの商品の輸送、積み込み、荷降ろしを含む実世界の実験は、私たちの方法の有効性をさらに検証します。
ソースコードは、https://github.com/zju-fast-lab/tracailer/でアクセスできます。

要約(オリジナル)

The tractor-trailer vehicle (robot) consists of a drivable tractor and one or more non-drivable trailers connected via hitches. Compared to typical car-like robots, the addition of trailers provides greater transportation capability. However, this also complicates motion planning due to the robot’s complex kinematics, high-dimensional state space, and deformable structure. To efficiently plan safe, time-optimal trajectories that adhere to the kinematic constraints of the robot and address the challenges posed by its unique features, this paper introduces a lightweight, compact, and high-order smooth trajectory representation for tractor-trailer robots. Based on it, we design an efficiently solvable spatio-temporal trajectory optimization problem. To deal with deformable structures, which leads to difficulties in collision avoidance, we fully leverage the collision-free regions of the environment, directly applying deformations to trajectories in continuous space. This approach not requires constructing safe regions from the environment using convex approximations through collision-free seed points before each optimization, avoiding the loss of the solution space, thus reducing the dependency of the optimization on initial values. Moreover, a multi-terminal fast path search algorithm is proposed to generate the initial values for optimization. Extensive simulation experiments demonstrate that our approach achieves several-fold improvements in efficiency compared to existing algorithms, while also ensuring lower curvature and trajectory duration. Real-world experiments involving the transportation, loading and unloading of goods in both indoor and outdoor scenarios further validate the effectiveness of our method. The source code is accessible at https://github.com/ZJU-FAST-Lab/tracailer/.

arxiv情報

著者 Long Xu,Kaixin Chai,Boyuan An,Jiaxiang Gan,Qianhao Wang,Yuan Zhou,Xiaoying Li,Junxiao Lin,Zhichao Han,Chao Xu,Yanjun Cao,Fei Gao
発行日 2025-02-27 07:08:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Tracailer: An Efficient Trajectory Planner for Tractor-Trailer Vehicles in Unstructured Environments はコメントを受け付けていません

Open3DTrack: Towards Open-Vocabulary 3D Multi-Object Tracking

要約

3Dマルチオブジェクト追跡は、複数のオブジェクトの動きのリアルタイム監視と予測を可能にすることにより、自律運転において重要な役割を果たします。
従来の3D追跡システムは通常、事前に定義されたオブジェクトカテゴリによって制約されており、その適応性を動的環境で斬新で目にしないオブジェクトに制限します。
この制限に対処するために、3D追跡の範囲を拡張して、事前定義されたカテゴリを超えたオブジェクトを含めるために、オープンボキャブラリー3D追跡を導入します。
オープンボキャブラリー3D追跡の問題を策定し、さまざまなオープンボキャブラリーシナリオを表すように設計されたデータセットスプリットを導入します。
オープンボキャブラリー機能を3D追跡フレームワークに統合する新しいアプローチを提案し、目に見えないオブジェクトクラスに一般化できるようにします。
私たちの方法は、戦略的適応を通じて、既知のオブジェクトと新しいオブジェクトの追跡間のパフォーマンスギャップを効果的に削減します。
実験結果は、多様な屋外での運転シナリオにおける私たちの方法の堅牢性と適応性を示しています。
私たちの知る限り、この作業は、現実世界の設定における自律システムの重要な進歩を提示する、オープンボキャブラリー3D追跡に最初に対処した最初の作業です。
コード、トレーニングされたモデル、およびデータセットスプリットが公開されています。

要約(オリジナル)

3D multi-object tracking plays a critical role in autonomous driving by enabling the real-time monitoring and prediction of multiple objects’ movements. Traditional 3D tracking systems are typically constrained by predefined object categories, limiting their adaptability to novel, unseen objects in dynamic environments. To address this limitation, we introduce open-vocabulary 3D tracking, which extends the scope of 3D tracking to include objects beyond predefined categories. We formulate the problem of open-vocabulary 3D tracking and introduce dataset splits designed to represent various open-vocabulary scenarios. We propose a novel approach that integrates open-vocabulary capabilities into a 3D tracking framework, allowing for generalization to unseen object classes. Our method effectively reduces the performance gap between tracking known and novel objects through strategic adaptation. Experimental results demonstrate the robustness and adaptability of our method in diverse outdoor driving scenarios. To the best of our knowledge, this work is the first to address open-vocabulary 3D tracking, presenting a significant advancement for autonomous systems in real-world settings. Code, trained models, and dataset splits are available publicly.

arxiv情報

著者 Ayesha Ishaq,Mohamed El Amine Boudjoghra,Jean Lahoud,Fahad Shahbaz Khan,Salman Khan,Hisham Cholakkal,Rao Muhammad Anwer
発行日 2025-02-27 08:17:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Open3DTrack: Towards Open-Vocabulary 3D Multi-Object Tracking はコメントを受け付けていません