NuPlanQA: A Large-Scale Dataset and Benchmark for Multi-View Driving Scene Understanding in Multi-Modal Large Language Models

要約

マルチモーダルの大手言語モデル(MLLM)の最近の進歩は、さまざまなドメインで強力なパフォーマンスを実証しています。
ただし、運転シーンを理解する能力はあまり証明されていません。
マルチビュー情報を含む運転シナリオの複雑さは、既存のMLLMに大きな課題をもたらします。
この論文では、運転シーンの理解のためのマルチビュー、マルチモーダル評価ベンチマークであるNuplanqa-Evalを紹介します。
マルチビュードライビングシナリオへの一般化をさらにサポートするために、1Mの実際の視覚的質問(VQA)ペアを含む大規模なデータセットであるNuplanqa-1Mも提案します。
トラフィックシーンのコンテキスト認識分析のために、データセットを3つのコアスキル、道路環境認識、空間関係認識、自我中心の推論にまたがる9つのサブタスクに分類します。
さらに、bev-llmを提示し、マルチビュー画像の鳥瞰図(BEV)機能をMLLMSに統合します。
私たちの評価結果は、既存のMLLMが自我中心の視点からのシーン固有の認識と空間的推論を運転する際に直面する重要な課題を明らかにしています。
対照的に、BEV-LLMはこのドメインに対する顕著な適応性を示し、9つのサブタスクのうち6つで他のモデルよりも優れています。
これらの調査結果は、BEV統合がマルチビューMLLMSを強化すると同時に、運転シーンへの効果的な適応のためにさらに改良を必要とする重要な領域を特定する方法を強調しています。
さらなる研究を促進するために、https://github.com/sungyeonparkk/nuplanqaでNuplanqaを公開しています。

要約(オリジナル)

Recent advances in multi-modal large language models (MLLMs) have demonstrated strong performance across various domains; however, their ability to comprehend driving scenes remains less proven. The complexity of driving scenarios, which includes multi-view information, poses significant challenges for existing MLLMs. In this paper, we introduce NuPlanQA-Eval, a multi-view, multi-modal evaluation benchmark for driving scene understanding. To further support generalization to multi-view driving scenarios, we also propose NuPlanQA-1M, a large-scale dataset comprising 1M real-world visual question-answering (VQA) pairs. For context-aware analysis of traffic scenes, we categorize our dataset into nine subtasks across three core skills: Road Environment Perception, Spatial Relations Recognition, and Ego-Centric Reasoning. Furthermore, we present BEV-LLM, integrating Bird’s-Eye-View (BEV) features from multi-view images into MLLMs. Our evaluation results reveal key challenges that existing MLLMs face in driving scene-specific perception and spatial reasoning from ego-centric perspectives. In contrast, BEV-LLM demonstrates remarkable adaptability to this domain, outperforming other models in six of the nine subtasks. These findings highlight how BEV integration enhances multi-view MLLMs while also identifying key areas that require further refinement for effective adaptation to driving scenes. To facilitate further research, we publicly release NuPlanQA at https://github.com/sungyeonparkk/NuPlanQA.

arxiv情報

著者 Sung-Yeon Park,Can Cui,Yunsheng Ma,Ahmadreza Moradipari,Rohit Gupta,Kyungtae Han,Ziran Wang
発行日 2025-03-17 03:12:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | NuPlanQA: A Large-Scale Dataset and Benchmark for Multi-View Driving Scene Understanding in Multi-Modal Large Language Models はコメントを受け付けていません

DART: Dual-level Autonomous Robotic Topology for Efficient Exploration in Unknown Environments

要約

自律的な調査における従来のアルゴリズムは、リアルタイムマップ内の凸領域の空間分布を正確かつ効率的に識別できないため、課題に直面しています。
これらの方法は、しばしば、既知の領域と未知の領域の境界である最も近いまたは情報が豊富なフロンティアへのナビゲーションを優先し、凸領域の探索が不完全であり、これらの見逃された領域を再訪するために過度のバックトラッキングを必要とします。
これらの制限に対処するために、このペーパーでは、革新的なデュアルレベルのトポロジ分析アプローチを紹介します。
まず、元のマップデータの均一なサンプリングを通じて生成された低レベルのトポロジグラフ(LTG)を紹介します。
次に、LTGは高レベルのトポロジグラフ(HTG)に変換され、凸領域の空間レイアウトと探査の完全性を表し、完全に調査されていない凸領域の探索を優先し、不要なバックトラッキングを最小化します。
最後に、モーションコントロールのために新しい局所人工電位フィールド(LAPF)メソッドが使用され、従来の経路計画を置き換え、全体的な効率を高めます。
実験結果は、アプローチの有効性を強調しています。
シミュレーションテストにより、フレームワークが探索時間と移動距離を大幅に短縮し、速度と効率の両方で既存の方法を上回ることが明らかになりました。
アブレーション研究は、各フレームワークコンポーネントの重要な役割を確認します。
現実世界のテストは、マッピング品質が低い環境での方法の堅牢性を示しており、不正確さやアクセスできない領域をマッピングするための適応性の他のアプローチを上回ります。

要約(オリジナル)

Conventional algorithms in autonomous exploration face challenges due to their inability to accurately and efficiently identify the spatial distribution of convex regions in the real-time map. These methods often prioritize navigation toward the nearest or information-rich frontiers — the boundaries between known and unknown areas — resulting in incomplete convex region exploration and requiring excessive backtracking to revisit these missed areas. To address these limitations, this paper introduces an innovative dual-level topological analysis approach. First, we introduce a Low-level Topological Graph (LTG), generated through uniform sampling of the original map data, which captures essential geometric and connectivity details. Next, the LTG is transformed into a High-level Topological Graph (HTG), representing the spatial layout and exploration completeness of convex regions, prioritizing the exploration of convex regions that are not fully explored and minimizing unnecessary backtracking. Finally, an novel Local Artificial Potential Field (LAPF) method is employed for motion control, replacing conventional path planning and boosting overall efficiency. Experimental results highlight the effectiveness of our approach. Simulation tests reveal that our framework significantly reduces exploration time and travel distance, outperforming existing methods in both speed and efficiency. Ablation studies confirm the critical role of each framework component. Real-world tests demonstrate the robustness of our method in environments with poor mapping quality, surpassing other approaches in adaptability to mapping inaccuracies and inaccessible areas.

arxiv情報

著者 Qiming Wang,Yulong Gao,Yang Wang,Xiongwei Zhao,Yijiao Sun,Xiangyan Kong
発行日 2025-03-17 03:34:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | DART: Dual-level Autonomous Robotic Topology for Efficient Exploration in Unknown Environments はコメントを受け付けていません

Energy-Aware Task Allocation for Teams of Multi-mode Robots

要約

この作業では、複数のモード、たとえば飛行、運転、またはウォーキングを切り替えることができるロボット向けの新しいマルチロボットタスク割り当てフレームワークを提案しています。
最初に、各ロボットのモードがノードで表されるグラフとして、ロボットのマルチモードプロパティをエンコードする方法を提供します。
次に、制約された最適化問題を策定して、各ロボットに割り当てるタスクと、後者がタスクを実行するモードの両方を決定します。
ロボットモードは、ロボットと環境の状態、および割り当てられたタスクの実行に必要なエネルギーに基づいて最適化されています。
さらに、提案されたフレームワークは、ロボットの運動学的および動的なモデルを含めることができます。
さらに、両方のロボットモデルのタスク実行と割り当ての収束に十分な条件を提供します。

要約(オリジナル)

This work proposes a novel multi-robot task allocation framework for robots that can switch between multiple modes, e.g., flying, driving, or walking. We first provide a method to encode the multi-mode property of robots as a graph, where the mode of each robot is represented by a node. Next, we formulate a constrained optimization problem to decide both the task to be allocated to each robot as well as the mode in which the latter should execute the task. The robot modes are optimized based on the state of the robot and the environment, as well as the energy required to execute the allocated task. Moreover, the proposed framework is able to encompass kinematic and dynamic models of robots alike. Furthermore, we provide sufficient conditions for the convergence of task execution and allocation for both robot models.

arxiv情報

著者 Takumi Ito,Riku Funada,Mitsuji Sampei,Gennaro Notomista
発行日 2025-03-17 03:51:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO, cs.SY, eess.SY | Energy-Aware Task Allocation for Teams of Multi-mode Robots はコメントを受け付けていません

OW-Rep: Open World Object Detection with Instance Representation Learning

要約

Open World Object Detection(OWOD)は、目に見えないオブジェクトクラスが出現する現実的なシナリオに対処し、既知のクラスでトレーニングされた検出器が不明なオブジェクトを検出し、提供する知識を徐々に組み込むことを可能にします。
既存のOWODメソッドは主に未知のオブジェクトの検出に焦点を当てていますが、多くの場合、検出されたオブジェクト間の豊富なセマンティックな関係を見落としています。これは、オープンワールド環境のシーンの理解とアプリケーション(例:オープンワールドの追跡や新しいクラスの発見など)に不可欠です。
このホワイトペーパーでは、OWODフレームワークを拡張して、未知のオブジェクトを共同で検出し、意味的にリッチなインスタンスの埋め込みを学習し、検出器がインスタンス間の細かい意味関係をキャプチャできるようにします。
この目的のために、Vision Foundationモデル(VFM)の豊富で一般化可能な知識を活用する2つのモジュールを提案します。
まず、未知のボックスを洗練するモジュールは、セグメントからのインスタンスマスクを使用して、モデルのすべてのモデルを使用して、不明なオブジェクトを正確にローカライズします。
埋め込み転送モジュールは、インスタンスごとのセマンティックな類似性を、VFM機能からリラックスしたコントラスト損失を介して検出器の埋め込みに蒸留し、検出器が意味的に意味のある一般化可能なインスタンス機能を学習できるようにします。
広範な実験では、この方法により、不明なオブジェクトの検出とインスタンスの埋め込み品質の両方が大幅に改善され、オープンワールド追跡などの下流タスクのパフォーマンスが向上することが示されています。

要約(オリジナル)

Open World Object Detection(OWOD) addresses realistic scenarios where unseen object classes emerge, enabling detectors trained on known classes to detect unknown objects and incrementally incorporate the knowledge they provide. While existing OWOD methods primarily focus on detecting unknown objects, they often overlook the rich semantic relationships between detected objects, which are essential for scene understanding and applications in open-world environments (e.g., open-world tracking and novel class discovery). In this paper, we extend the OWOD framework to jointly detect unknown objects and learn semantically rich instance embeddings, enabling the detector to capture fine-grained semantic relationships between instances. To this end, we propose two modules that leverage the rich and generalizable knowledge of Vision Foundation Models(VFM). First, the Unknown Box Refine Module uses instance masks from the Segment Anything Model to accurately localize unknown objects. The Embedding Transfer Module then distills instance-wise semantic similarities from VFM features to the detector’s embeddings via a relaxed contrastive loss, enabling the detector to learn a semantically meaningful and generalizable instance feature. Extensive experiments show that our method significantly improves both unknown object detection and instance embedding quality, while also enhancing performance in downstream tasks such as open-world tracking.

arxiv情報

著者 Sunoh Lee,Minsik Jeon,Jihong Min,Junwon Seo
発行日 2025-03-17 04:24:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | OW-Rep: Open World Object Detection with Instance Representation Learning はコメントを受け付けていません

Versatile Physics-based Character Control with Hybrid Latent Representation

要約

物理的にシミュレートされた文字がモーションプライアーを効率的に利用できるようにする多目的な潜在表現を提示します。
複数のタスクにわたって共有される強力なモーション埋め込みを構築するには、物理​​コントローラーは、簡単に探索し、高品質のモーションを生成できる豊富な潜在スペースを使用する必要があります。
連続的で離散的な潜在表現を統合して、幅広い挑戦的な制御タスクに適応できる汎用性の高い動きを構築することを提案します。
具体的には、個別の潜在モデルを構築して、崩壊せずに特徴的な後部分布をキャプチャし、同時にサンプリングされたベクトルを連続的な残差とともに増強して、ジッタリングなしで高品質の滑らかな動きを生成します。
さらに、残留ベクトル量子化を組み込みます。これは、先行事前の離散運動の容量を最大化するだけでなく、タスク学習フェーズ中にアクション空間を効率的に抽象化します。
私たちのエージェントは、無条件の動きの生成を通じて学習された動きを横断するだけで、多様でありながらスムーズな動きを生成できることを実証します。
さらに、我々のモデルは、既存の潜在表現では達成できなかった、ヘッドマウントデバイス追跡や不規則な間隔での間に移動することを含む、非常に表現力のある自然運動でまばらな目標条件を堅牢に満たしています。

要約(オリジナル)

We present a versatile latent representation that enables physically simulated character to efficiently utilize motion priors. To build a powerful motion embedding that is shared across multiple tasks, the physics controller should employ rich latent space that is easily explored and capable of generating high-quality motion. We propose integrating continuous and discrete latent representations to build a versatile motion prior that can be adapted to a wide range of challenging control tasks. Specifically, we build a discrete latent model to capture distinctive posterior distribution without collapse, and simultaneously augment the sampled vector with the continuous residuals to generate high-quality, smooth motion without jittering. We further incorporate Residual Vector Quantization, which not only maximizes the capacity of the discrete motion prior, but also efficiently abstracts the action space during the task learning phase. We demonstrate that our agent can produce diverse yet smooth motions simply by traversing the learned motion prior through unconditional motion generation. Furthermore, our model robustly satisfies sparse goal conditions with highly expressive natural motions, including head-mounted device tracking and motion in-betweening at irregular intervals, which could not be achieved with existing latent representations.

arxiv情報

著者 Jinseok Bae,Jungdam Won,Donggeun Lim,Inwoo Hwang,Young Min Kim
発行日 2025-03-17 04:45:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GR, cs.RO | Versatile Physics-based Character Control with Hybrid Latent Representation はコメントを受け付けていません

MT-PCR: Leveraging Modality Transformation for Large-Scale Point Cloud Registration with Limited Overlap

要約

オーバーラップが制限された大規模なシーンポイントクラウド登録は、計算負荷と制約されたデータ収集のために困難なタスクです。
これらの問題に取り組むために、モダリティ変換に基づいて、ポイントクラウド登録方法MT-PCRを提案します。
MT-PCRは、最大のオーバーラップ情報をキャプチャするBEVを活用して精度を向上させ、画像を利用して補完的な空間機能を提供します。
具体的には、MT-PCRは3DポイントクラウドをBEV画像に変換し、2D画像キーポイントの抽出とマッチングによりEastimates Corressenceを変換します。
その後、2D対応推定値は、逆マッピングを使用して3Dポイントクラウドに戻されます。
MT-PCRを、GRACOデータセットでの地上レーザースキャンおよび空中レーザースキャンポイントクラウド登録に適用しました。
一般的に使用される方法との実験と比較は、MT-PCRがオーバーラップが限られている大規模なシーンで優れた精度と堅牢性を達成できることを示しています。

要約(オリジナル)

Large-scale scene point cloud registration with limited overlap is a challenging task due to computational load and constrained data acquisition. To tackle these issues, we propose a point cloud registration method, MT-PCR, based on Modality Transformation. MT-PCR leverages a BEV capturing the maximal overlap information to improve the accuracy and utilizes images to provide complementary spatial features. Specifically, MT-PCR converts 3D point clouds to BEV images and eastimates correspondence by 2D image keypoints extraction and matching. Subsequently, the 2D correspondence estimates are then transformed back to 3D point clouds using inverse mapping. We have applied MT-PCR to Terrestrial Laser Scanning and Aerial Laser Scanning point cloud registration on the GrAco dataset, involving 8 low-overlap, square-kilometer scale registration scenarios. Experiments and comparisons with commonly used methods demonstrate that MT-PCR can achieve superior accuracy and robustness in large-scale scenes with limited overlap.

arxiv情報

著者 Yilong Wu,Yifan Duan,Yuxi Chen,Xinran Zhang,Yedong Shen,Jianmin Ji,Yanyong Zhang,Lu Zhang
発行日 2025-03-17 05:25:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MT-PCR: Leveraging Modality Transformation for Large-Scale Point Cloud Registration with Limited Overlap はコメントを受け付けていません

In vivo validation of Wireless Power Transfer System for Magnetically Controlled Robotic Capsule Endoscopy

要約

このホワイトペーパーでは、初めて磁気制御されたロボットカプセル内視鏡プラットフォームに統合された誘導ワイヤレス電力伝達(WPT)システムの生体内検証を提示します。
提案されたシステムにより、オンボードバッテリーを必要とせずにカプセルへの継続的な電力供給が可能になり、動作時間が延長され、サイズの制約が削減されます。
WPTシステムは、外部の永久磁石と正確なカプセル操作のためのローカリゼーションコイルも収容するロボットアームのエンドエフェクターに取り付けられた送信コイルに基づいて、共振誘導結合メカニズムを介して動作します。
コイルの不整合と回転の存在下で堅牢で安定した容量の送信を確保するために、カプセル内に3D受信コイルが統合されます。
さらに、荷重シフトキーイング(LSK)変調に基づいた閉ループ適応制御システムは、特定の吸収率(SAR)の安全限界に準拠しながら、透過力を最適化して効率を最適化するために動的に調整します。
このシステムは、実験室の設定で広範囲に特徴付けられ、ブタモデルを使用したin vivo実験を通じて検証されており、現実的な胃腸条件での信頼できる電力伝達と効果的なロボットナビゲーションを実証しています。
結果は、自律的でバッテリーのないロボットカプセル内視鏡検査のための提案されたWPTアプローチの実現可能性を確認し、胃腸薬の診断の強化への道を開いています。

要約(オリジナル)

This paper presents the in vivo validation of an inductive wireless power transfer (WPT) system integrated for the first time into a magnetically controlled robotic capsule endoscopy platform. The proposed system enables continuous power delivery to the capsule without the need for onboard batteries, thus extending operational time and reducing size constraints. The WPT system operates through a resonant inductive coupling mechanism, based on a transmitting coil mounted on the end effector of a robotic arm that also houses an external permanent magnet and a localization coil for precise capsule manipulation. To ensure robust and stable power transmission in the presence of coil misalignment and rotation, a 3D receiving coil is integrated within the capsule. Additionally, a closed-loop adaptive control system, based on load-shift keying (LSK) modulation, dynamically adjusts the transmitted power to optimize efficiency while maintaining compliance with specific absorption rate (SAR) safety limits. The system has been extensively characterized in laboratory settings and validated through in vivo experiments using a porcine model, demonstrating reliable power transfer and effective robotic navigation in realistic gastrointestinal conditions: the average received power was 110 mW at a distance of 9 cm between the coils, with variable capsule rotation angles. The results confirm the feasibility of the proposed WPT approach for autonomous, battery-free robotic capsule endoscopy, paving the way for enhanced diagnostic in gastrointestinal medicine.

arxiv情報

著者 Alessandro Catania,Michele Bertozzi,Nikita J. Greenidge,Benjamin Calme,Gabriele Bandini,Christian Sbrana,Roberto Cecchi,Alice Buffi,Sebastiano Strangio,Pietro Valdastri,Giuseppe Iannaccone
発行日 2025-03-17 06:03:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, physics.med-ph | In vivo validation of Wireless Power Transfer System for Magnetically Controlled Robotic Capsule Endoscopy はコメントを受け付けていません

Learning from Imperfect Demonstrations with Self-Supervision for Robotic Manipulation

要約

特にタスクの障害からの不完全なデータのためのデータ利用の改善は、現実世界での挑戦的で時間がかかり、高価なデータ収集プロセスのためにロボット操作に重要です。
現在の模倣学習(IL)は通常、不完全なデータを破棄し、成功した専門家データのみに焦点を当てています。
強化学習(RL)は探索と障害から学ぶことができますが、SIM2REALギャップと密な報酬とオンライン探査への依存により、実際のシナリオで効果的に適用することが困難になります。
この作業では、オフラインでロボット操作のモデルパフォーマンスを改善するための報酬情報を必要とせずに、不完全なデータを活用するという課題を征服することを目指しています。
具体的には、エキスパートと不完全なデータを組み合わせて、失敗した軌道セグメントの品質スコアを計算する自己監視データフィルタリングフレームワーク(SSDF)を導入します。
故障したデータからの高品質のセグメントは、トレーニングデータセットを拡張するために使用されます。
次に、強化されたデータセットを、ロボット操作タスクの下流のポリシー学習方法で使用できます。
フランカロボットアームを使用して、高忠実度のSapienシミュレーターと実際のロボット操作タスクに基づいて構築されたManiskill2ベンチマークに関する広範な実験により、SSDFは高品質の不完全なデータでトレーニングデータセットを正確に拡張し、すべてのロボット操作タスクの成功率を改善できることが示されました。

要約(オリジナル)

Improving data utilization, especially for imperfect data from task failures, is crucial for robotic manipulation due to the challenging, time-consuming, and expensive data collection process in the real world. Current imitation learning (IL) typically discards imperfect data, focusing solely on successful expert data. While reinforcement learning (RL) can learn from explorations and failures, the sim2real gap and its reliance on dense reward and online exploration make it difficult to apply effectively in real-world scenarios. In this work, we aim to conquer the challenge of leveraging imperfect data without the need for reward information to improve the model performance for robotic manipulation in an offline manner. Specifically, we introduce a Self-Supervised Data Filtering framework (SSDF) that combines expert and imperfect data to compute quality scores for failed trajectory segments. High-quality segments from the failed data are used to expand the training dataset. Then, the enhanced dataset can be used with any downstream policy learning method for robotic manipulation tasks. Extensive experiments on the ManiSkill2 benchmark built on the high-fidelity Sapien simulator and real-world robotic manipulation tasks using the Franka robot arm demonstrated that the SSDF can accurately expand the training dataset with high-quality imperfect data and improve the success rates for all robotic manipulation tasks.

arxiv情報

著者 Kun Wu,Ning Liu,Zhen Zhao,Di Qiu,Jinming Li,Zhengping Che,Zhiyuan Xu,Jian Tang
発行日 2025-03-17 06:17:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, I.2.9 | Learning from Imperfect Demonstrations with Self-Supervision for Robotic Manipulation はコメントを受け付けていません

ACL-QL: Adaptive Conservative Level in Q-Learning for Offline Reinforcement Learning

要約

環境とのさらなる相互作用なしに静的データセットでのみ動作するオフライン強化学習(RL)は、安全で有望な制御ポリシーを学習するための魅力的な代替手段を提供します。
一般的な方法は通常、Q値過大評価の問題を軽減する保守的な政策を学びますが、それをやり過ぎる傾向があり、過度に保守的な政策につながります。
さらに、彼らは固定制約ですべてのサンプルを等しく最適化し、保守的なレベルをきめんった方法で制御する微妙な能力を欠いています。
その結果、この制限によりパフォーマンスが低下します。
United Wayで上記の2つの課題に対処するために、Qラーニング(ACL-QL)における適応保守的レベルのフレームワークを提案します。これにより、Q値が軽度の範囲で制限され、各状態アクションペアの保守的なレベルでの適応制御が可能になります。
学習したQ機能の保守的なレベルが軽度の範囲で制限される可能性のある条件と、各遷移を適応的に最適化する条件を理論的に分析します。
理論分析に動機付けられて、2つの学習可能な適応体重関数を使用して各遷移で保守的なレベルを制御する新しいアルゴリズムACL-QLを提案します。
その後、単調さの損失と代理損失を設計して、適応体重関数、Q機能、およびポリシーネットワークをトレーニングします。
一般的に使用されるD4RLベンチマークでACL-QLを評価し、既存のオフラインDRLベースラインと比較して有効性と最先端のパフォーマンスを説明するために広範なアブレーション研究を実施します。

要約(オリジナル)

Offline Reinforcement Learning (RL), which operates solely on static datasets without further interactions with the environment, provides an appealing alternative to learning a safe and promising control policy. The prevailing methods typically learn a conservative policy to mitigate the problem of Q-value overestimation, but it is prone to overdo it, leading to an overly conservative policy. Moreover, they optimize all samples equally with fixed constraints, lacking the nuanced ability to control conservative levels in a fine-grained manner. Consequently, this limitation results in a performance decline. To address the above two challenges in a united way, we propose a framework, Adaptive Conservative Level in Q-Learning (ACL-QL), which limits the Q-values in a mild range and enables adaptive control on the conservative level over each state-action pair, i.e., lifting the Q-values more for good transitions and less for bad transitions. We theoretically analyze the conditions under which the conservative level of the learned Q-function can be limited in a mild range and how to optimize each transition adaptively. Motivated by the theoretical analysis, we propose a novel algorithm, ACL-QL, which uses two learnable adaptive weight functions to control the conservative level over each transition. Subsequently, we design a monotonicity loss and surrogate losses to train the adaptive weight functions, Q-function, and policy network alternatively. We evaluate ACL-QL on the commonly used D4RL benchmark and conduct extensive ablation studies to illustrate the effectiveness and state-of-the-art performance compared to existing offline DRL baselines.

arxiv情報

著者 Kun Wu,Yinuo Zhao,Zhiyuan Xu,Zhengping Che,Chengxiang Yin,Chi Harold Liu,Feiferi Feng,Jian Tang
発行日 2025-03-17 06:25:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | ACL-QL: Adaptive Conservative Level in Q-Learning for Offline Reinforcement Learning はコメントを受け付けていません

A Hierarchical Region-Based Approach for Efficient Multi-Robot Exploration

要約

未知の環境でのマルチロボットの自律探索は、ロボット工学における重要なアプリケーションです。伝統的な探索方法は、未知の領域の空間情報を無視して、フロンティアポイントまたは視点に関する情報のみを使用します。
さらに、マルチロボットタスク割り当ての正確な最適なソリューションを見つけることはNPハードであり、その結果、計算時間が大幅に消費されます。
これらの問題に対処するために、RegionGraphと呼ばれる新しいモデリング方法を使用して、階層的なマルチロボット探査フレームワークを提示します。
提案されたアプローチは、2つの主要な貢献をしています。1)地域グラフと呼ばれる加重グラフで空間情報を保存する未スプレア領域の新しいモデリング方法。
2)グローバルな探査タスクをより小さなサブタスクに分解し、グローバルな計画の頻度を減らし、非同期探査を可能にする階層的なマルチロボット探査フレームワーク。
提案された方法は、シミュレーションと実世界の両方の実験を通じて検証され、既存の方法と比較して効率が20%改善されていることが示されています。

要約(オリジナル)

Multi-robot autonomous exploration in an unknown environment is an important application in robotics.Traditional exploration methods only use information around frontier points or viewpoints, ignoring spatial information of unknown areas. Moreover, finding the exact optimal solution for multi-robot task allocation is NP-hard, resulting in significant computational time consumption. To address these issues, we present a hierarchical multi-robot exploration framework using a new modeling method called RegionGraph. The proposed approach makes two main contributions: 1) A new modeling method for unexplored areas that preserves their spatial information across the entire space in a weighted graph called RegionGraph. 2) A hierarchical multi-robot exploration framework that decomposes the global exploration task into smaller subtasks, reducing the frequency of global planning and enabling asynchronous exploration. The proposed method is validated through both simulation and real-world experiments, demonstrating a 20% improvement in efficiency compared to existing methods.

arxiv情報

著者 Di Meng,Tianhao Zhao,Chaoyu Xue,Jun Wu,Qiuguo Zhu
発行日 2025-03-17 07:13:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | A Hierarchical Region-Based Approach for Efficient Multi-Robot Exploration はコメントを受け付けていません