Object-Focus Actor for Data-efficient Robot Generalization Dexterous Manipulation

要約

ロボット操作人間のデモンストレーションからの学習は、スキルを習得するための迅速な手段を提供しますが、多くの場合、多様なシーンやオブジェクトの配置全体に一般化が欠けています。
この制限は、特に器用な操作を必要とする複雑なタスクで、実際のアプリケーションを妨げます。
Vision-Language-action(VLA)パラダイムは、大規模なデータを活用して一般化を強化します。
ただし、データ不足のため、VLAのパフォーマンスはまだ限られています。
この作業では、一般化された器用な操作のための斬新でデータ効率の高いアプローチであるオブジェクトフォーカスアクター(OFA)を紹介します。
ofaは、器用な操作タスクで観察された一貫した末端軌道を活用し、効率的なポリシートレーニングを可能にします。
私たちの方法では、階層的なパイプライン:オブジェクトの知覚とポーズの推定、操作前のポーズ到着、およびポリシーの実行を採用しています。
このプロセスにより、さまざまな背景や位置レイアウトであっても、操作が焦点が合わせて効率的であることが保証されます。
7つのタスクにわたる包括的な実世界の実験は、OFAが位置とバックグラウンドの一般化テストの両方でベースライン方法を大幅に上回ることを示しています。
特に、OFAは10個のデモンストレーションで堅牢なパフォーマンスを実現し、データ効率を強調しています。

要約(オリジナル)

Robot manipulation learning from human demonstrations offers a rapid means to acquire skills but often lacks generalization across diverse scenes and object placements. This limitation hinders real-world applications, particularly in complex tasks requiring dexterous manipulation. Vision-Language-Action (VLA) paradigm leverages large-scale data to enhance generalization. However, due to data scarcity, VLA’s performance remains limited. In this work, we introduce Object-Focus Actor (OFA), a novel, data-efficient approach for generalized dexterous manipulation. OFA exploits the consistent end trajectories observed in dexterous manipulation tasks, allowing for efficient policy training. Our method employs a hierarchical pipeline: object perception and pose estimation, pre-manipulation pose arrival and OFA policy execution. This process ensures that the manipulation is focused and efficient, even in varied backgrounds and positional layout. Comprehensive real-world experiments across seven tasks demonstrate that OFA significantly outperforms baseline methods in both positional and background generalization tests. Notably, OFA achieves robust performance with only 10 demonstrations, highlighting its data efficiency.

arxiv情報

著者 Yihang Li,Tianle Zhang,Xuelong Wei,Jiayi Li,Lin Zhao,Dongchi Huang,Zhirui Fang,Minhua Zheng,Wenjun Dai,Xiaodong He
発行日 2025-05-21 04:37:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Object-Focus Actor for Data-efficient Robot Generalization Dexterous Manipulation はコメントを受け付けていません

Deep Policy Gradient Methods Without Batch Updates, Target Networks, or Replay Buffers

要約

最新のディープポリシーグラディエントメソッドは、シミュレートされたロボットタスクで効果的なパフォーマンスを実現しますが、それらはすべて、大規模なリプレイバッファーまたは高価なバッチアップデート、またはその両方を必要とするため、リソース制限コンピューターを備えた実際のシステムに互換性があります。
これらの方法は、小さなリプレイバッファーに制限されている場合、または更新中にバッチアップデートやリプレイバッファーなしで最新のサンプルのみを使用する場合、壊滅的に失敗することを示します。
漸進的な学習における不安定性の課題に対処するための、アクションバリューグラデーション(AVG)と一連の正規化とスケーリング手法 – 新しいインクリメンタルディープポリシーグラデーション法を提案します。
ロボットシミュレーションベンチマークでは、AVGが効果的に学習する唯一の増分方法であり、多くの場合、バッチポリシーグラデーションメソッドに匹敵する最終パフォーマンスを達成することが多いことを示します。
この進歩により、ロボットマニピュレーターとモバイルロボットを使用して、インクリメンタルアップデートのみを使用して、実際のロボットで効果的な深い補強学習を初めて表示することができました。

要約(オリジナル)

Modern deep policy gradient methods achieve effective performance on simulated robotic tasks, but they all require large replay buffers or expensive batch updates, or both, making them incompatible for real systems with resource-limited computers. We show that these methods fail catastrophically when limited to small replay buffers or during incremental learning, where updates only use the most recent sample without batch updates or a replay buffer. We propose a novel incremental deep policy gradient method — Action Value Gradient (AVG) and a set of normalization and scaling techniques to address the challenges of instability in incremental learning. On robotic simulation benchmarks, we show that AVG is the only incremental method that learns effectively, often achieving final performance comparable to batch policy gradient methods. This advancement enabled us to show for the first time effective deep reinforcement learning with real robots using only incremental updates, employing a robotic manipulator and a mobile robot.

arxiv情報

著者 Gautham Vasan,Mohamed Elsayed,Alireza Azimi,Jiamin He,Fahim Shariar,Colin Bellinger,Martha White,A. Rupam Mahmood
発行日 2025-05-21 05:30:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY | Deep Policy Gradient Methods Without Batch Updates, Target Networks, or Replay Buffers はコメントを受け付けていません

Occupancy-SLAM: An Efficient and Robust Algorithm for Simultaneously Optimizing Robot Poses and Occupancy Map

要約

ポーズと特徴の共同最適化は、特徴ベースのスラム問題でより正確な結果をもたらすことが広範囲に研究され、実証されています。
ただし、共同でポーズと非機能ベースのマップの最適化に関する研究は限られたままです。
占有マップは、スペースを障害物、自由エリア、未知の地域に効果的に分類し、さまざまなタスクの空間情報をロボットに提供するため、広く使用されていない環境表現です。
この論文では、パラメーター化されたマップ表現を介してロボット軌道と占有マップの共同最適化を可能にする新しい最適化ベースのスラム法である占有スラムを提案します。
重要なノベルティは、ロボットのポーズと占有値の両方を異なるセル頂点で同時に最適化することにあります。これは、マップを推定する前にロボットポーズを最初に最適化する必要がある既存の方法からの大幅な逸脱です。
シミュレーションと実用的な2Dレーザーデータセットを使用した評価は、提案されたアプローチが、同等の計算時間のある最先端の技術よりも、より正確なロボット軌道と占有マップを堅牢に取得できることを示しています。
3Dケースの予備的な結果は、実際の3Dアプリケーションで提案された方法の可能性をさらに確認し、既存の方法よりも正確な結果を達成します。

要約(オリジナル)

Joint optimization of poses and features has been extensively studied and demonstrated to yield more accurate results in feature-based SLAM problems. However, research on jointly optimizing poses and non-feature-based maps remains limited. Occupancy maps are widely used non-feature-based environment representations because they effectively classify spaces into obstacles, free areas, and unknown regions, providing robots with spatial information for various tasks. In this paper, we propose Occupancy-SLAM, a novel optimization-based SLAM method that enables the joint optimization of robot trajectory and the occupancy map through a parameterized map representation. The key novelty lies in optimizing both robot poses and occupancy values at different cell vertices simultaneously, a significant departure from existing methods where the robot poses need to be optimized first before the map can be estimated. Evaluations using simulations and practical 2D laser datasets demonstrate that the proposed approach can robustly obtain more accurate robot trajectories and occupancy maps than state-of-the-art techniques with comparable computational time. Preliminary results in the 3D case further confirm the potential of the proposed method in practical 3D applications, achieving more accurate results than existing methods.

arxiv情報

著者 Yingyu Wang,Liang Zhao,Shoudong Huang
発行日 2025-05-21 06:07:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Occupancy-SLAM: An Efficient and Robust Algorithm for Simultaneously Optimizing Robot Poses and Occupancy Map はコメントを受け付けていません

Cascaded Diffusion Models for Neural Motion Planning

要約

現実の世界のロボットは、衝突せずに複雑な環境の目標を認識して移動する必要があります。
センサーの知覚に依存し、目標が乱雑になる場合、衝突を回避することは特に困難です。
拡散ポリシーやその他の生成モデルは、現地の計画の問題を解決する際に強力なパフォーマンスを示していますが、多くの場合、真に挑戦的なグローバルなモーション計画の問題を特徴付けるすべての微妙な制約違反を回避するのに苦労しています。
この作業では、拡散ポリシーを使用してグローバルモーション計画を学習するためのアプローチを提案し、ロボットが複雑なシーンを通して完全な軌跡を生成し、パスに沿った複数の障害について推論できるようにします。
私たちのアプローチでは、軌道が衝突がないことを確認するために、オンラインプランの修理とともにグローバルな予測と局所洗練を統一するカスケード式階層モデルを使用しています。
私たちの方法は、ナビゲーションや操作を含む複数のドメインの挑戦的なタスクに関するさまざまなベースラインよりも優れています(〜5%)。

要約(オリジナル)

Robots in the real world need to perceive and move to goals in complex environments without collisions. Avoiding collisions is especially difficult when relying on sensor perception and when goals are among clutter. Diffusion policies and other generative models have shown strong performance in solving local planning problems, but often struggle at avoiding all of the subtle constraint violations that characterize truly challenging global motion planning problems. In this work, we propose an approach for learning global motion planning using diffusion policies, allowing the robot to generate full trajectories through complex scenes and reasoning about multiple obstacles along the path. Our approach uses cascaded hierarchical models which unify global prediction and local refinement together with online plan repair to ensure the trajectories are collision free. Our method outperforms (by ~5%) a wide variety of baselines on challenging tasks in multiple domains including navigation and manipulation.

arxiv情報

著者 Mohit Sharma,Adam Fishman,Vikash Kumar,Chris Paxton,Oliver Kroemer
発行日 2025-05-21 06:21:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Cascaded Diffusion Models for Neural Motion Planning はコメントを受け付けていません

EndoVLA: Dual-Phase Vision-Language-Action Model for Autonomous Tracking in Endoscopy

要約

内視鏡処置では、異常な領域の自律的な追跡と円周方向の切断マーカーに続くことで、内視鏡師の認知負担を大幅に減らすことができます。
ただし、従来のモデルベースのパイプラインは、各コンポーネント(例:検出、モーションプランニング)に対して脆弱であり、手動チューニングと高レベルの内視鏡的意図を組み込むための闘争が必要であり、多様なシーン全体で不十分な一般化をもたらします。
視覚的認識、言語の接地、およびモーション計画をエンドツーエンドのフレームワーク内に統合するVision-Language-active(VLA)モデルは、手動の再調整なしで外科医プロンプトに意味的に適応することにより、有望な代替手段を提供します。
その可能性にもかかわらず、VLAモデルをロボット内視鏡検査に適用することは、胃腸(GI)地域の複雑で動的な解剖学的環境のためにユニークな課題を提示します。
これに対処するために、GI介入の連続体ロボット専用に設計されたEndovlaを紹介します。
内視鏡画像と外科医が発行した追跡プロンプトを考慮して、Endovlaは3つのコアタスクを実行します:(1)ポリープ追跡、(2)異常な粘膜領域の描写とフォロー、および(3)円周切断中の円形マーカーへの付着。
データの希少性とドメインシフトに取り組むために、Endovla-Motionデータセットで監視された微調整を含むデュアルフェーズ戦略を提案し、タスクを意識した報酬を備えた微調整を強化します。
私たちのアプローチは、内視鏡検査の追跡パフォーマンスを大幅に改善し、多様なシーンや複雑なシーケンシャルタスクでゼロショットの一般化を可能にします。

要約(オリジナル)

In endoscopic procedures, autonomous tracking of abnormal regions and following circumferential cutting markers can significantly reduce the cognitive burden on endoscopists. However, conventional model-based pipelines are fragile for each component (e.g., detection, motion planning) requires manual tuning and struggles to incorporate high-level endoscopic intent, leading to poor generalization across diverse scenes. Vision-Language-Action (VLA) models, which integrate visual perception, language grounding, and motion planning within an end-to-end framework, offer a promising alternative by semantically adapting to surgeon prompts without manual recalibration. Despite their potential, applying VLA models to robotic endoscopy presents unique challenges due to the complex and dynamic anatomical environments of the gastrointestinal (GI) tract. To address this, we introduce EndoVLA, designed specifically for continuum robots in GI interventions. Given endoscopic images and surgeon-issued tracking prompts, EndoVLA performs three core tasks: (1) polyp tracking, (2) delineation and following of abnormal mucosal regions, and (3) adherence to circular markers during circumferential cutting. To tackle data scarcity and domain shifts, we propose a dual-phase strategy comprising supervised fine-tuning on our EndoVLA-Motion dataset and reinforcement fine-tuning with task-aware rewards. Our approach significantly improves tracking performance in endoscopy and enables zero-shot generalization in diverse scenes and complex sequential tasks.

arxiv情報

著者 Chi Kit Ng,Long Bai,Guankun Wang,Yupeng Wang,Huxin Gao,Kun Yuan,Chenhan Jin,Tieyong Zeng,Hongliang Ren
発行日 2025-05-21 07:35:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | EndoVLA: Dual-Phase Vision-Language-Action Model for Autonomous Tracking in Endoscopy はコメントを受け付けていません

GCNT: Graph-Based Transformer Policies for Morphology-Agnostic Reinforcement Learning

要約

異なる形態を持つロボットのユニバーサルコントローラーをトレーニングすることは、ロボットシステムの堅牢性と回復力を大幅に向上させることができるため、有望な研究傾向です。
ただし、多様な形態は、状態空間とアクション空間のさまざまな側面を生み出すことができ、従来のポリシーネットワークに準拠することを困難にします。
既存の方法は、ロボット構成をモジュール化することによりこの問題に対処しますが、普遍的なコントローラーをトレーニングするために重要であることが証明されている全体的な形態情報を適切に抽出および利用しません。
この目的のために、改良されたグラフ畳み込みネットワーク(GCN)とトランスに基づいた形態と存在するポリシーネットワークであるGCNTを提案します。
GCNとトランスが任意の数のモジュールを処理して、多様な形態との互換性を実現できるという事実を活用しています。
私たちの重要な洞察は、GCNがロボットの形態情報を効率的に抽出できることですが、トランスはロボットの各ノードがこの情報を直接通信できるようにすることで完全に利用されることを保証します。
実験結果は、トレーニング中に見られないロボット形態へのゼロショット一般化を含む、さまざまな構成のロボットの回復力のある移動挙動を生成できることを示しています。
特に、GCNTは2つの標準ベンチマークで8つのタスクで最高のパフォーマンスを達成しました。

要約(オリジナル)

Training a universal controller for robots with different morphologies is a promising research trend, since it can significantly enhance the robustness and resilience of the robotic system. However, diverse morphologies can yield different dimensions of state space and action space, making it difficult to comply with traditional policy networks. Existing methods address this issue by modularizing the robot configuration, while do not adequately extract and utilize the overall morphological information, which has been proven crucial for training a universal controller. To this end, we propose GCNT, a morphology-agnostic policy network based on improved Graph Convolutional Network (GCN) and Transformer. It exploits the fact that GCN and Transformer can handle arbitrary number of modules to achieve compatibility with diverse morphologies. Our key insight is that the GCN is able to efficiently extract morphology information of robots, while Transformer ensures that it is fully utilized by allowing each node of the robot to communicate this information directly. Experimental results show that our method can generate resilient locomotion behaviors for robots with different configurations, including zero-shot generalization to robot morphologies not seen during training. In particular, GCNT achieved the best performance on 8 tasks in the 2 standard benchmarks.

arxiv情報

著者 Yingbo Luo,Meibao Yao,Xueming Xiao
発行日 2025-05-21 07:40:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | GCNT: Graph-Based Transformer Policies for Morphology-Agnostic Reinforcement Learning はコメントを受け付けていません

DualLQR: Efficient Grasping of Oscillating Apples using Task Parameterized Learning from Demonstration

要約

デモから学ぶことで、ロボットが農業タスク、特に選択的な収穫を実行することを学ぶことができる大きな可能性を提供します。
課題の1つは、ターゲットフルーツが近づいている間に振動する可能性があることです。
握るターゲットを把握するには、2つの要件があります。1)損傷のない把握の最終的なアプローチ中のターゲットの緊密な追跡、および2)完全なパスは、効率を改善するために可能な限り短くする必要があります。
Duallqrと呼ばれる新しい方法を提案します。
この方法では、LQRを再補充する必要なく、移動ターゲットに有限Horizo​​n線形二次レギュレーター(LQR)を使用します。
これを可能にするために、2つの個別の参照フレームでLQRが実行されているデュアルLQRセットアップを使用します。
大規模なシミュレーションテストを通じて、最先端の方法は、振動せずに必要な最終精度をかろうじて満たし、振動ターゲットで必要な精度を下回ることがわかった。
一方、Duallqrは、最小の距離を移動している間、高い振動でも必要な最終精度を満たすことができることがわかりました。
現実世界のアップルを把握するタスクのさらなるテストにより、DuallQRは99%の成功率で振動するリンゴを把握することができたことが示されました。

要約(オリジナル)

Learning from Demonstration offers great potential for robots to learn to perform agricultural tasks, specifically selective harvesting. One of the challenges is that the target fruit can be oscillating while approaching. Grasping oscillating targets has two requirements: 1) close tracking of the target during the final approach for damage-free grasping, and 2) the complete path should be as short as possible for improved efficiency. We propose a new method called DualLQR. In this method, we use a finite horizon Linear Quadratic Regulator (LQR) on a moving target, without the need of refitting the LQR. To make this possible, we use a dual LQR set-up, with an LQR running in two separate reference frames. Through extensive simulation testing, it was found that the state-of-art method barely meets the required final accuracy without oscillations and drops below the required accuracy with an oscillating target. DualLQR, on the other hand, was found to be able to meet the required final accuracy even with high oscillations, while travelling the least distance. Further testing on a real-world apple grasping task showed that DualLQR was able to successfully grasp oscillating apples, with a success rate of 99%.

arxiv情報

著者 Robert van de Ven,Ard Nieuwenhuizen,Eldert J. van Henten,Gert Kootstra
発行日 2025-05-21 07:41:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | DualLQR: Efficient Grasping of Oscillating Apples using Task Parameterized Learning from Demonstration はコメントを受け付けていません

From Words to Collisions: LLM-Guided Evaluation and Adversarial Generation of Safety-Critical Driving Scenarios

要約

自動運転車の安全性を確保するには、仮想シナリオベースのテストが必要です。これは、安全性が批判的なシナリオの堅牢な評価と生成に依存します。
これまでのところ、研究者は、安全メトリックとして手作りのシナリオに大きく依存するシナリオベースのテストフレームワークを使用しています。
人間の解釈の努力を減らし、これらのアプローチの限られたスケーラビリティを克服するために、大規模な言語モデル(LLM)と構造化されたシナリオの解析と迅速なエンジニアリングを組み合わせて、安全性が批判的な運転シナリオを自動的に評価および生成します。
シナリオ評価のためのデカルトおよびエゴ中心の迅速な戦略と、リスク誘導車両(自我攻撃者)の軌跡を変更して重要なシナリオを作成する敵対的な生成モジュールを紹介します。
2Dシミュレーションフレームワークと複数の事前訓練を受けたLLMを使用して、アプローチを検証します。
結果は、評価モジュールが衝突シナリオを効果的に検出し、シナリオの安全性を促進することを示しています。
一方、新世代モジュールは、リスクの高いエージェントを識別し、現実的で安全性の高いシナリオを合成します。
ドメインに基づいたプロンプト技術を装備したLLMは、安全性が批判的な運転シナリオを効果的に評価および生成し、手作りのメトリックへの依存を減らすことができると結論付けています。
https://github.com/tum-avs/from-words-collisionsでオープンソースコードとシナリオをリリースします。

要約(オリジナル)

Ensuring the safety of autonomous vehicles requires virtual scenario-based testing, which depends on the robust evaluation and generation of safety-critical scenarios. So far, researchers have used scenario-based testing frameworks that rely heavily on handcrafted scenarios as safety metrics. To reduce the effort of human interpretation and overcome the limited scalability of these approaches, we combine Large Language Models (LLMs) with structured scenario parsing and prompt engineering to automatically evaluate and generate safety-critical driving scenarios. We introduce Cartesian and Ego-centric prompt strategies for scenario evaluation, and an adversarial generation module that modifies trajectories of risk-inducing vehicles (ego-attackers) to create critical scenarios. We validate our approach using a 2D simulation framework and multiple pre-trained LLMs. The results show that the evaluation module effectively detects collision scenarios and infers scenario safety. Meanwhile, the new generation module identifies high-risk agents and synthesizes realistic, safety-critical scenarios. We conclude that an LLM equipped with domain-informed prompting techniques can effectively evaluate and generate safety-critical driving scenarios, reducing dependence on handcrafted metrics. We release our open-source code and scenarios at: https://github.com/TUM-AVS/From-Words-to-Collisions.

arxiv情報

著者 Yuan Gao,Mattia Piccinini,Korbinian Moller,Amr Alanwar,Johannes Betz
発行日 2025-05-21 07:47:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.RO | From Words to Collisions: LLM-Guided Evaluation and Adversarial Generation of Safety-Critical Driving Scenarios はコメントを受け付けていません

Learning-based Autonomous Oversteer Control and Collision Avoidance

要約

車両の後部タイヤが牽引力を失い、意図しない過度のヨーを誘発するオーバーステアは、重大な安全上の課題をもたらします。
オーバーステアの制御に失敗すると、多くの場合、深刻な交通事故につながります。
最近の自律的な運転努力は、安定化の操作を通じてオーバーステアを処理しようとしましたが、大半は専門家定義の軌跡に依存しているか、障害物のない環境を想定し、現実世界の適用性を制限しています。
このペーパーでは、オーバーステアコントロールと衝突回避に同時に取り組む新しいエンドツーエンド(E2E)自律運転アプローチを紹介します。
模倣学習(IL)、強化学習(RL)、およびハイブリッド学習(HL)を含む既存のE2E技術には、一般にほぼ最適なデモまたは豊富な経験が必要です。
しかし、熟練した人間のドライバーでさえ、オーバーステアの下で完璧なデモンストレーションを提供するのに苦労しており、高い遷移分散は十分なデータの蓄積を妨げます。
したがって、Q-Optimalデモンストレーションデータから効果的に学習し、新しい条件に迅速に適応する新しいHLアルゴリズムであるQ-Compared Soft Actor-Critic(QC-SAC)を提示します。
QC-SACを評価するために、現実世界のドライバートレーニングに触発されたベンチマークを紹介します。車両は滑りやすい表面で突然のオーバーステアに遭遇し、ランダムに配置された障害物を先に避けなければなりません。
実験結果は、QC-SACが最適な運転ポリシーを達成し、最先端のIL、RL、およびHLベースラインを大幅に上回っていることを示しています。
私たちの方法は、障害物回避を伴う世界初の安全な自律的なオーバーステア制御を示しています。

要約(オリジナル)

Oversteer, wherein a vehicle’s rear tires lose traction and induce unintentional excessive yaw, poses critical safety challenges. Failing to control oversteer often leads to severe traffic accidents. Although recent autonomous driving efforts have attempted to handle oversteer through stabilizing maneuvers, the majority rely on expert-defined trajectories or assume obstacle-free environments, limiting real-world applicability. This paper introduces a novel end-to-end (E2E) autonomous driving approach that tackles oversteer control and collision avoidance simultaneously. Existing E2E techniques, including Imitation Learning (IL), Reinforcement Learning (RL), and Hybrid Learning (HL), generally require near-optimal demonstrations or extensive experience. Yet even skilled human drivers struggle to provide perfect demonstrations under oversteer, and high transition variance hinders accumulating sufficient data. Hence, we present Q-Compared Soft Actor-Critic (QC-SAC), a new HL algorithm that effectively learns from suboptimal demonstration data and adapts rapidly to new conditions. To evaluate QC-SAC, we introduce a benchmark inspired by real-world driver training: a vehicle encounters sudden oversteer on a slippery surface and must avoid randomly placed obstacles ahead. Experimental results show QC-SAC attains near-optimal driving policies, significantly surpassing state-of-the-art IL, RL, and HL baselines. Our method demonstrates the world’s first safe autonomous oversteer control with obstacle avoidance.

arxiv情報

著者 Seokjun Lee,Seung-Hyun Kong
発行日 2025-05-21 08:53:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Learning-based Autonomous Oversteer Control and Collision Avoidance はコメントを受け付けていません

R3GS: Gaussian Splatting for Robust Reconstruction and Relocalization in Unconstrained Image Collections

要約

制約のないデータセットに合わせて調整された堅牢な再構築と再局在化フレームワークであるR3GSを提案します。
私たちの方法は、トレーニング中にハイブリッド表現を使用します。
各アンカーは、畳み込みニューラルネットワーク(CNN)からのグローバルな特徴と、多溶液ハッシュグリッドによってエンコードされたローカル機能を組み合わせています[2]。
その後、いくつかの浅い多層パーセプトロン(MLP)は、色、不透明度、共分散を含む各ガウスの属性を予測します。
再構成プロセスに対する一時的なオブジェクトの悪影響を緩和するために、軽量のヒト検出ネットワークをfneで調整します。
FFNEがチューニングすると、このネットワークは、さらなる適応の必要性を最小限に抑えて、他の一時的なオブジェクト(ポスター、バナー、車など)に効果的に一般化する可視性マップを生成します。
さらに、屋外シーンでスカイ地域によってもたらされる課題に対処するために、制約として深さを組み込んだ効果的なスカイハンドリング技術を提案します。
これにより、無限に遠くの空を大きな馬鹿げた空の球の表面に表すことができ、空の再構築の誤りによって引き起こされるffoaterを微妙に減少させることができます。
さらに、再構築された3DGSシーン内の特定の画像のカメラポーズを推定しなが​​ら、照明条件の変化に堅牢なままでいる新しい再局在化方法を導入します。
その結果、R3Gはレンダリングのレンダリングを大幅に強化し、トレーニングと効果の両方を改善し、ストレージ要件を削減します。
私たちの方法は、野生のデータセットのベースラインメソッドと比較して、最先端のパフォーマンスを実現します。
コードは、論文の受け入れに続いてオープンソースになります。

要約(オリジナル)

We propose R3GS, a robust reconstruction and relocalization framework tailored for unconstrained datasets. Our method uses a hybrid representation during training. Each anchor combines a global feature from a convolutional neural network (CNN) with a local feature encoded by the multiresolution hash grids [2]. Subsequently, several shallow multi-layer perceptrons (MLPs) predict the attributes of each Gaussians, including color, opacity, and covariance. To mitigate the adverse effects of transient objects on the reconstruction process, we ffne-tune a lightweight human detection network. Once ffne-tuned, this network generates a visibility map that efffciently generalizes to other transient objects (such as posters, banners, and cars) with minimal need for further adaptation. Additionally, to address the challenges posed by sky regions in outdoor scenes, we propose an effective sky-handling technique that incorporates a depth prior as a constraint. This allows the inffnitely distant sky to be represented on the surface of a large-radius sky sphere, signiffcantly reducing ffoaters caused by errors in sky reconstruction. Furthermore, we introduce a novel relocalization method that remains robust to changes in lighting conditions while estimating the camera pose of a given image within the reconstructed 3DGS scene. As a result, R3GS significantly enhances rendering ffdelity, improves both training and rendering efffciency, and reduces storage requirements. Our method achieves state-of-the-art performance compared to baseline methods on in-the-wild datasets. The code will be made open-source following the acceptance of the paper.

arxiv情報

著者 Xu yan,Zhaohui Wang,Rong Wei,Jingbo Yu,Dong Li,Xiangde Liu
発行日 2025-05-21 09:25:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | R3GS: Gaussian Splatting for Robust Reconstruction and Relocalization in Unconstrained Image Collections はコメントを受け付けていません