Back to Base: Towards Hands-Off Learning via Safe Resets with Reach-Avoid Safety Filters

要約

安全制約を保証しながらタスクを達成するコントローラを設計することは、依然として重要な課題である。我々はしばしば、エージェントが安全でない状態を回避し、特定の時間までに目的の目標に戻ることを保証しながら、環境探索のような名目的なタスクで優れた性能を発揮することを望んでいる。特に我々は、実世界における強化学習のための、安全で効率的なハンズオフトレーニングの設定に動機づけられている。ロボットが人間の介入なしに安全かつ自律的に目的の領域(例えば充電ステーション)にリセットできるようにすることで、効率を高め、訓練を容易にすることができる。制御バリア関数に基づくような安全フィルタは、安全性を公称制御目標から切り離し、安全性を厳密に保証する。その成功にもかかわらず、制御制約やシステムの不確実性を伴う一般的な非線形システムに対してこれらの関数を構築することは、依然として未解決の問題である。本稿では、リーチアボイド問題に関連する値関数から得られる安全フィルタを紹介する。提案する安全フィルタは、安全でない領域を回避し、システムを望ましい目標集合に導く一方で、公称制御器を最小に修正する。安全なリセットを可能にしながらポリシーの性能を維持することで、効率的なハンズオフ強化学習を可能にし、実世界のロボットに対する安全なトレーニングの実現可能性を前進させる。我々は、ソフトアクタークリティックの修正版を用いて、カートポール安定化問題のスイングアップタスクを安全に訓練するアプローチを実証する。

要約(オリジナル)

Designing controllers that accomplish tasks while guaranteeing safety constraints remains a significant challenge. We often want an agent to perform well in a nominal task, such as environment exploration, while ensuring it can avoid unsafe states and return to a desired target by a specific time. In particular we are motivated by the setting of safe, efficient, hands-off training for reinforcement learning in the real world. By enabling a robot to safely and autonomously reset to a desired region (e.g., charging stations) without human intervention, we can enhance efficiency and facilitate training. Safety filters, such as those based on control barrier functions, decouple safety from nominal control objectives and rigorously guarantee safety. Despite their success, constructing these functions for general nonlinear systems with control constraints and system uncertainties remains an open problem. This paper introduces a safety filter obtained from the value function associated with the reach-avoid problem. The proposed safety filter minimally modifies the nominal controller while avoiding unsafe regions and guiding the system back to the desired target set. By preserving policy performance while allowing safe resetting, we enable efficient hands-off reinforcement learning and advance the feasibility of safe training for real world robots. We demonstrate our approach using a modified version of soft actor-critic to safely train a swing-up task on a modified cartpole stabilization problem.

arxiv情報

著者 Azra Begzadić,Nikhil Uday Shinde,Sander Tonkens,Dylan Hirsch,Kaleb Ugalde,Michael C. Yip,Jorge Cortés,Sylvia Herbert
発行日 2025-06-03 03:49:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, cs.SY, eess.SY | Back to Base: Towards Hands-Off Learning via Safe Resets with Reach-Avoid Safety Filters はコメントを受け付けていません

STATE-NAV: Stability-Aware Traversability Estimation for Bipedal Navigation on Rough Terrain

要約

二足歩行ロボットは人間中心の環境を操縦するのに有利であるが、車輪型ロボットや四足歩行ロボットのような他の安定した移動プラットフォームに比べ、故障リスクが大きい。これらのプラットフォームでは、学習ベースの移動可能性が広く研究されているが、二足歩行ロボットの移動可能性は、不整地での運動安定性を考慮した限定的な手動設計ルールに依存している。本研究では、多様で凹凸のある環境で動作する二足歩行ロボットのための、初の学習ベースのトラバース性推定とリスクセンシティブナビゲーションフレームワークを提示する。変換器ベースのニューラルネットワークであるTravFormerは、不確実性を伴う二足歩行の不安定性を予測するように学習され、リスクを考慮した適応的なプランニングを可能にする。このネットワークに基づき、安定性を考慮した指令速度、すなわち不安定性をユーザー定義の限界値以下に抑える最速の指令速度として、走行可能性を定義する。この速度ベースのトラバーサビリティは、時間効率の良い計画のためのトラバーサビリティ情報付き高速ランダムツリースター(TravRRT*)と安全な実行のためのモデル予測制御(MPC)を組み合わせた階層型プランナに統合される。本手法をMuJoCoシミュレーションで検証し、既存の手法と比較して、様々な地形においてロバスト性と時間効率が向上し、ナビゲーション性能が改善したことを示す。

要約(オリジナル)

Bipedal robots have advantages in maneuvering human-centered environments, but face greater failure risk compared to other stable mobile plarforms such as wheeled or quadrupedal robots. While learning-based traversability has been widely studied for these platforms, bipedal traversability has instead relied on manually designed rules with limited consideration of locomotion stability on rough terrain. In this work, we present the first learning-based traversability estimation and risk-sensitive navigation framework for bipedal robots operating in diverse, uneven environments. TravFormer, a transformer-based neural network, is trained to predict bipedal instability with uncertainty, enabling risk-aware and adaptive planning. Based on the network, we define traversability as stability-aware command velocity-the fastest command velocity that keeps instability below a user-defined limit. This velocity-based traversability is integrated into a hierarchical planner that combines traversability-informed Rapid Random Tree Star (TravRRT*) for time-efficient planning and Model Predictive Control (MPC) for safe execution. We validate our method in MuJoCo simulation, demonstrating improved navigation performance, with enhanced robustness and time efficiency across varying terrains compared to existing methods.

arxiv情報

著者 Ziwon Yoon,Lawrence Y. Zhu,Lu Gan,Ye Zhao
発行日 2025-06-03 03:50:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | STATE-NAV: Stability-Aware Traversability Estimation for Bipedal Navigation on Rough Terrain はコメントを受け付けていません

SAM2Act: Integrating Visual Foundation Model with A Memory Architecture for Robotic Manipulation

要約

多様でダイナミックな環境で動作するロボット操作システムは、マルチタスク相互作用、未知のシナリオへの汎化、空間記憶という3つの重要な能力を発揮しなければならない。ロボット操作において大きな進歩が見られる一方で、複雑な環境変化への汎化や記憶に依存するタスクへの対応において、既存のアプローチはしばしば不十分である。このギャップを埋めるために、我々はSAM2Actを紹介する。SAM2Actは、大規模な基礎モデルからの視覚表現を用いた多解像度アップサンプリングを活用する、多視点ロボット変換器ベースのポリシーである。SAM2Actは、RLBenchベンチマークの18のタスクにおいて86.8%という最先端の平均成功率を達成し、The Colosseumベンチマークの多様な環境摂動下において4.3%の性能差しかなく、頑健な汎化を示す。この基盤の上に、我々はSAM2にインスパイアされたメモリベースのアーキテクチャであるSAM2Act+を提案する。SAM2Act+は、空間記憶を強化するために、メモリバンク、エンコーダ、注意メカニズムを組み込んだものである。記憶に依存するタスクを評価する必要性に応えるため、ロボット操作における空間記憶と行動想起を評価するために設計された新しいベンチマークであるMemoryBenchを紹介する。SAM2Act+は、MemoryBenchの記憶ベースのタスクで平均94.3%の成功率を達成し、既存のアプローチを大幅に上回り、記憶ベースのロボットシステムの限界を押し広げる。プロジェクトページ: sam2act.github.io.

要約(オリジナル)

Robotic manipulation systems operating in diverse, dynamic environments must exhibit three critical abilities: multitask interaction, generalization to unseen scenarios, and spatial memory. While significant progress has been made in robotic manipulation, existing approaches often fall short in generalization to complex environmental variations and addressing memory-dependent tasks. To bridge this gap, we introduce SAM2Act, a multi-view robotic transformer-based policy that leverages multi-resolution upsampling with visual representations from large-scale foundation model. SAM2Act achieves a state-of-the-art average success rate of 86.8% across 18 tasks in the RLBench benchmark, and demonstrates robust generalization on The Colosseum benchmark, with only a 4.3% performance gap under diverse environmental perturbations. Building on this foundation, we propose SAM2Act+, a memory-based architecture inspired by SAM2, which incorporates a memory bank, an encoder, and an attention mechanism to enhance spatial memory. To address the need for evaluating memory-dependent tasks, we introduce MemoryBench, a novel benchmark designed to assess spatial memory and action recall in robotic manipulation. SAM2Act+ achieves an average success rate of 94.3% on memory-based tasks in MemoryBench, significantly outperforming existing approaches and pushing the boundaries of memory-based robotic systems. Project page: sam2act.github.io.

arxiv情報

著者 Haoquan Fang,Markus Grotz,Wilbert Pumacay,Yi Ru Wang,Dieter Fox,Ranjay Krishna,Jiafei Duan
発行日 2025-06-03 04:39:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | SAM2Act: Integrating Visual Foundation Model with A Memory Architecture for Robotic Manipulation はコメントを受け付けていません

VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion

要約

脚式ロボットのロコモーションにおける最近の成功は、強化学習と物理シミュレータの統合によるものである。しかし、シミュレータは通常、視覚的リアリズムや複雑な実世界のジオメトリを再現できないため、シミュレータと実世界のギャップのために、これらのポリシーが実環境で展開されたときにしばしば課題に遭遇する。さらに、現実的な視覚レンダリングの欠如は、自我中心のナビゲーションのようなRGBベースの知覚を必要とする高レベルのタスクをサポートするこれらのポリシーの能力を制限する。本論文では、視覚ナビゲーションとロコモーション学習のために、フォトリアリスティックで物理的にインタラクティブな「デジタルツイン」シミュレーション環境を生成するReal-to-Sim-to-Realフレームワークを提示する。我々のアプローチは、3Dガウススプラッティング(3DGS)に基づくマルチビュー画像からのシーン再構築を活用し、これらの環境を自我中心の視覚知覚とメッシュベースの物理的インタラクションをサポートするシミュレーションに統合する。その有効性を実証するために、我々はシミュレータ内で強化学習ポリシーを訓練し、視覚的ゴール追跡タスクを実行させる。広範な実験により、我々のフレームワークがRGBのみのシミュレータからリアルへの方針伝達を達成することが示された。さらに、我々のフレームワークは、複雑な新しい環境において効果的な探索能力を持つロボットポリシーの迅速な適応を容易にし、家庭や工場での応用の可能性を強調する。

要約(オリジナル)

Recent success in legged robot locomotion is attributed to the integration of reinforcement learning and physical simulators. However, these policies often encounter challenges when deployed in real-world environments due to sim-to-real gaps, as simulators typically fail to replicate visual realism and complex real-world geometry. Moreover, the lack of realistic visual rendering limits the ability of these policies to support high-level tasks requiring RGB-based perception like ego-centric navigation. This paper presents a Real-to-Sim-to-Real framework that generates photorealistic and physically interactive ‘digital twin’ simulation environments for visual navigation and locomotion learning. Our approach leverages 3D Gaussian Splatting (3DGS) based scene reconstruction from multi-view images and integrates these environments into simulations that support ego-centric visual perception and mesh-based physical interactions. To demonstrate its effectiveness, we train a reinforcement learning policy within the simulator to perform a visual goal-tracking task. Extensive experiments show that our framework achieves RGB-only sim-to-real policy transfer. Additionally, our framework facilitates the rapid adaptation of robot policies with effective exploration capability in complex new environments, highlighting its potential for applications in households and factories.

arxiv情報

著者 Shaoting Zhu,Linzhan Mou,Derun Li,Baijun Ye,Runhan Huang,Hang Zhao
発行日 2025-06-03 05:45:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion はコメントを受け付けていません

Adversarial Locomotion and Motion Imitation for Humanoid Policy Learning

要約

人間は、多様で表情豊かな全身運動を行います。しかし、全身運動を模倣する従来のアプローチでは、上半身と下半身の異なる役割が無視されがちであるため、ヒューマノイドロボットで人間のような全身協調動作を実現することは依然として困難です。このような見落としは、計算量の多い方針学習につながり、実世界での実行中にロボットの不安定性や転倒を頻繁に引き起こします。これらの問題に対処するために、我々は、上半身と下半身の敵対的な政策学習を可能にする新しいフレームワークである、敵対的ロコモーションと動作模倣(Adversarial Locomotion and Motion Imitation: ALMI)を提案する。具体的には、上半身が様々なモーションを追跡する一方で、下半身は速度命令に従うロバストなロコモーション能力を提供することを目指す。逆に、上半身の方針は、ロボットが速度に基づく運動を実行する際に、効果的な運動追跡を保証する。反復更新により、これらの方針は協調的な全身制御を実現し、遠隔操作システムによるロコマニピュレーション作業に拡張することができる。本手法は、シミュレーションと実物大のUnitree H1ロボットの両方で、ロバストなロコモーションと正確なモーショントラッキングを達成することを、広範な実験により実証する。さらに、実際のロボットに導入可能なMuJoCoシミュレーションの高品質なエピソード軌道を含む大規模な全身運動制御データセットを公開する。プロジェクトページはhttps://almi-humanoid.github.io。

要約(オリジナル)

Humans exhibit diverse and expressive whole-body movements. However, attaining human-like whole-body coordination in humanoid robots remains challenging, as conventional approaches that mimic whole-body motions often neglect the distinct roles of upper and lower body. This oversight leads to computationally intensive policy learning and frequently causes robot instability and falls during real-world execution. To address these issues, we propose Adversarial Locomotion and Motion Imitation (ALMI), a novel framework that enables adversarial policy learning between upper and lower body. Specifically, the lower body aims to provide robust locomotion capabilities to follow velocity commands while the upper body tracks various motions. Conversely, the upper-body policy ensures effective motion tracking when the robot executes velocity-based movements. Through iterative updates, these policies achieve coordinated whole-body control, which can be extended to loco-manipulation tasks with teleoperation systems. Extensive experiments demonstrate that our method achieves robust locomotion and precise motion tracking in both simulation and on the full-size Unitree H1 robot. Additionally, we release a large-scale whole-body motion control dataset featuring high-quality episodic trajectories from MuJoCo simulations deployable on real robots. The project page is https://almi-humanoid.github.io.

arxiv情報

著者 Jiyuan Shi,Xinzhe Liu,Dewei Wang,Ouyang Lu,Sören Schwertfeger,Fuchun Sun,Chenjia Bai,Xuelong Li
発行日 2025-06-03 05:55:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | Adversarial Locomotion and Motion Imitation for Humanoid Policy Learning はコメントを受け付けていません

Grasp2Grasp: Vision-Based Dexterous Grasp Translation via Schrödinger Bridges

要約

我々は、視覚に基づく器用な把持変換の新しいアプローチを提案する。このアプローチは、形態の異なるロボットハンド間で把持の意図を伝達することを目的とする。把持元のハンドが物体を把持している様子を視覚的に観察した場合、対になるデモンストレーションやハンド固有のシミュレーションを必要とせずに、把持対象のハンドに対して機能的に等価な把持を合成することを目標とする。我々はこの問題を、シュルオディンガー橋形式論を用いた把持分布間の確率的輸送として扱う。本手法は、視覚的観察を条件として、スコアマッチングとフローマッチングにより、ソースとターゲットの潜在的な把持空間間のマッピングを学習する。この変換を導くために、基本ポーズ、接触マップ、レンチ空間、操作性におけるアライメントを符号化する物理情報コスト関数を導入する。多様な手と物体のペアを対象とした実験により、我々のアプローチが、強い汎化性を持つ、安定した物理的根拠のある把持を生成することが実証された。本研究は、異種マニピュレータに対する意味的把持移動を可能にし、視覚に基づく把持と確率的生成モデリングの橋渡しをする。

要約(オリジナル)

We propose a new approach to vision-based dexterous grasp translation, which aims to transfer grasp intent across robotic hands with differing morphologies. Given a visual observation of a source hand grasping an object, our goal is to synthesize a functionally equivalent grasp for a target hand without requiring paired demonstrations or hand-specific simulations. We frame this problem as a stochastic transport between grasp distributions using the Schr\’odinger Bridge formalism. Our method learns to map between source and target latent grasp spaces via score and flow matching, conditioned on visual observations. To guide this translation, we introduce physics-informed cost functions that encode alignment in base pose, contact maps, wrench space, and manipulability. Experiments across diverse hand-object pairs demonstrate our approach generates stable, physically grounded grasps with strong generalization. This work enables semantic grasp transfer for heterogeneous manipulators and bridges vision-based grasping with probabilistic generative modeling.

arxiv情報

著者 Tao Zhong,Jonah Buchanan,Christine Allen-Blanchette
発行日 2025-06-03 06:08:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.RO | Grasp2Grasp: Vision-Based Dexterous Grasp Translation via Schrödinger Bridges はコメントを受け付けていません

AURA: Agentic Upskilling via Reinforced Abstractions

要約

我々は、多段階強化学習を通して、高レベルのタスクプロンプトを機敏なロボットのための展開可能な制御ポリシーに変換することに関わる組み合わせ爆発について研究する。我々は、スキーマ中心のカリキュラムRLフレームワークであるAURA(Agentic Upskilling via Reinforced Abstractions)を導入し、LLM(Large Language Models)を多段階カリキュラムの自律的な設計者として活用する。AURAは、ユーザープロンプトを、完全な報酬関数、ドメインランダム化戦略、およびトレーニング設定をエンコードするYAMLワークフローに変換する。すべてのファイルは、GPU時間が消費される前にスキーマに対して静的に検証され、人間の介入なしに信頼性の高い効率的な実行が保証されます。検索によって強化されたフィードバックループにより、特殊なLLMエージェントが、ベクターデータベースに保存された過去のトレーニング結果に基づいて段階的なカリキュラムを設計、実行、改良することができ、時間の経過に伴う継続的な改善をサポートします。アブレーション研究では、カリキュラムの質と収束の安定性において検索が重要であることが強調されている。定量的な実験によると、AURAは、GPUで加速されたトレーニングフレームワークにおいて、LLMガイドのベースラインを常に上回っている。定性的なテストでは、AURAは、ユーザのプロンプトから直接エンドツーエンドのポリシーを学習し、さまざまな環境にわたってカスタムヒューマノイドロボット上にゼロショットで展開することに成功しています。カリキュラム設計の複雑さを抽象化することで、AURAは、手作業で構築するには法外に複雑な、スケーラブルで適応的なポリシー学習パイプラインを可能にします。

要約(オリジナル)

We study the combinatorial explosion involved in translating high-level task prompts into deployable control policies for agile robots through multi-stage reinforcement learning. We introduce AURA (Agentic Upskilling via Reinforced Abstractions), a schema-centric curriculum RL framework that leverages Large Language Models (LLMs) as autonomous designers of multi-stage curricula. AURA transforms user prompts into YAML workflows that encode full reward functions, domain randomization strategies, and training configurations. All files are statically validated against a schema before any GPU time is consumed, ensuring reliable and efficient execution without human intervention. A retrieval-augmented feedback loop allows specialized LLM agents to design, execute, and refine staged curricula based on prior training results stored in a vector database, supporting continual improvement over time. Ablation studies highlight the importance of retrieval for curriculum quality and convergence stability. Quantitative experiments show that AURA consistently outperforms LLM-guided baselines on GPU-accelerated training frameworks. In qualitative tests, AURA successfully trains end-to-end policies directly from user prompts and deploys them zero-shot on a custom humanoid robot across a range of environments. By abstracting away the complexity of curriculum design, AURA enables scalable and adaptive policy learning pipelines that would be prohibitively complex to construct by hand.

arxiv情報

著者 Alvin Zhu,Yusuke Tanaka,Dennis Hong
発行日 2025-06-03 06:37:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | AURA: Agentic Upskilling via Reinforced Abstractions はコメントを受け付けていません

Exploiting Local Observations for Robust Robot Learning

要約

多くのロボットタスクは、完全な状態観測を伴う集中型シングルエージェント制御と分散型マルチエージェント制御のいずれかによって対処することができるが、最適なアプローチを選択するための明確な基準は欠如している。本論文では、局所観測を用いたマルチエージェント強化学習(MARL)が、従来の集中型制御手法と比較して、複雑なロボットシステムにおいてどのようにロバスト性を向上させることができるかを包括的に検討する。特定のタスクにおいて、分散型MARL制御が、摂動やエージェントの故障に対して優れたロバスト性を提供しながら、集中型アプローチに匹敵する性能を達成できることを実証する理論的分析と実証的検証の両方を提供する。我々の理論的貢献には、完全観測可能条件下でのSARLとMARLの等価性の解析的証明、観測可能性が重要な差別化要因であることの特定、外部摂動下での局所的に観測可能なポリシーの性能劣化境界の導出が含まれる。標準的なMARLベンチマークを用いた実証検証により、局所的に観測可能なMARLは、限られた観測量にもかかわらず、競争力のある性能を維持することが確認された。移動操作ロボットを用いた実世界実験により、我々の分散型MARLコントローラは、集中型ベースラインと比較して、エージェントの誤動作と環境擾乱の両方に対して著しく改善された頑健性を示すことが実証された。この系統的な研究は、複雑なロボットシステムにおいて、ロバストで一般化可能な制御戦略を設計するための重要な洞察を提供し、局所観測を用いたMARLが、従来の集中型制御パラダイムに代わる実行可能な選択肢であることを立証する。

要約(オリジナル)

While many robotic tasks can be addressed through either centralized single-agent control with full state observation or decentralized multi-agent control, clear criteria for selecting the optimal approach are lacking. This paper presents a comprehensive investigation into how multi-agent reinforcement learning (MARL) with local observations can enhance robustness in complex robotic systems compared to traditional centralized control methods. We provide both theoretical analysis and empirical validation demonstrating that in certain tasks, decentralized MARL controllers can achieve performance comparable to centralized approaches while offering superior robustness against perturbations and agent failures. Our theoretical contributions include an analytical proof of equivalence between SARL and MARL under full observability conditions, identifying observability as the key distinguishing factor, and derivation of performance degradation bounds for locally observable policies under external perturbations. Empirical validation on standard MARL benchmarks confirms that locally observable MARL maintains competitive performance despite limited observations. Real-world experiments with a mobile manipulation robot demonstrate that our decentralized MARL controllers exhibit significantly improved robustness to both agent malfunctions and environmental disturbances compared to centralized baselines. This systematic investigation provides crucial insights for designing robust and generalizable control strategies in complex robotic systems, establishing MARL with local observations as a viable alternative to traditional centralized control paradigms.

arxiv情報

著者 Wenshuai Zhao,Eetu-Aleksi Rantala,Sahar Salimpour,Zhiyuan Li,Joni Pajarinen,Jorge Peña Queralta
発行日 2025-06-03 07:40:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | Exploiting Local Observations for Robust Robot Learning はコメントを受け付けていません

HiLO: High-Level Object Fusion for Autonomous Driving using Transformers

要約

センサデータのフュージョンは、自律走行におけるロバストな環境認識のために不可欠である。学習ベースのフュージョンアプローチでは、主に特徴レベルのフュージョンを使用して高いパフォーマンスを達成するが、その複雑さとハードウェア要件により、量産車に近い車両での適用が制限される。高レベルのフュージョン手法は、より低い計算要件でロバスト性を提供します。この分野では、カルマンフィルタのような伝統的な手法が主流です。本論文では、アダプテッド・カルマン・フィルタ(AKF)を修正し、HiLOと呼ばれる新しいトランスフォーマベースのハイレベル・オブジェクト・フュージョン法を提案する。実験結果は、$25.9$パーセンテージポイントの$textrm{F}_1$スコアの改善と$6.1$パーセンテージポイントの平均IoUの改善を示す。新しい大規模実世界データセットでの評価により、提案アプローチの有効性が実証された。さらに、都市と高速道路のシナリオ間のクロスドメイン評価により、その汎用性を検証する。コード、データ、モデルは https://github.com/rst-tu-dortmund/HiLO で入手可能である。

要約(オリジナル)

The fusion of sensor data is essential for a robust perception of the environment in autonomous driving. Learning-based fusion approaches mainly use feature-level fusion to achieve high performance, but their complexity and hardware requirements limit their applicability in near-production vehicles. High-level fusion methods offer robustness with lower computational requirements. Traditional methods, such as the Kalman filter, dominate this area. This paper modifies the Adapted Kalman Filter (AKF) and proposes a novel transformer-based high-level object fusion method called HiLO. Experimental results demonstrate improvements of $25.9$ percentage points in $\textrm{F}_1$ score and $6.1$ percentage points in mean IoU. Evaluation on a new large-scale real-world dataset demonstrates the effectiveness of the proposed approaches. Their generalizability is further validated by cross-domain evaluation between urban and highway scenarios. Code, data, and models are available at https://github.com/rst-tu-dortmund/HiLO .

arxiv情報

著者 Timo Osterburg,Franz Albers,Christopher Diehl,Rajesh Pushparaj,Torsten Bertram
発行日 2025-06-03 07:44:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | HiLO: High-Level Object Fusion for Autonomous Driving using Transformers はコメントを受け付けていません

Sign Language: Towards Sign Understanding for Robot Autonomy

要約

標識は人間の環境においてどこにでもある要素であり、シーンの理解とナビゲーションの両方において重要な役割を果たしている。自律システムが人間の環境を完全に解釈するためには、標識を効果的に解析し理解することが不可欠である。我々は、シーンに関する象徴的な空間情報を伝える標識からナビゲーションの手がかりを抽出することを目的とした、ナビゲーショナル標識理解のタスクを紹介する。具体的には、遠くの場所を指し示す方向の手がかりと、特定の場所を特定する位置の手がかりを捉えた標識に焦点を当てる。このタスクの性能をベンチマークするために、包括的なテストセットを作成し、適切な評価指標を提案し、ベースラインアプローチを確立する。我々のテストセットは160以上の画像から構成され、病院、ショッピングモール、交通ハブなど、幅広い公共空間における様々な複雑さとデザインの標識を捉えている。我々のベースラインアプローチは、視覚言語モデル(VLM)を活用し、このような高度な変動性の下でナビゲーション標識を解析する。実験により、VLMがこのタスクにおいて有望な性能を発揮することが示され、ロボット工学における下流への応用の動機付けとなる可能性がある。コードとデータセットはGithubで公開されている。

要約(オリジナル)

Signage is an ubiquitous element of human environments, playing a critical role in both scene understanding and navigation. For autonomous systems to fully interpret human environments, effectively parsing and understanding signs is essential. We introduce the task of navigational sign understanding, aimed at extracting navigational cues from signs that convey symbolic spatial information about the scene. Specifically, we focus on signs capturing directional cues that point toward distant locations and locational cues that identify specific places. To benchmark performance on this task, we curate a comprehensive test set, propose appropriate evaluation metrics, and establish a baseline approach. Our test set consists of over 160 images, capturing signs with varying complexity and design across a wide range of public spaces, such as hospitals, shopping malls, and transportation hubs. Our baseline approach harnesses Vision-Language Models (VLMs) to parse navigational signs under these high degrees of variability. Experiments show that VLMs offer promising performance on this task, potentially motivating downstream applications in robotics. The code and dataset are available on Github.

arxiv情報

著者 Ayush Agrawal,Joel Loo,Nicky Zimmerman,David Hsu
発行日 2025-06-03 07:44:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | Sign Language: Towards Sign Understanding for Robot Autonomy はコメントを受け付けていません