UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning

要約

無人航空機(UAV)は、言語相互作用プラットフォームに進化しており、より直感的な形態の人間ドローン相互作用を可能にします。
以前の作品は主に高レベルの計画と長老のナビゲーションに焦点を当てていますが、言語誘導の細かい軌道コントロールに注意を払っています。
この問題を正式化して、単語の飛行(フロー)タスクとして形式化し、UAV模倣学習を効果的なアプローチとして導入します。
このフレームワークでは、UAVは、原子言語の指示と組み合わせた専門家のパイロット軌道を模倣することにより、きめ細かい制御ポリシーを学びます。
このパラダイムをサポートするために、言語条件付けされた細粒のUAVコントロールの最初の現実世界のベンチマークであるUAV-Flowを提示します。
これには、タスク策定、多様な環境で収集された大規模なデータセット、展開可能な制御フレームワーク、および体系的な評価のためのシミュレーションスイートが含まれます。
当社の設計により、UAVは人間のパイロットの正確で専門レベルの飛行軌跡を密接に模倣し、SIMからリアルのギャップなしで直接展開をサポートできます。
UAV-Flow、ベンチマークVLNおよびVLAパラダイムに関する広範な実験を実施します。
結果は、VLAモデルがVLNベースラインよりも優れていることを示しており、細粒の流れにおける空間接地の重要な役割を強調しています。

要約(オリジナル)

Unmanned Aerial Vehicles (UAVs) are evolving into language-interactive platforms, enabling more intuitive forms of human-drone interaction. While prior works have primarily focused on high-level planning and long-horizon navigation, we shift attention to language-guided fine-grained trajectory control, where UAVs execute short-range, reactive flight behaviors in response to language instructions. We formalize this problem as the Flying-on-a-Word (Flow) task and introduce UAV imitation learning as an effective approach. In this framework, UAVs learn fine-grained control policies by mimicking expert pilot trajectories paired with atomic language instructions. To support this paradigm, we present UAV-Flow, the first real-world benchmark for language-conditioned, fine-grained UAV control. It includes a task formulation, a large-scale dataset collected in diverse environments, a deployable control framework, and a simulation suite for systematic evaluation. Our design enables UAVs to closely imitate the precise, expert-level flight trajectories of human pilots and supports direct deployment without sim-to-real gap. We conduct extensive experiments on UAV-Flow, benchmarking VLN and VLA paradigms. Results show that VLA models are superior to VLN baselines and highlight the critical role of spatial grounding in the fine-grained Flow setting.

arxiv情報

著者 Xiangyu Wang,Donglin Yang,Yue Liao,Wenhao Zheng,wenjun wu,Bin Dai,Hongsheng Li,Si Liu
発行日 2025-05-26 11:15:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning はコメントを受け付けていません

DISCOVER: Automated Curricula for Sparse-Reward Reinforcement Learning

要約

スパースリワード補強学習(RL)は、幅広い非常に複雑なタスクをモデル化できます。
スパースリワードタスクの解決は、RLの中核的な前提であり、長老のクレジットの割り当てと組み合わされた効率的な探索を必要とする – これらの課題を克服することは、超人間の能力で自己改善エージェントを構築するための鍵です。
複雑で高次元のタスクを解決するには、ターゲットタスクに関連するより簡単なタスクを解決する必要があると主張します。
対照的に、ほとんどの以前の作業は、あらゆるタスクを解決する目的で探索的タスクを選択するための戦略を設計し、挑戦的な高次元の長距離タスクを扱いやすい探求にします。
効果的な探索に必要な方向感覚は、事前の情報を必要とせずに、既存のRLアルゴリズムから抽出できることがわかります。
この発見に基づいて、ターゲットタスクの方向に探索的目標を選択する、指示されたまばらな報酬の目標が非常に長いホリゾンRL(Discover)の方法を提案します。
発見を盗賊の原則的な探査に接続し、ターゲットタスクがターゲットまでのエージェントの初期距離の観点から達成可能になるまで、すべてのタスクのスペースの量とは無関係になるまで、時間を正式に境界します。
経験的には、高次元環境で徹底的な評価を実行します。
Discoverの指示された目標選択は、RLの以前の最先端の探査方法の範囲を超えた探査問題を解決することがわかります。

要約(オリジナル)

Sparse-reward reinforcement learning (RL) can model a wide range of highly complex tasks. Solving sparse-reward tasks is RL’s core premise – requiring efficient exploration coupled with long-horizon credit assignment – and overcoming these challenges is key for building self-improving agents with superhuman ability. We argue that solving complex and high-dimensional tasks requires solving simpler tasks that are relevant to the target task. In contrast, most prior work designs strategies for selecting exploratory tasks with the objective of solving any task, making exploration of challenging high-dimensional, long-horizon tasks intractable. We find that the sense of direction, necessary for effective exploration, can be extracted from existing RL algorithms, without needing any prior information. Based on this finding, we propose a method for directed sparse-reward goal-conditioned very long-horizon RL (DISCOVER), which selects exploratory goals in the direction of the target task. We connect DISCOVER to principled exploration in bandits, formally bounding the time until the target task becomes achievable in terms of the agent’s initial distance to the target, but independent of the volume of the space of all tasks. Empirically, we perform a thorough evaluation in high-dimensional environments. We find that the directed goal selection of DISCOVER solves exploration problems that are beyond the reach of prior state-of-the-art exploration methods in RL.

arxiv情報

著者 Leander Diaz-Bone,Marco Bagatella,Jonas Hübotter,Andreas Krause
発行日 2025-05-26 11:35:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | DISCOVER: Automated Curricula for Sparse-Reward Reinforcement Learning はコメントを受け付けていません

Causal Bayesian Networks for Data-driven Safety Analysis of Complex Systems

要約

特に、システムの世界モデルが知覚入力を処理するために機械学習アルゴリズムに依存している場合、環境と相互作用する安全性が批判的な複雑なシステムの安全な動作が重要な課題をもたらします。
包括的な安全性の議論には、安全性への影響を管理するために、システムを介して障害または機能的不足がどのように伝播し、外部要因と相互作用するかについての知識が必要です。
統計分析アプローチは安全性評価をサポートできますが、連想推論だけでも、安全対策の特定と調査には十分ではありません。
システムの因果的理解と環境との相互作用は、安全性が批判的な複雑なシステムを保護するために重要です。
テストから得られた洞察など、知識を転送および一般化することができ、潜在的な改善の特定を促進します。
この作業では、因果ベイジアンネットワークを使用して安全分析のためのシステムの因果関係をモデル化し、パールの因果推論の枠組みに基づいて因果影響を評価するための措置を提案します。
因果ベイジアンネットワークのアプローチを、確立された断層ツリー分析と比較し、利点と制限を概説します。
特に、適切な因果メトリックを議論するために、断層ツリー分析で一般的に使用される重要性メトリックを基礎として調べます。
評価は、自動化された運転の認識システムの例で実行されます。
全体として、この作業は、データ駆動型および専門家ベースの知識を統合して、オープン環境で動作する複雑なシステムから生じる不確実性を説明できるようにする安全分析における因果的推論のアプローチを提示します。

要約(オリジナル)

Ensuring safe operation of safety-critical complex systems interacting with their environment poses significant challenges, particularly when the system’s world model relies on machine learning algorithms to process the perception input. A comprehensive safety argumentation requires knowledge of how faults or functional insufficiencies propagate through the system and interact with external factors, to manage their safety impact. While statistical analysis approaches can support the safety assessment, associative reasoning alone is neither sufficient for the safety argumentation nor for the identification and investigation of safety measures. A causal understanding of the system and its interaction with the environment is crucial for safeguarding safety-critical complex systems. It allows to transfer and generalize knowledge, such as insights gained from testing, and facilitates the identification of potential improvements. This work explores using causal Bayesian networks to model the system’s causalities for safety analysis, and proposes measures to assess causal influences based on Pearl’s framework of causal inference. We compare the approach of causal Bayesian networks to the well-established fault tree analysis, outlining advantages and limitations. In particular, we examine importance metrics typically employed in fault tree analysis as foundation to discuss suitable causal metrics. An evaluation is performed on the example of a perception system for automated driving. Overall, this work presents an approach for causal reasoning in safety analysis that enables the integration of data-driven and expert-based knowledge to account for uncertainties arising from complex systems operating in open environments.

arxiv情報

著者 Roman Gansch,Lina Putze,Tjark Koopmann,Jan Reich,Christian Neurohr
発行日 2025-05-26 11:45:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Causal Bayesian Networks for Data-driven Safety Analysis of Complex Systems はコメントを受け付けていません

Exploring 3D Activity Reasoning and Planning: From Implicit Human Intentions to Route-Aware Planning

要約

3Dアクティビティの推論と計画は、マルチモーダル学習の最近の進歩のおかげで、人間とロボットの相互作用の注目を集め、AIを具体化しました。
ただし、ほとんどの既存の研究は、2つの一般的な課題に直面しています。1)暗黙のユーザー意図に関する推論がほとんどない明示的な指示に大きく依存しています。
2)ロボットの動きでのステップ間ルート計画の過失。
3Dアクティビティの推論と計画を提案することにより、上記の課題に対処します。これは、暗黙の指示から意図されたアクティビティが段階的なルートで段階に分解され、シーンセグメンテーションからの微細な3Dオブジェクト形状と場所のガイダンスの下でそれらを分解し、計画を分解する新しい3Dタスクです。
2つの観点から新しい3Dタスクに取り組みます。
まず、ReasonPlan3Dを構築します。これは、多様な3Dシーンをカバーする大規模なベンチマークで、豊富な暗黙の指示とマルチステップタスク計画、ステップ間ルート計画、および微細なセグメンテーションのための詳細な注釈を備えています。
第二に、複数のステップでコンテキストの一貫性を備えたプログレッシブプランの生成を導入する新しいフレームワークと、重要なオブジェクトとその空間関係をキャプチャするために動的に更新されるシーングラフを設計します。
広範な実験は、暗黙の人間の指示からの推論活動におけるベンチマークとフレームワークの有効性を実証し、正確な段階的タスク計画を作成し、マルチステップの動きのルート計画をシームレスに統合します。
データセットとコードがリリースされます。

要約(オリジナル)

3D activity reasoning and planning has attracted increasing attention in human-robot interaction and embodied AI thanks to the recent advance in multimodal learning. However, most existing studies are facing two common challenges: 1) heavy reliance on explicit instructions with little reasoning on implicit user intention; 2) negligence of inter-step route planning on robot moves. We address the above challenges by proposing 3D activity reasoning and planning, a novel 3D task that reasons the intended activities from implicit instructions and decomposes them into steps with inter-step routes and planning under the guidance of fine-grained 3D object shapes and locations from scene segmentation. We tackle the new 3D task from two perspectives. First, we construct ReasonPlan3D, a large-scale benchmark that covers diverse 3D scenes with rich implicit instructions and detailed annotations for multi-step task planning, inter-step route planning, and fine-grained segmentation. Second, we design a novel framework that introduces progressive plan generation with contextual consistency across multiple steps, as well as a scene graph that is updated dynamically for capturing critical objects and their spatial relations. Extensive experiments demonstrate the effectiveness of our benchmark and framework in reasoning activities from implicit human instructions, producing accurate stepwise task plans and seamlessly integrating route planning for multi-step moves. The dataset and code will be released.

arxiv情報

著者 Xueying Jiang,Wenhao Li,Xiaoqin Zhang,Ling Shao,Shijian Lu
発行日 2025-05-26 12:38:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Exploring 3D Activity Reasoning and Planning: From Implicit Human Intentions to Route-Aware Planning はコメントを受け付けていません

Uncertainty-Aware Safety-Critical Decision and Control for Autonomous Vehicles at Unsignalized Intersections

要約

強化学習(RL)は、自律運転(AD)決定タスクの可能性を実証しています。
ただし、特に交差シナリオで、都市の広告にRLを適用することは、依然として大きな課題に直面しています。
安全上の制約がないため、RLはリスクに対して脆弱になります。
さらに、認知的制限と環境のランダム性は、安全性の高いシナリオで信頼できない決定につながる可能性があります。
したがって、安全性を向上させるためにRLの決定に対する信頼を定量化することが不可欠です。
このホワイトペーパーでは、不確実な安全批判的な決定と制御(USDC)フレームワークを提案します。これは、リスク認識のアンサンブル分布RLを構築することによりリスク回避ポリシーを生成し、ポリシーの信頼性を定量化する不確実性を推定します。
その後、介入ポリシーを最小限に抑えながら、不確実性に基づいて制約を動的に強化するために、高次制御障壁機能(HOCBF)が安全フィルターとして採用されています。
アンサンブル批評家は、HOCBFとRLの両方のポリシーを評価し、安全性と柔軟な戦略を動的に切り替えるために不確実性を埋め込み、それによって安全性と効率性のバランスを取ります。
複数のタスクの署名されていない交差点のシミュレーションテストは、USDCがベースラインと比較して交通効率を維持しながら安全性を改善できることを示しています。

要約(オリジナル)

Reinforcement learning (RL) has demonstrated potential in autonomous driving (AD) decision tasks. However, applying RL to urban AD, particularly in intersection scenarios, still faces significant challenges. The lack of safety constraints makes RL vulnerable to risks. Additionally, cognitive limitations and environmental randomness can lead to unreliable decisions in safety-critical scenarios. Therefore, it is essential to quantify confidence in RL decisions to improve safety. This paper proposes an Uncertainty-aware Safety-Critical Decision and Control (USDC) framework, which generates a risk-averse policy by constructing a risk-aware ensemble distributional RL, while estimating uncertainty to quantify the policy’s reliability. Subsequently, a high-order control barrier function (HOCBF) is employed as a safety filter to minimize intervention policy while dynamically enhancing constraints based on uncertainty. The ensemble critics evaluate both HOCBF and RL policies, embedding uncertainty to achieve dynamic switching between safe and flexible strategies, thereby balancing safety and efficiency. Simulation tests on unsignalized intersections in multiple tasks indicate that USDC can improve safety while maintaining traffic efficiency compared to baselines.

arxiv情報

著者 Ran Yu,Zhuoren Li,Lu Xiong,Wei Han,Bo Leng
発行日 2025-05-26 13:06:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Uncertainty-Aware Safety-Critical Decision and Control for Autonomous Vehicles at Unsignalized Intersections はコメントを受け付けていません

A Cooperative Aerial System of A Payload Drone Equipped with Dexterous Rappelling End Droid for Cluttered Space Pickup

要約

森林などの散らかったスペースでは、ドローンがアブセイルの爪を介してペイロードを拾うことはオープンな挑戦です。
このような課題に対処するために、この作業では、ペイロードドローンと器用なrappellingエンドドロイドで構成される協同航空システムが提案されています。
両端は、ケブラーテザーケーブルを介してリンクされます。
エンドドロイドは4人のプロペラによって作動します。これにより、爪の角の角の角の角の調整とケーブルの動きのガイダンスが可能になります。
もつれや懸垂下降の障害を避けるために、ケーブルの長さの制約と動的な実現可能性を統合する軌道最適化方法が開発され、安全なピックアップが保証されます。
テザーケーブルの動的モデルが確立されており、緊張状態と垂れ下がった条件の両方を考慮して、リアルタイムケーブルステータスを評価します。
シミュレーションと現実世界の実験は、提案されたシステムが乱雑なスペースでペイロードを拾うことができることを実証するために実施されます。
その結果、エンドドロイドは、ケーブルの制約の下でターゲットポイントに正常に到達し、推進せずにリフティングフェーズ中に受動的な検索を達成することができます。これにより、効果的で効率的な空中操作が可能になります。

要約(オリジナル)

In cluttered spaces, such as forests, drone picking up a payload via an abseil claw is an open challenge, as the cable is likely tangled and blocked by the branches and obstacles. To address such a challenge, in this work, a cooperative aerial system is proposed, which consists of a payload drone and a dexterous rappelling end droid. The two ends are linked via a Kevlar tether cable. The end droid is actuated by four propellers, which enable mid-air dexterous adjustment of clawing angle and guidance of cable movement. To avoid tanglement and rappelling obstacles, a trajectory optimization method that integrates cable length constraints and dynamic feasibility is developed, which guarantees safe pickup. A tether cable dynamic model is established to evaluate real-time cable status, considering both taut and sagging conditions. Simulation and real-world experiments are conducted to demonstrate that the proposed system is capable of picking up payload in cluttered spaces. As a result, the end droid can reach the target point successfully under cable constraints and achieve passive retrieval during the lifting phase without propulsion, which enables effective and efficient aerial manipulation.

arxiv情報

著者 Wenjing Ren,Xin Dong,Yangjie Cui,Binqi Yang,Haoze Li,Tao Yu,Jinwu Xiang,Daochun Li,Zhan Tu
発行日 2025-05-26 13:38:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | A Cooperative Aerial System of A Payload Drone Equipped with Dexterous Rappelling End Droid for Cluttered Space Pickup はコメントを受け付けていません

Target Tracking via LiDAR-RADAR Sensor Fusion for Autonomous Racing

要約

高速マルチベヒクルの自律レースは、道路向けの自動運転車の安全性とパフォーマンスを向上させます。
移動プラットフォームからの正確な車両の検出とダイナミクスの推定は、複雑な自律的な追い越し操作を計画および実行するための重要な要件です。
この要件に対処するために、LIDARとレーダーの測定を融合するレイテンシを認識したEKFベースのマルチターゲット追跡アルゴリズムを開発しました。
アルゴリズムは、EKF測定関数の範囲レートを明示的に統合することにより、状態予測中の競馬場の範囲の知識を明示的に統合することにより、異なるセンサー特性を爆発させます。
二重状態と測定バッファーを使用して再処理を介して、順序外の測定値を処理し、情報損失なしでセンサーの遅延補償を確保で​​きます。
このアルゴリズムは、Team Polimoveの自律的なレースカーに実装されており、最大275 km/hまでの速度で多くの完全に自律的な追い越し操作を完了することで実験的に証明されました。

要約(オリジナル)

High Speed multi-vehicle Autonomous Racing will increase the safety and performance of road-going Autonomous Vehicles. Precise vehicle detection and dynamics estimation from a moving platform is a key requirement for planning and executing complex autonomous overtaking maneuvers. To address this requirement, we have developed a Latency-Aware EKF-based Multi Target Tracking algorithm fusing LiDAR and RADAR measurements. The algorithm explots the different sensor characteristics by explicitly integrating the Range Rate in the EKF Measurement Function, as well as a-priori knowledge of the racetrack during state prediction. It can handle Out-Of-Sequence Measurements via Reprocessing using a double State and Measurement Buffer, ensuring sensor delay compensation with no information loss. This algorithm has been implemented on Team PoliMOVE’s autonomous racecar, and was proved experimentally by completing a number of fully autonomous overtaking maneuvers at speeds up to 275 km/h.

arxiv情報

著者 Marcello Cellina,Matteo Corno,Sergio Matteo Savaresi
発行日 2025-05-26 14:28:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Target Tracking via LiDAR-RADAR Sensor Fusion for Autonomous Racing はコメントを受け付けていません

URPlanner: A Universal Paradigm For Collision-Free Robotic Motion Planning Based on Deep Reinforcement Learning

要約

複雑な環境での冗長ロボットマニピュレーターの衝突フリーモーションプランニングはまだ調査されていません。
ディープ補強学習(DRL)とロボット工学の交差点での最近の進歩は、汎用性のあるロボットタスクを処理する可能性を強調していますが、マニピュレーターの現在のDRLベースの衝突のないモーションプランナーは非常に費用がかかり、展開とアプリケーションが妨げられています。
これは、マニピュレーターと障害物の間の最小距離に過度に依存し、DRLによる不十分な探査と意思決定、および非効率的なデータ収集と利用のためです。
この記事では、DRLに基づく衝突のないロボットモーション計画の普遍的なパラダイムであるUrplannerを提案します。
Urplannerは、既存のアプローチよりもいくつかの利点を提供します。これは、プラットフォームに依存しており、トレーニングと展開の両方に費用対効果が高く、逆の運動学を解決せずに任意のマニピュレーターに適用できます。
これを達成するために、最初にパラメーター化されたタスク空間と最小距離とは無関係の普遍的な障害物回避報酬を開発します。
第二に、さまざまなDRLアルゴリズムに適用してパフォーマンスを向上させることができる拡張されたポリシー探索と評価アルゴリズムを紹介します。
第三に、効率的なポリシー学習のための専門家データ拡散戦略を提案します。これは、少数の専門家のデモのみから大規模な軌跡データセットを生成できる可能性があります。
最後に、提案された方法の優位性は、実験を通じて包括的に検証されます。

要約(オリジナル)

Collision-free motion planning for redundant robot manipulators in complex environments is yet to be explored. Although recent advancements at the intersection of deep reinforcement learning (DRL) and robotics have highlighted its potential to handle versatile robotic tasks, current DRL-based collision-free motion planners for manipulators are highly costly, hindering their deployment and application. This is due to an overreliance on the minimum distance between the manipulator and obstacles, inadequate exploration and decision-making by DRL, and inefficient data acquisition and utilization. In this article, we propose URPlanner, a universal paradigm for collision-free robotic motion planning based on DRL. URPlanner offers several advantages over existing approaches: it is platform-agnostic, cost-effective in both training and deployment, and applicable to arbitrary manipulators without solving inverse kinematics. To achieve this, we first develop a parameterized task space and a universal obstacle avoidance reward that is independent of minimum distance. Second, we introduce an augmented policy exploration and evaluation algorithm that can be applied to various DRL algorithms to enhance their performance. Third, we propose an expert data diffusion strategy for efficient policy learning, which can produce a large-scale trajectory dataset from only a few expert demonstrations. Finally, the superiority of the proposed methods is comprehensively verified through experiments.

arxiv情報

著者 Fengkang Ying,Hanwen Zhang,Haozhe Wang,Huishi Huang,Marcelo H. Ang Jr
発行日 2025-05-26 16:15:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | URPlanner: A Universal Paradigm For Collision-Free Robotic Motion Planning Based on Deep Reinforcement Learning はコメントを受け付けていません

H2R: A Human-to-Robot Data Augmentation for Robot Pre-training from Videos

要約

ビデオを使用した大規模な事前トレーニングは、ロボット学習に効果的であることが証明されています。
ただし、そのようなデータで事前に訓練されたモデルは、人間の手と異なるロボットの視覚的ギャップの間に大きな視覚的なギャップがあるため、ロボット学習の最適ではありません。
これを改善するために、H2Rを提案します。H2Rは、ヒトの手キーポイントを検出し、シミュレーションのロボットモーションを合成し、複合材料をエゴセントリックビデオにレンダリングした単純なデータ増強技術を提案します。
このプロセスは、トレーニング前の人間とロボットの実施形態の視覚的ギャップを明示的に橋渡しします。
H2Rを適用して、EGO4DやSSV2などの大規模なエゴセントリックヒトビデオデータセットを拡張し、人間の手をシミュレートされたロボットアームに置き換えて、ロボット中心のトレーニングデータを生成します。
これに基づいて、複数のロボット実施形態(グリッパー/リーファンド、フランカを備えたUR5)およびデータソース(SSV2、EGO4D)をカバーする1Mスケールデータセットのファミリーを構築および放出します。
増強パイプラインの有効性を検証するために、ロボットレンダリングフレームのセマンティックな忠実度を元の人間の行動に定量的に評価するクリップベースの画像テキスト類似性メトリックを導入します。
GripperとLeaphand End-Effectorを装備したUR5ロボットを備えたRobomimic、RLBench、PushtおよびReal-World Manipulationタスクの3つのシミュレーションベンチマークにわたってH2Rを検証します。
H2Rは一貫して下流の成功率を改善し、シミュレーションで5.0%-10.2%、さまざまな視覚エンコーダとポリシー学習方法にわたる実際のタスクで6.7%-23.3%の増加をもたらします。
これらの結果は、H2Rがヒトドメインとロボットドメイン間の視覚的矛盾を緩和することにより、ロボットポリシーの一般化能力を改善することを示しています。

要約(オリジナル)

Large-scale pre-training using videos has proven effective for robot learning. However, the models pre-trained on such data can be suboptimal for robot learning due to the significant visual gap between human hands and those of different robots. To remedy this, we propose H2R, a simple data augmentation technique that detects human hand keypoints, synthesizes robot motions in simulation, and composites rendered robots into egocentric videos. This process explicitly bridges the visual gap between human and robot embodiments during pre-training. We apply H2R to augment large-scale egocentric human video datasets such as Ego4D and SSv2, replacing human hands with simulated robotic arms to generate robot-centric training data. Based on this, we construct and release a family of 1M-scale datasets covering multiple robot embodiments (UR5 with gripper/Leaphand, Franka) and data sources (SSv2, Ego4D). To verify the effectiveness of the augmentation pipeline, we introduce a CLIP-based image-text similarity metric that quantitatively evaluates the semantic fidelity of robot-rendered frames to the original human actions. We validate H2R across three simulation benchmarks: Robomimic, RLBench and PushT and real-world manipulation tasks with a UR5 robot equipped with Gripper and Leaphand end-effectors. H2R consistently improves downstream success rates, yielding gains of 5.0%-10.2% in simulation and 6.7%-23.3% in real-world tasks across various visual encoders and policy learning methods. These results indicate that H2R improves the generalization ability of robotic policies by mitigating the visual discrepancies between human and robot domains.

arxiv情報

著者 Guangrun Li,Yaoxu Lyu,Zhuoyang Liu,Chengkai Hou,Jieyu Zhang,Shanghang Zhang
発行日 2025-05-26 16:33:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | H2R: A Human-to-Robot Data Augmentation for Robot Pre-training from Videos はコメントを受け付けていません

SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety

要約

大規模な言語モデル(LLMS)が進んでおり、ますます多くのフィールドでアプリケーションを見つけ続け、LLMの安全性がますます重要になっていることを保証します。
安全性の懸念に対処するために、最近の研究では、人間のフィードバック(RLHF)からの強化学習への安全性の制約を統合することを提案しています。
ただし、これらのアプローチは複雑になる傾向があります。これは、RLHFでの複雑な手順と、安全上の制約に必要な追加の手順を含むためです。
直接優先最適化(DPO)に触発されて、safedpoと呼ばれる新しいアルゴリズムを紹介します。これは、リラクゼーションを必要とせずに、ポリシー学習の単一段階で安全アライメント目標を直接最適化するように設計されています。
SafedPoは、安全性をさらに高めるために1つの追加のハイパーパラメーターのみを導入し、標準DPOに軽微な変更のみを必要とします。
その結果、LLMSの安全性を高めながら、微調整中に個別の報酬モデルを適合させたり、微調整中に言語モデルからサンプリングする必要性を排除します。
最後に、SAFEDPOは、人間の好みに合わせて安全性を向上させるという点で、最先端の安全アライメントアルゴリズムと比較して競争力のあるパフォーマンスを達成することを実証します。

要約(オリジナル)

As Large Language Models (LLMs) continue to advance and find applications across a growing number of fields, ensuring the safety of LLMs has become increasingly critical. To address safety concerns, recent studies have proposed integrating safety constraints into Reinforcement Learning from Human Feedback (RLHF). However, these approaches tend to be complex, as they encompass complicated procedures in RLHF along with additional steps required by the safety constraints. Inspired by Direct Preference Optimization (DPO), we introduce a new algorithm called SafeDPO, which is designed to directly optimize the safety alignment objective in a single stage of policy learning, without requiring relaxation. SafeDPO introduces only one additional hyperparameter to further enhance safety and requires only minor modifications to standard DPO. As a result, it eliminates the need to fit separate reward and cost models or to sample from the language model during fine-tuning, while still enhancing the safety of LLMs. Finally, we demonstrate that SafeDPO achieves competitive performance compared to state-of-the-art safety alignment algorithms, both in terms of aligning with human preferences and improving safety.

arxiv情報

著者 Geon-Hyeong Kim,Youngsoo Jang,Yu Jin Kim,Byoungjip Kim,Honglak Lee,Kyunghoon Bae,Moontae Lee
発行日 2025-05-26 14:50:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety はコメントを受け付けていません