ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy

要約

Vision-Language-action(VLA)モデルは、実際のロボット操作において大きな可能性を示しています。
ただし、特に接触リッチ環境では、限られた一貫性のないデモンストレーションにより、堅牢なパフォーマンスを達成するために、監視された学習闘争を通じてこれらのモデルを微調整します。
この論文では、これらの課題に対処するために、統一された一貫性ベースのトレーニング目標を備えたオフラインおよびオンラインの微調整で構成されるConrftという名前のVLAモデルの強化された微調整アプローチを提案します。
オフライン段階では、私たちの方法が動作のクローニングとQラーニングを統合して、小さなデモのセットからポリシーを効果的に抽出し、価値の推定を安定させます。
オンライン段階では、VLAモデルは、安全な探査と高いサンプル効率を確保するための人間の介入により、一貫性ポリシーを介してさらに微調整されています。
8つの多様な現実世界の操作タスクに関するアプローチを評価します。
オンライン微調整から45〜90分以内に平均成功率が96.3%であり、成功率が144%改善され、エピソードの長さが1.9倍短いことで、以前の監視方法を上回ります。
この作業は、実世界のロボットアプリケーションのVLAモデルのパフォーマンスを向上させるために、強化学習を統合する可能性を強調しています。
ビデオとコードは、プロジェクトWebサイトhttps://cccedric.github.io/conrft/で入手できます。

要約(オリジナル)

Vision-Language-Action (VLA) models have shown substantial potential in real-world robotic manipulation. However, fine-tuning these models through supervised learning struggles to achieve robust performance due to limited, inconsistent demonstrations, especially in contact-rich environments. In this paper, we propose a reinforced fine-tuning approach for VLA models, named ConRFT, which consists of offline and online fine-tuning with a unified consistency-based training objective, to address these challenges. In the offline stage, our method integrates behavior cloning and Q-learning to effectively extract policy from a small set of demonstrations and stabilize value estimating. In the online stage, the VLA model is further fine-tuned via consistency policy, with human interventions to ensure safe exploration and high sample efficiency. We evaluate our approach on eight diverse real-world manipulation tasks. It achieves an average success rate of 96.3% within 45-90 minutes of online fine-tuning, outperforming prior supervised methods with a 144% improvement in success rate and 1.9x shorter episode length. This work highlights the potential of integrating reinforcement learning to enhance the performance of VLA models for real-world robotic applications. Videos and code are available at our project website https://cccedric.github.io/conrft/.

arxiv情報

著者 Yuhui Chen,Shuai Tian,Shugao Liu,Yingting Zhou,Haoran Li,Dongbin Zhao
発行日 2025-04-14 04:53:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy はコメントを受け付けていません

Towards Developing Socially Compliant Automated Vehicles: Advances, Expert Insights, and A Conceptual Framework

要約

自動化された車両(AVS)は、交通安全、交通効率、および全体的なモビリティを改善することにより、輸送に革命を起こすことを約束します。
近年の高レベルAVSの着実な進歩にもかかわらず、完全な自動化への移行には、さまざまな自動化レベルのAVが人間駆動車(HDV)と共存する混合トラフィックの期間が必要です。
AVSを人間のドライバーに社会的に準拠し、理解することは、混合交通の安全性と効率を改善することが期待されています。
したがって、AVSのHDVとの互換性を確保し、社会的受け入れは、混合トラフィックへの成功しシームレスな統合に不可欠です。
ただし、社会的に準拠したAVS(SCAV)の発展のこの重要な分野での研究はまばらなままです。
この研究では、最初の包括的なスコーピングレビューを実施して、スカブの開発、主要な概念、方法論的アプローチ、および研究ギャップを特定する際の現在の最新技術を評価します。
また、文献レビューの結果について議論し、スカブに対する重要な研究のギャップと期待を特定するために、非公式の専門家インタビューも実施されました。
スコーピングのレビューと専門家のインタビューの入力に基づいて、スカブの開発のための概念的なフレームワークが提案されています。
概念フレームワークは、世界中の研究者、技術者、政策立案者、およびその他の関連する専門家を対象としたオンライン調査を使用して評価されます。
調査結果は、AVを混合環境に統合することの課題に取り組む上で提案された概念的枠組みの重要性を確認し、貴重な検証と洞察を提供します。
さらに、将来の研究の観点と提案が議論され、SCAVSの研究開発アジェンダに貢献しています。

要約(オリジナル)

Automated Vehicles (AVs) hold promise for revolutionizing transportation by improving road safety, traffic efficiency, and overall mobility. Despite the steady advancement in high-level AVs in recent years, the transition to full automation entails a period of mixed traffic, where AVs of varying automation levels coexist with human-driven vehicles (HDVs). Making AVs socially compliant and understood by human drivers is expected to improve the safety and efficiency of mixed traffic. Thus, ensuring AVs’ compatibility with HDVs and social acceptance is crucial for their successful and seamless integration into mixed traffic. However, research in this critical area of developing Socially Compliant AVs (SCAVs) remains sparse. This study carries out the first comprehensive scoping review to assess the current state of the art in developing SCAVs, identifying key concepts, methodological approaches, and research gaps. An informal expert interview was also conducted to discuss the literature review results and identify critical research gaps and expectations towards SCAVs. Based on the scoping review and expert interview input, a conceptual framework is proposed for the development of SCAVs. The conceptual framework is evaluated using an online survey targeting researchers, technicians, policymakers, and other relevant professionals worldwide. The survey results provide valuable validation and insights, affirming the significance of the proposed conceptual framework in tackling the challenges of integrating AVs into mixed-traffic environments. Additionally, future research perspectives and suggestions are discussed, contributing to the research and development agenda of SCAVs.

arxiv情報

著者 Yongqi Dong,Bart van Arem,Haneen Farah
発行日 2025-04-14 04:58:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO, cs.SY, eess.SY | Towards Developing Socially Compliant Automated Vehicles: Advances, Expert Insights, and A Conceptual Framework はコメントを受け付けていません

SIO-Mapper: A Framework for Lane-Level HD Map Construction Using Satellite Images and OpenStreetMap with No On-Site Visits

要約

高解像度(HD)マップ、特に地上の真理と見なされる車線レベルの情報を含むマップは、車両のローカリゼーション研究に不可欠です。
従来、HDマップを構築するには、ターゲット領域からの非常に正確なセンサー測定コレクションが必要であり、その後、セマンティック情報を割り当てるための手動注釈が必要です。
したがって、HDマップは地理的カバレッジの点で制限されています。
この問題に取り組むために、このペーパーでは、衛星画像とopenstreetMapデータを利用して物理的なサイト訪問なしで都市規模のマップを構築する新しい車線レベルのHDマップ構築フレームワークであるSio-Mapperを提案します。
SIO-Mapperの重要な貢献の1つは、トランスベースのエンコーダと畳み込みベースのエンコーダーの両方を使用して、衛星画像とOpenstreetMapの機能を統合する新しいディープラーニングネットワークであるSiO-Netを導入することにより、車線情報をより正確に抽出する機能です。
さらに、広い領域でレーンをマージする際の課題を克服するために、クラスターベースとグラフベースのアプローチを組み合わせた新しいレーン統合方法論を導入します。
このアルゴリズムは、複雑な道路環境であっても、高精度とカバレッジでレーンセグメントのシームレスな集約を保証します。
Naver Labs Open DatasetおよびNuscenes DatasetのSIO-Mapperを検証し、最先端の車線レベルのHD Map Construction Methodsと比較して、韓国、米国、シンガポールを含むさまざまな環境でより良いパフォーマンスを示しました。

要約(オリジナル)

High-definition (HD) maps, particularly those containing lane-level information regarded as ground truth, are crucial for vehicle localization research. Traditionally, constructing HD maps requires highly accurate sensor measurements collection from the target area, followed by manual annotation to assign semantic information. Consequently, HD maps are limited in terms of geographic coverage. To tackle this problem, in this paper, we propose SIO-Mapper, a novel lane-level HD map construction framework that constructs city-scale maps without physical site visits by utilizing satellite images and OpenStreetmap data. One of the key contributions of SIO-Mapper is its ability to extract lane information more accurately by introducing SIO-Net, a novel deep learning network that integrates features from satellite image and OpenStreetmap using both Transformer-based and convolution-based encoders. Furthermore, to overcome challenges in merging lanes over large areas, we introduce a novel lane integration methodology that combines cluster-based and graph-based approaches. This algorithm ensures the seamless aggregation of lane segments with high accuracy and coverage, even in complex road environments. We validated SIO-Mapper on the Naver Labs Open Dataset and NuScenes dataset, demonstrating better performance in various environments including Korea, the United States, and Singapore compared to the state-of-the-art lane-level HD mapconstruction methods.

arxiv情報

著者 Younghun Cho,Jee-Hwan Ryu
発行日 2025-04-14 05:10:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SIO-Mapper: A Framework for Lane-Level HD Map Construction Using Satellite Images and OpenStreetMap with No On-Site Visits はコメントを受け付けていません

LangPert: Detecting and Handling Task-level Perturbations for Robust Object Rearrangement

要約

オブジェクトの再配置のタスク実行は、タスクレベルの摂動(TLP)、つまり、根本的な視覚ポリシーを混乱させ、タスクの実現可能性と進捗を根本的に侵害する可能性のある予期しないオブジェクトの追加、取り外し、および変位によって挑戦する可能性があります。
これらの課題に対処するために、卓上再配置タスクのTLP状況を検出および緩和するために設計された言語ベースのフレームワークであるLangpertを提示します。
Langpertは、視覚言語モデル(VLM)を統合して、ポリシーのスキル実行と環境TLPを包括的に監視し、階層的なチェーン(HCOT)推論メカニズムを活用して、大規模な言語モデル(LLM)のコンテキスト理解を強化し、適応性のある修正能力排出計画を生成します。
私たちの実験結果は、Langpertがベースライン方法よりも多様なTLP状況をより効果的に処理し、タスクの完了率の向上、実行効率の向上、および目に見えないシナリオの潜在的な一般化を達成することを示しています。

要約(オリジナル)

Task execution for object rearrangement could be challenged by Task-Level Perturbations (TLP), i.e., unexpected object additions, removals, and displacements that can disrupt underlying visual policies and fundamentally compromise task feasibility and progress. To address these challenges, we present LangPert, a language-based framework designed to detect and mitigate TLP situations in tabletop rearrangement tasks. LangPert integrates a Visual Language Model (VLM) to comprehensively monitor policy’s skill execution and environmental TLP, while leveraging the Hierarchical Chain-of-Thought (HCoT) reasoning mechanism to enhance the Large Language Model (LLM)’s contextual understanding and generate adaptive, corrective skill-execution plans. Our experimental results demonstrate that LangPert handles diverse TLP situations more effectively than baseline methods, achieving higher task completion rates, improved execution efficiency, and potential generalization to unseen scenarios.

arxiv情報

著者 Xu Yin,Min-Sung Yoon,Yuchi Huo,Kang Zhang,Sung-Eui Yoon
発行日 2025-04-14 05:39:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | LangPert: Detecting and Handling Task-level Perturbations for Robust Object Rearrangement はコメントを受け付けていません

Efficient Task-specific Conditional Diffusion Policies: Shortcut Model Acceleration and SO(3) Optimization

要約

模倣学習、特に拡散ポリシーに基づく方法は、アクションポリシー生成に対する強力なアプローチとして、具体化されたAIで最近かなりの牽引力を獲得しました。
これらのモデルは、ノイズを予測することを学習することにより、アクションポリシーを効率的に生成します。
ただし、従来の拡散ポリシー方法は、反復的な除去に依存しており、非効率的な推論と応答時間が遅く、リアルタイムのロボット制御を妨げます。
これらの制限に対処するために、分類器のないガイダンスをショートカットベースの加速と統合する分類器を含まないショートカット拡散ポリシー(CF-SDP)を提案し、推論速度を大幅に改善しながら効率的なタスク固有のアクション生成を可能にします。
さらに、拡散モデリングをショートカットモデルのSO(3)マニホールドに拡張し、等方性ガウス分布で接線空間の前方プロセスと逆プロセスを定義します。
これにより、安定した正確な回転推定が保証され、拡散ベースの制御の有効性が向上します。
私たちのアプローチは、タスクのパフォーマンスを維持しながら、DDIMベースの拡散ポリシーと比較して、拡散推論で5倍近くの加速を達成します。
Robotwinシミュレーションプラットフォームとさまざまなタスクにわたる実際のシナリオの両方での評価は、私たちの方法の優位性を示しています。

要約(オリジナル)

Imitation learning, particularly Diffusion Policies based methods, has recently gained significant traction in embodied AI as a powerful approach to action policy generation. These models efficiently generate action policies by learning to predict noise. However, conventional Diffusion Policy methods rely on iterative denoising, leading to inefficient inference and slow response times, which hinder real-time robot control. To address these limitations, we propose a Classifier-Free Shortcut Diffusion Policy (CF-SDP) that integrates classifier-free guidance with shortcut-based acceleration, enabling efficient task-specific action generation while significantly improving inference speed. Furthermore, we extend diffusion modeling to the SO(3) manifold in shortcut model, defining the forward and reverse processes in its tangent space with an isotropic Gaussian distribution. This ensures stable and accurate rotational estimation, enhancing the effectiveness of diffusion-based control. Our approach achieves nearly 5x acceleration in diffusion inference compared to DDIM-based Diffusion Policy while maintaining task performance. Evaluations both on the RoboTwin simulation platform and real-world scenarios across various tasks demonstrate the superiority of our method.

arxiv情報

著者 Haiyong Yu,Yanqiong Jin,Yonghao He,Wei Sui
発行日 2025-04-14 06:37:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Efficient Task-specific Conditional Diffusion Policies: Shortcut Model Acceleration and SO(3) Optimization はコメントを受け付けていません

Real-World Evaluation of two Cooperative Intersection Management Approaches

要約

協同操作計画は、接続された自動車両を活用することにより、署名されていない交差点での交通効率を大幅に改善することを約束します。
このトピックに関する以前の作品は、単純なシミュレートされた環境で完全に自動化されたトラフィックのために主に開発されてきました。
対照的に、以前に導入された計画アプローチは、実際の混合トラフィックを処理するように特別に設計されています。
2つの方法は、それぞれマルチセナリオの予測とグラフベースの強化学習に基づいています。
これは、新しい混合トラフィックシミュレーションフレームワークで評価を実行した最初の研究と、公共交通のプロトタイプ接続された自動車両を使用した実際のドライブです。
このシミュレーションは、自動化された車両の1つに展開されているのと同じ接続された自動運転ソフトウェアスタックを備えています。
私たちの定量的評価は、協同操作計画が交差時間と停留所の数を大幅に削減することを達成することを示しています。
自動化された車両が少ない現実的な環境では、顕著な効率向上がわずかに増加している顕著な効率の向上があります。

要約(オリジナル)

Cooperative maneuver planning promises to significantly improve traffic efficiency at unsignalized intersections by leveraging connected automated vehicles. Previous works on this topic have been mostly developed for completely automated traffic in a simple simulated environment. In contrast, our previously introduced planning approaches are specifically designed to handle real-world mixed traffic. The two methods are based on multi-scenario prediction and graph-based reinforcement learning, respectively. This is the first study to perform evaluations in a novel mixed traffic simulation framework as well as real-world drives with prototype connected automated vehicles in public traffic. The simulation features the same connected automated driving software stack as deployed on one of the automated vehicles. Our quantitative evaluations show that cooperative maneuver planning achieves a substantial reduction in crossing times and the number of stops. In a realistic environment with few automated vehicles, there are noticeable efficiency gains with only slightly increasing criticality metrics.

arxiv情報

著者 Marvin Klimke,Max Bastian Mertens,Benjamin Völz,Michael Buchholz
発行日 2025-04-14 06:43:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Real-World Evaluation of two Cooperative Intersection Management Approaches はコメントを受け付けていません

Non-Prehensile Tool-Object Manipulation by Integrating LLM-Based Planning and Manoeuvrability-Driven Controls

要約

ツールを使用できることは、種全体の知性の広く認識されている指標です。
たとえば、人間は200万年以上にわたってツールの使用の習得を実証しています。
ツールを使用する能力は、生物の範囲を広げ、オブジェクトや環境と相互作用する能力を高めるため、非常に貴重です。
ツールオブジェクト環境間の幾何学的メカニカルな関係を理解できるため、特定の種(類人猿やカラスなど)が狭い制約のあるスペースで食物に到達することができます。
物理的増強の同じ原則とそれに関連する非摂食操作能力もロボットシステムにも適用されます。
たとえば、さまざまなタイプのエンド効果を使用してそれらを計装することにより、ロボットは(原則として)生物学的な対応物に似たさまざまな形状と質量のオブジェクトと巧みに相互作用する(たとえば、プッシュとフリップ)ことができます。
ただし、このタイプの操作スキルを開発することは、依然としてオープンな研究問題です。
さらに、特にデュアルアームロボットの行動を調整する際の計画ツールオブジェクト操作タスクの複雑さは、重要な課題を提示します。
これらの複雑さに対処するために、これらの複雑な操作の計画と実行を支援するために、大規模な言語モデル(LLM)を統合することを提案し、それにより多様なシナリオで実行するロボットの能力を高めます。

要約(オリジナル)

Being able to use tools is a widely recognised indicator of intelligence across species. Humans, for instance, have demonstrated mastery of tool use for over two million years. The ability to use tools is invaluable as it extends an organism’s reach and enhances its capacity to interact with objects and the environment. Being able to understand the geometric-mechanical relations between the tools-objects-environments allows certain species (e.g., apes and crows) to reach food in narrow constrained spaces. The same principles of physical augmentation and its associated non-prehensile manipulation capabilities also apply to robotic systems. For example, by instrumenting them with different types of end-effectors, robots can (in principle) dexterously interact (e.g., push and flip) with objects of various shapes and masses akin to its biological counterpart. However, developing this type of manipulation skill is still an open research problem. Furthermore, the complexity of planning tool-object manipulation tasks, particularly in coordinating the actions of dual-arm robots, presents significant challenges. To address these complexities, we propose integrating Large Language Models (LLMs) to assist in planning and executing these intricate manipulations, thereby enhancing the robot’s ability to perform in diverse scenarios.

arxiv情報

著者 Hoi-Yin Lee,Peng Zhou,Anqing Duan,Wanyu Ma,Chenguang Yang,David Navarro-Alarcon
発行日 2025-04-14 06:47:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Non-Prehensile Tool-Object Manipulation by Integrating LLM-Based Planning and Manoeuvrability-Driven Controls はコメントを受け付けていません

Walk along: An Experiment on Controlling the Mobile Robot ‘Spot’ with Voice and Gestures

要約

ロボットはより能力が高まっており、場所間でナビゲートするなどのタスクを自律的に実行できます。
ただし、人間の監視は非常に重要です。
この調査では、モバイルロボットを指示するための2つのタッチレス方法、音声制御とジェスチャー制御を比較して、メソッドの効率とユーザーの好みを調査しました。
これらの方法を2つの条件でテストしました。1つは、参加者が静止したままで、もう1つはロボットと一緒に自由に歩いたものです。
ロボットと沿って歩くと、直感性の評価が高くなり、タスクのパフォーマンスが向上すると仮定しました。これは、歩行が空間的アライメントを促進し、精神的回転に必要な努力を減らすという考えに基づいています。
被験者内の2×2の設計では、218人の参加者が、回転する左、右回転、歩行コマンドを使用して、複数の90度ターンを使用して、サーキットのルートに沿って4倍のロボットスポットを導きました。
各試験の後、参加者はコマンドマッピングの直感性を評価しましたが、実験後のインタビューは参加者の好みを収集するために使用されました。
結果は、音声制御がスポットと歩くことと組み合わされたものが最も好意的で直感的であることを示しましたが、立っている間のジェスチャーコントロールは左/右のコマンドの混乱を引き起こしました。
それにもかかわらず、参加者の29%は、理由としてタスクのエンゲージメントと視覚的一致の増加を挙げて、ジェスチャー制御を好みました。
臭気ベースの分析により、参加者は、特に歩行を許可されたとき、特にジェスチャー制御条件でスポットの後ろにしばしば追跡することが明らかになりました。
結論として、ウォーキングを伴う音声制御が最良の結果をもたらしました。
物理的な人間工学を改善し、ジェスチャータイプを調整すると、ジェスチャー制御がより効果的になる可能性があります。

要約(オリジナル)

Robots are becoming more capable and can autonomously perform tasks such as navigating between locations. However, human oversight remains crucial. This study compared two touchless methods for directing mobile robots: voice control and gesture control, to investigate the efficiency of the methods and the preference of users. We tested these methods in two conditions: one in which participants remained stationary and one in which they walked freely alongside the robot. We hypothesized that walking alongside the robot would result in higher intuitiveness ratings and improved task performance, based on the idea that walking promotes spatial alignment and reduces the effort required for mental rotation. In a 2×2 within-subject design, 218 participants guided the quadruped robot Spot along a circuitous route with multiple 90-degree turns using rotate left, rotate right, and walk forward commands. After each trial, participants rated the intuitiveness of the command mapping, while post-experiment interviews were used to gather the participants’ preferences. Results showed that voice control combined with walking with Spot was the most favored and intuitive, whereas gesture control while standing caused confusion for left/right commands. Nevertheless, 29% of participants preferred gesture control, citing increased task engagement and visual congruence as reasons. An odometry-based analysis revealed that participants often followed behind Spot, particularly in the gesture control condition, when they were allowed to walk. In conclusion, voice control with walking produced the best outcomes. Improving physical ergonomics and adjusting gesture types could make gesture control more effective.

arxiv情報

著者 Renchi Zhang,Jesse van der Linden,Dimitra Dodou,Harleigh Seyffert,Yke Bauke Eisma,Joost C. F. de Winter
発行日 2025-04-14 08:01:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Walk along: An Experiment on Controlling the Mobile Robot ‘Spot’ with Voice and Gestures はコメントを受け付けていません

GenTe: Generative Real-world Terrains for General Legged Robot Locomotion Control

要約

事前定義された高さマップと静的環境を使用した既存の方法が非構造化された景観の複雑さに対処できないため、多様な現実世界の地形を通過できる二足歩行ロボットの開発は、基本的なロボット課の課題を提示します。
このギャップを埋めるために、私たちは、一般化可能な移動政策を訓練するために、物理的に現実的で適応性のある地形を生成するためのフレームワークであるGenteを提案します。
Genteは、幾何学的地形と物理的な地形の両方を含む原子地形ライブラリを構築し、強化学習ベースの移動政策のためのカリキュラムトレーニングを可能にします。
視覚言語モデル(VLM)の関数コール技術と推論能力を活用することにより、Genteは、テキストおよびグラフィカルな入力から複雑で文脈的に関連する地形を生成します。
このフレームワークは、地形の相互作用のための現実的な力モデリングを導入し、土壌シンクや流体力学的抵抗などの効果をキャプチャします。
私たちの知る限り、Genteは、脚のあるロボットの移動制御のシミュレーション環境を体系的に生成する最初のフレームワークです。
さらに、100の生成された地形のベンチマークを導入します。
実験は、二足歩行ロボットの移動における一般化と堅牢性の改善を示しています。

要約(オリジナル)

Developing bipedal robots capable of traversing diverse real-world terrains presents a fundamental robotics challenge, as existing methods using predefined height maps and static environments fail to address the complexity of unstructured landscapes. To bridge this gap, we propose GenTe, a framework for generating physically realistic and adaptable terrains to train generalizable locomotion policies. GenTe constructs an atomic terrain library that includes both geometric and physical terrains, enabling curriculum training for reinforcement learning-based locomotion policies. By leveraging function-calling techniques and reasoning capabilities of Vision-Language Models (VLMs), GenTe generates complex, contextually relevant terrains from textual and graphical inputs. The framework introduces realistic force modeling for terrain interactions, capturing effects such as soil sinkage and hydrodynamic resistance. To the best of our knowledge, GenTe is the first framework that systemically generates simulation environments for legged robot locomotion control. Additionally, we introduce a benchmark of 100 generated terrains. Experiments demonstrate improved generalization and robustness in bipedal robot locomotion.

arxiv情報

著者 Hanwen Wan,Mengkang Li,Donghao Wu,Yebin Zhong,Yixuan Deng,Zhenglong Sun,Xiaoqiang Ji
発行日 2025-04-14 09:01:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | GenTe: Generative Real-world Terrains for General Legged Robot Locomotion Control はコメントを受け付けていません

FLoRA: Sample-Efficient Preference-based RL via Low-Rank Style Adaptation of Reward Functions

要約

嗜好ベースの強化学習(PBRL)は、事前に訓練されたロボット動作のスタイル適応に適したアプローチです。ロボットのポリシーを適応させて、元のタスクを実行できるようにしながら、人間のユーザーの好みに従うことです。
ただし、ロボット工学における適応プロセスの好みを収集することは、しばしば挑戦的で時間がかかります。
この作業では、低予防産物体制における事前に訓練されたロボットの適応を探ります。
この体制では、最近の適応アプローチは、更新された報酬モデルが新しい好みに覆われている壊滅的な報酬忘却(CRF)に苦しんでおり、エージェントが元のタスクを実行できなくなるように導いていることを示しています。
CRFを緩和するために、優先適応のモデル化を担当する少数のパラメーター(低ランクマトリックス)で元の報酬モデルを強化することを提案します。
私たちの評価は、私たちの方法が、シミュレーションベンチマークタスクと複数の現実世界のロボットタスク全体で、人間の好みにロボットの動作を効率的かつ効果的に調整できることを示しています。

要約(オリジナル)

Preference-based reinforcement learning (PbRL) is a suitable approach for style adaptation of pre-trained robotic behavior: adapting the robot’s policy to follow human user preferences while still being able to perform the original task. However, collecting preferences for the adaptation process in robotics is often challenging and time-consuming. In this work we explore the adaptation of pre-trained robots in the low-preference-data regime. We show that, in this regime, recent adaptation approaches suffer from catastrophic reward forgetting (CRF), where the updated reward model overfits to the new preferences, leading the agent to become unable to perform the original task. To mitigate CRF, we propose to enhance the original reward model with a small number of parameters (low-rank matrices) responsible for modeling the preference adaptation. Our evaluation shows that our method can efficiently and effectively adjust robotic behavior to human preferences across simulation benchmark tasks and multiple real-world robotic tasks.

arxiv情報

著者 Daniel Marta,Simon Holk,Miguel Vasco,Jens Lundell,Timon Homberger,Finn Busch,Olov Andersson,Danica Kragic,Iolanda Leite
発行日 2025-04-14 09:04:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | FLoRA: Sample-Efficient Preference-based RL via Low-Rank Style Adaptation of Reward Functions はコメントを受け付けていません