Sensor Model Identification via Simultaneous Model Selection and State Variable Determination

要約

ロボット工学の分野でのローカリゼーションアルゴリズムで一般的に使用されるセンサーモデルの無人のグレーボックス識別の方法を提示します。
目的は、事前定義されたセンサーモデルの拡張可能なカタログを考慮して、未知の測定データの時系列の最も可能性の高いセンサーモデルを決定することです。
センサーモデルの定義では、ロボットのローカリゼーション状態に基づいて測定値を再現するために、剛体の校正と専用の参照フレームの状態が必要になる場合があります。
ヘルスメトリックが導入されます。これは、誤検知を検出し、信頼できる意思決定を促進するために選択プロセスの結果を検証します。
第2段階では、特定されたキャリブレーション状態の最初の推測が生成され、センサーの世界参照フレームの必要性が評価されます。
次に、パラメーター情報を使用した特定されたセンサーモデルを使用して、状態推定アプリケーションのパラメーター化と初期化を行うため、新しいセンサー要素のより正確で堅牢な統合を保証します。
この方法は、測定、センサーのキャリブレーション、またはセンサー参照フレームのソースとタイプを特定したい経験の浅いユーザーに役立ちます。
また、モジュラーマルチエージェントシナリオと、ランタイム中にセンサーモダリティによって増強されるモジュール化されたロボットプラットフォームの分野でも重要です。
全体として、この作業は、ダウンストリームアプリケーションへのセンサーモダリティの単純化された統合を提供し、ローカリゼーションアプローチの使用と開発における一般的な落とし穴を回避することを目的としています。

要約(オリジナル)

We present a method for the unattended gray-box identification of sensor models commonly used by localization algorithms in the field of robotics. The objective is to determine the most likely sensor model for a time series of unknown measurement data, given an extendable catalog of predefined sensor models. Sensor model definitions may require states for rigid-body calibrations and dedicated reference frames to replicate a measurement based on the robot’s localization state. A health metric is introduced, which verifies the outcome of the selection process in order to detect false positives and facilitate reliable decision-making. In a second stage, an initial guess for identified calibration states is generated, and the necessity of sensor world reference frames is evaluated. The identified sensor model with its parameter information is then used to parameterize and initialize a state estimation application, thus ensuring a more accurate and robust integration of new sensor elements. This method is helpful for inexperienced users who want to identify the source and type of a measurement, sensor calibrations, or sensor reference frames. It will also be important in the field of modular multi-agent scenarios and modularized robotic platforms that are augmented by sensor modalities during runtime. Overall, this work aims to provide a simplified integration of sensor modalities to downstream applications and circumvent common pitfalls in the usage and development of localization approaches.

arxiv情報

著者 Christian Brommer,Alessandro Fornasier,Jan Steinbrener,Stephan Weiss
発行日 2025-06-12 20:08:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.NA, cs.RO, cs.SY, eess.SY, math.IT, math.NA | Sensor Model Identification via Simultaneous Model Selection and State Variable Determination はコメントを受け付けていません

Robust Optimal Task Planning to Maximize Battery Life

要約

このホワイトペーパーでは、自律モバイルロボット(AMR)向けの制御指向の最適化プラットフォームを提案し、タスクの完了を確保しながらバッテリー寿命の延長に焦点を当てています。
最小限のバッテリー状態を維持しながら、高速AMRタスク計画の要件により、バッテリー寿命を最大化すると、双線形最適化問題が発生します。
マコーミックエンベロープテクニックは、双線形項を線形化するために提案されています。
リラックスした制約を備えた新しい計画アルゴリズムも、高効率でパラメーターの不確実性を強く処理するために開発されています。
シミュレーション結果は、タスクの完了要件を満たしながらバッテリーの劣化を減らす際の提案された方法の有用性を実証するために提供されます。

要約(オリジナル)

This paper proposes a control-oriented optimization platform for autonomous mobile robots (AMRs), focusing on extending battery life while ensuring task completion. The requirement of fast AMR task planning while maintaining minimum battery state of charge, thus maximizing the battery life, renders a bilinear optimization problem. McCormick envelop technique is proposed to linearize the bilinear term. A novel planning algorithm with relaxed constraints is also developed to handle parameter uncertainties robustly with high efficiency ensured. Simulation results are provided to demonstrate the utility of the proposed methods in reducing battery degradation while satisfying task completion requirements.

arxiv情報

著者 Jiachen Li,Chu Jian,Feiyang Zhao,Shihao Li,Wei Li,Dongmei Chen
発行日 2025-06-12 20:09:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Robust Optimal Task Planning to Maximize Battery Life はコメントを受け付けていません

Control Industrial Automation System with Large Language Model Agents

要約

従来の産業自動化システムでは、運用の専門的な専門知識と、新しいプロセスに適応するための複雑な再プログラミングが必要です。
大規模な言語モデルは、より柔軟で使いやすくするためのインテリジェンスを提供します。
ただし、産業環境でのLLMSのアプリケーションは露出度が低くなっています。
このペーパーでは、LLMを統合して産業自動化システムのエンドツーエンド制御を実現するためのフレームワークを紹介します。
フレームワークのコアには、産業用タスク向けに設計されたエージェントシステム、構造化されたプロンプトメソッド、およびLLM推論のリアルタイムデータを提供するイベント駆動型の情報モデリングメカニズムがあります。
フレームワークは、LLMSにさまざまなコンテキストセマンティックレベルでリアルタイムイベントを提供し、情報を解釈し、生産計画を生成し、自動化システムで制御することができるようにします。
また、LLMSのこの下流のアプリケーションで微調整するための構造化されたデータセット作成もサポートしています。
私たちの貢献には、正式なシステム設計、概念実装の実装、およびLLMの微調整とテストのためのタスク固有のデータセットを生成する方法が含まれます。
このアプローチにより、自発的なイベントに対応できるより適応性のある自動化システムが可能になり、より直感的な人間の相互作用のために自然言語を介した操作と構成が容易になります。
githubでデモビデオと詳細なデータを提供しています:https://github.com/yuchenxia/llm4ias。

要約(オリジナル)

Traditional industrial automation systems require specialized expertise to operate and complex reprogramming to adapt to new processes. Large language models offer the intelligence to make them more flexible and easier to use. However, LLMs’ application in industrial settings is underexplored. This paper introduces a framework for integrating LLMs to achieve end-to-end control of industrial automation systems. At the core of the framework are an agent system designed for industrial tasks, a structured prompting method, and an event-driven information modeling mechanism that provides real-time data for LLM inference. The framework supplies LLMs with real-time events on different context semantic levels, allowing them to interpret the information, generate production plans, and control operations on the automation system. It also supports structured dataset creation for fine-tuning on this downstream application of LLMs. Our contribution includes a formal system design, proof-of-concept implementation, and a method for generating task-specific datasets for LLM fine-tuning and testing. This approach enables a more adaptive automation system that can respond to spontaneous events, while allowing easier operation and configuration through natural language for more intuitive human-machine interaction. We provide demo videos and detailed data on GitHub: https://github.com/YuchenXia/LLM4IAS.

arxiv情報

著者 Yuchen Xia,Nasser Jazdi,Jize Zhang,Chaitanya Shah,Michael Weyrich
発行日 2025-06-12 21:26:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.MA, cs.RO, cs.SY, eess.SY | Control Industrial Automation System with Large Language Model Agents はコメントを受け付けていません

Measuring and Minimizing Disturbance of Marine Animals to Underwater Vehicles

要約

魚は水中車両の存在に反応し、潜在的にそれらについての推定値に偏っていますか?
もしそうなら、この応答を測定して軽減する戦略はありますか?
この作業は、水中車両観測からの動物行動のバイアスのない推定に向けた理論的かつ実用的な枠組みを提供します。
また、これらの質問に対処するために、サンゴ礁環境の分野からの予備的な結果を提供します。

要約(オリジナル)

Do fish respond to the presence of underwater vehicles, potentially biasing our estimates about them? If so, are there strategies to measure and mitigate this response? This work provides a theoretical and practical framework towards bias-free estimation of animal behavior from underwater vehicle observations. We also provide preliminary results from the field in coral reef environments to address these questions.

arxiv情報

著者 Levi Cai,Youenn Jézéquel,T. Aran Mooney,Yogesh Girdhar
発行日 2025-06-12 22:14:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Measuring and Minimizing Disturbance of Marine Animals to Underwater Vehicles はコメントを受け付けていません

Robotic System for Chemical Experiment Automation with Dual Demonstration of End-effector and Jig Operations

要約

ロボットオートメーションは、数日間にわたって数百の実験を継続的に実行するなど、顕著なパフォーマンスを実証していますが、ロボットの動きを実験ジグと同期して実験を実施するプログラムを設計することは困難です。
私たちは、ロボットによって制御されるように構築された実験環境で化学者によるロボット運動とジグ操作のデュアルデモンストレーションを利用することにより、実験の自動化を可能にする概念を提案します。
この概念を検証するために、実験でロボットを支援するためのジグで構成される化学実験的自動システムを開発しました。
ピペッティングや希釈などの重要な液体処理タスクに焦点を当てたポリマー合成実験を通じて概念を検証します。
実験結果は、実証された動きの高い再現性と堅牢なタス​​クスケス率を示しています。
この包括的な概念は、化学者向けのロボットプログラミングプロセスを簡素化するだけでなく、幅広い実験条件に対応するための柔軟で効率的なソリューションを提供し、化学実験自動化の分野に大きく貢献します。

要約(オリジナル)

While robotic automation has demonstrated remarkable performance, such as executing hundreds of experiments continuously over several days, it is challenging to design a program that synchronizes the robot’s movements with the experimental jigs to conduct an experiment. We propose a concept that enables the automation of experiments by utilizing dual demonstrations of robot motions and jig operations by chemists in an experimental environment constructed to be controlled by a robot. To verify this concept, we developed a chemical-experiment-automation system consisting of jigs to assist the robot in experiments, a motion-demonstration interface, a jig-control interface, and a mobile manipulator. We validate the concept through polymer-synthesis experiments, focusing on critical liquid-handling tasks such as pipetting and dilution. The experimental results indicate high reproducibility of the demonstrated motions and robust task-success rates. This comprehensive concept not only simplifies the robot programming process for chemists but also provides a flexible and efficient solution to accommodate a wide range of experimental conditions, contributing significantly to the field of chemical experiment automation.

arxiv情報

著者 Hikaru Sasaki,Naoto Komeno,Takumi Hachimine,Kei Takahashi,Yu-ya Ohnishi,Tetsunori Sugawara,Araki Wakiuchi,Miho Hatanaka,Tomoyuki Miyao,Hiroharu Ajiro,Mikiya Fujii,Takamitsu Matsubara
発行日 2025-06-13 01:08:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Robotic System for Chemical Experiment Automation with Dual Demonstration of End-effector and Jig Operations はコメントを受け付けていません

Control Architecture and Design for a Multi-robotic Visual Servoing System in Automated Manufacturing Environment

要約

ロボット技術の使用は、21世紀の製造において大幅に増加しています。
しかし、感覚の手がかりを利用することにより、人間は依然としてマシン、特にマイクロスケールの製造において、高精度のロボットマニピュレーターが必要です。
これらの感覚キューは、製造環境に存在する高レベルの不確実性を自然に補償します。
製造タスクの実行における不確実性は、測定ノイズ、モデルの不正確さ、関節コンプライアンス(例えば、弾力性)などから生じる可能性があります。
自動製造において。
私たちの研究は、アプリケーションを固定して留められない測位プロセスをシミュレートするマルチロボット制御システムは、このプロセスで発生する可能性のあるさまざまな不確実性を大幅に減らすことができることを示しています。
さらに、視覚サーボのほとんどの研究論文は、主にさまざまなシナリオで制御および観察アーキテクチャの開発に焦点を当てていますが、構成におけるカメラの位置の重要性について議論した人はほとんどいません。
製造環境では、カメラの推定の品質は、環境条件の複合効果により、異なる場所での単一の画像が撮影された単一の画像の騒音レベルが異なるため、カメラの推定の品質は大幅に異なる場合があります。
したがって、このペーパーでは、カメラの移動ポリシーの新しいアルゴリズムも提案して、カメラのワークスペースを調査し、画像ノイズレベルが最小化される最適な場所を検索します。

要約(オリジナル)

The use of robotic technology has drastically increased in manufacturing in the 21st century. But by utilizing their sensory cues, humans still outperform machines, especially in micro scale manufacturing, which requires high-precision robot manipulators. These sensory cues naturally compensate for high levels of uncertainties that exist in the manufacturing environment. Uncertainties in performing manufacturing tasks may come from measurement noise, model inaccuracy, joint compliance (e.g., elasticity), etc. Although advanced metrology sensors and high precision microprocessors, which are utilized in modern robots, have compensated for many structural and dynamic errors in robot positioning, a well-designed control algorithm still works as a comparable and cheaper alternative to reduce uncertainties in automated manufacturing. Our work illustrates that a multi-robot control system that simulates the positioning process for fastening and unfastening applications can reduce various uncertainties, which may occur in this process, to a great extent. In addition, most research papers in visual servoing mainly focus on developing control and observation architectures in various scenarios, but few have discussed the importance of the camera’s location in the configuration. In a manufacturing environment, the quality of camera estimations may vary significantly from one observation location to another, as the combined effects of environmental conditions result in different noise levels of a single image shot at different locations. Therefore, in this paper, we also propose a novel algorithm for the camera’s moving policy so that it explores the camera workspace and searches for the optimal location where the image noise level is minimized.

arxiv情報

著者 Rongfei Li
発行日 2025-06-13 01:09:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 93B52, cs.CV, cs.RO, cs.SY, eess.SY | Control Architecture and Design for a Multi-robotic Visual Servoing System in Automated Manufacturing Environment はコメントを受け付けていません

A Step-by-Step Guide to Creating a Robust Autonomous Drone Testing Pipeline

要約

自律的なドローンは、航空提供やインフラストラクチャの検査から環境監視や災害対応に至るまで、産業を急速に再形成しています。
これらのシステムの安全性、信頼性、効率を確保することは、研究プロトタイプからミッションクリティカルなプラットフォームに移行する際に最も重要です。
このペーパーでは、各重要な段階をカバーする堅牢な自動運転ドローンテストパイプラインを確立するための段階的なガイドを紹介します。これは、ループ中のソフトウェア(SIL)シミュレーションテスト、ループのハードウェア(HIL)テスト、制御された現実世界のテスト、およびフィールドテストです。
マーカーベースの自律着陸システムなどの実用的な例を使用して、ドローンシステムの動作を体系的に検証し、統合の問題を特定し、パフォーマンスを最適化する方法を示します。
さらに、神経相とLLMの統合、共産環境の作成、デジタルツイン対応シミュレーションベースのテスト技術など、ドローンテストの将来を形作る新しい傾向を強調しています。
このパイプラインに従うことにより、開発者と研究者は包括的な検証を達成し、展開リスクを最小限に抑え、安全で信頼できる実世界の運用のために自律的なドローンを準備できます。

要約(オリジナル)

Autonomous drones are rapidly reshaping industries ranging from aerial delivery and infrastructure inspection to environmental monitoring and disaster response. Ensuring the safety, reliability, and efficiency of these systems is paramount as they transition from research prototypes to mission-critical platforms. This paper presents a step-by-step guide to establishing a robust autonomous drone testing pipeline, covering each critical stage: Software-in-the-Loop (SIL) Simulation Testing, Hardware-in-the-Loop (HIL) Testing, Controlled Real-World Testing, and In-Field Testing. Using practical examples, including the marker-based autonomous landing system, we demonstrate how to systematically verify drone system behaviors, identify integration issues, and optimize performance. Furthermore, we highlight emerging trends shaping the future of drone testing, including the integration of Neurosymbolic and LLMs, creating co-simulation environments, and Digital Twin-enabled simulation-based testing techniques. By following this pipeline, developers and researchers can achieve comprehensive validation, minimize deployment risks, and prepare autonomous drones for safe and reliable real-world operations.

arxiv情報

著者 Yupeng Jiang,Yao Deng,Sebastian Schroder,Linfeng Liang,Suhaas Gambhir,Alice James,Avishkar Seth,James Pirrie,Yihao Zhang,Xi Zheng
発行日 2025-06-13 01:55:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SE | A Step-by-Step Guide to Creating a Robust Autonomous Drone Testing Pipeline はコメントを受け付けていません

FocalAD: Local Motion Planning for End-to-End Autonomous Driving

要約

エンドツーエンドの自律運転では、モーション予測は自動車計画において極めて重要な役割を果たします。
ただし、既存の方法は、多くの場合、計画の決定が主に少数の局所的に相互作用するエージェントの影響を受けているという事実を無視して、グローバルに集約されたモーション機能に依存しています。
これらの重要な局所的な相互作用に注意を払わないと、潜在的なリスクを曖昧にし、計画の信頼性を損なう可能性があります。
この作業では、重要な地元の隣人に焦点を当て、地元の動き表現を強化することで計画を改良する新しいエンドツーエンドの自律運転フレームワークであるFocaladを提案します。
具体的には、Focaladは2つのコアモジュールで構成されています:エゴローカルエージェントインタラクター(ELA)とフォーカルローカルエージェントの損失(FLA損失)。
ELAIは、地元の隣人とモーションダイナミクスをキャプチャするグラフベースの自我中心の相互作用表現を実施して、自我計画とエージェントの動きのクエリの両方を強化します。
FLAの損失は、意思決定批判的な隣接エージェントの重みを増加させ、モデルを導き、計画に関連するものを優先順位付けします。
大規模な実験では、フォーカラードが既存の最先端のメソッドを、オープンループヌスセンデータセットと閉ループベンチ2driveベンチマーク上の最先端の方法よりも優れていることが示されています。
特に、堅牢性に焦点を当てたADVナスセンデータセットでは、Focaladはさらに改善を達成し、平均coliLision速度を拡散ドライブと比較して41.9%、スパーリブと比較して15.6%減少します。

要約(オリジナル)

In end-to-end autonomous driving,the motion prediction plays a pivotal role in ego-vehicle planning. However, existing methods often rely on globally aggregated motion features, ignoring the fact that planning decisions are primarily influenced by a small number of locally interacting agents. Failing to attend to these critical local interactions can obscure potential risks and undermine planning reliability. In this work, we propose FocalAD, a novel end-to-end autonomous driving framework that focuses on critical local neighbors and refines planning by enhancing local motion representations. Specifically, FocalAD comprises two core modules: the Ego-Local-Agents Interactor (ELAI) and the Focal-Local-Agents Loss (FLA Loss). ELAI conducts a graph-based ego-centric interaction representation that captures motion dynamics with local neighbors to enhance both ego planning and agent motion queries. FLA Loss increases the weights of decision-critical neighboring agents, guiding the model to prioritize those more relevant to planning. Extensive experiments show that FocalAD outperforms existing state-of-the-art methods on the open-loop nuScenes datasets and closed-loop Bench2Drive benchmark. Notably, on the robustness-focused Adv-nuScenes dataset, FocalAD achieves even greater improvements, reducing the average colilision rate by 41.9% compared to DiffusionDrive and by 15.6% compared to SparseDrive.

arxiv情報

著者 Bin Sun,Boao Zhang,Jiayi Lu,Xinjie Feng,Jiachen Shang,Rui Cao,Mengchao Zheng,Chuanye Wang,Shichun Yang,Yaoguang Cao,Ziying Song
発行日 2025-06-13 02:39:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | FocalAD: Local Motion Planning for End-to-End Autonomous Driving はコメントを受け付けていません

DURA-CPS: A Multi-Role Orchestrator for Dependability Assurance in LLM-Enabled Cyber-Physical Systems

要約

サイバー物理システム(CPS)は、重要なアプリケーションで動作する高度なAI技術にますます依存しています。
ただし、従来の検証と検証方法は、AIコンポーネントの予測不可能で動的な性質を処理するのに苦労することがよくあります。
このホワイトペーパーでは、Multi-Roleのオーケストレーションを使用してAI駆動のCPSの反復保証プロセスを自動化する新しいフレームワークであるDura-CPSを紹介します。
シミュレートされた環境内で専用のエージェントに専門的な役割(安全監視、セキュリティ評価、障害インジェクション、回復計画など)を割り当てることにより、DURA-CPSは、さまざまな信頼性要件に対してAIの動作を継続的に評価および改良します。
AIベースのプランナーとの交差点をナビゲートする自律車両を含むケーススタディを通じて、フレームワークを実証します。
我々の結果は、DURA-CPSが脆弱性を効果的に検出し、パフォーマンスへの影響を管理し、適応型回復戦略をサポートし、それにより、安全性およびセキュリティクリティカルなシステムで厳格なV&Vに構造化された拡張可能なソリューションを提供することを示しています。

要約(オリジナル)

Cyber-Physical Systems (CPS) increasingly depend on advanced AI techniques to operate in critical applications. However, traditional verification and validation methods often struggle to handle the unpredictable and dynamic nature of AI components. In this paper, we introduce DURA-CPS, a novel framework that employs multi-role orchestration to automate the iterative assurance process for AI-powered CPS. By assigning specialized roles (e.g., safety monitoring, security assessment, fault injection, and recovery planning) to dedicated agents within a simulated environment, DURA-CPS continuously evaluates and refines AI behavior against a range of dependability requirements. We demonstrate the framework through a case study involving an autonomous vehicle navigating an intersection with an AI-based planner. Our results show that DURA-CPS effectively detects vulnerabilities, manages performance impacts, and supports adaptive recovery strategies, thereby offering a structured and extensible solution for rigorous V&V in safety- and security-critical systems.

arxiv情報

著者 Trisanth Srinivasan,Santosh Patapati,Himani Musku,Idhant Gode,Aditya Arora,Samvit Bhattacharya,Abubakr Nazriev,Sanika Hirave,Zaryab Kanjiani,Srinjoy Ghose
発行日 2025-06-13 03:57:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: C.4, cs.AI, cs.ET, cs.HC, cs.MA, cs.RO | DURA-CPS: A Multi-Role Orchestrator for Dependability Assurance in LLM-Enabled Cyber-Physical Systems はコメントを受け付けていません

ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning

要約

継続的なロボット制御のためにフローマッチングポリシーのファミリーを微調整するシンプルでありながら効果的なオンライン強化学習(RL)フレームワークであるReinflowを提案します。
厳密なRL理論から導き出されたラインフローは、学習可能なノイズをフローポリシーの決定論的パスに注入し、正確かつ単純な尤度計算のために、流れを離散時間マルコフプロセスに変換します。
この変換により、探索が促進され、トレーニングの安定性が保証され、ラインフローが整流フロー[35]やショートカットモデル[19]を含む多様なフローモデルバリアントを微調整できるようにします。
視覚的な入力とまばらな報酬を備えた長老の計画を含む、代表的な移動および操作タスクのリネフローをベンチマークします。
修正フローポリシーのエピソード報酬は、最先端の拡散RL微調整法dppoと比較して、除去ステップと壁の時間の82.63%を節約しながら、格子運動の挑戦で微調整した後、135.36%の平均正味成長を獲得しました[43]。
状態および視覚操作タスクのショートカットモデルポリシーの成功率は、4つまたは1つの除去ステップでラインフローで微調整した後、平均純増加を達成しました。
プロジェクトWebページ:https://reinflow.github.io/

要約(オリジナル)

We propose ReinFlow, a simple yet effective online reinforcement learning (RL) framework that fine-tunes a family of flow matching policies for continuous robotic control. Derived from rigorous RL theory, ReinFlow injects learnable noise into a flow policy’s deterministic path, converting the flow into a discrete-time Markov Process for exact and straightforward likelihood computation. This conversion facilitates exploration and ensures training stability, enabling ReinFlow to fine-tune diverse flow model variants, including Rectified Flow [35] and Shortcut Models [19], particularly at very few or even one denoising step. We benchmark ReinFlow in representative locomotion and manipulation tasks, including long-horizon planning with visual input and sparse reward. The episode reward of Rectified Flow policies obtained an average net growth of 135.36% after fine-tuning in challenging legged locomotion tasks while saving denoising steps and 82.63% of wall time compared to state-of-the-art diffusion RL fine-tuning method DPPO [43]. The success rate of the Shortcut Model policies in state and visual manipulation tasks achieved an average net increase of 40.34% after fine-tuning with ReinFlow at four or even one denoising step, whose performance is comparable to fine-tuned DDIM policies while saving computation time for an average of 23.20%. Project webpage: https://reinflow.github.io/

arxiv情報

著者 Tonghe Zhang,Chao Yu,Sichang Su,Yu Wang
発行日 2025-06-13 04:27:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning はコメントを受け付けていません