Finding Minimum-Cost Explanations for Predictions made by Tree Ensembles

要約

機械学習モデルが特定の予測に到達する理由を説明する能力は、重要なシステムの人間のオペレーターによる意思決定支援として使用される場合、重要です。
提供された説明は、最小限の説明と呼ばれる冗長な情報がないことを証明できるほど正しく、できれば冗長な情報がなければなりません。
この論文では、最小限だけでなく、コスト関数に関しても最小限のツリーアンサンブルによって行われた予測の説明を見つけることを目指しています。
この目的のために、最初に説明の正確性を決定できる非常に効率的なオラクルを提示し、最小限の説明を計算する際に、現在の最先端の代替のランタイムパフォーマンスを数桁上回ります。
第二に、予測ごとに単一の最小説明を計算する目的で、関連作品(M-Marcoと呼ばれる)のMarcoと呼ばれるアルゴリズムを適応させ、すべての最小限の説明を列挙するMarcoアルゴリズムと比較して2の全体的な速度係数を実証します。
最後に、一連のユースケースから得られた説明を研究し、それらの特性のさらなる洞察につながります。
特に、いくつかのケースでは、単一の予測のために選択する最小限の説明が100,000を超える最小限の説明があることを観察します。
これらの場合、最小限の説明のごく一部のみが最小であり、最小限の説明は冗長性が大幅に少ないため、この作業の目的を動機付けていることがわかります。

要約(オリジナル)

The ability to explain why a machine learning model arrives at a particular prediction is crucial when used as decision support by human operators of critical systems. The provided explanations must be provably correct, and preferably without redundant information, called minimal explanations. In this paper, we aim at finding explanations for predictions made by tree ensembles that are not only minimal, but also minimum with respect to a cost function. To this end, we first present a highly efficient oracle that can determine the correctness of explanations, surpassing the runtime performance of current state-of-the-art alternatives by several orders of magnitude when computing minimal explanations. Secondly, we adapt an algorithm called MARCO from related works (calling it m-MARCO) for the purpose of computing a single minimum explanation per prediction, and demonstrate an overall speedup factor of two compared to the MARCO algorithm which enumerates all minimal explanations. Finally, we study the obtained explanations from a range of use cases, leading to further insights of their characteristics. In particular, we observe that in several cases, there are more than 100,000 minimal explanations to choose from for a single prediction. In these cases, we see that only a small portion of the minimal explanations are also minimum, and that the minimum explanations are significantly less verbose, hence motivating the aim of this work.

arxiv情報

著者 John Törnblom,Emil Karlsson,Simin Nadjm-Tehrani
発行日 2025-04-28 17:34:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Finding Minimum-Cost Explanations for Predictions made by Tree Ensembles はコメントを受け付けていません

Supervised learning with probabilistic morphisms and kernel mean embeddings

要約

この論文では、正しい損失関数の概念を使用して、監督された学習に対する2つのアプローチを統一する監視された学習の生成モデルを提案します。
統計学習理論で無視されている2つの測定可能性の問題に対処すると、私は外部確率で収束を使用して、学習アルゴリズムの一貫性を特徴付けることを提案します。
これらの結果に基づいて、条件付き確率推定問題の設定まで、回帰モデルの学習性に対処するCucker-Smaleのために結果を拡張します。
さらに、確率的に不適切な問題を解決し、それを使用して監視された監視学習モデルの一般化を証明するためのVapnik-Stefanuykの正規化方法のバリアントを提示します。

要約(オリジナル)

In this paper I propose a generative model of supervised learning that unifies two approaches to supervised learning, using a concept of a correct loss function. Addressing two measurability problems, which have been ignored in statistical learning theory, I propose to use convergence in outer probability to characterize the consistency of a learning algorithm. Building upon these results, I extend a result due to Cucker-Smale, which addresses the learnability of a regression model, to the setting of a conditional probability estimation problem. Additionally, I present a variant of Vapnik-Stefanuyk’s regularization method for solving stochastic ill-posed problems, and using it to prove the generalizability of overparameterized supervised learning models.

arxiv情報

著者 Hông Vân Lê
発行日 2025-04-28 16:49:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 18N99, 46N30, 60B10, 62G05, cs.LG, math.CT, math.FA, math.PR, math.ST, stat.TH | Supervised learning with probabilistic morphisms and kernel mean embeddings はコメントを受け付けていません

A Bayesian approach to modeling topic-metadata relationships

要約

高度なトピックモデリングの目的は、潜在的な局所構造を探求するだけでなく、発見されたトピックと理論的に関連するメタデータとの関係を推定することです。
そのような関係を推定するために使用される方法は、局所構造が直接観察されるのではなく、通常は一般的なトピックモデルによって監視されていない方法でそれ自体を推定されることを考慮に入れる必要があります。
これを達成するために頻繁に使用される手順は、メタデータ共変量のサンプリングされたトピックの割合の複数の繰り返し線形回帰を実行するモンテカルロサンプリング手法である組成の方法です。
このペーパーでは、このアプローチの2つの変更を提案します。まず、線形回帰をより適切なベータ回帰に置き換えることにより、RパッケージSTMからの組成方法の既存の実装を大幅に改善します。
第二に、頻繁なメソッドとベイジアン法の現在のブレンドを完全にベイジアンアプローチに置き換えることにより、推定フレーム全体の基本的な強化を提供します。
これにより、不確実性のより適切な定量化が可能になります。
ドイツの議会議員によるTwitterの投稿と、構造的トピックモデルを使用してトピックの割合を推定するために選挙区に関連するさまざまなメタデータ共変量間の関係を調査することにより、改善された方法論を説明します。

要約(オリジナル)

The objective of advanced topic modeling is not only to explore latent topical structures, but also to estimate relationships between the discovered topics and theoretically relevant metadata. Methods used to estimate such relationships must take into account that the topical structure is not directly observed, but instead being estimated itself in an unsupervised fashion, usually by common topic models. A frequently used procedure to achieve this is the method of composition, a Monte Carlo sampling technique performing multiple repeated linear regressions of sampled topic proportions on metadata covariates. In this paper, we propose two modifications of this approach: First, we substantially refine the existing implementation of the method of composition from the R package stm by replacing linear regression with the more appropriate Beta regression. Second, we provide a fundamental enhancement of the entire estimation framework by substituting the current blending of frequentist and Bayesian methods with a fully Bayesian approach. This allows for a more appropriate quantification of uncertainty. We illustrate our improved methodology by investigating relationships between Twitter posts by German parliamentarians and different metadata covariates related to their electoral districts, using the Structural Topic Model to estimate topic proportions.

arxiv情報

著者 P. Schulze,S. Wiegrebe,P. W. Thurner,C. Heumann,M. Aßenmacher
発行日 2025-04-28 07:49:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML | A Bayesian approach to modeling topic-metadata relationships はコメントを受け付けていません

APEX-MR: Multi-Robot Asynchronous Planning and Execution for Cooperative Assembly

要約

シングルロボットワークステーションと比較して、マルチロボットシステムはいくつかの利点を提供します。1)システムのワークスペースを拡張し、2)タスク効率を向上させ、さらに重要なことに、3)ロボットが協同組合などの大幅に複雑で器用なタスクを実現できるようにします。
ただし、複数のロボットのタスクと動きを調整することは、問題のために困難です。
システムの不確実性、タスク効率、アルゴリズムのスケーラビリティ、および安全性の懸念。
これらの課題に対処するために、このペーパーはマルチロボット調整を研究し、Apex-MRを提案します。これは、複数のロボットを安全かつ効率的に調整して協同組合を達成するように設計された非同期計画と実行フレームワークです。
レゴアセンブリ。
特に、APEX-MRは、不確実性の下で堅牢な非同期実行を可能にするために、ポストプロセスのマルチロボットタスクとモーションプランへの体系的なアプローチを提供します。
実験結果は、APEX-MRが、シーケンシャルプランニングと比較して、多くの長老レゴアセンブリタスクの実行時間を48%、平均して同期計画と比較して36%を大幅に高速化できることを示しています。
パフォーマンスをさらに実証するために、Apex-MRをデュアルアームシステムに展開して、物理的なLEGOアセンブリを実行します。
私たちの知る限り、これは商用レゴブリックを使用してカスタマイズされたレゴアセンブリを実行できる最初のロボットシステムです。
実験結果は、APEX-MRを備えたデュアルアームシステムが、ロボットの動きを安全に調整し、効率的に協力し、複雑なLEGO構造を構築できることを示しています。
当社のプロジェクトWebサイトは、https://intelligent-control-lab.github.io/apex-mr/で入手できます。

要約(オリジナル)

Compared to a single-robot workstation, a multi-robot system offers several advantages: 1) it expands the system’s workspace, 2) improves task efficiency, and, more importantly, 3) enables robots to achieve significantly more complex and dexterous tasks, such as cooperative assembly. However, coordinating the tasks and motions of multiple robots is challenging due to issues, e.g. system uncertainty, task efficiency, algorithm scalability, and safety concerns. To address these challenges, this paper studies multi-robot coordination and proposes APEX-MR, an asynchronous planning and execution framework designed to safely and efficiently coordinate multiple robots to achieve cooperative assembly, e.g. LEGO assembly. In particular, APEX-MR provides a systematic approach to post-process multi-robot tasks and motion plans to enable robust asynchronous execution under uncertainty. Experimental results demonstrate that APEX-MR can significantly speed up the execution time of many long-horizon LEGO assembly tasks by 48% compared to sequential planning and 36% compared to synchronous planning on average. To further demonstrate performance, we deploy APEX-MR in a dual-arm system to perform physical LEGO assembly. To our knowledge, this is the first robotic system capable of performing customized LEGO assembly using commercial LEGO bricks. The experimental results demonstrate that the dual-arm system, with APEX-MR, can safely coordinate robot motions, efficiently collaborate, and construct complex LEGO structures. Our project website is available at https://intelligent-control-lab.github.io/APEX-MR/.

arxiv情報

著者 Philip Huang,Ruixuan Liu,Changliu Liu,Jiaoyang Li
発行日 2025-04-28 03:20:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | APEX-MR: Multi-Robot Asynchronous Planning and Execution for Cooperative Assembly はコメントを受け付けていません

An End-to-End Framework for Optimizing Foot Trajectory and Force in Dry Adhesion Legged Wall-Climbing Robots

要約

乾燥接着の脚の脚の軌跡計画は、足の剥離、スイング、および接着の段階が安定した登山に不可欠な接着力と剥離力に大きく影響するため、課題を提示します。
これに取り組むために、エンドツーエンドの足の軌跡と力最適化フレームワーク(FTFOF)が提案されており、軌道調整により足の接着力と剥離力を最適化します。
このフレームワークは、一般的な足の軌跡の制約とユーザー定義のパラメーターを入力として受け入れ、最終的には最適な単一足の軌跡を生成します。
さまざまな足構造に合わせて調整された3セグメント$ c^2 $連続ベジエ曲線を統合し、効果的な登山軌道の生成を可能にします。
拡張ベースのGRU予測モデルは、足の軌跡と対応する足の力との関係を確立します。
冗長性階層戦略と組み合わせた多目的最適化アルゴリズムは、特定のタスクに最も適した足の軌跡を識別し、それにより、剥離力、接着力、振動振幅全体の最適なパフォーマンスを確保します。
四足クライミングロボットMST-M3Fの実験的検証は、既存の脚のクライミングロボットで一般的に使用される軌跡と比較して、提案されたフレームワークが最大剥離力の削減を28 \%、振動振幅を82 \%で達成することを示しました。

要約(オリジナル)

Foot trajectory planning for dry adhesion legged climbing robots presents challenges, as the phases of foot detachment, swing, and adhesion significantly influence the adhesion and detachment forces essential for stable climbing. To tackle this, an end-to-end foot trajectory and force optimization framework (FTFOF) is proposed, which optimizes foot adhesion and detachment forces through trajectory adjustments. This framework accepts general foot trajectory constraints and user-defined parameters as input, ultimately producing an optimal single foot trajectory. It integrates three-segment $C^2$ continuous Bezier curves, tailored to various foot structures, enabling the generation of effective climbing trajectories. A dilate-based GRU predictive model establishes the relationship between foot trajectories and the corresponding foot forces. Multi-objective optimization algorithms, combined with a redundancy hierarchical strategy, identify the most suitable foot trajectory for specific tasks, thereby ensuring optimal performance across detachment force, adhesion force and vibration amplitude. Experimental validation on the quadruped climbing robot MST-M3F showed that, compared to commonly used trajectories in existing legged climbing robots, the proposed framework achieved reductions in maximum detachment force by 28 \%, vibration amplitude by 82 \%, which ensures the stable climbing of dry adhesion legged climbing robots.

arxiv情報

著者 Jichun Xiao,Jiawei Nie,Lina Hao,Zhi Li
発行日 2025-04-28 03:25:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | An End-to-End Framework for Optimizing Foot Trajectory and Force in Dry Adhesion Legged Wall-Climbing Robots はコメントを受け付けていません

Bearing-Only Tracking and Circumnavigation of a Fast Time-Varied Velocity Target Utilising an LSTM

要約

ベアリングのみの追跡、ローカリゼーション、および周辺は、単一またはエージェントのグループが、ベアリング測定のみを使用して固定距離で巡回しながらターゲットを追跡しようとする問題です。
以前の研究では、固定ターゲットまたは未知の一定速度で動くものを含むシナリオに対処していましたが、時変速度でターゲットを正確に追跡するという課題は開いたままです。
このホワイトペーパーでは、ターゲットの位置と速度を予測するための長期的な短期メモリ(LSTM)ベースの推定器を利用したアプローチを紹介します。
また、対応する制御戦略も紹介します。
以前に提案された推定および回避アプローチに対して評価された場合、私たちのアプローチは、さまざまな時変速度シナリオで制御および推定エラーが大幅に低いことを示しています。
さらに、現実世界のシステムを模倣するダブルインテグレーターの非ホロノミックシステムダイナミクスを使用して、ターゲットを追跡する際の提案方法の有効性を説明します。

要約(オリジナル)

Bearing-only tracking, localisation, and circumnavigation is a problem in which a single or a group of agents attempts to track a target while circumnavigating it at a fixed distance using only bearing measurements. While previous studies have addressed scenarios involving stationary targets or those moving with an unknown constant velocity, the challenge of accurately tracking a target moving with a time-varying velocity remains open. This paper presents an approach utilising a Long Short-Term Memory (LSTM) based estimator for predicting the target’s position and velocity. We also introduce a corresponding control strategy. When evaluated against previously proposed estimation and circumnavigation approaches, our approach demonstrates significantly lower control and estimation errors across various time-varying velocity scenarios. Additionally, we illustrate the effectiveness of the proposed method in tracking targets with a double integrator nonholonomic system dynamics that mimic real-world systems.

arxiv情報

著者 Mitchell Torok,Mohammad Deghat,Yang Song
発行日 2025-04-28 04:03:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Bearing-Only Tracking and Circumnavigation of a Fast Time-Varied Velocity Target Utilising an LSTM はコメントを受け付けていません

Motion Generation for Food Topping Challenge 2024: Serving Salmon Roe Bowl and Picking Fried Chicken

要約

多くの産業でロボットが導入されていますが、食品産業は食品を扱うために繊細な動きだけでなく、環境に適応する複雑な動きも必要とするため、食料生産ロボットはまだ広く採用されていません。
フォースコントロールは、食品などの繊細なオブジェクトを処理するために重要です。
さらに、人間の教えに基づいてロボットの動きをすることで、複雑な動きを達成することが可能です。
4チャンネルの両側制御が提案されており、これにより、位置と力情報の同時教育が可能になります。
さらに、人間の教えを通じて得られた動きを再現し、学習を使用して適応的な動きを生成する方法が開発されました。
ロボットと自動化に関する2024 IEEE国際会議(ICRA 2024)で、食品トッピングチャレンジでの食品処理タスクのこれらの方法の有効性を実証しました。
米にサーモンローを提供するタスクのために、提案された方法の再現性と迅速な動きのために、私たちは最高のパフォーマンスを達成しました。
さらに、フライドチキンを摘むタスクのために、参加しているすべてのチームの中で最も多くのフライドチキンを選ぶことに成功しました。
このペーパーでは、これらの方法の実装とパフォーマンスについて説明します。

要約(オリジナル)

Although robots have been introduced in many industries, food production robots are yet to be widely employed because the food industry requires not only delicate movements to handle food but also complex movements that adapt to the environment. Force control is important for handling delicate objects such as food. In addition, achieving complex movements is possible by making robot motions based on human teachings. Four-channel bilateral control is proposed, which enables the simultaneous teaching of position and force information. Moreover, methods have been developed to reproduce motions obtained through human teachings and generate adaptive motions using learning. We demonstrated the effectiveness of these methods for food handling tasks in the Food Topping Challenge at the 2024 IEEE International Conference on Robotics and Automation (ICRA 2024). For the task of serving salmon roe on rice, we achieved the best performance because of the high reproducibility and quick motion of the proposed method. Further, for the task of picking fried chicken, we successfully picked the most pieces of fried chicken among all participating teams. This paper describes the implementation and performance of these methods.

arxiv情報

著者 Koki Inami,Masashi Konosu,Koki Yamane,Nozomu Masuya,Yunhan Li,Yu-Han Shu,Hiroshi Sato,Shinnosuke Homma,Sho Sakaino
発行日 2025-04-28 05:41:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Motion Generation for Food Topping Challenge 2024: Serving Salmon Roe Bowl and Picking Fried Chicken はコメントを受け付けていません

Simultaneous Pick and Place Detection by Combining SE(3) Diffusion Models with Differential Kinematics

要約

把握検出方法は、通常、オブジェクトを把握できる自由に浮かぶハンドポーズのセットの検出をターゲットにします。
ただし、検出された把握ポーズのすべてが、物理的な制約のために実行可能であるわけではありません。
ポストプロセスで無効な把握ポーズをフィルタリングするのは簡単ですが、このような2段階のアプローチは、特に制約が困難な場合は計算的に非効率的です。
この作業では、把握検出段階で次の2つの制約を考慮するアプローチを提案します。つまり、(i)選択されたオブジェクトは、手の操作なしで事前に定義された構成で配置できなければなりません(ii)ピックとプレイスの両方の場合の共同制限と衝突回避の制約の下でロボットが到達する必要があります。
私たちの重要なアイデアは、SE(3)拡散ネットワークを把握して空間速度の形でノイズを推定し、不平等制約を伴う多ターゲットの逆逆運動学によって除去プロセスを制約することです。
成功率の改善に加えて、私たちのアプローチは、素朴な2段階のアプローチと比較して、計算時間がより効率的で一貫していることを実験的に確認しました。

要約(オリジナル)

Grasp detection methods typically target the detection of a set of free-floating hand poses that can grasp the object. However, not all of the detected grasp poses are executable due to physical constraints. Even though it is straightforward to filter invalid grasp poses in the post-process, such a two-staged approach is computationally inefficient, especially when the constraint is hard. In this work, we propose an approach to take the following two constraints into account during the grasp detection stage, namely, (i) the picked object must be able to be placed with a predefined configuration without in-hand manipulation (ii) it must be reachable by the robot under the joint limit and collision-avoidance constraints for both pick and place cases. Our key idea is to train an SE(3) grasp diffusion network to estimate the noise in the form of spatial velocity, and constrain the denoising process by a multi-target differential inverse kinematics with an inequality constraint, so that the states are guaranteed to be reachable and placement can be performed without collision. In addition to an improved success ratio, we experimentally confirmed that our approach is more efficient and consistent in computation time compared to a naive two-stage approach.

arxiv情報

著者 Tianyi Ko,Takuya Ikeda,Koichi Nishiwaki
発行日 2025-04-28 05:49:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Simultaneous Pick and Place Detection by Combining SE(3) Diffusion Models with Differential Kinematics はコメントを受け付けていません

REASSEMBLE: A Multimodal Dataset for Contact-rich Robotic Assembly and Disassembly

要約

ロボット操作は、特に産業集会や分解などの接触豊富なタスクのために、ロボット工学の中心的な課題のままです。
既存のデータセットは、操作において大幅に高度な学習を行っていますが、主にオブジェクトの再配置などのより単純なタスクに焦点を当てており、アセンブリと分解に関与する複雑さと物理的ダイナミクスをキャプチャすることはできません。
このギャップを埋めるために、連絡先の操作タスク専用に設計された新しいデータセットである再組み立て(ロボットアセンブリ分解データセット)を提示します。
NISTアセンブリタスクボード1ベンチマークの周りに構築された再構築には、17のオブジェクトを含む4つのアクション(ピック、挿入、削除、および配置)が含まれます。
データセットには4,551個のデモが含まれており、そのうち4,035個が合計781分にわたって成功しました。
データセットには、イベントカメラ、フォーストルクセンサー、マイク、マルチビューRGBカメラなどのマルチモーダルセンサーデータが搭載されています。
この多様なデータセットは、連絡先が豊富な操作、タスク条件の識別、アクションセグメンテーション、タスクの反転学習などの分野での研究をサポートしています。
再組み立ては、複雑で実世界のシナリオでロボット操作を進めるための貴重なリソースになります。
データセットは、プロジェクトWebサイトhttps://tuwien-asl.github.io/reassemble_page/で公開されています。

要約(オリジナル)

Robotic manipulation remains a core challenge in robotics, particularly for contact-rich tasks such as industrial assembly and disassembly. Existing datasets have significantly advanced learning in manipulation but are primarily focused on simpler tasks like object rearrangement, falling short of capturing the complexity and physical dynamics involved in assembly and disassembly. To bridge this gap, we present REASSEMBLE (Robotic assEmbly disASSEMBLy datasEt), a new dataset designed specifically for contact-rich manipulation tasks. Built around the NIST Assembly Task Board 1 benchmark, REASSEMBLE includes four actions (pick, insert, remove, and place) involving 17 objects. The dataset contains 4,551 demonstrations, of which 4,035 were successful, spanning a total of 781 minutes. Our dataset features multi-modal sensor data, including event cameras, force-torque sensors, microphones, and multi-view RGB cameras. This diverse dataset supports research in areas such as learning contact-rich manipulation, task condition identification, action segmentation, and task inversion learning. The REASSEMBLE will be a valuable resource for advancing robotic manipulation in complex, real-world scenarios. The dataset is publicly available on our project website: https://tuwien-asl.github.io/REASSEMBLE_page/.

arxiv情報

著者 Daniel Sliwowski,Shail Jadav,Sergej Stanovcic,Jedrzej Orbik,Johannes Heidersberger,Dongheui Lee
発行日 2025-04-28 07:22:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | REASSEMBLE: A Multimodal Dataset for Contact-rich Robotic Assembly and Disassembly はコメントを受け付けていません

Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success

要約

最近のビジョン言語アクションモデル(VLA)は、前処理されたビジョン言語モデルに基づいて構築され、多様なロボットデータセットを活用して、強力なタスクの実行、言語に従う能力、および意味的一般化を実証します。
これらの成功にもかかわらず、VLAは新しいロボットセットアップと格闘しており、優れたパフォーマンスを達成するために微調整が必​​要ですが、多くの可能な戦略を考えると、それらを最も効果的に微調整する方法は不明です。
この作業では、OpenVLAを代表的な基本モデルとして使用して、微調整のためのさまざまなアクションデコードスキーム、アクション表現、学習目標など、重要なVLA適応設計の選択肢を研究します。
私たちの経験的分析は、モデルの入力出力仕様の推論効率、ポリシーパフォーマンス、および柔軟性を完全に改善するために、並列デコード、アクションチャンキング、連続的なアクション表現、および単純なL1回帰ベースの学習目標を統合する最適化された微調整(OFT)レシピを通知します。
このレシピのインスタンス化であるOpenVla-Offを提案します。これは、Libero Simulation Benchmarkの新しい最先端を設定し、OpenVLAの平均成功率を76.5%から97.1%に大幅に引き上げ、アクション生成スループットを26 $ \ Times $に増やします。
現実世界の評価では、微調整されたレシピにより、OpenVLAは、二重のAlohaロボットでの器用で高頻度の制御タスクを正常に実行し、デフォルトのレシピ($ \ PI_0 $およびRDT-1B)を微調整して微調整された他のVLAS($ \ PI_0 $およびRDT-1B)を上回ることができます。
成功率。
https://openvla-oft.github.io/で、OFTおよび事前に処理されたモデルチェックポイントのコードをリリースします。

要約(オリジナル)

Recent vision-language-action models (VLAs) build upon pretrained vision-language models and leverage diverse robot datasets to demonstrate strong task execution, language following ability, and semantic generalization. Despite these successes, VLAs struggle with novel robot setups and require fine-tuning to achieve good performance, yet how to most effectively fine-tune them is unclear given many possible strategies. In this work, we study key VLA adaptation design choices such as different action decoding schemes, action representations, and learning objectives for fine-tuning, using OpenVLA as our representative base model. Our empirical analysis informs an Optimized Fine-Tuning (OFT) recipe that integrates parallel decoding, action chunking, a continuous action representation, and a simple L1 regression-based learning objective to altogether improve inference efficiency, policy performance, and flexibility in the model’s input-output specifications. We propose OpenVLA-OFT, an instantiation of this recipe, which sets a new state of the art on the LIBERO simulation benchmark, significantly boosting OpenVLA’s average success rate across four task suites from 76.5% to 97.1% while increasing action generation throughput by 26$\times$. In real-world evaluations, our fine-tuning recipe enables OpenVLA to successfully execute dexterous, high-frequency control tasks on a bimanual ALOHA robot and outperform other VLAs ($\pi_0$ and RDT-1B) fine-tuned using their default recipes, as well as strong imitation learning policies trained from scratch (Diffusion Policy and ACT) by up to 15% (absolute) in average success rate. We release code for OFT and pretrained model checkpoints at https://openvla-oft.github.io/.

arxiv情報

著者 Moo Jin Kim,Chelsea Finn,Percy Liang
発行日 2025-04-28 07:49:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success はコメントを受け付けていません