Opt2Skill: Imitating Dynamically-feasible Whole-Body Trajectories for Versatile Humanoid Loco-Manipulation

要約

ヒューマノイドロボットは、多様な局所操作タスクを実行するように設計されています。
しかし、彼らは、彼らの高次元的で不安定なダイナミクスと、タスクの複雑な接触豊富な性質のために課題に直面しています。
モデルベースの最適制御方法は、正確な動きを定義する柔軟性を提供しますが、高い計算の複雑さと正確な接触センシングによって制限されます。
一方、強化学習(RL)は、強い堅牢性を持つ高次元空間を処理しますが、非効率的な学習、不自然な動き、SIMからリアルのギャップに苦しんでいます。
これらの課題に対処するために、モデルベースの軌跡の最適化とRLを組み合わせて堅牢な全身操作を実現するエンドツーエンドのパイプラインであるOpt2Skillを紹介します。
Opt2skillは、微分動的プログラミング(DDP)とTrains RLポリシーを使用して、これらの最適な軌跡を追跡するために、Digit Humanoid Robotの動的に実行可能な連絡可能な参照モーションを生成します。
我々の結果は、Opt2skillが、モーショントラッキングとタスクの成功率の両方で、人間のデモと逆運動学ベースの参照に依存するベースラインを上回ることを示しています。
さらに、軌跡をトルク情報に組み込むことで、テーブルの拭き取りなどの接触装備タスクの接触力追跡が改善されることを示します。
現実世界のアプリケーションへのアプローチを正常に転送しました。

要約(オリジナル)

Humanoid robots are designed to perform diverse loco-manipulation tasks. However, they face challenges due to their high-dimensional and unstable dynamics, as well as the complex contact-rich nature of the tasks. Model-based optimal control methods offer flexibility to define precise motion but are limited by high computational complexity and accurate contact sensing. On the other hand, reinforcement learning (RL) handles high-dimensional spaces with strong robustness but suffers from inefficient learning, unnatural motion, and sim-to-real gaps. To address these challenges, we introduce Opt2Skill, an end-to-end pipeline that combines model-based trajectory optimization with RL to achieve robust whole-body loco-manipulation. Opt2Skill generates dynamic feasible and contact-consistent reference motions for the Digit humanoid robot using differential dynamic programming (DDP) and trains RL policies to track these optimal trajectories. Our results demonstrate that Opt2Skill outperforms baselines that rely on human demonstrations and inverse kinematics-based references, both in motion tracking and task success rates. Furthermore, we show that incorporating trajectories with torque information improves contact force tracking in contact-involved tasks, such as wiping a table. We have successfully transferred our approach to real-world applications.

arxiv情報

著者 Fukang Liu,Zhaoyuan Gu,Yilin Cai,Ziyi Zhou,Hyunyoung Jung,Jaehwi Jang,Shijie Zhao,Sehoon Ha,Yue Chen,Danfei Xu,Ye Zhao
発行日 2025-06-16 16:45:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Opt2Skill: Imitating Dynamically-feasible Whole-Body Trajectories for Versatile Humanoid Loco-Manipulation はコメントを受け付けていません

HARMONI: Haptic-Guided Assistance for Unified Robotic Tele-Manipulation and Tele-Navigation

要約

人間の専門知識と自律的な支援を組み合わせた共有コントロールは、複雑な環境での効果的なテレオ操作に不可欠です。
触覚誘導テレオ操作の最近の進歩は有望であることが示されていますが、それらは多くの場合、6または7-DOFマニピュレーターを含む単純化されたタスクに限定され、ナビゲーションと操作のための個別の制御戦略に依存しています。
これにより、認知負荷と運用上のオーバーヘッドの両方が増加します。
この論文では、触覚誘導共有コントロールを活用する統一されたTele-Mobile操作フレームワークを紹介します。
このシステムは、リアルタイムの触覚フィードバックを通じて、テレナビゲーションとテレ操作の間のシームレスな遷移を可能にする9ドーのフォロワーモバイルマニピュレーターと7-DOFリーダーのロボットアームを統合します。
実際の条件下で20人の参加者を対象としたユーザー調査は、私たちのフレームワークが認知負荷を増加させることなくタスクの精度と効率を大幅に改善することを示しています。
これらの調査結果は、誘惑性のシナリオを要求する際のオペレーターのパフォーマンスを向上させるための触覚誘導共有制御の可能性を強調しています。

要約(オリジナル)

Shared control, which combines human expertise with autonomous assistance, is critical for effective teleoperation in complex environments. While recent advances in haptic-guided teleoperation have shown promise, they are often limited to simplified tasks involving 6- or 7-DoF manipulators and rely on separate control strategies for navigation and manipulation. This increases both cognitive load and operational overhead. In this paper, we present a unified tele-mobile manipulation framework that leverages haptic-guided shared control. The system integrates a 9-DoF follower mobile manipulator and a 7-DoF leader robotic arm, enabling seamless transitions between tele-navigation and tele-manipulation through real-time haptic feedback. A user study with 20 participants under real-world conditions demonstrates that our framework significantly improves task accuracy and efficiency without increasing cognitive load. These findings highlight the potential of haptic-guided shared control for enhancing operator performance in demanding teleoperation scenarios.

arxiv情報

著者 V. Sripada,A. Khan,J. Föcker,S. Parsa,Susmitha P,H Maior,A. Ghalamzan-E
発行日 2025-06-16 17:11:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | HARMONI: Haptic-Guided Assistance for Unified Robotic Tele-Manipulation and Tele-Navigation はコメントを受け付けていません

CEED-VLA: Consistency Vision-Language-Action Model with Early-Exit Decoding

要約

近年、ビジョン言語アクション(VLA)モデルは、印象的なマルチモーダルの理解と一般化能力により、ロボット工学の重要な研究方向になっています。
進捗状況にもかかわらず、それらの実際の展開は、特に高周波および器用な操作タスクで、推論速度のボトルネックによって厳しく制約されます。
最近の研究では、ヤコビのデコードが従来の自己回帰デコードに代わるより効率的な代替として調査されていますが、その実際の利点は長い繰り返しによりわずかです。
それに対処するために、各反復で複数の正しいアクショントークンを予測するために一貫性蒸留トレーニングを導入し、それによって加速を達成します。
その上、私たちは混合ラベルの監督を設計して、蒸留中のエラーの蓄積を軽減します。
蒸留は許容可能なスピードアップをもたらしますが、特定の非効率的な反復が重要なボトルネックであることを特定します。
これに取り組むために、収束条件を中程度に緩和する早期排出デコード戦略を提案します。これにより、平均的な推論効率がさらに向上します。
実験結果は、提案された方法が、シミュレートされたロボットタスクと実際のロボットタスクの両方で高いタスクの成功率を維持しながら、異なるベースラインで4倍以上の推論加速を達成することを示しています。
これらの実験は、私たちのアプローチがロボット工学におけるマルチモーダルの意思決定を加速するための効率的かつ一般的なパラダイムを提供することを検証します。
プロジェクトページは、https://irpn-eai.github.io/ceht-vla/で入手できます。

要約(オリジナル)

In recent years, Vision-Language-Action (VLA) models have become a vital research direction in robotics due to their impressive multimodal understanding and generalization capabilities. Despite the progress, their practical deployment is severely constrained by inference speed bottlenecks, particularly in high-frequency and dexterous manipulation tasks. While recent studies have explored Jacobi decoding as a more efficient alternative to traditional autoregressive decoding, its practical benefits are marginal due to the lengthy iterations. To address it, we introduce consistency distillation training to predict multiple correct action tokens in each iteration, thereby achieving acceleration. Besides, we design mixed-label supervision to mitigate the error accumulation during distillation. Although distillation brings acceptable speedup, we identify that certain inefficient iterations remain a critical bottleneck. To tackle this, we propose an early-exit decoding strategy that moderately relaxes convergence conditions, which further improves average inference efficiency. Experimental results show that the proposed method achieves more than 4 times inference acceleration across different baselines while maintaining high task success rates in both simulated and real-world robot tasks. These experiments validate that our approach provides an efficient and general paradigm for accelerating multimodal decision-making in robotics. Our project page is available at https://irpn-eai.github.io/CEED-VLA/.

arxiv情報

著者 Wenxuan Song,Jiayi Chen,Pengxiang Ding,Yuxin Huang,Han Zhao,Donglin Wang,Haoang Li
発行日 2025-06-16 17:31:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | CEED-VLA: Consistency Vision-Language-Action Model with Early-Exit Decoding はコメントを受け付けていません

Critical Insights about Robots for Mental Wellbeing

要約

ソーシャルロボットは、特に非臨床的な設定で、感情的な健康をサポートするツールとしてますます探求されています。
さまざまな経験的研究と実用的な展開を利用して、このペーパーでは、ロボットを使用して精神的健康を促進する機会と課題の両方を強調する6つの重要な洞察を概説します。
これらには、(1)幸福の単一の客観的な尺度の欠如、(2)ロボットが効果的であるために仲間として行動する必要がないという事実、(3)仮想相互作用の増大する可能性、(4)設計プロセスに臨床医が関与することの重要性、(5)1回の相互作用と長期的な相互作用の違い、および(6)その適応と個人化は、正の出力に必要ではないという考えを含む。
ロボットを人間のセラピストの代替品として配置するのではなく、それらは注意を払って設計し、証拠に基づいて、倫理的および心理的な考慮事項によって形作られなければならない支援ツールとして最もよく理解されていると主張します。
私たちの目的は、将来の研究に情報を提供し、メンタルヘルスと福祉の文脈におけるロボットの責任ある効果的な使用を導くことです。

要約(オリジナル)

Social robots are increasingly being explored as tools to support emotional wellbeing, particularly in non-clinical settings. Drawing on a range of empirical studies and practical deployments, this paper outlines six key insights that highlight both the opportunities and challenges in using robots to promote mental wellbeing. These include (1) the lack of a single, objective measure of wellbeing, (2) the fact that robots don’t need to act as companions to be effective, (3) the growing potential of virtual interactions, (4) the importance of involving clinicians in the design process, (5) the difference between one-off and long-term interactions, and (6) the idea that adaptation and personalization are not always necessary for positive outcomes. Rather than positioning robots as replacements for human therapists, we argue that they are best understood as supportive tools that must be designed with care, grounded in evidence, and shaped by ethical and psychological considerations. Our aim is to inform future research and guide responsible, effective use of robots in mental health and wellbeing contexts.

arxiv情報

著者 Guy Laban,Micol Spitale,Minja Axelsson,Nida Itrat Abbasi,Hatice Gunes
発行日 2025-06-16 17:50:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Critical Insights about Robots for Mental Wellbeing はコメントを受け付けていません

Edge Nearest Neighbor in Sampling-Based Motion Planning

要約

近隣のファインダーと最近近隣クエリは、サンプリングベースのモーション計画アルゴリズムの基本部分です。
異なる距離メトリックを使用するか、近隣の定義を変更すると、一意の経験的および理論的特性を備えた異なるアルゴリズムが生成されます。
\ cite {l-pa-06} lavalleは、迅速に探求するランダムなツリーRRTアルゴリズムの近隣ファインダーを提案します。
このホワイトペーパーでは、このような近隣の発見者を実装し、理論的および実験的に、これがより効率的なアルゴリズムをもたらし、急速に探求するランダムグラフrrgアルゴリズム\ cite {f-isaom-10}のバリアントを示唆しています。

要約(オリジナル)

Neighborhood finders and nearest neighbor queries are fundamental parts of sampling based motion planning algorithms. Using different distance metrics or otherwise changing the definition of a neighborhood produces different algorithms with unique empiric and theoretical properties. In \cite{l-pa-06} LaValle suggests a neighborhood finder for the Rapidly-exploring Random Tree RRT algorithm \cite{l-rrtnt-98} which finds the nearest neighbor of the sampled point on the swath of the tree, that is on the set of all of the points on the tree edges, using a hierarchical data structure. In this paper we implement such a neighborhood finder and show, theoretically and experimentally, that this results in more efficient algorithms, and suggest a variant of the Rapidly-exploring Random Graph RRG algorithm \cite{f-isaom-10} that better exploits the exploration properties of the newly described subroutine for finding narrow passages.

arxiv情報

著者 Stav Ashur,Nancy M. Amato,Sariel Har-Peled
発行日 2025-06-16 17:57:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Edge Nearest Neighbor in Sampling-Based Motion Planning はコメントを受け付けていません

Prompting with the Future: Open-World Model Predictive Control with Interactive Digital Twins

要約

オープンワールドのロボット操作における最近の進歩は、主にビジョン言語モデル(VLM)によって推進されています。
これらのモデルは、高レベルの計画で強い一般化能力を示しますが、身体世界の理解が限られているため、低レベルのロボットコントロールを予測するのに苦労しています。
この問題に対処するために、VLMのセマンティック推論能力を、現実世界環境の物理的に接地されたインタラクティブなデジタル双子と組み合わせた、オープンワールド操作のモデル予測制御フレームワークを提案します。
デジタル双子を構築およびシミュレートすることにより、私たちのアプローチは実行可能な動きの軌跡を生成し、対応する結果をシミュレートし、将来の観察結果でVLMを促し、タスクの言語指示に基づいて最も適切な結果を評価および選択します。
ロボット制御の複雑なシーンを理解する際に事前に訓練されたVLMの能力をさらに強化するために、デジタルツインの柔軟なレンダリング機能を活用して、さまざまな小説のない視点でシーンを合成します。
複雑な操作タスクの多様なセットでアプローチを検証し、VLMSを使用した言語条件付きロボット制御のベースライン方法と比較して優れた性能を示します。

要約(オリジナル)

Recent advancements in open-world robot manipulation have been largely driven by vision-language models (VLMs). While these models exhibit strong generalization ability in high-level planning, they struggle to predict low-level robot controls due to limited physical-world understanding. To address this issue, we propose a model predictive control framework for open-world manipulation that combines the semantic reasoning capabilities of VLMs with physically-grounded, interactive digital twins of the real-world environments. By constructing and simulating the digital twins, our approach generates feasible motion trajectories, simulates corresponding outcomes, and prompts the VLM with future observations to evaluate and select the most suitable outcome based on language instructions of the task. To further enhance the capability of pre-trained VLMs in understanding complex scenes for robotic control, we leverage the flexible rendering capabilities of the digital twin to synthesize the scene at various novel, unoccluded viewpoints. We validate our approach on a diverse set of complex manipulation tasks, demonstrating superior performance compared to baseline methods for language-conditioned robotic control using VLMs.

arxiv情報

著者 Chuanruo Ning,Kuan Fang,Wei-Chiu Ma
発行日 2025-06-16 17:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Prompting with the Future: Open-World Model Predictive Control with Interactive Digital Twins はコメントを受け付けていません

Synthetic-Powered Predictive Inference

要約

コンフォーマル予測は、分布のない有限サンプル保証を伴う予測推論のフレームワークです。
ただし、キャリブレーションデータが不足している場合、情報のない予測セットを提供する傾向があります。
このペーパーでは、サンプル効率を改善するために、生成モデルなどの合成データを組み込んだ新しいフレームワークである合成駆動の予測推論(SPI)を紹介します。
私たちの方法のコアには、スコアトランスポーターがあります。信頼できる実際のデータからの不適合スコアを合成データからのものと並べる経験的分位マッピングです。
SPIは、スコアトランスポーターをキャリブレーションプロセスに慎重に統合することにより、実際のデータ分布と合成データ分布について仮定することなく、有限サンプルのカバレッジ保証を実現することを証明します。
スコア分布が十分に調整されている場合、SPIは標準的なコンフォーマル予測よりも実質的にタイトで有益な予測セットを生成します。
画像分類の実験 – 合成拡散モデル生成画像を使用してデータを増強する – および表形式回帰では、データ規模の設定における予測効率の顕著な改善が示されます。

要約(オリジナル)

Conformal prediction is a framework for predictive inference with a distribution-free, finite-sample guarantee. However, it tends to provide uninformative prediction sets when calibration data are scarce. This paper introduces Synthetic-powered predictive inference (SPI), a novel framework that incorporates synthetic data — e.g., from a generative model — to improve sample efficiency. At the core of our method is a score transporter: an empirical quantile mapping that aligns nonconformity scores from trusted, real data with those from synthetic data. By carefully integrating the score transporter into the calibration process, SPI provably achieves finite-sample coverage guarantees without making any assumptions about the real and synthetic data distributions. When the score distributions are well aligned, SPI yields substantially tighter and more informative prediction sets than standard conformal prediction. Experiments on image classification — augmenting data with synthetic diffusion-model generated images — and on tabular regression demonstrate notable improvements in predictive efficiency in data-scarce settings.

arxiv情報

著者 Meshi Bashari,Roy Maor Lotan,Yonghoon Lee,Edgar Dobriban,Yaniv Romano
発行日 2025-06-16 14:53:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Synthetic-Powered Predictive Inference はコメントを受け付けていません

Machine Learning-Driven Compensation for Non-Ideal Channels in AWG-Based FBG Interrogator

要約

私たちは、オキシニトリドシリコン(SION)フォトニック統合配列導波路格子(AWG)に基づいた繊維ブラッググレーティング(FBG)尋問装置の実験的研究を提示します。
AWGベースの尋問者はコンパクトでスケーラブルですが、それらの実用的なパフォーマンスは非理想的なスペクトル応答によって制限されます。
これに対処するために、2.4 nmスペクトル領域内の2つのキャリブレーション戦略が比較されました。(1)シグモイドフィッティング関数に基づくセグメント化された分析モデル、および(2)機械学習(ML)ベースの回帰モデル。
分析方法は、校正範囲内で午後7時11分のルート平均平方根誤差(RMSE)を実現し、指数回帰に基づくMLアプローチは午後3時17分に達成されます。
さらに、MLモデルは、拡張された2.9 nm波長スパン全体にわたって一般化を示し、再フィットせずに5 PMサブの精度を維持します。
残留およびエラー分布分析は、2つのアプローチ間のトレードオフをさらに示しています。
MLベースのキャリブレーションは、分析手法に堅牢でデータ駆動型の代替品を提供し、非理想的なチャネル応答の精度の向上、手動キャリブレーションの努力の削減、および多様なFBGセンサー構成全体のスケーラビリティの向上を提供します。

要約(オリジナル)

We present an experimental study of a fiber Bragg grating (FBG) interrogator based on a silicon oxynitride (SiON) photonic integrated arrayed waveguide grating (AWG). While AWG-based interrogators are compact and scalable, their practical performance is limited by non-ideal spectral responses. To address this, two calibration strategies within a 2.4 nm spectral region were compared: (1) a segmented analytical model based on a sigmoid fitting function, and (2) a machine learning (ML)-based regression model. The analytical method achieves a root mean square error (RMSE) of 7.11 pm within the calibrated range, while the ML approach based on exponential regression achieves 3.17 pm. Moreover, the ML model demonstrates generalization across an extended 2.9 nm wavelength span, maintaining sub-5 pm accuracy without re-fitting. Residual and error distribution analyses further illustrate the trade-offs between the two approaches. ML-based calibration provides a robust, data-driven alternative to analytical methods, delivering enhanced accuracy for non-ideal channel responses, reduced manual calibration effort, and improved scalability across diverse FBG sensor configurations.

arxiv情報

著者 Ivan A. Kazakov,Iana V. Kulichenko,Egor E. Kovalev,Angelina A. Treskova,Daria D. Barma,Kirill M. Malakhov,Arkady V. Shipulin
発行日 2025-06-16 14:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.optics | Machine Learning-Driven Compensation for Non-Ideal Channels in AWG-Based FBG Interrogator はコメントを受け付けていません

Calibrated Predictive Lower Bounds on Time-to-Unsafe-Sampling in LLMs

要約

Unsafe-Samplingまでの時間を定量化するためのフレームワークを開発します – 安全でない(毒性)応答をトリガーするために必要な大規模な言語モデル(LLM)世代の数。
安全でない反応は、よく整合したLLMで非常にまれであり、数千世代で1回のみ発生する可能性があるため、この量を推定することは困難です。
その結果、サンプルサンプリングまでの時間を直接推定するには、プロンプトごとに非常に多数の世代を持つトレーニングデータを収集する必要があります。
ただし、現実的なサンプリング予算では、多くの場合、すべてのプロンプトの安全でない結果を観察するのに十分な応答を生成できず、多くの場合、非セーフサンプリングが観察されず、推定と評価タスクが特に困難になります。
これに対処するために、この推定問題を生存分析の1つとしてフレーム化し、特定のプロンプトのunsafeサンプリングまでの時間サンプリングにおける実証的に較正された低予測境界(LPB)を開発し、適合予測の最近の進歩を活用します。
私たちの主要な革新は、凸最適化問題として定式化された、適応的でプロムプトごとのサンプリング戦略を設計することです。
この最適化されたサンプリング割り当てを導く目的関数は、LPBの構築に使用される推定器の分散を減らし、プロンプトごとの固定サンプリング予算を使用する素朴な方法よりも統計効率を改善するように設計されています。
合成データと実際のデータの両方での実験は、当社の理論的結果をサポートし、生​​成AIモデルにおける安全リスク評価の方法の実用的な有用性を実証しています。

要約(オリジナル)

We develop a framework to quantify the time-to-unsafe-sampling – the number of large language model (LLM) generations required to trigger an unsafe (e.g., toxic) response. Estimating this quantity is challenging, since unsafe responses are exceedingly rare in well-aligned LLMs, potentially occurring only once in thousands of generations. As a result, directly estimating time-to-unsafe-sampling would require collecting training data with a prohibitively large number of generations per prompt. However, with realistic sampling budgets, we often cannot generate enough responses to observe an unsafe outcome for every prompt, leaving the time-to-unsafe-sampling unobserved in many cases, making the estimation and evaluation tasks particularly challenging. To address this, we frame this estimation problem as one of survival analysis and develop a provably calibrated lower predictive bound (LPB) on the time-to-unsafe-sampling of a given prompt, leveraging recent advances in conformal prediction. Our key innovation is designing an adaptive, per-prompt sampling strategy, formulated as a convex optimization problem. The objective function guiding this optimized sampling allocation is designed to reduce the variance of the estimators used to construct the LPB, leading to improved statistical efficiency over naive methods that use a fixed sampling budget per prompt. Experiments on both synthetic and real data support our theoretical results and demonstrate the practical utility of our method for safety risk assessment in generative AI models.

arxiv情報

著者 Hen Davidov,Gilad Freidkin,Shai Feldman,Yaniv Romano
発行日 2025-06-16 15:21:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.AP, stat.ML | Calibrated Predictive Lower Bounds on Time-to-Unsafe-Sampling in LLMs はコメントを受け付けていません

Gatekeeper: Improving Model Cascades Through Confidence Tuning

要約

大規模な機械学習モデルは、幅広いタスクにわたって強力なパフォーマンスを提供しますが、重要な計算およびリソースの制約があります。
これらの課題を緩和するために、ローカルの小さなモデルは、多くの場合、より大きなモデルと一緒に展開され、複雑なタスクをオフロードするためのルーティングと延期メカニズムに依存します。
ただし、既存のアプローチは、これらのモデルの能力のバランスが不十分であり、多くの場合、不必要な延期または最適なリソースの使用をもたらします。
この作業では、カスケードセットアップで小型モデルを調整するためのGateKeeperと呼ばれる新しい損失関数を紹介します。
私たちのアプローチは、より大きなモデルに複雑なタスクを延期しながら、正しく実行できるタスクを自信を持って処理するための小さなモデルを微調整します。
さらに、モデルのパフォーマンスと延期精度の間のトレードオフを管理するためのメカニズムが組み込まれており、アーキテクチャの変更なしに、さまざまなタスクとドメインに広く適用されます。
エンコーダーのみ、デコーダーのみ、およびエンコーダデコーダーアーキテクチャでの方法を評価します。
画像分類、言語モデリング、ビジョン言語タスク全体の実験は、私たちのアプローチが延期パフォーマンスを大幅に改善することを示しています。

要約(オリジナル)

Large-scale machine learning models deliver strong performance across a wide range of tasks but come with significant computational and resource constraints. To mitigate these challenges, local smaller models are often deployed alongside larger models, relying on routing and deferral mechanisms to offload complex tasks. However, existing approaches inadequately balance the capabilities of these models, often resulting in unnecessary deferrals or sub-optimal resource usage. In this work we introduce a novel loss function called Gatekeeper for calibrating smaller models in cascade setups. Our approach fine-tunes the smaller model to confidently handle tasks it can perform correctly while deferring complex tasks to the larger model. Moreover, it incorporates a mechanism for managing the trade-off between model performance and deferral accuracy, and is broadly applicable across various tasks and domains without any architectural changes. We evaluate our method on encoder-only, decoder-only, and encoder-decoder architectures. Experiments across image classification, language modeling, and vision-language tasks show that our approach substantially improves deferral performance.

arxiv情報

著者 Stephan Rabanser,Nathalie Rauschmayr,Achin Kulshrestha,Petra Poklukar,Wittawat Jitkrittum,Sean Augenstein,Congchao Wang,Federico Tombari
発行日 2025-06-16 15:32:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Gatekeeper: Improving Model Cascades Through Confidence Tuning はコメントを受け付けていません