2D-Curri-DPO: Two-Dimensional Curriculum Learning for Direct Preference Optimization

要約

大規模な言語モデルを人間の好みに合わせることは、安全な展開に不可欠です。
直接選好最適化(DPO)は、人間のフィードバックからの強化学習の効率的な代替手段を提供しますが、従来のDPO方法は、単一の優先ペアに依存することによって制限されます。
カリキュラムDPOのような最近の研究は、ペアワイズの識別性(PD)に基づいて1次元難易度カリキュラムを使用して複数のペアを統合しますが、入力プロンプト自体の複雑さを見落としています。
これに対処するために、迅速な複雑さ(PC)とペアワイズの区別可能性を共同でモデル化する2次元カリキュラムを採用する新しいフレームワークである2D-Curri-DPOを提案します。
このフレームワークは、迅速なセマンティックの複雑さと応答の好みの明確さを定量化するための二重難易度メトリックを導入し、タスク適応のための複数の選択可能な戦略を含むカリキュラム戦略スペースを定義し、トレーニングの安定性を高めるための動的参照モデル更新のためのKLダイバージェンスベースの適応メカニズムを組み込みます。
包括的な実験は、2D-CURRI-DPOが、MTベンチ、Vicuna Bench、Wizardlmを含む複数のベンチマークにわたって標準のDPOおよび以前のカリキュラム方法を大幅に上回ることを示しています。
私たちのアプローチは、Ultrafeedbackのような挑戦的なテストセットで最先端のパフォーマンスを達成しています。
アブレーション研究は、2D構造と適応メカニズムの利点を確認し、分析は戦略選択のガイダンスを提供します。
これらの調査結果は、効果的なアライメントには、迅速な複雑さとペアワイズの区別可能性の両方をモデリングする必要があることを示しており、適応性のある多次元カリキュラム学習を、好みベースの言語モデルの最適化のための強力で解釈可能な新しいパラダイムとして確立します。

要約(オリジナル)

Aligning large language models with human preferences is crucial for their safe deployment. While Direct Preference Optimization (DPO) offers an efficient alternative to reinforcement learning from human feedback, traditional DPO methods are limited by their reliance on single preference pairs. Recent work like Curriculum-DPO integrates multiple pairs using a one-dimensional difficulty curriculum based on pairwise distinguishability (PD), but overlooks the complexity of the input prompt itself. To address this, we propose 2D-Curri-DPO, a novel framework employing a two-dimensional curriculum that jointly models Prompt Complexity (PC) and Pairwise Distinguishability. This framework introduces dual difficulty metrics to quantify prompt semantic complexity and response preference clarity, defines a curriculum strategy space encompassing multiple selectable strategies for task adaptation, and incorporates a KL-divergence-based adaptive mechanism for dynamic reference model updates to enhance training stability. Comprehensive experiments demonstrate that 2D-Curri-DPO significantly outperforms standard DPO and prior curriculum methods across multiple benchmarks, including MT-Bench, Vicuna Bench, and WizardLM. Our approach achieves state-of-the-art performance on challenging test sets like UltraFeedback. Ablation studies confirm the benefits of the 2D structure and adaptive mechanisms, while analysis provides guidance for strategy selection. These findings demonstrate that effective alignment requires modeling both prompt complexity and pairwise distinguishability, establishing adaptive, multi-dimensional curriculum learning as a powerful and interpretable new paradigm for preference-based language model optimization.

arxiv情報

著者 Mengyang Li,Zhong Zhang
発行日 2025-04-10 15:32:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | 2D-Curri-DPO: Two-Dimensional Curriculum Learning for Direct Preference Optimization はコメントを受け付けていません

Empowering Global Voices: A Data-Efficient, Phoneme-Tone Adaptive Approach to High-Fidelity Speech Synthesis

要約

テキストツースピック(TTS)テクノロジーは、広く話されている言語で印象的な結果を達成していますが、多くのリソース不足の言語は、限られたデータと言語の複雑さによって依然として挑戦されています。
このペーパーでは、データ最適化されたフレームワークを高度な音響モデルと統合して、低リソースシナリオ向けの高品質のTTSシステムを構築する新しい方法論を紹介します。
複雑な音声ルールとまばらなリソースが効果的に対処されている例として、タイ人を使用してアプローチの有効性を実証します。
当社の方法により、財務からヘルスケア、教育、法律に至るまで、ゼロショットの音声クローニングと多様なクライアントアプリケーション全体のパフォーマンスの向上が可能になります。
主観的および目的の両方である広範な評価 – 私たちのモデルが最先端の基準を満たしていることを確認し、データ制限された設定でのTTS生産のためのスケーラブルなソリューションを提供し、より広範な業界の採用と多言語のアクセシビリティに大きな影響を与えます。

要約(オリジナル)

Text-to-speech (TTS) technology has achieved impressive results for widely spoken languages, yet many under-resourced languages remain challenged by limited data and linguistic complexities. In this paper, we present a novel methodology that integrates a data-optimized framework with an advanced acoustic model to build high-quality TTS systems for low-resource scenarios. We demonstrate the effectiveness of our approach using Thai as an illustrative case, where intricate phonetic rules and sparse resources are effectively addressed. Our method enables zero-shot voice cloning and improved performance across diverse client applications, ranging from finance to healthcare, education, and law. Extensive evaluations – both subjective and objective – confirm that our model meets state-of-the-art standards, offering a scalable solution for TTS production in data-limited settings, with significant implications for broader industry adoption and multilingual accessibility.

arxiv情報

著者 Yizhong Geng,Jizhuo Xu,Zeyu Liang,Jinghan Yang,Xiaoyi Shi,Xiaoyu Shen
発行日 2025-04-10 15:32:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD | Empowering Global Voices: A Data-Efficient, Phoneme-Tone Adaptive Approach to High-Fidelity Speech Synthesis はコメントを受け付けていません

Reinforcing Clinical Decision Support through Multi-Agent Systems and Ethical AI Governance

要約

データ駆動型医学の時代には、信頼できる効果的な患者ケアを実現するために、臨床的意思決定支援システムを説明する際に、説明可能で倫理的に管理された人工知能を含めることが最も重要です。
この論文の焦点は、モジュラーエージェントを使用して実験室の結果、バイタルサイン、および臨床的コンテキストを分析し、これらの結果を統合して予測を促進し、結果を検証する臨床的意思決定サポートのためのマルチエージェントシステムの新しいアーキテクチャにあります。
Lab-Analysis固有のエージェント、Vitalsのみの通訳者、およびコンテキスト推論者を実行し、予測モジュールと検証エージェントを実行するためのEICUデータベースでの実装について説明します。
すべてがビジネスロジックの透明な実装であり、自律性、公平性、説明責任などの倫理的AIガバナンスの原則に影響されます。
このエージェントベースのフレームワークは、解釈性と精度を改善するだけでなく、集中治療環境でのAIアシスト決定への信頼を強化することでも目に見える結果を提供します。

要約(オリジナル)

In the age of data-driven medicine, it is paramount to include explainable and ethically managed artificial intelligence in explaining clinical decision support systems to achieve trustworthy and effective patient care. The focus of this paper is on a new architecture of a multi-agent system for clinical decision support that uses modular agents to analyze laboratory results, vital signs, and the clinical context and then integrates these results to drive predictions and validate outcomes. We describe our implementation with the eICU database to run lab-analysis-specific agents, vitals-only interpreters, and contextual reasoners and then run the prediction module and a validation agent. Everything is a transparent implementation of business logic, influenced by the principles of ethical AI governance such as Autonomy, Fairness, and Accountability. It provides visible results that this agent-based framework not only improves on interpretability and accuracy but also on reinforcing trust in AI-assisted decisions in an intensive care setting.

arxiv情報

著者 Ying-Jung Chen,Chi-Sheng Chen,Ahmad Albarqawi
発行日 2025-04-10 15:38:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG, cs.MA, q-bio.QM | Reinforcing Clinical Decision Support through Multi-Agent Systems and Ethical AI Governance はコメントを受け付けていません

Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs

要約

1,350億パラメーターとAscend Neural Processingユニット(NPU)で訓練された密なトランスモジュールを備えた大規模な言語モデル(LLM)であるPangu Ultraを紹介します。
LLMの分野は、近年、LLMのスケールと能力を推進することに前例のない進歩を目撃していますが、このような大規模なモデルをトレーニングするには、依然として大きな最適化とシステムの課題が含まれます。
トレーニングプロセスを安定させるために、深いモデルのトレーニングプロセス中に損失スパイクを効果的に排除する深さスケールのサンドイッチ正規化を提案します。
モデルを13.2兆個の多様で高品質のトークンで事前に訓練し、トレーニング後の推論機能をさらに強化します。
このような大規模なトレーニングを効率的に実行するために、一連のシステム最適化で8,192 Ascend NPUを利用します。
複数の多様なベンチマークの評価は、Pangu UltraがLlama 405BやMistral Large 2などの密なLLMの最先端の機能を大幅に進歩させ、DeepSeek-R1との競争結果を達成することさえ、より多くのモデル構造がより多くのパラメーターを含むことを示しています。
私たちの調査は、Ascend NPUが1,000億以上のパラメーターで密なモデルを効率的かつ効果的にトレーニングできることを示しています。
私たちのモデルとシステムは、商業顧客が利用できるようになります。

要約(オリジナル)

We present Pangu Ultra, a Large Language Model (LLM) with 135 billion parameters and dense Transformer modules trained on Ascend Neural Processing Units (NPUs). Although the field of LLM has been witnessing unprecedented advances in pushing the scale and capability of LLM in recent years, training such a large-scale model still involves significant optimization and system challenges. To stabilize the training process, we propose depth-scaled sandwich normalization, which effectively eliminates loss spikes during the training process of deep models. We pre-train our model on 13.2 trillion diverse and high-quality tokens and further enhance its reasoning capabilities during post-training. To perform such large-scale training efficiently, we utilize 8,192 Ascend NPUs with a series of system optimizations. Evaluations on multiple diverse benchmarks indicate that Pangu Ultra significantly advances the state-of-the-art capabilities of dense LLMs such as Llama 405B and Mistral Large 2, and even achieves competitive results with DeepSeek-R1, whose sparse model structure contains much more parameters. Our exploration demonstrates that Ascend NPUs are capable of efficiently and effectively training dense models with more than 100 billion parameters. Our model and system will be available for our commercial customers.

arxiv情報

著者 Yichun Yin,Wenyong Huang,Kaikai Song,Yehui Tang,Xueyu Wu,Wei Guo,Peng Guo,Yaoyuan Wang,Xiaojun Meng,Yasheng Wang,Dong Li,Can Chen,Dandan Tu,Yin Li,Fisher Yu,Ruiming Tang,Yunhe Wang,Baojun Wang,Bin Wang,Bo Wang,Boxiao Liu,Changzheng Zhang,Duyu Tang,Fei Mi,Hui Jin,Jiansheng Wei,Jiarui Qin,Jinpeng Li,Jun Zhao,Liqun Deng,Lin Li,Minghui Xu,Naifu Zhang,Nianzu Zheng,Qiang Li,Rongju Ruan,Shengjun Cheng,Tianyu Guo,Wei He,Wei Li,Weiwen Liu,Wulong Liu,Xinyi Dai,Yonghan Dong,Yu Pan,Yue Li,Yufei Wang,Yujun Li,Yunsheng Ni,Zhe Liu,Zhenhe Zhang,Zhicheng Liu
発行日 2025-04-10 15:41:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs はコメントを受け付けていません

Dual Engines of Thoughts: A Depth-Breadth Integration Framework for Open-Ended Analysis

要約

包括的なオープンエンド推論のための分析フレームワークである思考のデュアルエンジン(Deot)を提案します。
従来の推論フレームワークは主に「ベストアンサー」または単一回答の問題の「正解」を見つけることに焦点を当てていますが、Deotは「オープンエンドの質問」のために特別に設計されており、より広範かつより深い分析的探索の両方を可能にします。
フレームワークは、ユーザークエリを洗練するためのベースプロンプター、タスク分解、実行、検証を調整するソルバーエージェント、および幅エンジン(多様な衝撃係数を探索するため)と深さエンジン(深い調査を実行する)で構成されるデュアルエンジンシステムの3つの重要なコンポーネントに集中しています。
この統合設計により、DeoTは幅広いカバレッジと詳細な分析のバランスをとることができ、高度にカスタマイズ可能であるため、ユーザーは特定の要件に基づいて分析パラメーターとツール構成を調整できます。
実験結果は、DEOTが複雑で多面的な質問に対処し、既存の推論モデルと比較して77-86%の合計勝利を達成することに優れていることを示しており、実際のアプリケーションでの有効性を強調しています。

要約(オリジナル)

We propose the Dual Engines of Thoughts (DEoT), an analytical framework for comprehensive open-ended reasoning. While traditional reasoning frameworks primarily focus on finding ‘the best answer’ or ‘the correct answer’ for single-answer problems, DEoT is specifically designed for ‘open-ended questions,’ enabling both broader and deeper analytical exploration. The framework centers on three key components: a Base Prompter for refining user queries, a Solver Agent that orchestrates task decomposition, execution, and validation, and a Dual-Engine System consisting of a Breadth Engine (to explore diverse impact factors) and a Depth Engine (to perform deep investigations). This integrated design allows DEoT to balance wide-ranging coverage with in-depth analysis, and it is highly customizable, enabling users to adjust analytical parameters and tool configurations based on specific requirements. Experimental results show that DEoT excels in addressing complex, multi-faceted questions, achieving a total win rate of 77-86% compared to existing reasoning models, thus highlighting its effectiveness in real-world applications.

arxiv情報

著者 Fei-Hsuan Yu,Yun-Cheng Chou,Teng-Ruei Chen
発行日 2025-04-10 15:46:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CL, cs.MA | Dual Engines of Thoughts: A Depth-Breadth Integration Framework for Open-Ended Analysis はコメントを受け付けていません

Execution Semantics of Behavior Trees in Robotic Applications

要約

動作ツリー(BTS)は、魅力的な機能、制御ポリシーの概念モデルとしての使いやすさ、および制御ソフトウェアのBTベースの設計用のソフトウェアツーリングの可用性により、ロボット工学の広範な採用を発見しました。
ただし、BTSには正式な実行セマンティクスがありません。さらに、実装間の微妙な違いにより、基礎となるソフトウェアによって同じモデルの動作が異なる場合があります。
このペーパーは、ロボット工学アプリケーションで使用される行動ツリー(BTS)の実行セマンティクスを定義することを目的としています。
この目的のために、BTSの構造と実行を形式化する抽象データ型を提示します。
私たちの形式化は、科学文献と最先端の実装における既存の貢献に触発されていますが、他の作品全体で不完全または一貫性のない治療を見つけるほとんどの機能の明確な扱いを提供するよう努めています。

要約(オリジナル)

Behavior Trees (BTs) have found a widespread adoption in robotics due to appealing features, their ease of use as a conceptual model of control policies and the availability of software tooling for BT-based design of control software. However, BTs don’t have formal execution semantics and, furthermore, subtle differences among implementations can make the same model behave differently depending on the underlying software. This paper aims at defining the execution semantics of behavior trees (BTs) as used in robotics applications. To this purpose, we present an abstract data type that formalizes the structure and execution of BTs. While our formalization is inspired by existing contributions in the scientific literature and state-of-the art implementations, we strive to provide an unambiguous treatment of most features that find incomplete or inconsistent treatment across other works.

arxiv情報

著者 Enrico Ghiorzi,Christian Henkel,Matteo Palmas,Michaela Klauck,Armando Tacchella
発行日 2025-04-10 15:46:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T30, cs.AI, cs.RO, I.2.4 | Execution Semantics of Behavior Trees in Robotic Applications はコメントを受け付けていません

Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge

要約

大規模な言語モデル(LLM)は、人工知能に革命をもたらし、機械翻訳、要約、および会話エージェントの進歩を促進しています。
しかし、重要な社会的領域への統合の増加は、埋め込まれたバイアスに関する懸念を提起し、ステレオタイプを永続させ、公平性を妥協することができます。
これらのバイアスは、トレーニングデータにおける歴史的な不平等、言語の不均衡、敵対的操作など、さまざまなソースに由来しています。
緩和の取り組みにもかかわらず、最近の研究は、LLMが偏った反応を引き出すように設計された敵対的攻撃に対して脆弱なままであることを示しています。
この作業は、敵対的なバイアスの誘発に対するLLMの堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案しています。
私たちの方法論には、(i)さまざまな社会文化的側面にわたるバイアスをターゲットにしたマルチタスクアプローチでモデルを体系的に調査すること、(ii)モデル応答の自動評価のためのLLM-As-a-Judgeアプローチを使用して安全性スコアを介して堅牢性を定量化し、(iii)安全性の脆弱性を調査するための脱却技術を採用する(iii)
私たちの分析では、最先端モデルの大小の両方で一般的なバイアスとモデルの安全性への影響を調べます。
さらに、医学などの重要な分野で微調整されたドメイン固有のモデルの安全性を評価します。
最後に、体系的な脆弱性ベンチマークを促進するために、バイアス関連のプロンプトであるClearBiasのキュレーションされたデータセットをリリースします。
私たちの調査結果は、モデルのサイズと安全性の間の重要なトレードオフを明らかにし、より公平で堅牢な将来の言語モデルの開発を支援します。

要約(オリジナル)

Large Language Models (LLMs) have revolutionized artificial intelligence, driving advancements in machine translation, summarization, and conversational agents. However, their increasing integration into critical societal domains has raised concerns about embedded biases, which can perpetuate stereotypes and compromise fairness. These biases stem from various sources, including historical inequalities in training data, linguistic imbalances, and adversarial manipulation. Despite mitigation efforts, recent studies indicate that LLMs remain vulnerable to adversarial attacks designed to elicit biased responses. This work proposes a scalable benchmarking framework to evaluate LLM robustness against adversarial bias elicitation. Our methodology involves (i) systematically probing models with a multi-task approach targeting biases across various sociocultural dimensions, (ii) quantifying robustness through safety scores using an LLM-as-a-Judge approach for automated assessment of model responses, and (iii) employing jailbreak techniques to investigate vulnerabilities in safety mechanisms. Our analysis examines prevalent biases in both small and large state-of-the-art models and their impact on model safety. Additionally, we assess the safety of domain-specific models fine-tuned for critical fields, such as medicine. Finally, we release a curated dataset of bias-related prompts, CLEAR-Bias, to facilitate systematic vulnerability benchmarking. Our findings reveal critical trade-offs between model size and safety, aiding the development of fairer and more robust future language models.

arxiv情報

著者 Riccardo Cantini,Alessio Orsino,Massimo Ruggiero,Domenico Talia
発行日 2025-04-10 16:00:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge はコメントを受け付けていません

SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning

要約

推論時間計算の最近の進歩により、大きな推論モデル(LRMS)を使用して長い思考チェーン(COTS)を生成することにより、複雑なタスクのパフォーマンスが大幅に向上しました。
ただし、この改善された精度は、生成された推論シーケンスの長さとデコードの自己回帰の性質のために、高い推測レイテンシのコストでもたらされます。
これらのオーバーヘッドに取り組むことに関する私たちの重要な洞察は、LRM推論、およびそれが埋め込む理由は近似に非常に寛容であるということです。複雑なタスクは通常、より単純なステップに分解されます。
したがって、軽量モデルを使用して(投機的に)単純な中間推論ステップを実行し、推測される出力を評価(および潜在的に修正)する(および潜在的に修正)するために(投機的に)LRM推論を自動的に加速するシステムであるSpecReasonを導入します。
重要なことに、最終回答の精度を維持するためにトークンを考えることのセマンティックな柔軟性を活用することに焦点を当てていることは、各ステップでトークンレベルの等価性を必要とする、以前の投機技術、最も顕著な投機的デコードを補完することです。
さまざまな推論ベンチマークで、SpecReasonはバニラLRM推論で1.5-2.5 $ \ Times $ speedupを達成しながら、精度を1.0-9.9 \%に改善します。
スペックリーズシーズンなしでの投機的デコードと比較して、それらの組み合わせにより、さらに19.4-44.2 \%のレイテンシ削減が得られます。
https://github.com/ruipeterpan/specreasonでSpecreasonをオープンソースします。

要約(オリジナル)

Recent advances in inference-time compute have significantly improved performance on complex tasks by generating long chains of thought (CoTs) using Large Reasoning Models (LRMs). However, this improved accuracy comes at the cost of high inference latency due to the length of generated reasoning sequences and the autoregressive nature of decoding. Our key insight in tackling these overheads is that LRM inference, and the reasoning that it embeds, is highly tolerant of approximations: complex tasks are typically broken down into simpler steps, each of which brings utility based on the semantic insight it provides for downstream steps rather than the exact tokens it generates. Accordingly, we introduce SpecReason, a system that automatically accelerates LRM inference by using a lightweight model to (speculatively) carry out simpler intermediate reasoning steps and reserving the costly base model only to assess (and potentially correct) the speculated outputs. Importantly, SpecReason’s focus on exploiting the semantic flexibility of thinking tokens in preserving final-answer accuracy is complementary to prior speculation techniques, most notably speculative decoding, which demands token-level equivalence at each step. Across a variety of reasoning benchmarks, SpecReason achieves 1.5-2.5$\times$ speedup over vanilla LRM inference while improving accuracy by 1.0-9.9\%. Compared to speculative decoding without SpecReason, their combination yields an additional 19.4-44.2\% latency reduction. We open-source SpecReason at https://github.com/ruipeterpan/specreason.

arxiv情報

著者 Rui Pan,Yinwei Dai,Zhihao Zhang,Gabriele Oliaro,Zhihao Jia,Ravi Netravali
発行日 2025-04-10 16:05:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning はコメントを受け付けていません

Fast Adaptation with Behavioral Foundation Models

要約

監視されていないゼロショット補強学習(RL)は、行動基盤モデル(BFM)を事前に削除するための強力なパラダイムとして浮上しており、エージェントがゼロショットファッションで、つまり、テスト時間学習や計画を追加せずに報酬機能を介して指定されている幅広いダウンストリームタスクを解決できるようになりました。
これは、対応するほぼ最適な動作とともに自己監視されたタスクの埋め込みを学び、推論手順を組み込んで、特定の報酬機能の潜在的なタスクの埋め込みと関連するポリシーを直接取得することによって達成されます。
有望な結果にもかかわらず、ゼロショットポリシーは、監視されていないトレーニングプロセス、埋め込み、および推論手順によって引き起こされるエラーのために、しばしば最適ではありません。
このホワイトペーパーでは、環境とのオンライン相互作用のいくつかのステップでBFMのゼロショットパフォーマンスを改善しながら、適応プロセス中のパフォーマンスの低下を避けるために、迅速な適応戦略を考案することに焦点を当てています。
特に、既存のBFMは、推論手順で特定されたものよりもパフォーマンスの高いポリシーを含む一連のスキルを学習し、迅速な適応に適していることを実証します。
この観察に動機付けられて、私たちは、訓練を受けた事前に訓練されたBFMの低次元のタスク埋め込みスペースを検索して、下流タスクでのゼロショットポリシーのパフォーマンスを迅速に改善する俳優と俳優のみの迅速な適応戦略の両方を提案します。
特に、私たちのアプローチは、事前訓練を受けたRLモデルを微調整するときに一般的に観察される最初の「未学習」フェーズを軽減します。
複数のナビゲーションドメインと移動ドメインで、4つの最先端のゼロショットRLメソッドに加えて、高速適応戦略を評価します。
私たちの結果は、数十のエピソードでゼロショットパフォーマンスで10〜40%の改善を達成し、既存のベースラインを上回ることを示しています。

要約(オリジナル)

Unsupervised zero-shot reinforcement learning (RL) has emerged as a powerful paradigm for pretraining behavioral foundation models (BFMs), enabling agents to solve a wide range of downstream tasks specified via reward functions in a zero-shot fashion, i.e., without additional test-time learning or planning. This is achieved by learning self-supervised task embeddings alongside corresponding near-optimal behaviors and incorporating an inference procedure to directly retrieve the latent task embedding and associated policy for any given reward function. Despite promising results, zero-shot policies are often suboptimal due to errors induced by the unsupervised training process, the embedding, and the inference procedure. In this paper, we focus on devising fast adaptation strategies to improve the zero-shot performance of BFMs in a few steps of online interaction with the environment while avoiding any performance drop during the adaptation process. Notably, we demonstrate that existing BFMs learn a set of skills containing more performant policies than those identified by their inference procedure, making them well-suited for fast adaptation. Motivated by this observation, we propose both actor-critic and actor-only fast adaptation strategies that search in the low-dimensional task-embedding space of the pre-trained BFM to rapidly improve the performance of its zero-shot policies on any downstream task. Notably, our approach mitigates the initial ‘unlearning’ phase commonly observed when fine-tuning pre-trained RL models. We evaluate our fast adaptation strategies on top of four state-of-the-art zero-shot RL methods in multiple navigation and locomotion domains. Our results show that they achieve 10-40% improvement over their zero-shot performance in a few tens of episodes, outperforming existing baselines.

arxiv情報

著者 Harshit Sikchi,Andrea Tirinzoni,Ahmed Touati,Yingchen Xu,Anssi Kanervisto,Scott Niekum,Amy Zhang,Alessandro Lazaric,Matteo Pirotta
発行日 2025-04-10 16:14:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Fast Adaptation with Behavioral Foundation Models はコメントを受け付けていません

MONA: Myopic Optimization with Non-myopic Approval Can Mitigate Multi-step Reward Hacking

要約

将来の高度なAIシステムは、人間が安全に評価するのに十分十分に理解できない強化学習(RL)を通じて洗練された戦略を学ぶかもしれません。
人間が行動が望ましくないことを検出できない場合でも、高い報酬(マルチステップの「報酬ハッキング」)を受け取る望ましくないマルチステップ計画を学ぶエージェントを避けるトレーニング方法を提案します。
この方法は、非微妙な承認(MONA)による近視最適化は、近視の最適化と遠視の報酬を組み合わせることで機能します。
MONAは、報酬のハッキングを検出できなくても、通常のRLがアクセスしない追加の情報なしで、通常のRLが引き起こすマルチステップ報酬のハッキングを防ぐことができることを実証します。
委任された監視とエンコードされた推論を表すLLMを含む2段階の環境を含むさまざまな不整合障害モードをモデル化する3つの設定でMONAを経験的に研究し、センサーの改ざんを表す高齢者のグリッドワールド環境を表します。

要約(オリジナル)

Future advanced AI systems may learn sophisticated strategies through reinforcement learning (RL) that humans cannot understand well enough to safely evaluate. We propose a training method which avoids agents learning undesired multi-step plans that receive high reward (multi-step ‘reward hacks’) even if humans are not able to detect that the behaviour is undesired. The method, Myopic Optimization with Non-myopic Approval (MONA), works by combining short-sighted optimization with far-sighted reward. We demonstrate that MONA can prevent multi-step reward hacking that ordinary RL causes, even without being able to detect the reward hacking and without any extra information that ordinary RL does not get access to. We study MONA empirically in three settings which model different misalignment failure modes including 2-step environments with LLMs representing delegated oversight and encoded reasoning and longer-horizon gridworld environments representing sensor tampering.

arxiv情報

著者 Sebastian Farquhar,Vikrant Varma,David Lindner,David Elson,Caleb Biddulph,Ian Goodfellow,Rohin Shah
発行日 2025-04-10 16:25:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | MONA: Myopic Optimization with Non-myopic Approval Can Mitigate Multi-step Reward Hacking はコメントを受け付けていません