S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models

要約

テスト時間スケーリングが大規模な言語モデルコミュニティに積極的な研究に焦点を当てているため、高度なトレーニング後の方法は、拡張されたチェーン(COT)生成の長さをますます強調し、それにより、DeepSeek R1のような推論モデルにアプローチする推論能力を高めます。
しかし、最近の研究は、推論モデル(QWEN3でさえ)がCOT生成において一貫して過度の思考冗長性を示すことを明らかにしています。
この考え直しの問題は、従来の結果報酬強化学習の中間推論ステップを調節する際の体系的な無視に起因します。
このペーパーでは、シリアルグループの減衰報酬ポリシーの最適化(すなわちS-GRPO)を提案します。これは、モデルが推論ステップの十分性を判断する能力を強化し、その後COT生成の早期出口を引き​​起こす能力を強化する新しい強化学習方法です。
具体的には、複数の可能な完了(並列グループ)を並行してサンプリングするGRPOとは異なり、1つのCOTの生成で複数の時間的位置を選択して、モデルが思考を終了し、代わりに回答(シリアルグループ)を生成します。
シリアルグループの正解については、ポジションに応じて崩壊する報酬を割り当て、後のものに対する報酬が低いため、モデルの動作を強化して、初期の測定値でより高品質の回答を生成します。
経験的評価は、QWEN3やDeepSeek-Distillモデルを含む最先端の推論モデルとの互換性を実証し、GSM8K、AIME 2024、AMC 2023、およびGPQAダイヤモンドベンチマークの0.72%〜61.1 \%シーケンス長縮小を達成し、0.72%〜61.1 \%シーケンス長さを達成します。

要約(オリジナル)

As Test-Time Scaling emerges as an active research focus in the large language model community, advanced post-training methods increasingly emphasize extending chain-of-thought (CoT) generation length, thereby enhancing reasoning capabilities to approach Deepseek R1-like reasoning models. However, recent studies reveal that reasoning models (even Qwen3) consistently exhibit excessive thought redundancy in CoT generation. This overthinking problem stems from conventional outcome-reward reinforcement learning’s systematic neglect in regulating intermediate reasoning steps. This paper proposes Serial-Group Decaying-Reward Policy Optimization (namely S-GRPO), a novel reinforcement learning method that empowers models with the capability to determine the sufficiency of reasoning steps, subsequently triggering early exit of CoT generation. Specifically, unlike GRPO, which samples multiple possible completions (parallel group) in parallel, we select multiple temporal positions in the generation of one CoT to allow the model to exit thinking and instead generate answers (serial group), respectively. For the correct answers in a serial group, we assign rewards that decay according to positions, with lower rewards towards the later ones, thereby reinforcing the model’s behavior to generate higher-quality answers at earlier phases with earlier exits of thinking. Empirical evaluations demonstrate compatibility with state-of-the-art reasoning models, including Qwen3 and Deepseek-distill models, achieving 35.4% ~ 61.1\% sequence length reduction with 0.72% ~ 6.08% accuracy improvements across GSM8K, AIME 2024, AMC 2023, MATH-500, and GPQA Diamond benchmarks.

arxiv情報

著者 Muzhi Dai,Chenxu Yang,Qingyi Si
発行日 2025-05-12 15:50:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models はコメントを受け付けていません

Belief Injection for Epistemic Control in Linguistic State Space

要約

この研究では、認知状態が言語信念断片の動的なアンサンブルとして構成されている人工薬の積極的な認識論的制御メカニズムである信念注入を導入します。
セマンティックマニホールドフレームワークに基づいて、信念の注入は、標的言語の信念をエージェントの内部認知状態に直接組み込み、反応的にではなく積極的に推論と整合に影響を与えます。
直接的な、コンテキスト対応、目標指向、および反射的なアプローチなどのさまざまな注入戦略を描き、関連する認識論的制御メカニズム、特に信念フィルタリングとの信念注入をコントラストします。
さらに、この作業では、実用的なアプリケーション、実装の考慮事項、倫理的意味合い、および建築的に組み込まれた信念注入を使用した認知ガバナンスの将来の研究のための有望な方向性を概説しています。

要約(オリジナル)

This work introduces belief injection, a proactive epistemic control mechanism for artificial agents whose cognitive states are structured as dynamic ensembles of linguistic belief fragments. Grounded in the Semantic Manifold framework, belief injection directly incorporates targeted linguistic beliefs into an agent’s internal cognitive state, influencing reasoning and alignment proactively rather than reactively. We delineate various injection strategies, such as direct, context-aware, goal-oriented, and reflective approaches, and contrast belief injection with related epistemic control mechanisms, notably belief filtering. Additionally, this work discusses practical applications, implementation considerations, ethical implications, and outlines promising directions for future research into cognitive governance using architecturally embedded belief injection.

arxiv情報

著者 Sebastian Dumbrava
発行日 2025-05-12 15:58:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Belief Injection for Epistemic Control in Linguistic State Space はコメントを受け付けていません

Large Language Models Think Too Fast To Explore Effectively

要約

大規模な言語モデル(LLM)が多くの知的能力を備えています。
多数のベンチマークが知性を評価していますが、新しい情報を発見し、自然システムと人工システムの両方で新しい環境に適応するための重要な能力である、探求する能力には限られた注意が払われています。
特にオープンエンドのタスクで、LLMSが効果的に探索できる程度は不明のままです。
この研究では、LLMSがオープンエンドのタスク中に探査中に人間を上回ることができるかどうかを調査します。これは、エージェントが要素を組み合わせて新しいものを発見するパラダイムとして、Little Alchemy 2を使用して使用します。
結果は、不確実性とエンパワーメントのバランスをとる人間とは異なり、従来のLLMが主に不確実性駆動型戦略に依存しているO1モデルを除いて、人間と比較してほとんどのLLMSの低いパフォーマンスを示しています。
結果は、GPT-4Oなどの従来の推論に焦点を当てたLLMが、探索的パフォーマンスを制限して、かなり速く詳細ではない推論プロセスを示すことを示しています。
対照的に、Deepseek推論モデルは、より徹底的で人間のような探査戦略を反映して、組み合わせと過去の試験の繰り返し分析によって特徴付けられる長期にわたる反復思考プロセスを示しています。
スパースオートエンコーダー(SAE)を使用したモデルの表現分析により、不確実性と選択が初期の変圧器ブロックで表されていることが明らかになり、後でエンパワーメント値が処理され、LLMはあまりにも速く考え、早期決定を行い、効果的な調査を妨げました。
これらの発見は、LLM探査の限界に光を当て、適応性を改善するための方向を示唆しています。

要約(オリジナル)

Large Language Models (LLMs) have emerged with many intellectual capacities. While numerous benchmarks assess their intelligence, limited attention has been given to their ability to explore–an essential capacity for discovering new information and adapting to novel environments in both natural and artificial systems. The extent to which LLMs can effectively explore, particularly in open-ended tasks, remains unclear. This study investigates whether LLMs can surpass humans in exploration during an open-ended task, using Little Alchemy 2 as a paradigm, where agents combine elements to discover new ones. Results show most LLMs underperform compared to humans, except for the o1 model, with traditional LLMs relying primarily on uncertainty-driven strategies, unlike humans who balance uncertainty and empowerment. Results indicate that traditional reasoning-focused LLMs, such as GPT-4o, exhibit a significantly faster and less detailed reasoning process, limiting their exploratory performance. In contrast, the DeepSeek reasoning model demonstrates prolonged, iterative thought processes marked by repetitive analysis of combinations and past trials, reflecting a more thorough and human-like exploration strategy. Representational analysis of the models with Sparse Autoencoders (SAE) revealed that uncertainty and choices are represented at earlier transformer blocks, while empowerment values are processed later, causing LLMs to think too fast and make premature decisions, hindering effective exploration. These findings shed light on the limitations of LLM exploration and suggest directions for improving their adaptability.

arxiv情報

著者 Lan Pan,Hanbo Xie,Robert C. Wilson
発行日 2025-05-12 16:02:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-bio.NC | Large Language Models Think Too Fast To Explore Effectively はコメントを受け付けていません

ApproXAI: Energy-Efficient Hardware Acceleration of Explainable AI using Approximate Computing

要約

説明可能な人工知能(XAI)は、最適化の問題として解釈可能性をフレーミングすることにより、AIシステムの透明性を高めます。
ただし、このアプローチでは、計算的に集中的な操作の多数の反復が必要であり、リアルタイムシナリオでの適用性を制限します。
最近の研究では、FPGAとTPUのXaiハードウェアアクセラレーションに焦点を当てていますが、これらの方法はリアルタイム設定でのエネルギー効率に完全に対処していません。
この制限に対処するために、統合された勾配、モデル蒸留、Shapley分析など、Xaiアルゴリズムに近似コンピューティング技術を活用する新しいフレームワークであるXaiedgeを提案します。
Xaiedgeは、これらのアルゴリズムをおおよそのマトリックス計算に変換し、畳み込み、フーリエ変換、および近似コンピューティングパラダイムの相乗効果を活用します。
このアプローチにより、TPUベースのエッジデバイスで効率的なハードウェアアクセラレーションが可能になり、リアルタイムの結果の解釈が高速化されます。
当社の包括的な評価は、Xaiedgeが同等の精度を維持しながら、既存の正確なXaiハードウェアアクセラレーション技術と比較して、エネルギー効率の2ドル$ $ $の改善を達成することを示しています。
これらの結果は、Xaiedgeがエネルギー制約のリアルタイムアプリケーションで説明可能なAIの展開を大幅に進める可能性を強調しています。

要約(オリジナル)

Explainable artificial intelligence (XAI) enhances AI system transparency by framing interpretability as an optimization problem. However, this approach often necessitates numerous iterations of computationally intensive operations, limiting its applicability in real-time scenarios. While recent research has focused on XAI hardware acceleration on FPGAs and TPU, these methods do not fully address energy efficiency in real-time settings. To address this limitation, we propose XAIedge, a novel framework that leverages approximate computing techniques into XAI algorithms, including integrated gradients, model distillation, and Shapley analysis. XAIedge translates these algorithms into approximate matrix computations and exploits the synergy between convolution, Fourier transform, and approximate computing paradigms. This approach enables efficient hardware acceleration on TPU-based edge devices, facilitating faster real-time outcome interpretations. Our comprehensive evaluation demonstrates that XAIedge achieves a $2\times$ improvement in energy efficiency compared to existing accurate XAI hardware acceleration techniques while maintaining comparable accuracy. These results highlight the potential of XAIedge to significantly advance the deployment of explainable AI in energy-constrained real-time applications.

arxiv情報

著者 Ayesha Siddique,Khurram Khalil,Khaza Anuarul Hoque
発行日 2025-05-12 16:04:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR | ApproXAI: Energy-Efficient Hardware Acceleration of Explainable AI using Approximate Computing はコメントを受け付けていません

Lightweight End-to-end Text-to-speech Synthesis for low resource on-device applications

要約

最近の作品は、エンドツーエンド(E2E)ファッションのテキストからの生の波形を直接モデリングすると、カスケードまたは2段階のアプローチに基づいて、従来の神経テキスト(TTS)システムよりも自然な音声スピーチが生成されることが示されています。
ただし、現在のE2E最先端のモデルは計算上複雑でメモリが消費されるため、低リソースシナリオでのリアルタイムのオフラインオンデバイスアプリケーションには適していません。
この問題に対処するために、最小限の計算リソースを必要とする高品質の音声を生成する軽量のE2E-TTS(LE2E)モデルを提案します。
LJSpeech Datasetで提案されたモデルを評価し、モデルパラメーターの点で最大90ドルの\%$ $が最大90ドル、$ 10 \ Times $がリアルタイムファクターで速くなることを示しています。
さらに、提案されたE2Eトレーニングパラダイムは、2段階のアプローチで訓練された同等のアーキテクチャと比較して、より良い品質を達成することを実証します。
我々の結果は、LE2Eがリアルタイムで高品質の低リソースTTSアプリケーションを開発しているアプリケーションを開発するための有望なアプローチであることを示唆しています。

要約(オリジナル)

Recent works have shown that modelling raw waveform directly from text in an end-to-end (E2E) fashion produces more natural-sounding speech than traditional neural text-to-speech (TTS) systems based on a cascade or two-stage approach. However, current E2E state-of-the-art models are computationally complex and memory-consuming, making them unsuitable for real-time offline on-device applications in low-resource scenarios. To address this issue, we propose a Lightweight E2E-TTS (LE2E) model that generates high-quality speech requiring minimal computational resources. We evaluate the proposed model on the LJSpeech dataset and show that it achieves state-of-the-art performance while being up to $90\%$ smaller in terms of model parameters and $10\times$ faster in real-time-factor. Furthermore, we demonstrate that the proposed E2E training paradigm achieves better quality compared to an equivalent architecture trained in a two-stage approach. Our results suggest that LE2E is a promising approach for developing real-time, high quality, low-resource TTS applications for on-device applications.

arxiv情報

著者 Biel Tura Vecino,Adam Gabryś,Daniel Mątwicki,Andrzej Pomirski,Tom Iddon,Marius Cotescu,Jaime Lorenzo-Trueba
発行日 2025-05-12 16:10:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS | Lightweight End-to-end Text-to-speech Synthesis for low resource on-device applications はコメントを受け付けていません

A constraints-based approach to fully interpretable neural networks for detecting learner behaviors

要約

教育における複雑な機械学習モデルの使用の増加は、その解釈可能性に関する懸念につながり、それがモデルの内部の仕組みに忠実で人間のエンドユーザーにわかりやすい説明性技術を開発することに関心を促しました。
この論文では、設計によって解釈可能なニューラルネットワークベースの動作検出モデルを作成するための新しいアプローチについて説明します。
私たちのモデルは完全に解釈可能です。つまり、説明のために抽出するパラメーターは明確な解釈を持ち、関心のある学習者の行動に関するモデルの学習された知識を完全にキャプチャし、忠実で理解しやすい説明を作成するために使用できます。
これを達成し、モデルに一連の制約を実装し、推論プロセスを簡素化し、目前のタスクの人間の概念に近づけることもできます。
モデルをトレーニングして、ゲームザシステムの動作を検出し、このタスクでのパフォーマンスを評価し、その学習パターンを人間の専門家によって特定されたパターンと比較します。
我々の結果は、モデルが完全に解釈可能な説明の証拠を提供しながら、システムのシステムの動作を示すパターンを成功させることができることを示しています。
アプローチの意味について説明し、人間に基づいたアプローチを使用して説明可能性を評価する方法を提案します。

要約(オリジナル)

The increasing use of complex machine learning models in education has led to concerns about their interpretability, which in turn has spurred interest in developing explainability techniques that are both faithful to the model’s inner workings and intelligible to human end-users. In this paper, we describe a novel approach to creating a neural-network-based behavior detection model that is interpretable by design. Our model is fully interpretable, meaning that the parameters we extract for our explanations have a clear interpretation, fully capture the model’s learned knowledge about the learner behavior of interest, and can be used to create explanations that are both faithful and intelligible. We achieve this by implementing a series of constraints to the model that both simplify its inference process and bring it closer to a human conception of the task at hand. We train the model to detect gaming-the-system behavior, evaluate its performance on this task, and compare its learned patterns to those identified by human experts. Our results show that the model is successfully able to learn patterns indicative of gaming-the-system behavior while providing evidence for fully interpretable explanations. We discuss the implications of our approach and suggest ways to evaluate explainability using a human-grounded approach.

arxiv情報

著者 Juan D. Pinto,Luc Paquette
発行日 2025-05-12 16:12:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | A constraints-based approach to fully interpretable neural networks for detecting learner behaviors はコメントを受け付けていません

Circuit Partitioning Using Large Language Models for Quantum Compilation and Simulations

要約

私たちは騒々しい中級スケール量子(NISQ)時代の真っin中にいます。ここでは、量子コンピューターは騒々しいゲートによって制限されています。
量子回路コンパイルアルゴリズムは、量子アルゴリズムを量子ハードウェアにマッピングするときにこれらのノイズの多いゲートを最小化しようとしますが、5〜6キュビット以下の回路にアプリケーションを制限する計算上の課題に直面し、ノイジー量子ゲートの最小化アルゴリズムを適用する前に大きな回路を分割する必要があります。
これらのアルゴリズムの既存の生成は、本質的にヒューリスティックであり、下流のゲート最小化タスクを考慮していません。
大規模な言語モデル(LLMS)には、これを変更し、量子回路パーティションの改善に役立つ可能性があります。
このペーパーでは、QASMを含むコードを理解および生成する能力を活用することにより、量子回路を分割するために、LlamaやMistralなどのLLMの使用を調査します。
具体的には、Berkeley Quantum Synthesis Toolkitのクイックパーティションアプローチを使用して、LLMSに回転回路を分割するように教えます。
実験的評価を通じて、オープンソースLLMの慎重な微調整により、パーティションタスクの精度が53.4%を得ることができることが示されています。

要約(オリジナル)

We are in the midst of the noisy intermediate-scale quantum (NISQ) era, where quantum computers are limited by noisy gates, some of which are more error-prone than others and can render the final computation incomprehensible. Quantum circuit compilation algorithms attempt to minimize these noisy gates when mapping quantum algorithms onto quantum hardware but face computational challenges that restrict their application to circuits with no more than 5-6 qubits, necessitating the need to partition large circuits before the application of noisy quantum gate minimization algorithms. The existing generation of these algorithms is heuristic in nature and does not account for downstream gate minimization tasks. Large language models (LLMs) have the potential to change this and help improve quantum circuit partitions. This paper investigates the use of LLMs, such as Llama and Mistral, for partitioning quantum circuits by capitalizing on their abilities to understand and generate code, including QASM. Specifically, we teach LLMs to partition circuits using the quick partition approach of the Berkeley Quantum Synthesis Toolkit. Through experimental evaluations, we show that careful fine-tuning of open source LLMs enables us to obtain an accuracy of 53.4% for the partition task while over-the-shelf LLMs are unable to correctly partition circuits, using standard 1-shot and few-shot training approaches.

arxiv情報

著者 Pranav Sinha,Sumit Kumar Jha,Sunny Raj
発行日 2025-05-12 16:18:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET, quant-ph | Circuit Partitioning Using Large Language Models for Quantum Compilation and Simulations はコメントを受け付けていません

The Leaderboard Illusion

要約

進捗状況の測定は、あらゆる科学分野の進歩の基本です。
ベンチマークがますます中心的な役割を果たしているため、歪みの影響を受けやすくなります。
Chatbot Arenaは、最も有能なAIシステムをランキングするための頼りになるリーダーボードとして登場しました。
しかし、この作業では、歪んだ競技場をもたらした体系的な問題を特定します。
非公開のプライベートテスト慣行は、公開リリース前に複数のバリアントをテストし、必要に応じてスコアを撤回することができる少数のプロバイダーに利益をもたらすことがわかります。
これらのプロバイダーが最高のスコアを選択する能力が、パフォーマンス結果の選択的な開示により、偏ったアリーナスコアにつながることを確立します。
極端に、LLAMA-4リリースのリードアップでメタによってテストされた27のプライベートLLMバリアントを特定します。
また、独自の閉じたモデルがより高いレート(戦闘の数)でサンプリングされ、オープンウェイトおよびオープンソースの代替品よりもアリーナから除去されるモデルが少ないことを確立します。
これらのポリシーは両方とも、時間の経過とともに大規模なデータアクセスの非対称性につながります。
GoogleやOpenaiなどのプロバイダーは、それぞれアリーナのすべてのデータの推定19.2%と20.4%を受け取りました。
対照的に、合計83のオープンウェイトモデルは、総データの推定29.7%しか受けていません。
Chatbot Arenaデータへのアクセスが大きな利点をもたらすことを示しています。
限られた追加データでさえ、保守的な推定に基づいて、アリーナ分布の最大112%の相対的なパフォーマンスの向上をもたらす可能性があります。
合わせて、これらのダイナミクスは、一般的なモデルの品質ではなく、アリーナ固有のダイナミクスに過剰適合します。
アリーナは、この貴重な評価プラットフォームを維持する主催者とオープンコミュニティの両方の実質的な努力に基づいています。
チャットボットアリーナの評価フレームワークを改革し、フィールドのより公正で透明なベンチマークを促進するための実用的な推奨事項を提供します

要約(オリジナル)

Measuring progress is fundamental to the advancement of any scientific field. As benchmarks play an increasingly central role, they also grow more susceptible to distortion. Chatbot Arena has emerged as the go-to leaderboard for ranking the most capable AI systems. Yet, in this work we identify systematic issues that have resulted in a distorted playing field. We find that undisclosed private testing practices benefit a handful of providers who are able to test multiple variants before public release and retract scores if desired. We establish that the ability of these providers to choose the best score leads to biased Arena scores due to selective disclosure of performance results. At an extreme, we identify 27 private LLM variants tested by Meta in the lead-up to the Llama-4 release. We also establish that proprietary closed models are sampled at higher rates (number of battles) and have fewer models removed from the arena than open-weight and open-source alternatives. Both these policies lead to large data access asymmetries over time. Providers like Google and OpenAI have received an estimated 19.2% and 20.4% of all data on the arena, respectively. In contrast, a combined 83 open-weight models have only received an estimated 29.7% of the total data. We show that access to Chatbot Arena data yields substantial benefits; even limited additional data can result in relative performance gains of up to 112% on the arena distribution, based on our conservative estimates. Together, these dynamics result in overfitting to Arena-specific dynamics rather than general model quality. The Arena builds on the substantial efforts of both the organizers and an open community that maintains this valuable evaluation platform. We offer actionable recommendations to reform the Chatbot Arena’s evaluation framework and promote fairer, more transparent benchmarking for the field

arxiv情報

著者 Shivalika Singh,Yiyang Nan,Alex Wang,Daniel D’Souza,Sayash Kapoor,Ahmet Üstün,Sanmi Koyejo,Yuntian Deng,Shayne Longpre,Noah A. Smith,Beyza Ermis,Marzieh Fadaee,Sara Hooker
発行日 2025-05-12 16:33:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ME | The Leaderboard Illusion はコメントを受け付けていません

Guiding Data Collection via Factored Scaling Curves

要約

大規模なデータセットで訓練された一般主義模倣学習ポリシーは、多様な操作タスクを解決するための大きな可能性を示しています。
ただし、さまざまな条件への一般化を確保するには、環境因子の変動の大きなセット(カメラポーズ、テーブルの高さ、ディストラクタなど)にわたって収集されたデータでポリシーをトレーニングする必要があります。
Factored Scaling Curves(FSC)を構築することにより、どのデータを収集するか、および各要素の収集量を決定するための原則的な方法を導入します。
これらの曲線は、特定の予算内で最も影響力のある要因の組み合わせに対してターゲットを絞ったデータ取得を可能にします。
Scratchと微調整の両方の設定の両方で、広範なシミュレーションおよび実世界の実験を通じて提案された方法を評価し、既存のデータ収集戦略よりも最大26%新しい環境で成功率を高めることを示します。
さらに、実際の評価を大規模に評価することなく、オフラインメトリックを使用して、因数分解されたスケーリング曲線がどのようにデータ収集を効果的に導くことができるかを示します。

要約(オリジナル)

Generalist imitation learning policies trained on large datasets show great promise for solving diverse manipulation tasks. However, to ensure generalization to different conditions, policies need to be trained with data collected across a large set of environmental factor variations (e.g., camera pose, table height, distractors) $-$ a prohibitively expensive undertaking, if done exhaustively. We introduce a principled method for deciding what data to collect and how much to collect for each factor by constructing factored scaling curves (FSC), which quantify how policy performance varies as data scales along individual or paired factors. These curves enable targeted data acquisition for the most influential factor combinations within a given budget. We evaluate the proposed method through extensive simulated and real-world experiments, across both training-from-scratch and fine-tuning settings, and show that it boosts success rates in real-world tasks in new environments by up to 26% over existing data-collection strategies. We further demonstrate how factored scaling curves can effectively guide data collection using an offline metric, without requiring real-world evaluation at scale.

arxiv情報

著者 Lihan Zha,Apurva Badithela,Michael Zhang,Justin Lidard,Jeremy Bao,Emily Zhou,David Snyder,Allen Z. Ren,Dhruv Shah,Anirudha Majumdar
発行日 2025-05-12 16:36:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Guiding Data Collection via Factored Scaling Curves はコメントを受け付けていません

BNEM: A Boltzmann Sampler Based on Bootstrapped Noised Energy Matching

要約

ボルツマン分布から独立した同一分布(IID)サンプルを生成できる効率的なサンプラーを開発することは、科学研究における重要な課題です。
分子動力学。
この作業では、ボルツマン分布からサンプリングされたデータの代わりにエネルギー関数を与えられたニューラルサンプラーを学習するつもりです。
noisedデータのエネルギーを学習することにより、拡散ベースのサンプラー、noisedエネルギーマッチングを提案します。これは、理論的には、関連する作品と比較して、より低い分散と複雑さを示します。
さらに、バイアスと分散のバランスをとるために、NEMに新しいブートストラップ手法が適用されます。
2次元40ガウス混合モデル(GMM)と4粒子の二重ウェルポテンシャル(DW-4)でNEMとBNEMを評価します。
実験結果は、BNEMがより堅牢である間に最先端のパフォーマンスを達成できることを示しています。

要約(オリジナル)

Developing an efficient sampler capable of generating independent and identically distributed (IID) samples from a Boltzmann distribution is a crucial challenge in scientific research, e.g. molecular dynamics. In this work, we intend to learn neural samplers given energy functions instead of data sampled from the Boltzmann distribution. By learning the energies of the noised data, we propose a diffusion-based sampler, Noised Energy Matching, which theoretically has lower variance and more complexity compared to related works. Furthermore, a novel bootstrapping technique is applied to NEM to balance between bias and variance. We evaluate NEM and BNEM on a 2-dimensional 40 Gaussian Mixture Model (GMM) and a 4-particle double-well potential (DW-4). The experimental results demonstrate that BNEM can achieve state-of-the-art performance while being more robust.

arxiv情報

著者 RuiKang OuYang,Bo Qiang,José Miguel Hernández-Lobato
発行日 2025-05-12 16:54:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.CO, stat.ML | BNEM: A Boltzmann Sampler Based on Bootstrapped Noised Energy Matching はコメントを受け付けていません