Sample-Optimal Private Regression in Polynomial Time

要約

ガウス共変量の通常の最小二乗回帰問題(不明な共分散構造)における予測エラー保証を個人的に取得するタスクを検討します。
純粋なプライバシーと概算の両方のプライバシーの下で、このタスクの最初のサンプル最適時間アルゴリズムを提供します。
アルゴリズムのサンプルの複雑さを改善すると、統計的クエリまたは情報理論の下限のいずれかに違反することを示します。
さらに、私たちのアルゴリズムは、任意の外れ値のごく一部に対して堅牢であり、外れ値の割合の関数として最適なエラー率を達成します。
対照的に、すべての以前の効率的なアルゴリズムは、最適下の寸法依存性とサンプルの複雑さを発生させ、共変量の条件番号でスケーリングするか、プライバシーパラメーターに対する多項間悪い依存性を取得しました。
私たちの技術的貢献は2つあります。まず、Sum-of-Squaresフレームワーク内のガウスの回復力保証を活用します。
結果として、最適な堅牢性とサンプルの複雑さを備えた回帰のための効率的な平方根アルゴリズムを取得します。
第二に、入力サンプルの共分散によって引き起こされるジオメトリを説明するために、最近の堅牢性からプリバシーのフレームワーク[HKMN23、(Arxiv:2212.05015)]を一般的にします。
このフレームワークは、堅牢な推定器に決定的に依存しており、Sum-of-Squaresアルゴリズムであるため、2つのステップを組み合わせると、サンプル最適なプライベート回帰アルゴリズムが得られます。
私たちの手法は独立した関心があると考えており、プライバシーパラメーターに最適な依存性を備えた、共分散認識平均推定の効率的なアルゴリズムを取得することにより、これを実証しています。

要約(オリジナル)

We consider the task of privately obtaining prediction error guarantees in ordinary least-squares regression problems with Gaussian covariates (with unknown covariance structure). We provide the first sample-optimal polynomial time algorithm for this task under both pure and approximate differential privacy. We show that any improvement to the sample complexity of our algorithm would violate either statistical-query or information-theoretic lower bounds. Additionally, our algorithm is robust to a small fraction of arbitrary outliers and achieves optimal error rates as a function of the fraction of outliers. In contrast, all prior efficient algorithms either incurred sample complexities with sub-optimal dimension dependence, scaling with the condition number of the covariates, or obtained a polynomially worse dependence on the privacy parameters. Our technical contributions are two-fold: first, we leverage resilience guarantees of Gaussians within the sum-of-squares framework. As a consequence, we obtain efficient sum-of-squares algorithms for regression with optimal robustness rates and sample complexity. Second, we generalize the recent robustness-to-privacy framework [HKMN23, (arXiv:2212.05015)] to account for the geometry induced by the covariance of the input samples. This framework crucially relies on the robust estimators to be sum-of-squares algorithms, and combining the two steps yields a sample-optimal private regression algorithm. We believe our techniques are of independent interest, and we demonstrate this by obtaining an efficient algorithm for covariance-aware mean estimation, with an optimal dependence on the privacy parameters.

arxiv情報

著者 Prashanti Anderson,Ainesh Bakshi,Mahbod Majid,Stefan Tiegel
発行日 2025-03-31 17:08:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.IT, cs.LG, math.IT, stat.ML | Sample-Optimal Private Regression in Polynomial Time はコメントを受け付けていません

NoProp: Training Neural Networks without Back-propagation or Forward-propagation

要約

学習のための標準的なディープラーニングアプローチでは、出力から各学習可能なパラメーターに向かってエラー信号を逆伝導することにより、各レイヤーで勾配用語を計算する必要があります。
各レイヤーが以下のレイヤーの表現に基づいて構築されるニューラルネットワークの積み重ねられた構造を考えると、このアプローチは階層表現につながります。
より抽象的な機能は、モデルの最上層に存在しますが、下層の機能は抽象的ではないと予想されます。
これとは対照的に、NoPropという名前の新しい学習方法を紹介します。これは、前方または後方の伝播に依存していません。
代わりに、NOPROPは、各層が独立して騒々しいターゲットを除去することを独立して学習する拡散とフローマッチング方法からインスピレーションを得ます。
この作業は、少なくとも通常の意味では、階層的表現を学習しない新しい勾配のない学習方法を導入するための第一歩を踏み出すと考えています。
NOPROPは、各レイヤーの表現を事前にターゲットのnoisedバージョンに固定する必要があり、推論で悪用される可能性のあるローカル除去プロセスを学習する必要があります。
MNIST、CIFAR-10、およびCIFAR-100の画像分類ベンチマークに対する方法の有効性を実証します。
我々の結果は、NOPROPが優れた精度を達成する実行可能な学習アルゴリズムであり、他の既存のバックプロパゲーションのない方法と比較して、使いやすく、計算的に効率的であることを示しています。
従来のグラデーションベースの学習パラダイムから出発することにより、NOPROPはネットワーク内でクレジットの割り当てがどのように行われるかを変え、より効率的な分散学習を可能にし、学習プロセスの他の特性に影響を与える可能性があります。

要約(オリジナル)

The canonical deep learning approach for learning requires computing a gradient term at each layer by back-propagating the error signal from the output towards each learnable parameter. Given the stacked structure of neural networks, where each layer builds on the representation of the layer below, this approach leads to hierarchical representations. More abstract features live on the top layers of the model, while features on lower layers are expected to be less abstract. In contrast to this, we introduce a new learning method named NoProp, which does not rely on either forward or backwards propagation. Instead, NoProp takes inspiration from diffusion and flow matching methods, where each layer independently learns to denoise a noisy target. We believe this work takes a first step towards introducing a new family of gradient-free learning methods, that does not learn hierarchical representations — at least not in the usual sense. NoProp needs to fix the representation at each layer beforehand to a noised version of the target, learning a local denoising process that can then be exploited at inference. We demonstrate the effectiveness of our method on MNIST, CIFAR-10, and CIFAR-100 image classification benchmarks. Our results show that NoProp is a viable learning algorithm which achieves superior accuracy, is easier to use and computationally more efficient compared to other existing back-propagation-free methods. By departing from the traditional gradient based learning paradigm, NoProp alters how credit assignment is done within the network, enabling more efficient distributed learning as well as potentially impacting other characteristics of the learning process.

arxiv情報

著者 Qinyu Li,Yee Whye Teh,Razvan Pascanu
発行日 2025-03-31 17:08:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | NoProp: Training Neural Networks without Back-propagation or Forward-propagation はコメントを受け付けていません

Faster Rates for No-Regret Learning in General Games via Cautious Optimism

要約

$ o(n \ log^2 d \ log t)$を達成する最初の非結合学習アルゴリズムを確立します。$ n $はプレーヤーの数、$ d $は各プレイヤーが利用できるアクションの数、$ t $はゲームの補償数です。
結果は、$ o(n \、d \ log t)$の後悔と比較して、$ d $への依存を指数関数的に改善します。
t)$後悔[dfg21]。
私たちのアルゴリズムは、古典的な楽観的な乗算重みアップデート(OMWU)と、プレーヤーの学習プロセスをペースとする適応的で非音の学習率を組み合わせることで取得され、後悔が否定的になると慎重になります。

要約(オリジナル)

We establish the first uncoupled learning algorithm that attains $O(n \log^2 d \log T)$ per-player regret in multi-player general-sum games, where $n$ is the number of players, $d$ is the number of actions available to each player, and $T$ is the number of repetitions of the game. Our results exponentially improve the dependence on $d$ compared to the $O(n\, d \log T)$ regret attainable by Log-Regularized Lifted Optimistic FTRL [Far+22c], and also reduce the dependence on the number of iterations $T$ from $\log^4 T$ to $\log T$ compared to Optimistic Hedge, the previously well-studied algorithm with $O(n \log d \log^4 T)$ regret [DFG21]. Our algorithm is obtained by combining the classic Optimistic Multiplicative Weights Update (OMWU) with an adaptive, non-monotonic learning rate that paces the learning process of the players, making them more cautious when their regret becomes too negative.

arxiv情報

著者 Ashkan Soleymani,Georgios Piliouras,Gabriele Farina
発行日 2025-03-31 17:25:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, math.OC | Faster Rates for No-Regret Learning in General Games via Cautious Optimism はコメントを受け付けていません

Policy Gradient for LQR with Domain Randomization

要約

ドメインランダム化(DR)は、現実世界で堅牢なパフォーマンスを達成することを目的として、シミュレートされた環境の分布でトレーニングコントローラーによってSIMからリアル転送を可能にします。
DRは実際に広く使用されており、多くの場合、単純なポリシーグラデーション(PG)方法を使用して解決されますが、その理論的保証の理解は依然として限られています。
このギャップに対処するために、ドメインランダム化線形二次調節(LQR)のPGメソッドの最初の収束分析を提供します。
PGは、サンプリングされたシステムの不均一性に関する適切な境界の下で、DR対物レンズの有限サンプル近似のミニマライザーにグローバルに収束することを示します。
また、サンプル平均と人口レベルの目標の間の小さなパフォーマンスギャップを達成することに関連するサンプル複合性を定量化します。
さらに、最初の共同安定コントローラーの必要性を除き、見つけるのが難しいかもしれない割引ファクターアニーリングアルゴリズムを提案して分析します。
経験的結果は、私たちの理論的発見をサポートし、リスクに敏感なDRの定式化や確率PGアルゴリズムなど、将来の仕事のための有望な方向性を強調しています。

要約(オリジナル)

Domain randomization (DR) enables sim-to-real transfer by training controllers on a distribution of simulated environments, with the goal of achieving robust performance in the real world. Although DR is widely used in practice and is often solved using simple policy gradient (PG) methods, understanding of its theoretical guarantees remains limited. Toward addressing this gap, we provide the first convergence analysis of PG methods for domain-randomized linear quadratic regulation (LQR). We show that PG converges globally to the minimizer of a finite-sample approximation of the DR objective under suitable bounds on the heterogeneity of the sampled systems. We also quantify the sample-complexity associated with achieving a small performance gap between the sample-average and population-level objectives. Additionally, we propose and analyze a discount-factor annealing algorithm that obviates the need for an initial jointly stabilizing controller, which may be challenging to find. Empirical results support our theoretical findings and highlight promising directions for future work, including risk-sensitive DR formulations and stochastic PG algorithms.

arxiv情報

著者 Tesshu Fujinami,Bruce D. Lee,Nikolai Matni,George J. Pappas
発行日 2025-03-31 17:51:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY | Policy Gradient for LQR with Domain Randomization はコメントを受け付けていません

Did ChatGPT or Copilot use alter the style of internet news headlines? A time series regression analysis

要約

ChatGptやCopilotなどの高度な大手言語モデル(LLM)のリリースは、テキストの作成方法を変更し、Webで見つけたコンテンツに影響を与える可能性があります。
この研究では、これら2つの人気のあるLLMSのリリースが、世界中のニュースWebサイトの見出しとリンクのライティングスタイルの変更と一致したかどうかを調査しました。
4億5100万人の見出し/リンクのデータセットで、各テキストに対して175のNLP機能が取得されました。
175のNLP機能のそれぞれに中断された時系列分析が適用され、ChatGPTおよび/またはCopilotのリリース日後に統計的に有意な持続的な変化があったかどうかを評価しました。
ChatGpt/Copilotのリリース後、合計44の機能が持続的な変化を持たないように見えました。
合計91のその他の機能は、ChatGPTおよび/またはCopilotで大きな変化を示しましたが、以前のコントロールLLMリリース日(GPT-1/2/3、Gopher)での重要性は考慮からそれらを削除しました。
この最初の分析は、これらの言語モデルが、いくつかのNLP測定のみに関して、個々のニュースヘッドライン/リンクのスタイルに限られた影響を与えた可能性があることを示唆しています。

要約(オリジナル)

The release of advanced Large Language Models (LLMs) such as ChatGPT and Copilot is changing the way text is created and may influence the content that we find on the web. This study investigated whether the release of these two popular LLMs coincided with a change in writing style in headlines and links on worldwide news websites. 175 NLP features were obtained for each text in a dataset of 451 million headlines/links. An interrupted time series analysis was applied for each of the 175 NLP features to evaluate whether there were any statistically significant sustained changes after the release dates of ChatGPT and/or Copilot. There were a total of 44 features that did not appear to have any significant sustained change after the release of ChatGPT/Copilot. A total of 91 other features did show significant change with ChatGPT and/or Copilot although significance with earlier control LLM release dates (GPT-1/2/3, Gopher) removed them from consideration. This initial analysis suggests these language models may have had a limited impact on the style of individual news headlines/links, with respect to only some NLP measures.

arxiv情報

著者 Chris Brogly,Connor McElroy
発行日 2025-03-31 07:44:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SI | Did ChatGPT or Copilot use alter the style of internet news headlines? A time series regression analysis はコメントを受け付けていません

Expanding RL with Verifiable Rewards Across Diverse Domains

要約

検証可能な報酬(RLVR)を備えた強化学習(RL)は、十分に構築された参照回答が利用できる数学的推論とコーディングタスクで有望な結果を示しています。
ただし、より広いドメインへの適用性は未脱カタリングのままです。
この作業では、医学、化学、心理学、経済学などのより多様なドメインへのRLVRの拡張を研究します。
客観的な参照回答が存在する場合、異なる大規模な言語モデル(LLMS)にわたるバイナリ判断において高い一致を観察します。これは、ドメイン固有の報酬モデルをトレーニングするための大規模な注釈の必要性に挑戦します。
非構造化された参照回答を処理する際のバイナリ報酬の制限に対処するために、モデルベースのソフトスコアリングをRLVRにさらに組み込み、柔軟性を向上させます。
私たちの実験は、蒸留された生成報酬モデルが効果的なクロスドメイン検証剤として機能し、ドメイン固有の注釈を必要とせずにRLの信頼できる報酬信号を提供できることを示しています。
報酬モデルに対してさまざまなRLアルゴリズムを使用してベース7Bモデルを微調整することにより、フリーフルムの回答の環境でドメインを横切る大マージンを越えて、最先端のオープンソースアライメントLLMを上回るポリシーを取得します。
これにより、RLVRの堅牢性とスケーラビリティが強化され、ノイズの多いラベルまたは弱いラベルを使用して、実際のアプリケーションの可能性を強調します。

要約(オリジナル)

Reinforcement learning (RL) with verifiable rewards (RLVR) has shown promising results in mathematical reasoning and coding tasks where well-structured reference answers are available. However, its applicability to broader domains remains underexplored. In this work, we study the extension of RLVR to more diverse domains such as medicine, chemistry, psychology, and economics. We observe high agreement in binary judgments across different large language models (LLMs) when objective reference answers exist, which challenges the necessity of large-scale annotation for training domain-specific reward models. To address the limitations of binary rewards when handling unstructured reference answers, we further incorporate model-based soft scoring into RLVR to improve its flexibility. Our experiments show that a distilled generative reward model can serve as an effective cross-domain verifier, providing reliable reward signals for RL without requiring domain-specific annotations. By fine-tuning a base 7B model using various RL algorithms against our reward model, we obtain policies that outperform state-of-the-art open-source aligned LLMs such as Qwen2.5-72B-Instruct and DeepSeek-R1-Distill-Qwen-32B by a large margin, across domains in free-form answer settings. This also strengthens RLVR’s robustness and scalability, highlighting its potential for real-world applications with noisy or weak labels.

arxiv情報

著者 Yi Su,Dian Yu,Linfeng Song,Juntao Li,Haitao Mi,Zhaopeng Tu,Min Zhang,Dong Yu
発行日 2025-03-31 08:22:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Expanding RL with Verifiable Rewards Across Diverse Domains はコメントを受け付けていません

SpeechDialogueFactory: Generating High-Quality Speech Dialogue Data to Accelerate Your Speech-LLM Development

要約

高品質の音声ダイアログデータセットは、音声llm開発には重要ですが、既存の獲得方法は大きな制限に直面しています。
人間の記録には高いコストとプライバシーの懸念が発生しますが、合成アプローチには会話の真正性が欠けていることがよくあります。
これらの課題に対処するために、自然な音声対話を効率的に生成するための制作対応フレームワークである\ textSc {SpeechDialogueFactory}を紹介します。
私たちのソリューションでは、メタデータの生成、対話のスクリプト、麻痺性の豊富な発話シミュレーション、音声クローンを使用した自然な音声合成など、包括的なパイプラインを採用しています。
さらに、このシステムは、詳細なサンプル検査とハイスループットバッチ合成モードのためのインタラクティブなUIを提供します。
評価によると、システムによって生成された対話は、生産コストを大幅に削減しながら、人間の録音に匹敵する品質を達成していることが示されています。
英語と中国語で利用可能な例データセットとともに、オープンソースツールキットとしての作業をリリースし、Speect-LLMの研究開発に研究者と開発者に力を与えています。

要約(オリジナル)

High-quality speech dialogue datasets are crucial for Speech-LLM development, yet existing acquisition methods face significant limitations. Human recordings incur high costs and privacy concerns, while synthetic approaches often lack conversational authenticity. To address these challenges, we introduce \textsc{SpeechDialogueFactory}, a production-ready framework for generating natural speech dialogues efficiently. Our solution employs a comprehensive pipeline including metadata generation, dialogue scripting, paralinguistic-enriched utterance simulation, and natural speech synthesis with voice cloning. Additionally, the system provides an interactive UI for detailed sample inspection and a high-throughput batch synthesis mode. Evaluations show that dialogues generated by our system achieve a quality comparable to human recordings while significantly reducing production costs. We release our work as an open-source toolkit, alongside example datasets available in English and Chinese, empowering researchers and developers in Speech-LLM research and development.

arxiv情報

著者 Minghan Wang,Ye Bai,Yuxia Wang,Thuy-Trang Vu,Ehsan Shareghi,Gholamreza Haffari
発行日 2025-03-31 08:52:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SpeechDialogueFactory: Generating High-Quality Speech Dialogue Data to Accelerate Your Speech-LLM Development はコメントを受け付けていません

Better wit than wealth: Dynamic Parametric Retrieval Augmented Generation for Test-time Knowledge Enhancement

要約

検索された生成(RAG)は、外部ソースから関連するドキュメントを取得し、それらをコンテキストに組み込むことにより、大規模な言語モデル(LLM)を強化します。
事実上のテキストを提供することで信頼性を向上させますが、コンテキストの長さが増加するにつれて推論コストが大幅に増加し、主にLLMSの対応するパラメトリック知識の欠如によって引き起こされるRAG幻覚の挑戦的な問題を導入します。
効率的な解決策は、テスト時にLLMの知識を強化することです。
パラメトリックRAG(PRAG)は、テスト時間の知識強化を実行するためにLLMSパラメーターにドキュメントを埋め込み、オフライントレーニングを通じて推論コストを効果的に削減することにより、これに対処します。
ただし、その高いトレーニングとストレージコストは、限られた一般化能力とともに、実際の採用を大幅に制限しています。
これらの課題に対処するために、軽量パラメーター翻訳モデルを活用してドキュメントをパラメトリック知識に効率的に変換する新しいフレームワークである動的なパラメトリックラグ(DYPRAG)を提案します。
DyPragは、推論、トレーニング、およびストレージコストを削減するだけでなく、パラメトリックな知識を動的に生成し、LLMSの知識をシームレスに強化し、テスト時にプラグアンドプレイの方法で知識の競合を解決します。
複数のデータセットでの広範な実験は、DYPRAGの有効性と一般化能力を示しており、優れた知識の融合を可能にし、実際のアプリケーションでぼろぼろの幻覚を軽減する強力で実用的なぼろきれパラダイムを提供します。
私たちのコードは、https://github.com/tre1oung/dypragで入手できます。

要約(オリジナル)

Retrieval-augmented generation (RAG) enhances large language models (LLMs) by retrieving relevant documents from external sources and incorporating them into the context. While it improves reliability by providing factual texts, it significantly increases inference costs as context length grows and introduces challenging issue of RAG hallucination, primarily caused by the lack of corresponding parametric knowledge in LLMs. An efficient solution is to enhance the knowledge of LLMs at test-time. Parametric RAG (PRAG) addresses this by embedding document into LLMs parameters to perform test-time knowledge enhancement, effectively reducing inference costs through offline training. However, its high training and storage costs, along with limited generalization ability, significantly restrict its practical adoption. To address these challenges, we propose Dynamic Parametric RAG (DyPRAG), a novel framework that leverages a lightweight parameter translator model to efficiently convert documents into parametric knowledge. DyPRAG not only reduces inference, training, and storage costs but also dynamically generates parametric knowledge, seamlessly enhancing the knowledge of LLMs and resolving knowledge conflicts in a plug-and-play manner at test-time. Extensive experiments on multiple datasets demonstrate the effectiveness and generalization capabilities of DyPRAG, offering a powerful and practical RAG paradigm which enables superior knowledge fusion and mitigates RAG hallucination in real-world applications. Our code is available at https://github.com/Trae1ounG/DyPRAG.

arxiv情報

著者 Yuqiao Tan,Shizhu He,Huanxuan Liao,Jun Zhao,Kang Liu
発行日 2025-03-31 09:46:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Better wit than wealth: Dynamic Parametric Retrieval Augmented Generation for Test-time Knowledge Enhancement はコメントを受け付けていません

Rubrik’s Cube: Testing a New Rubric for Evaluating Explanations on the CUBE dataset

要約

大規模な言語モデル(LLM)のパフォーマンスと使いやすさは、説明生成タスクでの使用を促進しています。
しかし、彼らの広範な採用にもかかわらず、LLMの説明は信頼できないことがわかっているため、ユーザーが悪い説明と良いことを区別することは困難です。
この問題に対処するために、Rubrikのキューブ、教育に触発されたルーブリックと26kの説明のデータセットを提示します。
キューブデータセットは、2つの推論と2つの言語タスクに焦点を当てており、提案されたルーブリックを効果的にテストするために必要な多様性を提供します。
Rubrikを使用して、説明はタスクと知覚される困難の両方に影響されることがわかります。
低品質は、主に凝集と単語の選択ではなく、LLM生成の説明における簡潔さの欠如に起因します。
完全なデータセット、ルーブリック、およびコードは、受け入れられると利用可能になります。

要約(オリジナル)

The performance and usability of Large-Language Models (LLMs) are driving their use in explanation generation tasks. However, despite their widespread adoption, LLM explanations have been found to be unreliable, making it difficult for users to distinguish good from bad explanations. To address this issue, we present Rubrik’s CUBE, an education-inspired rubric and a dataset of 26k explanations, written and later quality-annotated using the rubric by both humans and six open- and closed-source LLMs. The CUBE dataset focuses on two reasoning and two language tasks, providing the necessary diversity for us to effectively test our proposed rubric. Using Rubrik, we find that explanations are influenced by both task and perceived difficulty. Low quality stems primarily from a lack of conciseness in LLM-generated explanations, rather than cohesion and word choice. The full dataset, rubric, and code will be made available upon acceptance.

arxiv情報

著者 Diana Galvan-Sosa,Gabrielle Gaudeau,Pride Kavumba,Yunmeng Li,Hongyi gu,Zheng Yuan,Keisuke Sakaguchi,Paula Buttery
発行日 2025-03-31 09:48:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | Rubrik’s Cube: Testing a New Rubric for Evaluating Explanations on the CUBE dataset はコメントを受け付けていません

Entropy-Based Adaptive Weighting for Self-Training

要約

大規模な言語モデルの数学的な問題解決能力は、これらのモデルを改良および強化する有望な方法として、自己生成された推論パスを活用することに関心が高まって、研究の焦点となっています。
これらのパスは、監督のための正解のみを必要としながら、段階的な論理プロセスをキャプチャします。
セルフトレーニング方法は、外部モデルと手動注釈の必要性を排除しながら、推論タスクに効果的であることが示されています。
ただし、モデルトレーニングのために自己生成データの使用を最適化することは依然としてオープンな課題です。
この作業では、セルフトレーニング中に不確実なデータに優先順位を付けるために設計された適応型重み付け戦略である自己訓練(東)のエントロピーベースの適応重み付けを提案します。
具体的には、Eastは、重み付けの鋭さを制御する調整可能なパラメーターを使用してマッピング関数を採用し、モデルがより大きな不確実性を示すデータにより高い重みを割り当てます。
このアプローチは、モデルをガイドして、より有益で挑戦的な例に焦点を当て、それによりその推論能力を向上させます。
GSM8Kおよび数学ベンチマークに関するアプローチを評価します。
経験的結果は、バニラ法では数学の改善が事実上改善されないが、東部はバックボーンモデルよりも約1%のゲインを達成することを示しています。
GSM8Kでは、イーストはバニラ法と比較してさらに1〜2%のパフォーマンスブーストを達成します。

要約(オリジナル)

The mathematical problem-solving capabilities of large language models have become a focal point of research, with growing interests in leveraging self-generated reasoning paths as a promising way to refine and enhance these models. These paths capture step-by-step logical processes while requiring only the correct answer for supervision. The self-training method has been shown to be effective in reasoning tasks while eliminating the need for external models and manual annotations. However, optimizing the use of self-generated data for model training remains an open challenge. In this work, we propose Entropy-Based Adaptive Weighting for Self-Training (EAST), an adaptive weighting strategy designed to prioritize uncertain data during self-training. Specifically, EAST employs a mapping function with a tunable parameter that controls the sharpness of the weighting, assigning higher weights to data where the model exhibits greater uncertainty. This approach guides the model to focus on more informative and challenging examples, thereby enhancing its reasoning ability. We evaluate our approach on GSM8K and MATH benchmarks. Empirical results show that, while the vanilla method yields virtually no improvement (0%) on MATH, EAST achieves around a 1% gain over backbone model. On GSM8K, EAST attains a further 1-2% performance boost compared to the vanilla method.

arxiv情報

著者 Xiaoxuan Wang,Yihe Deng,Mingyu Derek Ma,Wei Wang
発行日 2025-03-31 10:04:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Entropy-Based Adaptive Weighting for Self-Training はコメントを受け付けていません