PIIvot: A Lightweight NLP Anonymization Framework for Question-Anchored Tutoring Dialogues

要約

個人的に識別可能な情報(PII)匿名化は、多くのオープンサイエンスデータ共有イニシアチブに障壁をもたらすハイステークスタスクです。
PIIの識別は近年大きな進歩を遂げていますが、実際にはエラーのしきい値とリコール/精度のトレードオフは、これらの匿名化パイプラインの取り込みを依然として制限しています。
PIIVOTは、PII検出問題を簡素化するためにデータコンテキストの知識を活用するPII匿名化の軽量なフレームワークです。
その有効性を実証するために、品質教育対話データの需要をサポートするために、この種の最大のオープンソースの実世界の個別指導データセットであるQATD-2Kも貢献しています。

要約(オリジナル)

Personally identifiable information (PII) anonymization is a high-stakes task that poses a barrier to many open-science data sharing initiatives. While PII identification has made large strides in recent years, in practice, error thresholds and the recall/precision trade-off still limit the uptake of these anonymization pipelines. We present PIIvot, a lighter-weight framework for PII anonymization that leverages knowledge of the data context to simplify the PII detection problem. To demonstrate its effectiveness, we also contribute QATD-2k, the largest open-source real-world tutoring dataset of its kind, to support the demand for quality educational dialogue data.

arxiv情報

著者 Matthew Zent,Digory Smith,Simon Woodhead
発行日 2025-05-22 17:22:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | PIIvot: A Lightweight NLP Anonymization Framework for Question-Anchored Tutoring Dialogues はコメントを受け付けていません

In-Context Watermarks for Large Language Models

要約

機密アプリケーションのための大規模な言語モデル(LLMS)の使用の増加は、AIに生成されたテキストの出所と説明責任を確保するための効果的な透かし技術の必要性を強調しています。
ただし、既存の透かし方のほとんどは、デコードプロセスにアクセスする必要があり、実際の設定での適用性を制限します。
例の例の1つは、アカデミックピアレビューのコンテキストでの不正なレビュアーによるLLMの使用です。会議の主催者は使用されるモデルにアクセスできませんが、AIに生成されたレビューを検出する必要があります。
このギャップに動機付けられて、コンテキスト内の透かし(ICW)を導入します。これは、迅速なエンジニアリングのみを通じて透かしを生成されたテキストに埋め込み、LLMSのコンテキスト内学習と指導の公開能力を活用します。
さまざまなレベルの粒度で4つのICW戦略を調査し、それぞれが調整された検出方法と組み合わせました。
さらに、特定のケーススタディとして間接迅速なインジェクション(IPI)設定を調べます。このケーススタディでは、アカデミック原稿などの入力ドキュメントを変更することで透かしが密かにトリガーされます。
私たちの実験は、モデルに依存しない実用的な透かしアプローチとしてのICWの実現可能性を検証します。
さらに、私たちの調査結果は、LLMがより能力が高まるにつれて、ICWがスケーラブルでアクセス可能なコンテンツの帰属に対して有望な方向を提供することを示唆しています。

要約(オリジナル)

The growing use of large language models (LLMs) for sensitive applications has highlighted the need for effective watermarking techniques to ensure the provenance and accountability of AI-generated text. However, most existing watermarking methods require access to the decoding process, limiting their applicability in real-world settings. One illustrative example is the use of LLMs by dishonest reviewers in the context of academic peer review, where conference organizers have no access to the model used but still need to detect AI-generated reviews. Motivated by this gap, we introduce In-Context Watermarking (ICW), which embeds watermarks into generated text solely through prompt engineering, leveraging LLMs’ in-context learning and instruction-following abilities. We investigate four ICW strategies at different levels of granularity, each paired with a tailored detection method. We further examine the Indirect Prompt Injection (IPI) setting as a specific case study, in which watermarking is covertly triggered by modifying input documents such as academic manuscripts. Our experiments validate the feasibility of ICW as a model-agnostic, practical watermarking approach. Moreover, our findings suggest that as LLMs become more capable, ICW offers a promising direction for scalable and accessible content attribution.

arxiv情報

著者 Yepeng Liu,Xuandong Zhao,Christopher Kruegel,Dawn Song,Yuheng Bu
発行日 2025-05-22 17:24:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | In-Context Watermarks for Large Language Models はコメントを受け付けていません

Towards Better Understanding of Program-of-Thought Reasoning in Cross-Lingual and Multilingual Environments

要約

大規模な言語モデル(LLM)にはマルチステップの推論が不可欠ですが、多言語のパフォーマンスは依然として困難です。
チェーンオブシューター(COT)が推論を改善する一方で、推論と実行の絡み合いにより英語以外の言語に苦労しています。
プログラムの考え方(POT)は、推論を実行から分離し、有望な代替手段を提供しますが、英語以外の質問からプログラムを生成するための課題をシフトします。
多言語の推論をコード実行から分離することにより、ポットを評価するフレームワークを提案します。
私たちの調査結果は、ポットの微調整が多言語の推論を大幅に強化することを示しています。
さらに、推論の品質(コードの品質を通じて測定)と回答の精度との強い相関関係を示し、テスト時間のパフォーマンス改善ヒューリスティックとしての可能性を強調します。

要約(オリジナル)

Multi-step reasoning is essential for large language models (LLMs), yet multilingual performance remains challenging. While Chain-of-Thought (CoT) prompting improves reasoning, it struggles with non-English languages due to the entanglement of reasoning and execution. Program-of-Thought (PoT) prompting separates reasoning from execution, offering a promising alternative but shifting the challenge to generating programs from non-English questions. We propose a framework to evaluate PoT by separating multilingual reasoning from code execution to examine (i) the impact of fine-tuning on question-reasoning alignment and (ii) how reasoning quality affects answer correctness. Our findings demonstrate that PoT fine-tuning substantially enhances multilingual reasoning, outperforming CoT fine-tuned models. We further demonstrate a strong correlation between reasoning quality (measured through code quality) and answer accuracy, highlighting its potential as a test-time performance improvement heuristic.

arxiv情報

著者 Patomporn Payoungkhamdee,Pume Tuchinda,Jinheon Baek,Samuel Cahyawijaya,Can Udomcharoenchaikit,Potsawee Manakul,Peerat Limkonchotiwat,Ekapol Chuangsuwanich,Sarana Nutanong
発行日 2025-05-22 17:29:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Towards Better Understanding of Program-of-Thought Reasoning in Cross-Lingual and Multilingual Environments はコメントを受け付けていません

On Multilingual Encoder Language Model Compression for Low-Resource Languages

要約

このホワイトペーパーでは、低リソース言語向けの多言語エンコーダーのみの言語モデルのために、2段階の知識蒸留、構造化された剪定、切り捨て、および語彙トリミングを組み合わせています。
私たちの斬新なアプローチは、既存の技術を体系的に組み合わせて、それらを極端に減らし、層の深さ、フィードフォワードの隠されたサイズ、および中間層の埋め込みサイズを縮小し、重要な言語固有の知識を保持しながら、かなり小さな単一言語モデルを作成します。
3つの低リソース言語にわたって、センチメント分析、トピック分類、エンティティ認識、およびスピーチの一部のタグ付けなど、4つの下流タスクで2〜10%のわずかなパフォーマンス低下のみで、最大92%の圧縮率を達成します。
特に、パフォーマンスの劣化は、教師モデルの言語固有のデータの量と相関しており、データセットが大きくなるとパフォーマンスの損失が少なくなります。
さらに、これらの手法を使用して多言語モデル圧縮のベストプラクティスを特定するために、広範なアブレーション研究を実施します。

要約(オリジナル)

In this paper, we combine two-step knowledge distillation, structured pruning, truncation, and vocabulary trimming for extremely compressing multilingual encoder-only language models for low-resource languages. Our novel approach systematically combines existing techniques and takes them to the extreme, reducing layer depth, feed-forward hidden size, and intermediate layer embedding size to create significantly smaller monolingual models while retaining essential language-specific knowledge. We achieve compression rates of up to 92% with only a marginal performance drop of 2-10% in four downstream tasks, including sentiment analysis, topic classification, named entity recognition, and part-of-speech tagging, across three low-resource languages. Notably, the performance degradation correlates with the amount of language-specific data in the teacher model, with larger datasets resulting in smaller performance losses. Additionally, we conduct extensive ablation studies to identify best practices for multilingual model compression using these techniques.

arxiv情報

著者 Daniil Gurgurov,Michal Gregor,Josef van Genabith,Simon Ostermann
発行日 2025-05-22 17:35:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | On Multilingual Encoder Language Model Compression for Low-Resource Languages はコメントを受け付けていません

Diverse Preference Optimization

要約

補強学習、好みの最適化、または監視された微調整のいずれかを通じて、言語モデルの訓練後のトレーニングは、出力確率分布を研ぎ澄まし、生成された応答の多様性を減らす傾向があります。
これは、さまざまな応答が望まれる創造的な生成タスクにとって特に問題です。
この作業では、世代の品質を維持しながら、標準のパイプラインよりもはるかに多様な応答を生成することを学習する最適化方法である多様な優先最適化(DIVPO)を紹介します。
DivPoでは、最初に応答のプールとそれらの多様性の尺度を考慮し、選択した例をよりまれであるが高品質であると選択することにより、優先ペアが選択されますが、拒否された例はより一般的ですが、低品質です。
Divpoは、45.6%の多様なペルソナ属性を生成し、ストーリーの多様性が74.6%増加し、標準的なベースラインと同様の勝利を維持します。
次の一般的な指示では、Divpoは多様性が46.2%増加し、DPOと比較して2.4%のwinrate改善がもたらされます。

要約(オリジナル)

Post-training of language models, either through reinforcement learning, preference optimization or supervised finetuning, tends to sharpen the output probability distribution and reduce the diversity of generated responses. This is particularly a problem for creative generative tasks where varied responses are desired. In this work we introduce Diverse Preference Optimization (DivPO), an optimization method which learns to generate much more diverse responses than standard pipelines, while maintaining the quality of the generations. In DivPO, preference pairs are selected by first considering a pool of responses, and a measure of diversity among them, and selecting chosen examples as being more rare but high quality, while rejected examples are more common, but low quality. DivPO results in generating 45.6% more diverse persona attributes, and a 74.6% increase in story diversity, while maintaining similar win rates as standard baselines. On general instruction following, DivPO results in a 46.2% increase in diversity, and a 2.4% winrate improvement compared to DPO.

arxiv情報

著者 Jack Lanchantin,Angelica Chen,Shehzaad Dhuliawala,Ping Yu,Jason Weston,Sainbayar Sukhbaatar,Ilia Kulikov
発行日 2025-05-22 17:50:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Diverse Preference Optimization はコメントを受け付けていません

From Tens of Hours to Tens of Thousands: Scaling Back-Translation for Speech Recognition

要約

自動音声認識(ASR)の最近の進歩は、大規模な音声コーパスによって大きく促進されています。
ただし、リソースが限られている多様な言語にカバレッジを拡張することは、恐ろしい課題のままです。
このペーパーでは、大規模なテキストコーパスを既製のテキストからスピーチ(TTS)モデルを介して合成音声に変換することにより、多言語ASRモデルを改善するスケーラブルなパイプラインである音声逆翻訳を紹介します。
数十時間の実際の転写された音声は、高品質を維持しながら、元のボリュームの数百倍の合成音声を生成するためにTTSモデルを効果的にトレーニングできることを実証します。
合成音声品質を評価するために、わかりやすさベースの評価フレームワークを開発し、合成データがASRトレーニングに役立つ場合の明確なしきい値を確立します。
音声逆翻訳を使用して、10言語で500,000時間以上の合成音声を生成し、トレーニング前のささやき声-V3を継続し、30 \%を超える平均転写誤差削減を達成します。
これらの結果は、多言語ASRシステムを強化するための音声逆翻訳のスケーラビリティと有効性を強調しています。

要約(オリジナル)

Recent advances in Automatic Speech Recognition (ASR) have been largely fueled by massive speech corpora. However, extending coverage to diverse languages with limited resources remains a formidable challenge. This paper introduces Speech Back-Translation, a scalable pipeline that improves multilingual ASR models by converting large-scale text corpora into synthetic speech via off-the-shelf text-to-speech (TTS) models. We demonstrate that just tens of hours of real transcribed speech can effectively train TTS models to generate synthetic speech at hundreds of times the original volume while maintaining high quality. To evaluate synthetic speech quality, we develop an intelligibility-based assessment framework and establish clear thresholds for when synthetic data benefits ASR training. Using Speech Back-Translation, we generate more than 500,000 hours of synthetic speech in ten languages and continue pre-training Whisper-large-v3, achieving average transcription error reductions of over 30\%. These results highlight the scalability and effectiveness of Speech Back-Translation for enhancing multilingual ASR systems.

arxiv情報

著者 Tianduo Wang,Lu Xu,Wei Lu,Shanbo Cheng
発行日 2025-05-22 17:51:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | From Tens of Hours to Tens of Thousands: Scaling Back-Translation for Speech Recognition はコメントを受け付けていません

VeriFastScore: Speeding up long-form factuality evaluation

要約

長い形式の事実を評価するFactScoreやVeriscoreなどのメトリックは、入力応答を原子クレームに分解し、各クレームを個別に検証することにより機能します。
効果的で解釈可能ですが、これらの方法は多数のLLMコールを負い、100秒以上かかることがあります。単一の応答を評価し、大規模な評価とトレーニングシナリオの実用性を制限します。
これに対処するために、Googleの検索からの証拠に基づいて特定のテキスト内のすべての検証可能なクレームを同時に抽出および検証するために、合成データを微調整するために合成データを活用するVerifastScoreを提案します。
このタスクは、その複雑さのために閉じたLLMSで数ショットのプロンプトを使用して解決できないことを示します。モデルは平均して〜4Kの証拠を受け取り、クレームを同時に分解し、検証可能性を判断し、騒々しい証拠に対して検証する必要があります。
ただし、微調整されたVerifastScoreモデルは、Veriscore上の6.6倍(エビデンス回収を除く9.9x)の全体的なスピードアップを達成しながら、例レベル(r = 0.80)とシステムレベル(r = 0.94)の両方で、元のVeriscoreパイプラインと強い相関関係を示しています。
将来の事実研究を促進するために、VerifastScoreモデルと合成データセットを公開します。

要約(オリジナル)

Metrics like FactScore and VeriScore that evaluate long-form factuality operate by decomposing an input response into atomic claims and then individually verifying each claim. While effective and interpretable, these methods incur numerous LLM calls and can take upwards of 100 seconds to evaluate a single response, limiting their practicality in large-scale evaluation and training scenarios. To address this, we propose VeriFastScore, which leverages synthetic data to fine-tune Llama3.1 8B for simultaneously extracting and verifying all verifiable claims within a given text based on evidence from Google Search. We show that this task cannot be solved via few-shot prompting with closed LLMs due to its complexity: the model receives ~4K tokens of evidence on average and needs to concurrently decompose claims, judge their verifiability, and verify them against noisy evidence. However, our fine-tuned VeriFastScore model demonstrates strong correlation with the original VeriScore pipeline at both the example level (r=0.80) and system level (r=0.94) while achieving an overall speedup of 6.6x (9.9x excluding evidence retrieval) over VeriScore. To facilitate future factuality research, we publicly release our VeriFastScore model and synthetic datasets.

arxiv情報

著者 Rishanth Rajendhran,Amir Zadeh,Matthew Sarte,Chuan Li,Mohit Iyyer
発行日 2025-05-22 17:51:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | VeriFastScore: Speeding up long-form factuality evaluation はコメントを受け付けていません

SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development

要約

大規模な言語モデル(LLM)は、多様なソフトウェアエンジニアリングタスクに強い能力を示しています。
コードの完了、バグの修正、およびドキュメント生成。
ただし、大規模な既存のコードベースの新しい機能の開発を伴う非常に一般的な現実世界のタスクである機能駆動型開発(FDD)は、採用されていないままです。
したがって、実際の特徴開発タスクで自律的なコーディングシステムを評価およびトレーニングするために設計された最初の大規模なデータセット(14,000のトレーニングと500のテストサンプルを備えた)であるSWE-DEVを紹介します。
検証可能で多様なトレーニングを確保するために、SWE-DEVはすべてのインスタンスに実行可能な環境とその開発者が執筆した実行可能ユニットテストをユニークに提供します。
このコレクションは、監視付き微調整(SFT)の高品質データを提供するだけでなく、実行可能な単体テストから正確な報酬信号を提供することにより、強化学習(RL)を可能にします。
17のチャットボットLLMS、10の推論モデル、および10のマルチエージェントシステム(MAS)をカバーするSWE-DEVに関する広範な評価は、FDDが現在のAIにとって非常に挑戦的なフロンティアであることを明らかにしています(たとえば、Claude-3.7-Sonnetは、ハードテスト分割で22.45 \%パス@3を達成します)。
重要なことに、SWE-DEVがモデル改善の効果的なプラットフォームとして機能することを実証します。トレーニングセットでの微調整により、\ textIT {hard}のGPT-4oに匹敵する7bモデルが可能になり、高品質のトレーニングデータの値を強調します。
コードはここで入手できます\ href {https://github.com/justlittlewhite/swe-dev} {https://github.com/justlittlewhite/swe-dev}。

要約(オリジナル)

Large Language Models (LLMs) have shown strong capability in diverse software engineering tasks, e.g. code completion, bug fixing, and document generation. However, feature-driven development (FDD), a highly prevalent real-world task that involves developing new functionalities for large, existing codebases, remains underexplored. We therefore introduce SWE-Dev, the first large-scale dataset (with 14,000 training and 500 test samples) designed to evaluate and train autonomous coding systems on real-world feature development tasks. To ensure verifiable and diverse training, SWE-Dev uniquely provides all instances with a runnable environment and its developer-authored executable unit tests. This collection not only provides high-quality data for Supervised Fine-Tuning (SFT), but also enables Reinforcement Learning (RL) by delivering accurate reward signals from executable unit tests. Our extensive evaluations on SWE-Dev, covering 17 chatbot LLMs, 10 reasoning models, and 10 Multi-Agent Systems (MAS), reveal that FDD is a profoundly challenging frontier for current AI (e.g., Claude-3.7-Sonnet achieves only 22.45\% Pass@3 on the hard test split). Crucially, we demonstrate that SWE-Dev serves as an effective platform for model improvement: fine-tuning on training set enabled a 7B model comparable to GPT-4o on \textit{hard} split, underscoring the value of its high-quality training data. Code is available here \href{https://github.com/justLittleWhite/SWE-Dev}{https://github.com/justLittleWhite/SWE-Dev}.

arxiv情報

著者 Yaxin Du,Yuzhu Cai,Yifan Zhou,Cheng Wang,Yu Qian,Xianghe Pang,Qian Liu,Yue Hu,Siheng Chen
発行日 2025-05-22 17:51:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE | SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development はコメントを受け付けていません

LLM as Effective Streaming Processor: Bridging Streaming-Batch Mismatches with Group Position Encoding

要約

大規模な言語モデル(LLM)は、主にバッチ処理用に設計されています。
LLMをストリーミングに適応させるための既存の方法は、スケーラビリティが限られている高価な再エンコードまたは特殊なアーキテクチャのいずれかに依存しています。
この作業は、バッチ指向のLLMをストリーミングに適応させる際の3つの重要なミスマッチを特定します:(1)入力アテンション、(2)出力 – アテナンス、および(3)位置IDミスマッチ。
後者の2つの不一致には頻繁な再エンコードが必要であると一般に想定されていますが、私たちの分析では、入力と出力のミスマッチのみがパフォーマンスに大きな影響を与えることが明らかになり、再エンコードの出力がほとんど不要であることが示されています。
共通の仮定でこの矛盾をよりよく理解するために、ストリーミングにおけるLLMSに対する位置エンコーディングの影響に関する最初の包括的な分析を提供し、ソースおよびターゲットコンテキスト内で相対位置を保存することが絶対順序を維持するよりも重要であることを示します。
上記の分析に動機付けられて、バッチアーキテクチャ上に構築されたパラダイムをコードするグループ位置を導入して、ストリーミングモードとバッチモードの一貫性を高めます。
言語間タスクとクロスモーダルタスクに関する広範な実験は、私たちの方法が既存のアプローチよりも優れていることを示しています。
私たちの方法では、アーキテクチャの変更は必要ありません。ストリーミングモードとバッチモードの両方で強力な一般化を示します。
このコードは、リポジトリhttps://github.com/eit-nlp/streamingllmで入手できます。

要約(オリジナル)

Large Language Models (LLMs) are primarily designed for batch processing. Existing methods for adapting LLMs to streaming rely either on expensive re-encoding or specialized architectures with limited scalability. This work identifies three key mismatches in adapting batch-oriented LLMs to streaming: (1) input-attention, (2) output-attention, and (3) position-ID mismatches. While it is commonly assumed that the latter two mismatches require frequent re-encoding, our analysis reveals that only the input-attention mismatch significantly impacts performance, indicating re-encoding outputs is largely unnecessary. To better understand this discrepancy with the common assumption, we provide the first comprehensive analysis of the impact of position encoding on LLMs in streaming, showing that preserving relative positions within source and target contexts is more critical than maintaining absolute order. Motivated by the above analysis, we introduce a group position encoding paradigm built on batch architectures to enhance consistency between streaming and batch modes. Extensive experiments on cross-lingual and cross-modal tasks demonstrate that our method outperforms existing approaches. Our method requires no architectural modifications, exhibits strong generalization in both streaming and batch modes. The code is available at repository https://github.com/EIT-NLP/StreamingLLM.

arxiv情報

著者 Junlong Tong,Jinlan Fu,Zixuan Lin,Yingqi Fan,Anhao Zhao,Hui Su,Xiaoyu Shen
発行日 2025-05-22 17:53:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LLM as Effective Streaming Processor: Bridging Streaming-Batch Mismatches with Group Position Encoding はコメントを受け付けていません

UFT: Unifying Supervised and Reinforcement Fine-Tuning

要約

トレーニング後は、大規模な言語モデル(LLM)の推論能力を高める上でその重要性を示しています。
主要なトレーニング後の方法は、監視付き微調整(SFT)および補強微調整(RFT)に分類できます。
SFTは効率的であり、小言語モデルには適していますが、大規模なモデルの推論能力を過剰装着し、制限する可能性があります。
対照的に、RFTは一般により良い一般化をもたらしますが、基本モデルの強度に大きく依存します。
SFTとRFTの制限に対処するために、SFTとRFTを単一の統合プロセスに統合する新しいトレーニング後のパラダイムである統一された微調整(UFT)を提案します。
UFTにより、モデルは有益な監督シグナルを組み込み、既存の方法の根底にある思考のギャップを埋めながら、ソリューションを効果的に探索できます。
特に、UFTは、モデルサイズに関係なく、一般にSFTとRFTの両方を上回ることです。
さらに、UFTがRFTの固有の指数関数的なサンプルの複雑さのボトルネックを破ることを理論的に証明し、統一されたトレーニングが長期の推論のタスクの収束を指数関数的に加速できることを初めて示します。

要約(オリジナル)

Post-training has demonstrated its importance in enhancing the reasoning capabilities of large language models (LLMs). The primary post-training methods can be categorized into supervised fine-tuning (SFT) and reinforcement fine-tuning (RFT). SFT is efficient and well-suited for small language models, but it may lead to overfitting and limit the reasoning abilities of larger models. In contrast, RFT generally yields better generalization but depends heavily on the strength of the base model. To address the limitations of SFT and RFT, we propose Unified Fine-Tuning (UFT), a novel post-training paradigm that unifies SFT and RFT into a single, integrated process. UFT enables the model to effectively explore solutions while incorporating informative supervision signals, bridging the gap between memorizing and thinking underlying existing methods. Notably, UFT outperforms both SFT and RFT in general, regardless of model sizes. Furthermore, we theoretically prove that UFT breaks RFT’s inherent exponential sample complexity bottleneck, showing for the first time that unified training can exponentially accelerate convergence on long-horizon reasoning tasks.

arxiv情報

著者 Mingyang Liu,Gabriele Farina,Asuman Ozdaglar
発行日 2025-05-22 17:53:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | UFT: Unifying Supervised and Reinforcement Fine-Tuning はコメントを受け付けていません