What’s the Difference? Supporting Users in Identifying the Effects of Prompt and Model Changes Through Token Patterns

要約

大規模な言語モデルの迅速なエンジニアリングは挑戦的です。小さな迅速な摂動やモデルの変更でさえ、生成された出力テキストに大きな影響を与える可能性があるためです。
自動化されたメトリックまたは人間の評価のいずれかの既存の評価方法には、限られた洞察を提供したり、労働集約的であるなど、制限があります。
Spotlightを提案します。これは、自動化と人間の分析の両方を組み合わせた新しいアプローチです。
データマイニング手法に基づいて、ランダム(デコード)の変動と言語モデルの出力の系統的な違いを自動的に区別します。
このプロセスは、体系的な違いを説明するトークンパターンを提供し、ユーザーがプロンプトとモデルの変化の効果の効果を手動で分析するように導きます。
3つのベンチマークを作成して、トークンパターン抽出方法の信頼性を定量的にテストし、確立された迅速なデータに関する新しい洞察を提供することを実証します。
人間中心の観点から、実証研究とユーザー調査を通じて、トークンパターンアプローチがユーザーが言語モデルの出力の体系的な違いを理解するのに役立つことを示し、迅速なモデルの変化とモデルの変化(例えば、ジェンダーや文化に関連する)によって引き起こされる関連する違いを発見することができます。

要約(オリジナル)

Prompt engineering for large language models is challenging, as even small prompt perturbations or model changes can significantly impact the generated output texts. Existing evaluation methods, either automated metrics or human evaluation, have limitations, such as providing limited insights or being labor-intensive. We propose Spotlight, a new approach that combines both automation and human analysis. Based on data mining techniques, we automatically distinguish between random (decoding) variations and systematic differences in language model outputs. This process provides token patterns that describe the systematic differences and guide the user in manually analyzing the effects of their prompt and model changes efficiently. We create three benchmarks to quantitatively test the reliability of token pattern extraction methods and demonstrate that our approach provides new insights into established prompt data. From a human-centric perspective, through demonstration studies and a user study, we show that our token pattern approach helps users understand the systematic differences of language model outputs, and we are able to discover relevant differences caused by prompt and model changes (e.g. related to gender or culture), thus supporting the prompt engineering process and human-centric model behavior research.

arxiv情報

著者 Michael A. Hedderich,Anyi Wang,Raoyuan Zhao,Florian Eichin,Barbara Plank
発行日 2025-04-22 11:53:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, cs.LG | What’s the Difference? Supporting Users in Identifying the Effects of Prompt and Model Changes Through Token Patterns はコメントを受け付けていません

Fine-tuning Whisper on Low-Resource Languages for Real-World Applications

要約

このペーパーでは、Swissドイツ語をケーススタディとして使用して、文レベルデータを長型のコーパスに変換する新しいデータ生成方法を導入することにより、低リソース言語のOpenaiのささやきモデルを微調整するための新しいアプローチを提示します。
長期にわたるオーディオのパフォーマンスを改善する可能性のある非センテンスレベルのデータは、取得が困難であり、著作権法によってしばしば制限されています。
私たちのメソッドは、よりアクセスしやすい文レベルのデータを、非センテンスレベルのデータを必要とせずに長期のオーディオを処理し、セグメンテーションを実行するモデルの機能を保持する形式に変換することにより、このギャップを橋渡しします。
データ生成プロセスは、いくつかの現実世界のアプリケーションでのパフォーマンスを改善し、スイスドイツの新しい最先端のスピーチツーテキスト(STT)モデルの開発につながります。
モデルを、ファインチューニングされていないささやきと以前の最先端のドイツのSTTモデルと比較します。ここでは、新しいモデルがより高いBLEUスコアを達成しています。
また、私たちの結果は、提案された方法が、セグメンテーション機能を維持し、高品質の文レベルデータのみを使用してより長いオーディオファイルの転写を可能にする微調整されたウィスパーモデルの作成を可能にする書面によるガイダンスとコードによってサポートされる他の低リソース言語に適応できることを示しています。

要約(オリジナル)

This paper presents a new approach to fine-tuning OpenAI’s Whisper model for low-resource languages by introducing a novel data generation method that converts sentence-level data into a long-form corpus, using Swiss German as a case study. Non-sentence-level data, which could improve the performance of long-form audio, is difficult to obtain and often restricted by copyright laws. Our method bridges this gap by transforming more accessible sentence-level data into a format that preserves the model’s ability to handle long-form audio and perform segmentation without requiring non-sentence-level data. Our data generation process improves performance in several real-world applications and leads to the development of a new state-of-the-art speech-to-text (STT) model for Swiss German. We compare our model with a non-fine-tuned Whisper and our previous state-of-the-art Swiss German STT models, where our new model achieves higher BLEU scores. Our results also indicate that the proposed method is adaptable to other low-resource languages, supported by written guidance and code that allows the creation of fine-tuned Whisper models, which keep segmentation capabilities and allow the transcription of longer audio files using only sentence-level data with high quality.

arxiv情報

著者 Vincenzo Timmel,Claudio Paonessa,Reza Kakooee,Manfred Vogel,Daniel Perruchoud
発行日 2025-04-22 12:09:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | Fine-tuning Whisper on Low-Resource Languages for Real-World Applications はコメントを受け付けていません

Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model

要約

直接選好最適化(DPO)は、明示的な報酬モデルなしで人間の好みを最適化することにより、大規模な言語モデル(LLMS)の人間のフィードバック(RLHF)からの強化学習を簡素化します。
DPOトレーニング中に、参照モデルがデータ重量アジャスターの役割を果たしていることがわかります。
ただし、DPOでポリシーモデルと参照モデルを同じように初期化する一般的な慣行は、非効率的なデータ利用につながり、パフォーマンスの上限を課す可能性があります。
一方、単純な選好最適化(SIMPO)に参照モデルがないため、トレーニングの堅牢性が低下し、壊滅的な忘却を防ぐためにより厳格な条件が必要になります。
この作業では、ガイド参照モデルを活用することにより優先最適化パフォーマンスを向上させるシンプルで効果的なDPOベースのトレーニングパラダイムであるPre-DPOを提案します。
このリファレンスモデルは、トレーニング選好データを通じて達成可能な最適なポリシー状態への視線を提供し、モデルに適したサンプルにより高い重みを適応的に割り当て、より適していないものに減少するサンプルに適応的に割り当てるガイドメカニズムとして機能します。
Alpacaeval 2.0およびArena-Hard V0.1ベンチマークに関する広範な実験は、外部モデルや追加データに依存せずに、Pre-DPOがDPOとSIMPOの両方のパフォーマンスを一貫して改善することを示しています。

要約(オリジナル)

Direct Preference Optimization (DPO) simplifies reinforcement learning from human feedback (RLHF) for large language models (LLMs) by directly optimizing human preferences without an explicit reward model. We find that during DPO training, the reference model plays the role of a data weight adjuster. However, the common practice of initializing the policy and reference models identically in DPO can lead to inefficient data utilization and impose a performance ceiling. Meanwhile, the lack of a reference model in Simple Preference Optimization (SimPO) reduces training robustness and necessitates stricter conditions to prevent catastrophic forgetting. In this work, we propose Pre-DPO, a simple yet effective DPO-based training paradigm that enhances preference optimization performance by leveraging a guiding reference model. This reference model provides foresight into the optimal policy state achievable through the training preference data, serving as a guiding mechanism that adaptively assigns higher weights to samples more suitable for the model and lower weights to those less suitable. Extensive experiments on AlpacaEval 2.0 and Arena-Hard v0.1 benchmarks demonstrate that Pre-DPO consistently improves the performance of both DPO and SimPO, without relying on external models or additional data.

arxiv情報

著者 Junshu Pan,Wei Shen,Shulin Huang,Qiji Zhou,Yue Zhang
発行日 2025-04-22 12:39:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model はコメントを受け付けていません

Exploring Cognitive and Aesthetic Causality for Multimodal Aspect-Based Sentiment Analysis

要約

マルチモーダルアスペクトベースのセンチメント分類(MASC)は、特定のアスペクトターゲット(つまり、テキスト画像ペアで明示的に言及されているエンティティまたは属性)に対する感情の極性を予測することを目的とした、ソーシャルプラットフォーム上のユーザー生成マルチモーダルコンテンツの増加により、新たなタスクです。
既存のMASCの広範な努力と重要な成果にもかかわらず、微細な視覚コンテンツとセマンティックコンテンツと印象(画像コンテンツによって引き起こされる感情の認知的解釈)から導き出された認知的理論的根拠を理解することにかなりのギャップが残っています。
この研究では、キメラを提示します。認知的および審美的な感情因果性理解フレームワークは、側面のきめ細かい全体的な特徴を導き出し、セマンティックな観点と感情的な共鳴(感情的反応と認知的解釈の間の相乗効果)の両方から感情表現の基本的なドライバーを推測します。
具体的には、このフレームワークには、最初にパッチワードアラインメントの視覚的なパッチ機能が組み込まれています。
一方、粗粒の視覚的特徴(たとえば、全体の画像表現)ときめ細かい視覚領域(例:アスペクト関連領域)を抽出し、それらを対応するテキストの説明(例:顔、美学)に変換します。
最後に、大規模な言語モデル(LLM)によって生成された感傷的な原因と印象を活用して、セマンティックコンテンツと感情的認知共鳴によって引き起こされる感傷的なキューに対するモデルの認識を高めます。
標準のMASCデータセットの実験結果は、提案されたモデルの有効性を示しています。これは、GPT-4OなどのLLMと比較してMASCに対してより大きな柔軟性を示します。
https://github.com/xillv/chimeraで完全な実装とデータセットを公開しました

要約(オリジナル)

Multimodal aspect-based sentiment classification (MASC) is an emerging task due to an increase in user-generated multimodal content on social platforms, aimed at predicting sentiment polarity toward specific aspect targets (i.e., entities or attributes explicitly mentioned in text-image pairs). Despite extensive efforts and significant achievements in existing MASC, substantial gaps remain in understanding fine-grained visual content and the cognitive rationales derived from semantic content and impressions (cognitive interpretations of emotions evoked by image content). In this study, we present Chimera: a cognitive and aesthetic sentiment causality understanding framework to derive fine-grained holistic features of aspects and infer the fundamental drivers of sentiment expression from both semantic perspectives and affective-cognitive resonance (the synergistic effect between emotional responses and cognitive interpretations). Specifically, this framework first incorporates visual patch features for patch-word alignment. Meanwhile, it extracts coarse-grained visual features (e.g., overall image representation) and fine-grained visual regions (e.g., aspect-related regions) and translates them into corresponding textual descriptions (e.g., facial, aesthetic). Finally, we leverage the sentimental causes and impressions generated by a large language model (LLM) to enhance the model’s awareness of sentimental cues evoked by semantic content and affective-cognitive resonance. Experimental results on standard MASC datasets demonstrate the effectiveness of the proposed model, which also exhibits greater flexibility to MASC compared to LLMs such as GPT-4o. We have publicly released the complete implementation and dataset at https://github.com/Xillv/Chimera

arxiv情報

著者 Luwei Xiao,Rui Mao,Shuai Zhao,Qika Lin,Yanhao Jia,Liang He,Erik Cambria
発行日 2025-04-22 12:43:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Exploring Cognitive and Aesthetic Causality for Multimodal Aspect-Based Sentiment Analysis はコメントを受け付けていません

Aggregating Soft Labels from Crowd Annotations Improves Uncertainty Estimation Under Distribution Shift

要約

機械学習タスクの効果的なトレーニング信号を選択することは困難です。専門家の注釈は高価であり、クラウドソーシングの注釈は信頼できない場合があります。
最近の研究では、群衆の注釈から得られたラベルを介した分布から学習することが、パフォーマンスと不確実性の推定の両方に効果的であることが実証されています。
ただし、これは主に、ドメイン内の設定で限られたソフトラベルメソッドセットを使用して研究されています。
さらに、タスク全体で一貫してうまく機能する方法はありません。
これらのギャップを埋めるために、このペーパーでは、ドメイン外の設定で群衆のラベルから学習することに関する最初の大規模な実証研究を提供し、4つの言語タスクとビジョンタスクで8つのソフトラベル方法を体系的に分析します。
さらに、タスク全体で一貫したパフォーマンスを達成するために、単純な平均を介してソフトラベルを集約することを提案します。
これにより、ほとんどの設定で予測不確実性の推定が改善された分類器が、個々のソフトラベル付け方法からの学習や注釈の多数決を採用するのと比較して、一貫した生のパフォーマンスを維持しながら、分類器を生成することを実証します。
さらに、トレーニングデータが豊富または最小限のレジームでは、ソフトラベル付け方法の選択はそれほど重要ではありませんが、非常に主観的なラベルと中程度のトレーニングデータでは、集約により個々の方法にわたって不確実性の推定が大幅に改善されることを強調しています。
コードはhttps://github.com/copenlu/aggregating-crowd-annotations-owにあります。

要約(オリジナル)

Selecting an effective training signal for machine learning tasks is difficult: expert annotations are expensive, and crowd-sourced annotations may not be reliable. Recent work has demonstrated that learning from a distribution over labels acquired from crowd annotations can be effective both for performance and uncertainty estimation. However, this has mainly been studied using a limited set of soft-labeling methods in an in-domain setting. Additionally, no one method has been shown to consistently perform well across tasks, making it difficult to know a priori which to choose. To fill these gaps, this paper provides the first large-scale empirical study on learning from crowd labels in the out-of-domain setting, systematically analyzing 8 soft-labeling methods on 4 language and vision tasks. Additionally, we propose to aggregate soft-labels via a simple average in order to achieve consistent performance across tasks. We demonstrate that this yields classifiers with improved predictive uncertainty estimation in most settings while maintaining consistent raw performance compared to learning from individual soft-labeling methods or taking a majority vote of the annotations. We additionally highlight that in regimes with abundant or minimal training data, the selection of soft labeling method is less important, while for highly subjective labels and moderate amounts of training data, aggregation yields significant improvements in uncertainty estimation over individual methods. Code can be found at https://github.com/copenlu/aggregating-crowd-annotations-ood.

arxiv情報

著者 Dustin Wright,Isabelle Augenstein
発行日 2025-04-22 13:00:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Aggregating Soft Labels from Crowd Annotations Improves Uncertainty Estimation Under Distribution Shift はコメントを受け付けていません

SARI: Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning

要約

最近の研究は、Rehnecortion Learning(RL)が、「答える前に考える」ように促すことにより、大規模な言語モデル(LLM)の推論能力を著しく研ぎ澄ますことができることを示しています。
しかし、これらの利益がオーディオ言語の推論に移行するかどうか、どのように移行するかはほとんど未開拓のままです。
グループ相関ポリシー最適化(GRPO)フレームワークをDeepSeek-R1から大規模なオーディオ言語モデル(LALM)に拡張し、32Kサンプル多重選択コーパスを構築します。
構造化された構造化および非構造化されていないチェーンチェーンで監視された2段階のレジメンを使用して、カリキュラム誘導GRPOを使用して、暗黙的と明示的な推論と構造化とフリーフォームの推論を体系的に比較します。
私たちの構造化されたオーディオ推論モデルであるSARI(カリキュラム誘導補強学習による構造化されたオーディオ推論)は、基本モデルQWEN2-Audio-7B-instructで平均精度が16.35%改善されます。
さらに、QWEN2.5-OMNI上に構築されたバリアントは、MMAUテストMINIベンチマークで67.08%の最先端のパフォーマンスに達します。
アブレーション実験は、基本モデルで使用することを示しています。(i)SFTウォームアップは安定したRLトレーニングに重要であり、(ii)構造化されたチェーンが非構造化されたものよりも堅牢な一般化、および(iii)ハードカリキュラムの収束を加速し、最終パフォーマンスを改善することを示しています。
これらの調査結果は、明示的で構造化された推論とカリキュラムの学習が、音声言語の理解を大幅に向上させることを示しています。

要約(オリジナル)

Recent work shows that reinforcement learning(RL) can markedly sharpen the reasoning ability of large language models (LLMs) by prompting them to ‘think before answering.’ Yet whether and how these gains transfer to audio-language reasoning remains largely unexplored. We extend the Group-Relative Policy Optimization (GRPO) framework from DeepSeek-R1 to a Large Audio-Language Model (LALM), and construct a 32k sample multiple-choice corpus. Using a two-stage regimen supervised fine-tuning on structured and unstructured chains-of-thought, followed by curriculum-guided GRPO, we systematically compare implicit vs. explicit, and structured vs. free form reasoning under identical architectures. Our structured audio reasoning model, SARI (Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning), achieves a 16.35% improvement in average accuracy over the base model Qwen2-Audio-7B-Instruct. Furthermore, the variant built upon Qwen2.5-Omni reaches state-of-the-art performance of 67.08% on the MMAU test-mini benchmark. Ablation experiments show that on the base model we use: (i) SFT warm-up is important for stable RL training, (ii) structured chains yield more robust generalization than unstructured ones, and (iii) easy-to-hard curricula accelerate convergence and improve final performance. These findings demonstrate that explicit, structured reasoning and curriculum learning substantially enhances audio-language understanding.

arxiv情報

著者 Cheng Wen,Tingwei Guo,Shuaijiang Zhao,Wei Zou,Xiangang Li
発行日 2025-04-22 13:41:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SARI: Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning はコメントを受け付けていません

On the Low-Rank Parametrization of Reward Models for Controlled Language Generation

要約

大量のデータで訓練された言語モデルは、場合によっては不適切なコンテンツを生成することが知られており、現実の世界で使用するために慎重に調整する必要があります。
外部の専門家モデルがデコードを導くとき、言語モデルの制御性のための効果的でモジュール式アプローチを再検討します。
特に、外部の専門家のパラメータ化選択にズームインし、低ランクと高ランクのパラメーター化の違いを強調します。
高位の専門家は、報酬を表す際に高い柔軟性をサポートするように設計されており、デコード中の計算コストが高くなります。
ただし、完全な柔軟性を使用しない可能性があることを実証しています。
高ランクのエキスパートモデルを使用する最近提案された報酬補助デコードアプローチ(RAD)を分析することにより、高速かつ効果的なガイドデコードを可能にするエキスパートモデルのよりシンプルだが効率的な低ランクのパラメーター化を導入します。
低ランクRADは、解毒とセンチメントコントロールタスクのより柔軟なRADと同等に機能し、生成されたトークンごとに1回の報酬モデルコールのみを必要とすることを経験的に示します。

要約(オリジナル)

Language models trained on large amounts of data are known to produce inappropriate content in some cases and require careful tuning to be used in the real world. We revisit an effective and modular approach for controllability of the language models, when an external expert model guides the decoding. Particularly, we zoom in into the parametrization choice of an external expert, highlighting the difference between low-rank and higher-rank parametrizations. Higher-rank experts are designed to support high flexibility when representing the rewards, leading to higher computational costs during decoding. However, we demonstrate that they might not use their full flexibility. By analyzing the recently proposed reward-augmented decoding approach (RAD), which uses a higher-rank expert model, we introduce a simpler but more efficient low-rank parametrization of the expert model enabling fast and effective guided decoding. We empirically show that the low-rank RAD performs on par with the more flexible RAD on a detoxification and a sentiment control task, while requiring only a single reward model call per generated token.

arxiv情報

著者 Sergey Troshin,Vlad Niculae,Antske Fokkens
発行日 2025-04-22 14:06:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | On the Low-Rank Parametrization of Reward Models for Controlled Language Generation はコメントを受け付けていません

Open-World Evaluation for Retrieving Diverse Perspectives

要約

複雑で論争の多い質問に関するさまざまな視点をカバーする一連のドキュメントの取得を調査します(たとえば、ChatGptは良いよりも害を及ぼすでしょうか?)。
主観的な質問(BERDS)の検索多様性のベンチマークをキュレートします。各例は、質問に関連する質問と多様な視点で構成され、調査の質問と議論のウェブサイトから得られます。
このデータでは、コーパスとペアになったレトリーバーが評価され、多様な視点を含むドキュメントセットを表面化します。
そのドキュメントの関連性のほとんどの検索タスクとのフレーミングは、参照への単純な文字列の一致によって決定することはできません。
代わりに、各取得ドキュメントに視点が含まれているかどうかを決定する言語モデルベースの自動評価者を構築します。
これにより、3つの異なるタイプのコーパス(Wikipedia、Webスナップショット、および検索エンジンから取得したページでその場で構築されたコーパス)のパフォーマンスを評価することができます。
多様なドキュメントを取得することは依然として困難であり、既存のレトリバーからの出力は、例の40%のみですべての視点をカバーしています。
さらに、クエリの拡張と多様性に焦点を当てた再ランキングアプローチの有効性を研究し、レトリーバーのサイコファンシーを分析します。

要約(オリジナル)

We study retrieving a set of documents that covers various perspectives on a complex and contentious question (e.g., will ChatGPT do more harm than good?). We curate a Benchmark for Retrieval Diversity for Subjective questions (BERDS), where each example consists of a question and diverse perspectives associated with the question, sourced from survey questions and debate websites. On this data, retrievers paired with a corpus are evaluated to surface a document set that contains diverse perspectives. Our framing diverges from most retrieval tasks in that document relevancy cannot be decided by simple string matches to references. Instead, we build a language model-based automatic evaluator that decides whether each retrieved document contains a perspective. This allows us to evaluate the performance of three different types of corpus (Wikipedia, web snapshot, and corpus constructed on the fly with retrieved pages from the search engine) paired with retrievers. Retrieving diverse documents remains challenging, with the outputs from existing retrievers covering all perspectives on only 40% of the examples. We further study the effectiveness of query expansion and diversity-focused reranking approaches and analyze retriever sycophancy.

arxiv情報

著者 Hung-Ting Chen,Eunsol Choi
発行日 2025-04-22 14:11:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Open-World Evaluation for Retrieving Diverse Perspectives はコメントを受け付けていません

Optimizing RLHF Training for Large Language Models with Stage Fusion

要約

人間のフィードバック(RLHF)からの補強学習のための段階的融合を備えた効率的なトレーニングシステムであるRLHFUSEを提示します。
RLHFトレーニングの本質的な性質、つまり、生成段階のデータ歪度とトレーニング段階のパイプラインバブルにより、既存のRLHFシステムはGPUの使用率が低いことに苦しんでいます。
RLHFUSEは、RLHFワークフローの従来のビューを個々のタスクの構成として分割し、各タスクをより細かいサブタスクに分割し、GPU使用率を改善するためのステージ融合を実行します。
rlhfuseには2つの重要なアイデアが含まれています。
第一に、生成および推論のタスクについて、RLHFUSEはそれらをサンプルレベルのサブタスクに分割し、効率的なステージ間融合が生成段階と推論段階の実行と重複することを可能にし、したがって、長期尾のあるサンプルが支配する元の生成ボトルネックを軽減します。
第二に、トレーニングタスクの場合、RLHFUSEはそれらをマイクロバッチのサブタスクに分割し、ステージ内融合を実行して、融合パイプラインスケジュールでトレーニング段階でこれらのサブタスクを同時に実行し、パイプラインのバブルを効果的に軽減します。
この実験では、RLHFUSEが既存のシステムと比較して、トレーニングスループットが最大3.7 \ Times $を増加させることを示しています。

要約(オリジナル)

We present RLHFuse, an efficient training system with stage fusion for Reinforcement Learning from Human Feedback (RLHF). Due to the intrinsic nature of RLHF training, i.e., the data skewness in the generation stage and the pipeline bubbles in the training stage, existing RLHF systems suffer from low GPU utilization. RLHFuse breaks the traditional view of RLHF workflow as a composition of individual tasks, splitting each task into finer-grained subtasks, and performing stage fusion to improve GPU utilization. RLHFuse contains two key ideas. First, for generation and inference tasks, RLHFuse splits them into sample-level subtasks, enabling efficient inter-stage fusion to overlap the execution of generation and inference stages, thus mitigating the original generation bottleneck dominated by long-tailed samples. Second, for training tasks, RLHFuse breaks them into subtasks of micro-batches and performs intra-stage fusion to concurrently execute these subtasks in the training stage with a fused pipeline schedule, effectively mitigating the pipeline bubbles. The experiments show that RLHFuse increases the training throughput by up to $3.7\times$, compared to existing systems.

arxiv情報

著者 Yinmin Zhong,Zili Zhang,Bingyang Wu,Shengyu Liu,Yukun Chen,Changyi Wan,Hanpeng Hu,Lei Xia,Ranchen Ming,Yibo Zhu,Xin Jin
発行日 2025-04-22 14:32:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DC, cs.LG | Optimizing RLHF Training for Large Language Models with Stage Fusion はコメントを受け付けていません

SWITCH: Studying with Teacher for Knowledge Distillation of Large Language Models

要約

大規模な言語モデル(LLMS)の成功にもかかわらず、彼らは依然として高い推論コストとメモリの要件に関連する課題に直面しています。
これらの問題に対処するために、知識蒸留(KD)はモデル圧縮の一般的な方法として浮上しており、トレーニングと推論の間の不一致を減らすためにトレーニングデータが特に注目に値するため、学生が生成する出力(SGO)が生成されています。
ただし、SGOはしばしばノイズが多く偏ったシーケンスを生成し、特に長いシーケンスで教師モデルからの誤配置につながる可能性があります。
これらの課題を軽減するために、生徒のシーケンス生成中に教師モデルを戦略的に組み込む新しいアプローチであるスイッチ(知識の蒸留のために教師と一緒に勉強する)を提案します。
Switchは、教師モデルと学生モデルのトークン確率との間の不一致を特定し、特に教師の誤検査を受けやすい長いシーケンスで、教師が選択的に介入できるようにします。
3つのモデルファミリと5つの命令に従うデータセットにわたる広範な実験結果は、スイッチが従来のKDメソッドを上回り、特に長いシーケンシャルデータの生成に優れていることを示しています。

要約(オリジナル)

Despite the success of Large Language Models (LLMs), they still face challenges related to high inference costs and memory requirements. To address these issues, Knowledge Distillation (KD) has emerged as a popular method for model compression, with student-generated outputs (SGOs) as training data being particularly notable for reducing the mismatch between training and inference. However, SGOs often produce noisy and biased sequences, which can lead to misguidance from the teacher model, especially in long sequences. To mitigate these challenges, we propose SWITCH (Studying WIth TeaCHer for Knowledge Distillation), a novel approach that strategically incorporates the teacher model during the student’s sequence generation. SWITCH identifies discrepancies between the token probabilities of the teacher and student models, allowing the teacher to intervene selectively, particularly in long sequences that are more prone to teacher misguidance. Extensive experimental results across three model families and five instruction-following datasets show that SWITCH surpasses traditional KD methods, particularly excelling in the generation of long sequential data.

arxiv情報

著者 Jahyun Koo,Yerin Hwang,Yongil Kim,Taegwan Kang,Hyunkyung Bae,Kyomin Jung
発行日 2025-04-22 14:41:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SWITCH: Studying with Teacher for Knowledge Distillation of Large Language Models はコメントを受け付けていません