EducationQ: Evaluating LLMs’ Teaching Capabilities Through Multi-Agent Dialogue Framework

要約

大規模な言語モデル(LLM)はますます教育ツールとして機能していますが、教育能力を評価することは、教師と学生の相互作用のリソース集中的、コンテキスト依存的、方法論的に複雑な性質のために依然として困難です。
教育、学習、評価のための専門的なエージェントを特徴とする、シミュレートされた動的な教育シナリオを通じて教育能力を効率的に評価するマルチエージェントの対話フレームワークであるEducationQを紹介します。
13の分野と10の難易度にまたがる1,498の質問で、主要なAI組織(Openai、Meta、Google、Anthropic、その他)で14のLLMをテストすることにより、教育の効果はモデルスケールまたは一般的な推論能力と直線的に相関していないことが明らかになりました。
この発見は、インタラクティブな教育学よりも知識のリコールを優先する現在の評価の重要なギャップを強調しています。
定量的メトリックと定性分析と専門家のケーススタディを組み合わせた混合メソッド評価は、トップパフォーマンスモデル(例えば、洗練された質問戦略、適応フィードバックメカニズムなど)で採用されている明確な教育的強度を特定します。
人間の専門家の評価は、効果的な教育行動の自動化された定性分析と78%の合意を示し、私たちの方法論を検証します。
EducationQは、LLMS-As-Teachersが単純なスケーリングを超えて専門的な最適化を必要とすることを示しており、次世代の教育的AIが特定の教育的有効性の標的強化を優先することを示唆しています。

要約(オリジナル)

Large language models (LLMs) increasingly serve as educational tools, yet evaluating their teaching capabilities remains challenging due to the resource-intensive, context-dependent, and methodologically complex nature of teacher-student interactions. We introduce EducationQ, a multi-agent dialogue framework that efficiently assesses teaching capabilities through simulated dynamic educational scenarios, featuring specialized agents for teaching, learning, and evaluation. Testing 14 LLMs across major AI Organizations (OpenAI, Meta, Google, Anthropic, and others) on 1,498 questions spanning 13 disciplines and 10 difficulty levels reveals that teaching effectiveness does not correlate linearly with model scale or general reasoning capabilities – with some smaller open-source models outperforming larger commercial counterparts in teaching contexts. This finding highlights a critical gap in current evaluations that prioritize knowledge recall over interactive pedagogy. Our mixed-methods evaluation, combining quantitative metrics with qualitative analysis and expert case studies, identifies distinct pedagogical strengths employed by top-performing models (e.g., sophisticated questioning strategies, adaptive feedback mechanisms). Human expert evaluations show 78% agreement with our automated qualitative analysis of effective teaching behaviors, validating our methodology. EducationQ demonstrates that LLMs-as-teachers require specialized optimization beyond simple scaling, suggesting next-generation educational AI prioritize targeted enhancement of specific pedagogical effectiveness.

arxiv情報

著者 Yao Shi,Rongkeng Liang,Yong Xu
発行日 2025-04-21 07:48:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CL, cs.CY, cs.HC | EducationQ: Evaluating LLMs’ Teaching Capabilities Through Multi-Agent Dialogue Framework はコメントを受け付けていません

Learning to Reason under Off-Policy Guidance

要約

大規模な推論モデル(LRMS)の最近の進歩は、マルチステップ推論や自己反省などの洗練された行動が、単純なルールベースの報酬を使用して、強化学習(RL)を介して出現する可能性があることを示しています。
ただし、既存のゼロRLアプローチは本質的に「オンポリティ」であり、モデル自身の出力に学習を制限し、初期の機能を超えて推論能力を獲得できません。
Luffy(Policy Off Policyガイダンスの下で推論することを学ぶ)を紹介します。
Luffyは、トレーニング中にポリシーオフポリシーのデモとポリシーのロールアウトを組み合わせることにより、模倣と探索のバランスをとります。
特に、混合ポリシートレーニング中の表面的で厳格な模倣を避けるために、正規化された重要性サンプリングを介してポリシーの形成を提案します。
驚くべきことに、Luffyは、6つの数学ベンチマークにわたって+7.0以上の平均ゲインを達成し、分散除外タスクで+6.2ポイント以上の利点を達成しています。
また、特に一般化において、模倣ベースの監視付き微調整(SFT)を大幅に上回ります。
分析によると、Luffyは効果的に模倣するだけでなく、デモンストレーションを超えて探索し、一般化可能な推論モデルをオフポリシーガイダンスでトレーニングするためのスケーラブルなパスを提供します。

要約(オリジナル)

Recent advances in large reasoning models (LRMs) demonstrate that sophisticated behaviors such as multi-step reasoning and self-reflection can emerge via reinforcement learning (RL) with simple rule-based rewards. However, existing zero-RL approaches are inherently “on-policy”, limiting learning to a model’s own outputs and failing to acquire reasoning abilities beyond its initial capabilities. We introduce LUFFY (Learning to reason Under oFF-policY guidance), a framework that augments zero-RL with off-policy reasoning traces. LUFFY dynamically balances imitation and exploration by combining off-policy demonstrations with on-policy rollouts during training. Notably, we propose policy shaping via regularized importance sampling to avoid superficial and rigid imitation during mixed-policy training. Remarkably, LUFFY achieves an over +7.0 average gain across six math benchmarks and an advantage of over +6.2 points in out-of-distribution tasks. It also substantially surpasses imitation-based supervised fine-tuning (SFT), particularly in generalization. Analysis shows LUFFY not only imitates effectively but also explores beyond demonstrations, offering a scalable path to train generalizable reasoning models with off-policy guidance.

arxiv情報

著者 Jianhao Yan,Yafu Li,Zican Hu,Zhi Wang,Ganqu Cui,Xiaoye Qu,Yu Cheng,Yue Zhang
発行日 2025-04-21 08:09:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Learning to Reason under Off-Policy Guidance はコメントを受け付けていません

Speaker Fuzzy Fingerprints: Benchmarking Text-Based Identification in Multiparty Dialogues

要約

音声録音を使用したスピーカーの識別は、一意のアコースティック機能を活用しますが、このアプローチはテキストデータのみが利用可能である場合に失敗します。
テキストのみからスピーカーを識別する問題に取り組むことを試みたアプローチはほとんどなく、既存のアプローチは主に従来の方法に依存しています。
この作業では、テキストベースのスピーカーの識別を改善するために、大規模な事前訓練モデルからのファジーフィンガープリントの使用を調査します。
スピーカー固有のトークンとコンテキスト認識モデリングを統合し、会話のコンテキストが精度を大幅に高め、友人データセットで70.6%、ビッグバン理論データセットで67.7%に達することを示しています。
さらに、ファジーの指紋は、隠されたユニットが少ない完全な微調整パフォーマンスを近似し、解釈可能性を向上させることができることを示しています。
最後に、あいまいな発話を分析し、スピーカーと存在するラインを検出するメカニズムを提案します。
私たちの調査結果は、重要な課題を強調し、テキストベースのスピーカー識別の将来の改善に関する洞察を提供します。

要約(オリジナル)

Speaker identification using voice recordings leverages unique acoustic features, but this approach fails when only textual data is available. Few approaches have attempted to tackle the problem of identifying speakers solely from text, and the existing ones have primarily relied on traditional methods. In this work, we explore the use of fuzzy fingerprints from large pre-trained models to improve text-based speaker identification. We integrate speaker-specific tokens and context-aware modeling, demonstrating that conversational context significantly boosts accuracy, reaching 70.6% on the Friends dataset and 67.7% on the Big Bang Theory dataset. Additionally, we show that fuzzy fingerprints can approximate full fine-tuning performance with fewer hidden units, offering improved interpretability. Finally, we analyze ambiguous utterances and propose a mechanism to detect speaker-agnostic lines. Our findings highlight key challenges and provide insights for future improvements in text-based speaker identification.

arxiv情報

著者 Rui Ribeiro,Luísa Coheur,Joao P. Carvalho
発行日 2025-04-21 08:44:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CL, cs.LG, cs.NE | Speaker Fuzzy Fingerprints: Benchmarking Text-Based Identification in Multiparty Dialogues はコメントを受け付けていません

Evaluating LLMs on Chinese Topic Constructions: A Research Proposal Inspired by Tian et al. (2024)

要約

このペーパーでは、島の制約に対する感受性に焦点を当てた中国のトピック構造に関する大規模な言語モデル(LLM)を評価するためのフレームワークを提案します。
Tian et alからインスピレーションを得る。
(2024)、マンダリン構文のLLMSの文法的知識をテストするための実験設計の概要を説明します。
まだ実験は行われていませんが、この提案は、将来の研究の基盤を提供し、方法論に関するフィードバックを招待することを目的としています。

要約(オリジナル)

This paper proposes a framework for evaluating large language models (LLMs) on Chinese topic constructions, focusing on their sensitivity to island constraints. Drawing inspiration from Tian et al. (2024), we outline an experimental design for testing LLMs’ grammatical knowledge of Mandarin syntax. While no experiments have been conducted yet, this proposal aims to provide a foundation for future studies and invites feedback on the methodology.

arxiv情報

著者 Xiaodong Yang
発行日 2025-04-21 08:56:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Evaluating LLMs on Chinese Topic Constructions: A Research Proposal Inspired by Tian et al. (2024) はコメントを受け付けていません

Efficient Pretraining Length Scaling

要約

大規模な言語モデルの最近の進歩は、トレーニング後の長さのスケーリングの有効性を実証していますが、トレーニング前の可能性は既存のままです。
推論効率を維持しながら、トレーニング前に効率的な長さのスケーリングを可能にする新しいフレームワークである、平行した非表示デコード変圧器(\ textIT {phd}トランスフォーマー)を提示します。
\ textIT {phd} – トランスフォーマーは、元のトークンと非表示のデコードトークンを区別する革新的なKVキャッシュ管理戦略を通じてこれを達成します。
長距離依存性のために元のトークンのKVキャッシュのみを保持し、使用後すぐに隠されたデコードトークンを廃棄することにより、私たちのアプローチは、効果的な長さのスケーリングを可能にしながら、バニラトランスと同じKVキャッシュサイズを維持します。
パフォーマンスをさらに向上させるために、2つの最適化されたバリアントを導入します。\ textit {phd-swa}は、ローカル依存関係を保持するためにスライディングウィンドウの注意を採用し、\ textit {phd-cswa}はチャンクワイズのスライドウィンドウの注意を実現して、充填前の線形成長を排除します。
広範な実験は、複数のベンチマークにわたって一貫した改善を示しています。

要約(オリジナル)

Recent advances in large language models have demonstrated the effectiveness of length scaling during post-training, yet its potential in pre-training remains underexplored. We present the Parallel Hidden Decoding Transformer (\textit{PHD}-Transformer), a novel framework that enables efficient length scaling during pre-training while maintaining inference efficiency. \textit{PHD}-Transformer achieves this through an innovative KV cache management strategy that distinguishes between original tokens and hidden decoding tokens. By retaining only the KV cache of original tokens for long-range dependencies while immediately discarding hidden decoding tokens after use, our approach maintains the same KV cache size as the vanilla transformer while enabling effective length scaling. To further enhance performance, we introduce two optimized variants: \textit{PHD-SWA} employs sliding window attention to preserve local dependencies, while \textit{PHD-CSWA} implements chunk-wise sliding window attention to eliminate linear growth in pre-filling time. Extensive experiments demonstrate consistent improvements across multiple benchmarks.

arxiv情報

著者 Bohong Wu,Shen Yan,Sijun Zhang,Jianqiao Lu,Yutao Zeng,Ya Wang,Xun Zhou
発行日 2025-04-21 09:41:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Efficient Pretraining Length Scaling はコメントを受け付けていません

MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders

要約

大規模な言語モデル(LLMS)の急速な進歩は、自然言語処理能力を大幅に強化し、テキストとともに音声とオーディオの入力を処理および理解するオーディオルムの開発を促進します。
既存のAudiollmsは通常、事前に訓練されたオーディオエンコーダーと事前に訓練されたLLMを組み合わせており、その後特定のオーディオタスクで微調整されます。
ただし、事前に訓練されたオーディオエンコーダーには、新しいタスクとデータセットの機能をキャプチャする能力が制約されています。
これに対処するために、「弱い」エンコーダー(MOWE)の混合物をAudiollmフレームワークに組み込むことを提案します。
Moweは、比較的軽量エンコーダーのプールを備えたベースエンコーダーをサプリメントし、モデルサイズを大幅に増加させることなく、機能抽出を強化するためにオーディオ入力に基づいて選択的にアクティブ化されます。
私たちの経験的結果は、MOWEがマルチタスクのパフォーマンスを効果的に改善し、より多様なオーディオタスクへのAudiollmsの適用性を拡大することを示しています。

要約(オリジナル)

The rapid advancements in large language models (LLMs) have significantly enhanced natural language processing capabilities, facilitating the development of AudioLLMs that process and understand speech and audio inputs alongside text. Existing AudioLLMs typically combine a pre-trained audio encoder with a pre-trained LLM, which are subsequently finetuned on specific audio tasks. However, the pre-trained audio encoder has constrained capacity to capture features for new tasks and datasets. To address this, we propose to incorporate mixtures of `weak’ encoders (MoWE) into the AudioLLM framework. MoWE supplements a base encoder with a pool of relatively light weight encoders, selectively activated based on the audio input to enhance feature extraction without significantly increasing model size. Our empirical results demonstrate that MoWE effectively improves multi-task performance, broadening the applicability of AudioLLMs to more diverse audio tasks.

arxiv情報

著者 Wenyu Zhang,Shuo Sun,Bin Wang,Xunlong Zou,Zhuohan Liu,Yingxu He,Geyu Lin,Nancy F. Chen,Ai Ti Aw
発行日 2025-04-21 09:48:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders はコメントを受け付けていません

Context-Parametric Inversion: Why Instruction Finetuning Can Worsen Context Reliance

要約

大規模な言語モデルを使用する場合の標準的な練習は、ユーザーがモデルを処理するための新しい情報を含む入力コンテキストで指示を補完することです。
ただし、モデルは、特に事前トレーニングからのパラメトリックな知識と競合する場合、入力コンテキストに確実に従うことに苦労しています。
原則としては、特に知識の競合を処理する場合、指導の微調整後、モデルがユーザーコンテキストに適応することが期待されます。
ただし、驚くべき障害モードが観察されます。指導の調整中に、知識の競合に基づくコンテキストの信頼は最初は予想どおり増加しますが、その後、指導の微調整が進むにつれて徐々に減少します。
これは、標準のベンチマークのパフォーマンスがこの低下後にはるかに増加し続けている間に発生します。
この現象のコンテキストパラメトリック反転と呼び、ラマ、ミストラル、ピティアなどのさまざまなモデルファミリにわたって、Tulu、Alpaca、Ultrachatなどの複数の汎用命令チューニングデータセットで観察します。
さまざまな制御された研究と理論分析を実行して、入力コンテキストがモデルのパラメトリック知識と一致する情報を提供する命令微調整データの例により、コンテキストパラメトリックの反転が発生することを示します。
私たちの分析は、限られたが洞察に満ちた利益をもたらすいくつかの自然緩和戦略を示唆しており、授業の微調整におけるこの不足に対処するための有用な出発点として機能します。

要約(オリジナル)

A standard practice when using large language models is for users to supplement their instruction with an input context containing new information for the model to process. However, models struggle to reliably follow the input context, especially when it conflicts with their parametric knowledge from pretraining. In-principle, one would expect models to adapt to the user context better after instruction finetuning, particularly when handling knowledge conflicts. However, we observe a surprising failure mode: during instruction tuning, the context reliance under knowledge conflicts initially increases as expected, but then gradually decreases as instruction finetuning progresses. This happens while the performance on standard benchmarks keeps on increasing far after this drop. We call this phenomenon context-parametric inversion and observe it across multiple general purpose instruction tuning datasets such as TULU, Alpaca and Ultrachat, across different model families like Llama, Mistral, and Pythia. We perform various controlled studies and theoretical analysis to show that context-parametric inversion occurs due to examples in the instruction finetuning data where the input context provides information that aligns with model’s parametric knowledge. Our analysis suggests some natural mitigation strategies with limited but insightful gains, and serves as a useful starting point in addressing this deficiency in instruction finetuning.

arxiv情報

著者 Sachin Goyal,Christina Baek,J. Zico Kolter,Aditi Raghunathan
発行日 2025-04-21 10:19:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Context-Parametric Inversion: Why Instruction Finetuning Can Worsen Context Reliance はコメントを受け付けていません

Stay Hungry, Stay Foolish: On the Extended Reading Articles Generation with LLMs

要約

教育資料を作成するプロセスは、教育者にとって時間がかかり、厳しいものです。
この研究では、拡張された読み物の生成と関連するコースの提案を自動化することにより、このタスクを合理化する大規模な言語モデル(LLM)の可能性を調査します。
TED-ed Dig Deeperセクションを初期探索として使用して、補足記事を文脈的知識を豊かにし、追加の学習リソースに接続する方法を調査します。
私たちの方法は、ビデオトランスクリプトから拡張された記事を生成し、LLMを活用して歴史的な洞察、文化的例、および例示的な逸話を含めることから始めます。
セマンティックな類似性ランキングを採用する推奨システムは、関連するコースを特定し、その後、LLMベースの改良プロセスが続き、関連性を高めます。
最後の記事は、これらの推奨事項をシームレスに統合するように調整されており、それらがまとまって有益なままであることを保証します。
実験的評価は、当社のモデルが高品質のコンテンツと正確なコースの提案を生成し、ヒット率、セマンティックな類似性、コヒーレンスなどのメトリックを通じて評価されることを示しています。
私たちの実験分析は、生成された素材と既存の資料の微妙な違いを強調し、より魅力的でアクセスしやすい学習体験を提供するモデルの能力を強調しています。
この研究では、LLMがコアコンテンツと補足学習の間のギャップを埋める方法を紹介し、学生に追加の推奨リソースを提供し、教師が教育資料の設計を支援することもできます。

要約(オリジナル)

The process of creating educational materials is both time-consuming and demanding for educators. This research explores the potential of Large Language Models (LLMs) to streamline this task by automating the generation of extended reading materials and relevant course suggestions. Using the TED-Ed Dig Deeper sections as an initial exploration, we investigate how supplementary articles can be enriched with contextual knowledge and connected to additional learning resources. Our method begins by generating extended articles from video transcripts, leveraging LLMs to include historical insights, cultural examples, and illustrative anecdotes. A recommendation system employing semantic similarity ranking identifies related courses, followed by an LLM-based refinement process to enhance relevance. The final articles are tailored to seamlessly integrate these recommendations, ensuring they remain cohesive and informative. Experimental evaluations demonstrate that our model produces high-quality content and accurate course suggestions, assessed through metrics such as Hit Rate, semantic similarity, and coherence. Our experimental analysis highlight the nuanced differences between the generated and existing materials, underscoring the model’s capacity to offer more engaging and accessible learning experiences. This study showcases how LLMs can bridge the gap between core content and supplementary learning, providing students with additional recommended resources while also assisting teachers in designing educational materials.

arxiv情報

著者 Yow-Fu Liou,Yu-Chien Tang,An-Zi Yen
発行日 2025-04-21 10:35:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Stay Hungry, Stay Foolish: On the Extended Reading Articles Generation with LLMs はコメントを受け付けていません

LLMs as Data Annotators: How Close Are We to Human Performance

要約

NLPでは、微調整LLMはさまざまなアプリケーションに効果的ですが、高品質の注釈付きデータが必要です。
ただし、データの手動注釈は労働集約的で、時間がかかり、費用がかかります。
したがって、LLMはプロセスを自動化するためにますます使用され、多くの場合、タスクに関連するいくつかの例がプロンプトに与えられてパフォーマンスを向上させることができます。
ただし、コンテキストの例を手動で選択すると、非効率性と最適ではないモデルのパフォーマンスが発生する可能性があります。
このペーパーでは、指定されたエンティティ認識(NER)タスクのさまざまなデータセットにわたって、さまざまな埋め込みモデルを考慮して、いくつかのLLMを比較した包括的な実験を紹介します。
この評価には、独自モデルと非専用モデルの両方を含む、約7ドルの$ 7および$ 70 $ Bパラメーターのモデルが含まれます。
さらに、検索された生成(RAG)の成功を活用して、コンテキストの例を自動的に取得してパフォーマンスを向上させることにより、ICLの制限に対処する方法も考慮します。
結果は、適切なLLMと埋め込みモデルを選択し、LLMサイズと望ましいパフォーマンスの間のトレードオフを理解すること、およびより挑戦的なデータセットに研究努力を向ける必要性を強調しています。

要約(オリジナル)

In NLP, fine-tuning LLMs is effective for various applications but requires high-quality annotated data. However, manual annotation of data is labor-intensive, time-consuming, and costly. Therefore, LLMs are increasingly used to automate the process, often employing in-context learning (ICL) in which some examples related to the task are given in the prompt for better performance. However, manually selecting context examples can lead to inefficiencies and suboptimal model performance. This paper presents comprehensive experiments comparing several LLMs, considering different embedding models, across various datasets for the Named Entity Recognition (NER) task. The evaluation encompasses models with approximately $7$B and $70$B parameters, including both proprietary and non-proprietary models. Furthermore, leveraging the success of Retrieval-Augmented Generation (RAG), it also considers a method that addresses the limitations of ICL by automatically retrieving contextual examples, thereby enhancing performance. The results highlight the importance of selecting the appropriate LLM and embedding model, understanding the trade-offs between LLM sizes and desired performance, and the necessity to direct research efforts towards more challenging datasets.

arxiv情報

著者 Muhammad Uzair Ul Haq,Davide Rigoni,Alessandro Sperduti
発行日 2025-04-21 11:11:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LLMs as Data Annotators: How Close Are We to Human Performance はコメントを受け付けていません

DistilQwen2.5: Industrial Practices of Training Distilled Open Lightweight Language Models

要約

大規模な言語モデル(LLM)の計算効率を高め、展開コストを削減することは、さまざまなリソース制約のシナリオで重要な課題になりました。
この作業では、パブリックQWEN2.5モデルから派生した蒸留された軽量LLMのファミリーであるDistilQwen2.5を提示します。
これらの蒸留モデルは、はるかに大きなLLMSからの知識を組み込んだ一連の蒸留技術に基づいて、元のモデルと比較して、指導中の能力が強化されています。
産業慣行では、マルチエージェントの教師としてさまざまな能力を備えた強力な独自のLLMを、学生LLMが学習するのに適した指導応答ペアを選択、書き直し、洗練するための強力な独自のLLMを活用します。
標準的な微調整の後、学生モデルが微調整された隠された知識を教師から徐々に統合できるようにする計算効率の良いモデル融合アプローチをさらに活用します。
実験的評価は、蒸留モデルが元のチェックポイントよりも大幅に強力な能力を持っていることを示しています。
さらに、実際のシナリオでフレームワークのアプリケーションを説明するためのユースケースを提示します。
実用的な使用を促進するために、すべてのDistilqwen2.5モデルをオープンソースコミュニティにリリースしました。

要約(オリジナル)

Enhancing computational efficiency and reducing deployment costs for large language models (LLMs) have become critical challenges in various resource-constrained scenarios. In this work, we present DistilQwen2.5, a family of distilled, lightweight LLMs derived from the public Qwen2.5 models. These distilled models exhibit enhanced instruction-following capabilities compared to the original models based on a series of distillation techniques that incorporate knowledge from much larger LLMs. In our industrial practice, we first leverage powerful proprietary LLMs with varying capacities as multi-agent teachers to select, rewrite, and refine instruction-response pairs that are more suitable for student LLMs to learn. After standard fine-tuning, we further leverage a computationally efficient model fusion approach that enables student models to progressively integrate fine-grained hidden knowledge from their teachers. Experimental evaluations demonstrate that the distilled models possess significantly stronger capabilities than their original checkpoints. Additionally, we present use cases to illustrate the applications of our framework in real-world scenarios. To facilitate practical use, we have released all the DistilQwen2.5 models to the open-source community.

arxiv情報

著者 Chengyu Wang,Junbing Yan,Yuanhao Yue,Jun Huang
発行日 2025-04-21 11:26:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | DistilQwen2.5: Industrial Practices of Training Distilled Open Lightweight Language Models はコメントを受け付けていません