要約
大規模な言語モデル(LLM)は大きな進歩を達成していますが、タスクの複雑さとより高いパフォーマンス需要は、継続的な改善の必要性を強調しています。
いくつかのアプローチでは、評価結果に基づいて高度なLLMによって生成された合成データを使用してモデルを訓練します。
ただし、従来の評価方法は、LLMの詳細で細粒のプロファイルを提供することができず、データ統合のガイダンスが制限されています。
この論文では、認知診断合成(CDS)法を紹介します。これには、認知診断理論(CDT)に触発された診断プロセスが組み込まれ、評価結果を改良し、知識コンポーネントレベルでモデルプロファイルを特徴付けます。
これらの診断に基づいて、脱力感のあるデータ統合のための2つの診断合成戦略を提案します。
さらに、合成データの品質と多様性を改善するために、強化されたデータ増強と選択パイプラインを提示します。
いくつかのオープンソースモデルを使用した実験では、複数のベンチマークにわたって大幅な改善が示されており、コード生成が最大6.00%の改善、数学的推論が13.10%、学術試験で5.43%を達成しています。
コードとデータはGitHubで利用できます。
要約(オリジナル)
Large Language Models (LLMs) have achieved significant advancements, but the increasing complexity of tasks and higher performance demands highlight the need for continuous improvement. Some approaches utilize synthetic data generated by advanced LLMs based on evaluation results to train models. However, conventional evaluation methods fail to provide detailed, fine-grained profiles of LLMs, limiting their guidance for data synthesis. In this paper, we introduce the Cognitive Diagnostic Synthesis (CDS) method, which incorporates a diagnostic process inspired by Cognitive Diagnosis Theory (CDT) to refine evaluation results and characterize model profiles at the knowledge component level. Based on these diagnostics, we propose two diagnosis-synthesis strategies for weakness-targeted data synthesis. Additionally, we present an enhanced data augmentation and selection pipeline to improve the quality and diversity of synthesized data. Our experiments with several open-source models show significant improvements across multiple benchmarks, achieving up to 6.00% improvement in code generation, 13.10% in mathematical reasoning, and 5.43% in academic exams. Code and data are available on GitHub.
arxiv情報
著者 | Haokun Zhao,Jinyi Han,Jiaqing Liang,Yanghua Xiao |
発行日 | 2025-03-05 18:39:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google