Learning from ‘Silly’ Questions Improves Large Language Models, But Only Slightly

要約

高品質の教師あり微調整 (SFT) データセットの構築は、大規模言語モデル (LLM) のトレーニングにとって重要です。
最近の研究では、特定のソースからのデータを使用することで、ユーザーが特定のトピックをよりよく理解するために「愚かな」質問をする中国の Web サイト Ruozhiba からのデータを使用すると、パフォーマンスの微調整が向上する可能性があることが示されています。
この論文は、その成功の潜在的な解釈とパフォーマンスの大規模な評価という、いくつかの隠れた要因を探ることを目的としています。
まず、GPT-4 を活用して Ruozhiba の質問の成功事例を教育、心理学、認知科学の観点から分析し、一連の説明ルールを導き出します。
次に、これらのルールを MMLU トレーニング セットに適用して、微調整データセットを構築します。
驚くべきことに、私たちの結果は、ルールによって特定のタスクではモデルのパフォーマンスが大幅に向上する一方、他のタスクではパフォーマンスが低下する可能性があることを示しています。
たとえば、「反直観的思考」ルールに従って生成された SFT データは、「世界的な事実」タスクで約 5% の改善を達成できますが、「概念の境界をぼかす」ルールでは「計量経済学」タスクで 6.14% のパフォーマンス低下が生じます。
タスク。
さらに、特定のタスクでは、さまざまなルールがモデルのパフォーマンスに一貫した影響を与える傾向があります。
これは、抽出されたルール間の違いはそれほど大きくなく、ルールの有効性がタスク間で比較的一貫していることを示唆しています。
私たちの研究は、より包括的なパフォーマンスの向上を達成するために SFT データセットを構築する際に、タスクの多様性とルールの適用性を考慮することの重要性を強調しています。

要約(オリジナル)

Constructing high-quality Supervised Fine-Tuning (SFT) datasets is critical for the training of large language models (LLMs). Recent studies have shown that using data from a specific source, Ruozhiba, a Chinese website where users ask ‘silly’ questions to better understand certain topics, can lead to better fine-tuning performance. This paper aims to explore some hidden factors: the potential interpretations of its success and a large-scale evaluation of the performance. First, we leverage GPT-4 to analyze the successful cases of Ruozhiba questions from the perspective of education, psychology, and cognitive science, deriving a set of explanatory rules. Then, we construct fine-tuning datasets by applying these rules to the MMLU training set. Surprisingly, our results indicate that rules can significantly improve model performance in certain tasks, while potentially diminishing performance on others. For example, SFT data generated following the ‘Counterintuitive Thinking’ rule can achieve approximately a 5% improvement on the ‘Global Facts’ task, whereas the ‘Blurring the Conceptual Boundaries’ rule leads to a performance drop of 6.14% on the ‘Econometrics’ task. In addition, for specific tasks, different rules tend to have a consistent impact on model performance. This suggests that the differences between the extracted rules are not as significant, and the effectiveness of the rules is relatively consistent across tasks. Our research highlights the importance of considering task diversity and rule applicability when constructing SFT datasets to achieve more comprehensive performance improvements.

arxiv情報

著者 Tingyuan Zhu,Shudong Liu,Yidong Wang,Derek F. Wong,Han Yu,Takahiro Shinozaki,Jindong Wang
発行日 2024-11-21 13:45:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク