Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models

要約

命令チューニングは、大規模言語モデル (LLM) を人間の好みに合わせる上で重要な役割を果たします。
膨大な量のオープンな命令データセットがあるにもかかわらず、既存のすべての命令で LLM を単純にトレーニングすることは、最適かつ実用的ではない可能性があります。
最も有益なデータポイントを特定するために、自然言語処理 (NLP) と深層学習の分野でデータの評価と選択の方法が提案されています。
ただし、命令チューニングの文脈では、どのような種類のデータ評価メトリクスを使用できるか、またそれらを選択メカニズムにどのように統合できるかについての知識には依然としてギャップが存在します。
このギャップを埋めるために、特に LLM の命令チューニングに関するデータの評価と選択に関する既存の文献に関する包括的なレビューを紹介します。
当社では、適用可能なすべての手法を品質ベース、多様性ベース、重要度ベースの手法に系統的に分類し、統一されたきめの細かい分類法を構築しています。
カテゴリごとに、関連する研究の状況を説明するために代表的な手法が詳しく説明されています。
さらに、公式に報告された結果に基づいて最新の手法間の比較が行われ、その限界についての詳細な議論が提供されます。
最後に、未解決の課題を要約し、将来の研究を促進する手段を提案します。
すべての関連コンテンツは https://github.com/yuleiqin/fantastic-data-engineering で入手できます。

要約(オリジナル)

Instruction tuning plays a critical role in aligning large language models (LLMs) with human preference. Despite the vast amount of open instruction datasets, naively training a LLM on all existing instructions may not be optimal and practical. To pinpoint the most beneficial datapoints, data assessment and selection methods have been proposed in the fields of natural language processing (NLP) and deep learning. However, under the context of instruction tuning, there still exists a gap in knowledge on what kind of data evaluation metrics can be employed and how they can be integrated into the selection mechanism. To bridge this gap, we present a comprehensive review on existing literature of data assessment and selection especially for instruction tuning of LLMs. We systematically categorize all applicable methods into quality-based, diversity-based, and importance-based ones where a unified, fine-grained taxonomy is structured. For each category, representative methods are elaborated to describe the landscape of relevant research. In addition, comparison between latest methods is conducted on their officially reported results to provide in-depth discussions on their limitations. Finally, we summarize the open challenges and propose the promosing avenues for future studies. All related contents are available at https://github.com/yuleiqin/fantastic-data-engineering.

arxiv情報

著者 Yulei Qin,Yuncheng Yang,Pengcheng Guo,Gang Li,Hang Shao,Yuchen Shi,Zihan Xu,Yun Gu,Ke Li,Xing Sun
発行日 2024-08-07 06:04:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, eess.SP パーマリンク