要約
命令チューニングは大規模で多様なデータセットから恩恵を受けます。
ただし、このようなデータセットの作成には人間によるラベル付けという高額なコストがかかります。
大規模言語モデル (LLM) によって生成された合成データセットはこの問題を部分的に解決していますが、多くの場合、低品質のデータが含まれています。
効果的な解決策の 1 つは、特にラベルのない命令やテキストをさまざまなソースから取得するのが比較的簡単であることを考慮すると、ラベルのない命令に選択的に注釈を付けることです。
ただし、特に LLM のコンテキストでは、ラベルのない命令を選択する方法は十分に検討されていません。
したがって、LLM の機能を活用してラベルのない命令をより効果的に選択する代替フレームワークである SelectLLM を紹介します。
具体的には、SelectLLM は 2 つの主要なステップで構成されています。多様性を拡大するためのラベルなし命令のコアセット ベースのクラスタリングと、各クラスター内で最も有益な命令を特定するよう LLM に促すことです。
私たちは AlpacaEval2 と MT-Bench で SelectLLM を評価し、Alpagasus のような最先端の手法を上回るパフォーマンスを発揮する能力を実証しました。
さらに、SelectLLM のパフォーマンスと互換性を、ChatGPT、LLaMA-3.1-70B、Gemma-2-27b などのさまざまな LLM と比較します。
SelectLLM の適応性と堅牢性は、人間のデータセットと合成データセットの両方にわたって高いパフォーマンスを維持する能力によってさらに証明されます。
すべてのコードとデータは公開されています (https://github.com/minnesotanlp/select-llm)。
要約(オリジナル)
Instruction tuning benefits from large and diverse datasets; however, creating such datasets involves a high cost of human labeling. While synthetic datasets generated by large language models (LLMs) have partly solved this issue, they often contain low-quality data. One effective solution is selectively annotating unlabelled instructions, especially given the relative ease of acquiring unlabeled instructions or texts from various sources. However, how to select unlabelled instructions is not well-explored, especially in the context of LLMs. Therefore, we introduce SelectLLM, an alternative framework that leverages the capabilities of LLMs to select unlabeled instructions more effectively. Specifically, SelectLLM consists of two key steps: Coreset-based clustering of unlabelled instructions for enlarging diversity and prompting of LLM to identify the most beneficial instructions within each cluster. We evaluate SelectLLM on AlpacaEval2 and MT-Bench, demonstrating its ability to outperform state-of-the-art methods like Alpagasus. In addition, we compare the performance and compatibility of SelectLLM with various LLMs, such as ChatGPT, LLaMA-3.1-70B, and Gemma-2-27b. SelectLLM’s adaptability and robustness are further evidenced by its ability to maintain high performance across both human and synthetic datasets. All code and data are publicly available (https://github.com/minnesotanlp/select-llm).
arxiv情報
著者 | Ritik Sachin Parkar,Jaehyung Kim,Jong Inn Park,Dongyeop Kang |
発行日 | 2024-08-27 17:57:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google