要約
LLM 機能を向上させるには、高品質の命令チューニング データが不可欠です。
既存のデータ収集方法は、非現実的な手作業によるラベル付けコストや、LLM 生成のみに依存する幻覚によって制限されています。
この問題に対処するために、この論文では、人間が書いたテキストに基づいてタスクを自動的に設計する言語モデルをトレーニングすることにより、高品質の指導適応データを自動的に収集するスケーラブルな方法を紹介します。
直感的には、人間が書いたテキストは、タスクの生成中にモデルが錯覚を軽減するのに役立ちます。
指定されたテキストを応答として直接受け取る命令逆変換ベースのメソッドとは異なり、ノイズをフィルターするためにモデルが \textit{instruction}、\textit{input}、\textit{output} を同時に生成する必要があります。
自動および手動の評価実験の結果は、データセットの品質を示しています。
要約(オリジナル)
High-quality instruction-tuning data is critical to improving LLM capabilities. Existing data collection methods are limited by unrealistic manual labeling costs or by the hallucination of relying solely on LLM generation. To address the problems, this paper presents a scalable method to automatically collect high-quality instructional adaptation data by training language models to automatically design tasks based on human-written texts. Intuitively, human-written text helps to help the model attenuate illusions during the generation of tasks. Unlike instruction back-translation-based methods that directly take the given text as a response, we require the model to generate the \textit{instruction}, \textit{input}, and \textit{output} simultaneously to filter the noise. The results of the automated and manual evaluation experiments demonstrate the quality of our dataset.
arxiv情報
著者 | Yongrui Chen,Haiyun Jiang,Xinting Huang,Shuming Shi,Guilin Qi |
発行日 | 2023-09-11 13:41:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google