Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation

要約

命令チューニングは、入力命令に基づいて適切な出力を提供する大規模言語モデル (LLM) の機能を強化するために登場しました。
ただし、命令チューニング データを収集する既存の方法には、スケーラビリティと手頃な価格の制限があります。
この論文では、命令チューニング データ キュレーションのための動的な成長パラダイムである Dynosaur を提案します。
既存の NLP データセットのメタデータに基づいて、さまざまな NLP データセットに適用できる複数のタスク命令を生成し、LLM を使用して命令チューニング データを構築するための関連データ フィールドを決定します。
Dynosaur にはいくつかの利点があります。1) 生成コストが低い (800K の命令チューニング データの生成に 12 ドル未満)、2) 命令チューニング データの品質が高い (同等のデータ サイズを持つ Super-NI 上の Alpaca および命令 GPT-4 よりも優れたパフォーマンス)
)、3)Huggingface Datasets Platform から新しいデータセットを組み込むことで動的に拡張する機能。
私たちは、増え続ける命令調整データセットを使用した学習へのアプローチとしての継続学習をさらに調査します。
私たちは、リプレイ方法が忘れ物の問題を軽減するだけでなく、目に見えないタスクをよりよく一般化するのに役立つことを実証します。
命令チューニングのための新しい継続的な学習シナリオとして、命令表現に基づいてタスクを選択することは効果的な再生戦略となりえます。
コードとデータは \url{https://github.com/Wadeying9712/Dynosaur} でリリースされています。

要約(オリジナル)

Instruction tuning has emerged to enhance the capabilities of large language models (LLMs) in providing appropriate outputs based on input instructions. However, existing methods for collecting instruction-tuning data suffer from limitations in scalability and affordability. In this paper, we propose Dynosaur, a dynamic growth paradigm for instruction-tuning data curation. Built upon the metadata of existing NLP datasets, we generate multiple task instructions applicable to various NLP datasets and determine the relevant data fields for constructing instruction-tuning data with LLMs. Dynosaur offers several advantages: 1) lower generation costs (less than $12 for generating 800K instruction-tuning data), 2) good quality of instruction-tuning data (better performance than Alpaca and Instruction GPT-4 on Super-NI with comparable data sizes), and 3) the ability to grow dynamically by incorporating new datasets from Huggingface Datasets Platform. We further investigate continual learning as an approach to learning with the ever-growing instruction-tuning dataset. We demonstrate that replay methods not only help mitigate forgetting issues but help generalize to unseen tasks better. As a novel continual learning scenario for instruction tuning, selecting tasks based on instruction representations can be an effective replaying strategy. Code and data are released at \url{https://github.com/WadeYin9712/Dynosaur}.

arxiv情報

著者 Da Yin,Xiao Liu,Fan Yin,Ming Zhong,Hritik Bansal,Jiawei Han,Kai-Wei Chang
発行日 2023-05-23 17:56:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク