要約
基礎言語モデルは、教師あり微調整 (SFT) を通じて命令に従う能力を獲得します。
多様性と複雑さは、成功する SFT データセットの重要な要素と考えられていますが、その定義は依然として不明瞭で、定量的な分析が不足しています。
この研究では、セマンティクスと意図に基づいて SFT データセット内のサンプルにタグを付け、タグに関する命令の多様性と複雑さを定義する、オープンセットのきめ細かいタガーである InsTag を提案します。
包括的なユーザー クエリを記述するために 6.6K のタグを取得します。
次に、一般的なオープンソースの SFT データセットを分析し、データがより多様で複雑になるにつれてモデルの能力が向上することを発見しました。
この観察に基づいて、オープンソースのデータセットから 6K の多様で複雑なサンプルを選択し、InsTag で選択されたデータのモデルを微調整するための、InsTag に基づくデータ セレクターを提案します。
結果として得られるモデル TagLM は、MT-Bench によって評価されたかなり大規模な SFT データに基づくオープンソース モデルよりも優れたパフォーマンスを示し、クエリの多様性と複雑さの重要性を反映しています。
https://github.com/OFA-Sys/InsTag で InsTag をオープンソース化します。
要約(オリジナル)
Foundation language models obtain the instruction-following ability through supervised fine-tuning (SFT). Diversity and complexity are considered critical factors of a successful SFT dataset, while their definitions remain obscure and lack quantitative analyses. In this work, we propose InsTag, an open-set fine-grained tagger, to tag samples within SFT datasets based on semantics and intentions and define instruction diversity and complexity regarding tags. We obtain 6.6K tags to describe comprehensive user queries. Then we analyze popular open-sourced SFT datasets and find that the model ability grows with more diverse and complex data. Based on this observation, we propose a data selector based on InsTag to select 6K diverse and complex samples from open-source datasets and fine-tune models on InsTag-selected data. The resulting models, TagLM, outperform open-source models based on considerably larger SFT data evaluated by MT-Bench, echoing the importance of query diversity and complexity. We open-source InsTag in https://github.com/OFA-Sys/InsTag.
arxiv情報
著者 | Keming Lu,Hongyi Yuan,Zheng Yuan,Runji Lin,Junyang Lin,Chuanqi Tan,Chang Zhou,Jingren Zhou |
発行日 | 2023-08-15 07:37:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google