Kun: Answer Polishment for Chinese Self-Alignment with Instruction Back-Translation

要約

この論文では、手動のアノテーションに依存せずに大規模言語モデル (LLM) 用の高品質な命令チューニング データセットを作成するための新しいアプローチである Kun を紹介します。
Kun は、命令の逆変換と回答の洗練に基づいた自己トレーニング アルゴリズムを採用し、Wudao、Wanjuan、SkyPile などのさまざまなソースからのラベルなしデータを活用して、100 万を超える中国語の命令データ ポイントからなる実質的なデータセットを生成します。
このアプローチは、自己キュレーション プロセスを使用して最も効果的な命令と出力のペアを洗練および選択することにより、従来の方法から大きく逸脱しています。
さまざまなベンチマークにわたる 6B パラメーター Yi モデルを使用した実験により、Kun の堅牢性とスケーラビリティが実証されました。
私たちの手法の主な貢献は、データの保持と明確性を高めるアルゴリズムの進歩と、コストと時間のかかる手動の注釈への依存を大幅に軽減する革新的なデータ生成アプローチにあります。
この方法論は、LLM の命令追従機能を向上させるためのスケーラブルで効率的なソリューションを提供し、さまざまな分野にわたる LLM のアプリケーションに重大な影響を与えます。
コードとデータセットは https://github.com/Zheng0428/COIG-Kun にあります。

要約(オリジナル)

In this paper, we introduce Kun, a novel approach for creating high-quality instruction-tuning datasets for large language models (LLMs) without relying on manual annotations. Adapting a self-training algorithm based on instruction back-translation and answer polishment, Kun leverages unlabelled data from diverse sources such as Wudao, Wanjuan, and SkyPile to generate a substantial dataset of over a million Chinese instructional data points. This approach significantly deviates from traditional methods by using a self-curation process to refine and select the most effective instruction-output pairs. Our experiments with the 6B-parameter Yi model across various benchmarks demonstrate Kun’s robustness and scalability. Our method’s core contributions lie in its algorithmic advancement, which enhances data retention and clarity, and its innovative data generation approach that substantially reduces the reliance on costly and time-consuming manual annotations. This methodology presents a scalable and efficient solution for improving the instruction-following capabilities of LLMs, with significant implications for their application across diverse fields. The code and dataset can be found at https://github.com/Zheng0428/COIG-Kun

arxiv情報

著者 Tianyu Zheng,Shuyue Guo,Xingwei Qu,Jiawei Guo,Weixu Zhang,Xinrun Du,Chenghua Lin,Wenhao Huang,Wenhu Chen,Jie Fu,Ge Zhang
発行日 2024-01-12 09:56:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク