G-DIG: Towards Gradient-based DIverse and hiGh-quality Instruction Data Selection for Machine Translation

要約

大規模言語モデル (LLM) は、一般的なシナリオで顕著な能力を実証しています。
指示を微調整することで、さまざまなタスクにおいて人間と連携できるようになります。
それにもかかわらず、命令データの多様性と品質は、命令の微調整における 2 つの主な課題のままです。
これに関して、本論文では、機械翻訳用に高品質で多様な命令微調整データを自動的に選択するための新しい勾配ベースの手法を提案します。
私たちの主なイノベーションは、個々のトレーニング サンプルがトレーニング中にモデルにどのような影響を与えるかを分析することに重点を置いています。
具体的には、影響関数と小規模の高品質シード データセットを使用して、モデルに有益な影響を与えるトレーニング サンプルを高品質なものとして選択します。
さらに、トレーニング データの多様性を高めるために、勾配でクラスタリングし、リサンプリングすることで、トレーニング データがモデルに及ぼすさまざまな影響を最大化します。
WMT22 および FLORES 翻訳タスクに関する広範な実験により、私たちの手法の優位性が実証され、詳細な分析により、その有効性と一般化がさらに検証されました。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable abilities in general scenarios. Instruction finetuning empowers them to align with humans in various tasks. Nevertheless, the Diversity and Quality of the instruction data remain two main challenges for instruction finetuning. With regard to this, in this paper, we propose a novel gradient-based method to automatically select high-quality and diverse instruction finetuning data for machine translation. Our key innovation centers around analyzing how individual training examples influence the model during training. Specifically, we select training examples that exert beneficial influences on the model as high-quality ones by means of Influence Function plus a small high-quality seed dataset. Moreover, to enhance the diversity of the training data we maximize the variety of influences they have on the model by clustering on their gradients and resampling. Extensive experiments on WMT22 and FLORES translation tasks demonstrate the superiority of our methods, and in-depth analysis further validates their effectiveness and generalization.

arxiv情報

著者 Xingyuan Pan,Luyang Huang,Liyan Kang,Zhicheng Liu,Yu Lu,Shanbo Cheng
発行日 2024-05-21 16:38:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク