Prompt Weight Experiments for LLM Instruction Fine-Tuning

要約

プロンプトトークン分類損失重み付け (PLW) が、命令タスクで微調整された 7B サイズ LLaMA モデルのパフォーマンスにどのような影響を与えるかを分析した小規模な研究を紹介します。
複数の命令データセットを使用して、LLaMA 1 と LLaMA 2 の両方でスタンフォード大学の Alpaca 実験を再現しました。
完了の短いデータセットで微調整されたモデルは PLW と負の二次関係がある一方、完了の長いデータセットで微調整されたモデルは PLW の影響を受けないことがわかりました。

要約(オリジナル)

We present a small study analyzing how prompt token classification loss weighting (PLW) affects the performance of 7B-size LLaMA models fine-tuned on instruction tasks. We recreated Stanford’s Alpaca experiment with both LLaMA 1 and LLaMA 2 using multiple instruction datasets. We found that models fine-tuned on our short-completion dataset have a negative quadratic relationship with PLW while models fine-tuned on long-completion datasets were unaffected by PLW.

arxiv情報

著者 Mathew Huerta-Enochian
発行日 2024-01-24 16:51:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク