The Poison of Alignment

要約

コンテンツの安全性の問題の観点から、調整により大規模言語モデル (LLM) による有害なコンテンツの生成が制限されることがわかっています。
特定のユーザー入力に応答しないようにモデルを強化するこの意図的な方法は、OpenAssistant や Guanaco などの多くの最新のオープンソース命令チューニング データセットに存在しているようです。
教師あり微調整データセット内のアライメントの存在によって影響を受ける命令調整モデルのパフォーマンスに対する新しい洞察を紹介します。
具体的には、アライメントが命令データセットを汚染しているかのように動作することに気づきました。
私たちは実験的に、ビッグベンチ (BBH)、大規模マルチタスク言語理解 (MMLU)、ヒューマン評価、パラグラフ上の離散推論 (DROP) などのさまざまな推論ベンチマークで、調整された回答が結果として得られる微調整モデルのパフォーマンスを大幅に低下させることを実証しています。
アライメントなしで調整した同等品よりもパフォーマンスが 4 ~ 33% 低下します。

要約(オリジナル)

From the perspective of content safety issues, alignment has shown to limit large language models’ (LLMs) harmful content generation. This intentional method of reinforcing models to not respond to certain user inputs seem to be present in many modern open-source instruction tuning datasets such as OpenAssistant or Guanaco. We introduce a novel insight to an instruction-tuned model’s performance affected by the presence of alignment in supervised fine-tuning dataset. To be specific, we noticed that alignment acts as if it is poisoning the instruction dataset. Experimentally, we demonstrate that aligned answers significantly worsen the performance of the resulting fine-tuned model’s on various reasoning benchmarks such as Big Bench (BBH), Massive Multitask Language Understanding (MMLU), Human Eval, and Discrete Reasoning Over Paragraphs (DROP), performing worse than the counterpart tuned without alignment by 4-33%.

arxiv情報

著者 Aibek Bekbayev,Sungbae Chun,Yerzat Dulat,James Yamazaki
発行日 2023-08-25 15:51:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク