Guardrail Baselines for Unlearning in LLMs

要約

最近の研究では、微調整が大規模な言語モデルから概念を「学習しない」ための有望なアプローチであることが実証されました。
ただし、微調整には、一連の例の生成と、モデルを更新するための微調整の反復実行の両方が必要となるため、コストがかかる可能性があります。
この研究では、プロンプトやフィルタリングなどの単純なガードレールベースのアプローチが、微調整に匹敵する非学習結果を達成できることを示します。
研究者は、より計算量の多い微調整手法のパフォーマンスを評価する際に、これらの軽量ベースラインを調査することをお勧めします。
プロンプトやフィルタリングなどの方法が未学習の問題に対する普遍的な解決策であるとは主張しませんが、私たちの研究は、ガードレールの力と微調整の力をより適切に分離できる評価指標の必要性を示唆しており、ガードレールが意図しない動作の可能性を明らかにするシナリオを強調しています。
既存の指標とベンチマークで。

要約(オリジナル)

Recent work has demonstrated that finetuning is a promising approach to ‘unlearn’ concepts from large language models. However, finetuning can be expensive, as it requires both generating a set of examples and running iterations of finetuning to update the model. In this work, we show that simple guardrail-based approaches such as prompting and filtering can achieve unlearning results comparable to finetuning. We recommend that researchers investigate these lightweight baselines when evaluating the performance of more computationally intensive finetuning methods. While we do not claim that methods such as prompting or filtering are universal solutions to the problem of unlearning, our work suggests the need for evaluation metrics that can better separate the power of guardrails vs. finetuning, and highlights scenarios where guardrails expose possible unintended behavior in existing metrics and benchmarks.

arxiv情報

著者 Pratiksha Thaker,Yash Maurya,Shengyuan Hu,Zhiwei Steven Wu,Virginia Smith
発行日 2024-06-11 15:47:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク