要約
小規模で高品質なデータセットで大規模な言語モデルを微調整すると、特定の下流タスクでのパフォーマンスを向上させることができます。
最近の研究によると、無害な指示に従ってデータを微調整すると、安全調整プロセスが誤って元に戻され、有害なクエリにモデルが準拠する傾向が高まる可能性があります。
重要ではありますが、明確に定義されたタスクにおける安全リスクの理解と軽減は、データの構造的な違いにより、指示に従う状況とは依然として異なります。
私たちの取り組みは、プロバイダーが微調整プロセスでユーザー データがどのように利用されるかを制御するクローズド モデルにおける、さまざまな種類のデータにわたるこれらのリスクに関する理解のギャップに対処するものです。
私たちは、悪意のある攻撃者が、見た目の無害さと合理的な下流タスクのパフォーマンスを維持しながら、ほぼすべてのタスク固有のデータセットの構造を巧妙に操作して、より危険なモデルの動作を促進する方法を実証します。
この問題に対処するために、ユーザー データのタスク形式とプロンプト スタイルを模倣する安全データを混合する新しい緩和戦略を提案します。これは、同様のタスク パフォーマンスを維持しながら安全性の調整を再確立する際に、これが既存のベースラインより効果的であることを示しています。
要約(オリジナル)
Fine-tuning large language models on small, high-quality datasets can enhance their performance on specific downstream tasks. Recent research shows that fine-tuning on benign, instruction-following data can inadvertently undo the safety alignment process and increase a model’s propensity to comply with harmful queries. Although critical, understanding and mitigating safety risks in well-defined tasks remains distinct from the instruction-following context due to structural differences in the data. Our work addresses the gap in our understanding of these risks across diverse types of data in closed models – where providers control how user data is utilized in the fine-tuning process. We demonstrate how malicious actors can subtly manipulate the structure of almost any task-specific dataset to foster significantly more dangerous model behaviors, while maintaining an appearance of innocuity and reasonable downstream task performance. To address this issue, we propose a novel mitigation strategy that mixes in safety data which mimics the task format and prompting style of the user data, showing this is more effective than existing baselines at re-establishing safety alignment while maintaining similar task performance.
arxiv情報
著者 | Francisco Eiras,Aleksandar Petrov,Phillip H. S. Torr,M. Pawan Kumar,Adel Bibi |
発行日 | 2024-07-01 10:17:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google