Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis

要約

大規模言語モデル (LLM) の急速な進歩は、特に有害な反応や有害な反応の意図しない生成に関して、機会と課題の両方をもたらします。
従来のアライメント手法は、LLM を望ましいパフォーマンスに誘導し、悪意のあるコンテンツから保護するよう努めますが、この研究では、意図的に LLM を欠陥のある出力にさらし、その後、自然現象を介して内部理由を完全に理解するための徹底的な評価を実施することにより、間違い分析に根ざした新しいアライメント戦略を提案しています。
言語分析。
したがって、有毒な応答は、モデルの調整のための命令調整コーパスに変換でき、LLM は欠陥のある応答の生成を阻止できるだけでなく、有毒な内容を識別する生来の能力を活用して自己批判するように訓練することもできます。
実験結果は、提案された方法が、優れた効率を維持しながら、安全指示に従うための従来の位置合わせ技術よりも優れていることを示しています。

要約(オリジナル)

The rapid advancement of large language models (LLMs) presents both opportunities and challenges, particularly concerning unintentional generation of harmful and toxic responses. While the traditional alignment methods strive to steer LLMs towards desired performance and shield them from malicious content, this study proposes a novel alignment strategy rooted in mistake analysis by exposing LLMs to flawed outputs purposefully and then conducting a thorough assessment to fully comprehend internal reasons via natural language analysis. Thus, toxic responses can be transformed into instruction tuning corpus for model alignment, and LLMs can not only be deterred from generating flawed responses but also trained to self-criticize, leveraging its innate ability to discriminate toxic content. Experimental results demonstrate that the proposed method outperforms conventional alignment techniques for safety instruction following, while maintaining superior efficiency.

arxiv情報

著者 Kai Chen,Chunwei Wang,Kuo Yang,Jianhua Han,Lanqing Hong,Fei Mi,Hang Xu,Zhengying Liu,Wenyong Huang,Zhenguo Li,Dit-Yan Yeung,Lifeng Shang,Xin Jiang,Qun Liu
発行日 2023-10-16 14:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク