要約
大規模言語モデル (LLM) の急速な開発は、多くの機会をもたらしただけでなく、重大な課題ももたらしました。
これは、LLM が意図せず、または意図的な誘導により、有害または有害なコンテンツを不用意に生成した場合に特に顕著になります。
既存の調整方法は通常、人間が注釈を付けた完璧な命令と応答のペアを利用することで、LLM を好ましい結果に導きます。
逆に、この研究は、間違い分析に基づいた新しい調整手法を提案しています。これは、LLM を意図的に間違ったコンテンツにさらして、間違いの理由とその回避方法を学習します。
この場合、間違いは調整のための貴重なデータに再利用され、誤った応答の生成を効果的に回避するのに役立ちます。
外部モデルや人間による注釈を使用しないこの方法では、望ましくない間違いを識別するモデル本来の能力を活用し、生成される応答の安全性を向上させます。
実験結果は、全体的な実用性を維持しながらモデルの安全性を高める点で、私たちの方法が既存の位置合わせアプローチよりも優れていることを示しています。
要約(オリジナル)
The rapid development of large language models (LLMs) has not only provided numerous opportunities but also presented significant challenges. This becomes particularly evident when LLMs inadvertently generate harmful or toxic content, either unintentionally or because of intentional inducement. Existing alignment methods usually direct LLMs toward favorable outcomes by utilizing human-annotated, flawless instruction-response pairs. Conversely, this study proposes a novel alignment technique based on mistake analysis, which deliberately exposes LLMs to erroneous content to learn the reasons for mistakes and how to avoid them. In this case, mistakes are repurposed into valuable data for alignment, effectively helping to avoid the production of erroneous responses. Without external models or human annotations, our method leverages a model’s intrinsic ability to discern undesirable mistakes and improves the safety of its generated responses. Experimental results reveal that our method outperforms existing alignment approaches in enhancing model safety while maintaining the overall utility.
arxiv情報
著者 | Kai Chen,Chunwei Wang,Kuo Yang,Jianhua Han,Lanqing Hong,Fei Mi,Hang Xu,Zhengying Liu,Wenyong Huang,Zhenguo Li,Dit-Yan Yeung,Lifeng Shang,Xin Jiang,Qun Liu |
発行日 | 2023-12-28 15:17:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google