Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning

要約

大規模言語モデル (LLM) のオープンソース化により、アプリケーション開発、イノベーション、科学の進歩が加速します。
これには、調整なしで広範なデータセットで事前トレーニングされた基本モデルと、倫理基準や人間の価値観に合わせて意図的に設計された調整済みモデルの両方が含まれます。
基本 LLM に固有の命令追従制限が誤用に対する保護手段として機能するという一般的な仮定に反して、私たちの調査はこの考えにおける重大な見落としを明らかにしました。
私たちの調査では、慎重に設計されたデモンストレーションを展開することにより、ベース LLM が悪意のある命令を効果的に解釈して実行できることが実証されました。
これらのリスクを体系的に評価するために、一連の新しいリスク評価指標を導入します。
経験的な結果から、ベース LLM からの出力は、悪意のある目的のために微調整されたモデルのリスク レベルと同等のリスク レベルを示す可能性があることが明らかになりました。
この脆弱性は、専門的な知識やトレーニングを必要とせず、ほぼ誰でも操作できるため、重大なリスクとベース LLM のセキュリティ プロトコルへの即時対応の重要な必要性を浮き彫りにしています。

要約(オリジナル)

The open-sourcing of large language models (LLMs) accelerates application development, innovation, and scientific progress. This includes both base models, which are pre-trained on extensive datasets without alignment, and aligned models, deliberately designed to align with ethical standards and human values. Contrary to the prevalent assumption that the inherent instruction-following limitations of base LLMs serve as a safeguard against misuse, our investigation exposes a critical oversight in this belief. By deploying carefully designed demonstrations, our research demonstrates that base LLMs could effectively interpret and execute malicious instructions. To systematically assess these risks, we introduce a novel set of risk evaluation metrics. Empirical results reveal that the outputs from base LLMs can exhibit risk levels on par with those of models fine-tuned for malicious purposes. This vulnerability, requiring neither specialized knowledge nor training, can be manipulated by almost anyone, highlighting the substantial risk and the critical need for immediate attention to the base LLMs’ security protocols.

arxiv情報

著者 Xiao Wang,Tianze Chen,Xianjun Yang,Qi Zhang,Xun Zhao,Dahua Lin
発行日 2024-04-16 13:22:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク