Realistic Evaluation of Toxicity in Large Language Models

要約

大規模言語モデル (LLM) は、私たちの専門的なワークフローや日常生活に不可欠なものになっています。
それにもかかわらず、私たちの仲間であるこれらの機械には重大な欠陥があります。膨大で多様な知識を与える膨大な量のデータは、避けられない有害性や偏見にもさらされているのです。
ほとんどの LLM には有害なコンテンツの生成を防ぐための防御メカニズムが組み込まれていますが、これらの保護手段は最小限の迅速なエンジニアリングで簡単に回避できます。
この論文では、このようなモデルの保護層を無効にするように設計された手動で作成されたプロンプトで構成される、新しい徹底的に設計された毒性 (TET) データセットを紹介します。
広範な評価を通じて、いくつかの人気のある LLM の毒性認識を評価するための厳密なベンチマークを提供する上で TET が極めて重要な役割を果たしていることを実証します。TET は、通常のプロンプトを使用する場合には隠されたままになる可能性がある LLM の毒性を強調し、その結果、その動作の微妙な問題を明らかにします。

要約(オリジナル)

Large language models (LLMs) have become integral to our professional workflows and daily lives. Nevertheless, these machine companions of ours have a critical flaw: the huge amount of data which endows them with vast and diverse knowledge, also exposes them to the inevitable toxicity and bias. While most LLMs incorporate defense mechanisms to prevent the generation of harmful content, these safeguards can be easily bypassed with minimal prompt engineering. In this paper, we introduce the new Thoroughly Engineered Toxicity (TET) dataset, comprising manually crafted prompts designed to nullify the protective layers of such models. Through extensive evaluations, we demonstrate the pivotal role of TET in providing a rigorous benchmark for evaluation of toxicity awareness in several popular LLMs: it highlights the toxicity in the LLMs that might remain hidden when using normal prompts, thus revealing subtler issues in their behavior.

arxiv情報

著者 Tinh Son Luong,Thanh-Thien Le,Linh Ngo Van,Thien Huu Nguyen
発行日 2024-05-20 14:27:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク