A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection

要約

大規模な言語モデルは、主題から外れた誤用の傾向があり、ユーザーがこれらのモデルに、意図した範囲を超えたタスクを実行するよう促す可能性があります。
現在のガードレールは、精選されたサンプルやカスタム分類子に依存することが多く、高い誤検知率、適応性の制限、およびプリプロダクションでは利用できない現実世界のデータが必要であるという非現実性に悩まされています。
このペーパーでは、これらの課題に対処する、柔軟でデータフリーのガードレール開発手法を紹介します。
問題空間を定性的に徹底的に定義し、これを LLM に渡して多様なプロンプトを生成することで、ヒューリスティックなアプローチを上回るトピック外のガードレールをベンチマークおよびトレーニングするための合成データセットを構築します。
さらに、ユーザー プロンプトがシステム プロンプトに関して関連性があるかどうかを分類するタスクとしてフレーム化することで、ガードレールは脱獄や有害なプロンプトなどの他の誤用カテゴリに効果的に一般化します。
最後に、合成データセットとトピック外のガードレール モデルの両方をオープンソース化することで、実稼働前環境でのガードレールの開発に貴重なリソースを提供し、LLM の安全性に関する将来の研究開発をサポートすることで、この分野にさらに貢献します。

要約(オリジナル)

Large Language Models are prone to off-topic misuse, where users may prompt these models to perform tasks beyond their intended scope. Current guardrails, which often rely on curated examples or custom classifiers, suffer from high false-positive rates, limited adaptability, and the impracticality of requiring real-world data that is not available in pre-production. In this paper, we introduce a flexible, data-free guardrail development methodology that addresses these challenges. By thoroughly defining the problem space qualitatively and passing this to an LLM to generate diverse prompts, we construct a synthetic dataset to benchmark and train off-topic guardrails that outperform heuristic approaches. Additionally, by framing the task as classifying whether the user prompt is relevant with respect to the system prompt, our guardrails effectively generalize to other misuse categories, including jailbreak and harmful prompts. Lastly, we further contribute to the field by open-sourcing both the synthetic dataset and the off-topic guardrail models, providing valuable resources for developing guardrails in pre-production environments and supporting future research and development in LLM safety.

arxiv情報

著者 Gabriel Chua,Shing Yee Chan,Shaun Khoo
発行日 2024-11-20 00:31:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, cs.LG, I.2.7 パーマリンク