Lightweight Safety Guardrails Using Fine-tuned BERT Embeddings

要約

最近の大規模言語モデル (LLM) の急増により、企業は概念実証やプロトタイプを迅速に開発できるようになりました。
その結果、LLM の動作を監視、量子化、制御して、信頼性、安全性、正確性を確保し、ユーザーの期待に沿った使用を保証する堅牢なガードレールを実装する必要性が高まっています。
LlamaGuard や OpenAI の MOD API など、不適切なユーザー プロンプトやシステム出力を除外するためのこれまでのアプローチは、既存の LLM を微調整することで大きな成功を収めてきました。
ただし、微調整された LLM をガードレールとして使用すると、遅延が増加し、メンテナンス コストが増加するため、コスト効率の高い展開には現実的でなく、拡張性もない可能性があります。
私たちは、軽量アーキテクチャである Sentence-BERT の微調整に焦点を当てた、別のアプローチを採用しています。
この方法により、AEGIS 安全ベンチマークで同等のパフォーマンスを維持しながら、モデル サイズが LlamaGuard の 70 億パラメータから約 6,700 万に削減されます。

要約(オリジナル)

With the recent proliferation of large language models (LLMs), enterprises have been able to rapidly develop proof-of-concepts and prototypes. As a result, there is a growing need to implement robust guardrails that monitor, quantize and control an LLM’s behavior, ensuring that the use is reliable, safe, accurate and also aligned with the users’ expectations. Previous approaches for filtering out inappropriate user prompts or system outputs, such as LlamaGuard and OpenAI’s MOD API, have achieved significant success by fine-tuning existing LLMs. However, using fine-tuned LLMs as guardrails introduces increased latency and higher maintenance costs, which may not be practical or scalable for cost-efficient deployments. We take a different approach, focusing on fine-tuning a lightweight architecture: Sentence-BERT. This method reduces the model size from LlamaGuard’s 7 billion parameters to approximately 67 million, while maintaining comparable performance on the AEGIS safety benchmark.

arxiv情報

著者 Aaron Zheng,Mansi Rana,Andreas Stolcke
発行日 2024-11-21 18:27:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク