Online Safety Analysis for LLMs: a Benchmark, an Assessment, and a Path Forward

要約

大規模言語モデル (LLM) は多くの分野で広く応用されていますが、解釈可能性が限られているため、真実性、堅牢性、公平性など、さまざまな側面から安全な操作に懸念が生じます。
最近の研究では、LLM の品質保証方法の開発が開始され、オフライン検出器ベースまたは不確実性推定方法などの技術が導入されています。
ただし、これらのアプローチは主に生成後の分析に焦点を当てており、生成段階での LLM のオンライン安全性分析は未踏の領域となっています。
このギャップを埋めるために、この研究では、LLM に対する既存のオンライン安全分析手法の有効性の包括的な評価を実施します。
私たちは、初期の生成プロセスで安全でない出力を検出する実現可能性を検証するパイロット研究から始めます。
これに続いて、広範な手法、モデル、タスク、データセット、評価指標を含む、LLM のオンライン安全分析の初の公的に利用可能なベンチマークを確立します。
このベンチマークを利用して、オープンソースとクローズドソースの両方の LLM に対する最先端のオンライン安全分析手法のパフォーマンスを広範囲に分析します。
この分析により、個々の手法の長所と短所が明らかになり、特定のアプリケーション シナリオとタスク要件に基づいて最適な手法を選択するための貴重な洞察が得られます。
さらに、LLM のオンライン安全性分析の有効性を高めるために、ハイブリダイゼーション法を使用する可能性、つまり複数の方法を組み合わせて集合的な安全性の結論を導き出す可能性も調査します。
私たちの調査結果は、LLM 向けの革新的で信頼できる品質保証手法の開発に有望な方向性があり、多様なドメインにわたって信頼性の高い LLM の導入を促進することを示しています。

要約(オリジナル)

While Large Language Models (LLMs) have seen widespread applications across numerous fields, their limited interpretability poses concerns regarding their safe operations from multiple aspects, e.g., truthfulness, robustness, and fairness. Recent research has started developing quality assurance methods for LLMs, introducing techniques such as offline detector-based or uncertainty estimation methods. However, these approaches predominantly concentrate on post-generation analysis, leaving the online safety analysis for LLMs during the generation phase an unexplored area. To bridge this gap, we conduct in this work a comprehensive evaluation of the effectiveness of existing online safety analysis methods on LLMs. We begin with a pilot study that validates the feasibility of detecting unsafe outputs in the early generation process. Following this, we establish the first publicly available benchmark of online safety analysis for LLMs, including a broad spectrum of methods, models, tasks, datasets, and evaluation metrics. Utilizing this benchmark, we extensively analyze the performance of state-of-the-art online safety analysis methods on both open-source and closed-source LLMs. This analysis reveals the strengths and weaknesses of individual methods and offers valuable insights into selecting the most appropriate method based on specific application scenarios and task requirements. Furthermore, we also explore the potential of using hybridization methods, i.e., combining multiple methods to derive a collective safety conclusion, to enhance the efficacy of online safety analysis for LLMs. Our findings indicate a promising direction for the development of innovative and trustworthy quality assurance methodologies for LLMs, facilitating their reliable deployments across diverse domains.

arxiv情報

著者 Xuan Xie,Jiayang Song,Zhehua Zhou,Yuheng Huang,Da Song,Lei Ma
発行日 2024-04-12 14:55:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG, cs.SE パーマリンク