SAFETY-J: Evaluating Safety with Critique

要約

コンテンツ生成におけるラージ言語モデル (LLM) の導入は、特にコンテンツ評価の透明性と解釈可能性に関して、安全性に関する重大な懸念を引き起こします。
現在の手法は主にバイナリの安全性分類に焦点を当てており、詳細な批判のためのメカニズムが欠如しており、モデルの改善やユーザーの信頼に対する有用性が制限されています。
これらの制限に対処するために、批評に基づいた判断を備えた英語と中国語のバイリンガル生成安全性評価ツールである SAFETY-J を紹介します。
SAFETY-J は、多様な対話と強化されたクエリと応答のペアを含む堅牢なトレーニング データセットを利用して、さまざまなシナリオにわたる安全性を包括的に評価します。
私たちは、人的介入を最小限に抑えて批評の質を客観的に評価する自動化されたメタ評価ベンチマークを確立し、拡張可能で継続的な改善を促進します。
さらに、SAFETY-J は反復嗜好学習技術を採用し、メタ評価と批評に基づいて安全性評価を動的に改良します。
私たちの評価は、SAFETY-J がより微妙で正確な安全性評価を提供し、それによって複雑なコンテンツのシナリオにおける批評の質と予測の信頼性の両方を向上させることを示しています。
さらなる研究と応用を促進するために、SAFETY-J のトレーニング プロトコル、データセット、コードをオープンソース化します。

要約(オリジナル)

The deployment of Large Language Models (LLMs) in content generation raises significant safety concerns, particularly regarding the transparency and interpretability of content evaluations. Current methods, primarily focused on binary safety classifications, lack mechanisms for detailed critique, limiting their utility for model improvement and user trust. To address these limitations, we introduce SAFETY-J, a bilingual generative safety evaluator for English and Chinese with critique-based judgment. SAFETY-J utilizes a robust training dataset that includes diverse dialogues and augmented query-response pairs to assess safety across various scenarios comprehensively. We establish an automated meta-evaluation benchmark that objectively assesses the quality of critiques with minimal human intervention, facilitating scalable and continuous improvement. Additionally, SAFETY-J employs an iterative preference learning technique to dynamically refine safety assessments based on meta-evaluations and critiques. Our evaluations demonstrate that SAFETY-J provides more nuanced and accurate safety evaluations, thereby enhancing both critique quality and predictive reliability in complex content scenarios. To facilitate further research and application, we will open-source SAFETY-J’s training protocols, datasets, and code.

arxiv情報

著者 Yixiu Liu,Yuxiang Zheng,Shijie Xia,Yuan Guo,Jiajun Li,Yi Tu,Chaoling Song,Pengfei Liu
発行日 2024-07-24 08:04:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク