Safe and Responsible Large Language Model Development

要約

大規模言語モデル (LLM) に関連する安全性とリスクに関する懸念が高まっていることを考慮して、効果的な緩和戦略を設計することがこれまで以上に緊急になっています。
このペーパーでは、LLM で生成されたコンテンツの安全性を強化するために設計されたアプローチである、Safety and Responsible Large Language Model (\textbf{SR}$_{\text{LLM}}$ ) を紹介します。
まず、LLM 応答で見つかった安全性リスクを分類するための安全性リスク分類法を提案します。
その後、この分類法に共鳴する専門家の注釈やレビューの使用を含め、LLM アライメントのための高品質な指示を効果的に収集します。
\textbf{SR}$_{\text{LLM}}$ は、潜在的な安全でないコンテンツを検出し、無害な代替コンテンツを生成するように特別に設計された LLM です。
パラメーター効率の高い微調整メカニズムを活用して、モデルをより使いやすく、適応性のあるものにします。
このモデルの有効性を評価する方法は、最先端の方法と合わせて、評価に対する多面的なアプローチを提供します。
5 つのベンチマーク データセットと 2 つの独自データセットにわたる厳密なテストを通じて、安全でないコンテンツの生成が顕著に減少していることが観察されました。
私たちは、アプローチの詳細、微調整方法論、安全性評価をコミュニティに提示します。
関連するデータとコードを含む GitHub リンクは、\url{ https://github.com/shainarazavi/Safe-Responsible-LLM} で公開されています。

要約(オリジナル)

In light of the increasing concerns regarding the safety and risks associated with Large Language Models (LLMs), the imperative to design effective mitigation strategies has never been more pressing. This paper introduces a Safety and Responsible Large Language Model (\textbf{SR}$_{\text{LLM}}$ ), an approach designed to enhance the safety of LLM-generated content. Initially, we propose a safety risk taxonomy to categorize the safety risks found in LLM responses. Subsequently, we effectively collect high-quality instructions for LLM alignment, including the use of experts annotations and review that resonate with this taxonomy. We present \textbf{SR}$_{\text{LLM}}$, an LLM that is specifically designed to detect potential unsafe content and generate benign alternatives. We leverage parameter-efficient fine-tuning mechanisms to make the model more usable and adaptable. The methods for evaluating the effectiveness of this model, along with state-of-the-art methods, present a multifaceted approach towards their assessment. Through rigorous testing across five benchmark datasets and two proprietary datasets, we observed a marked decrease in the generation of unsafe content. We present the details of our approach, the fine-tuning methodologies, and safety evaluation to the community. A GitHub link with associated data and code is publicly available at \url{ https://github.com/shainarazavi/Safe-Responsible-LLM}

arxiv情報

著者 Shaina Raza,Oluwanifemi Bamgbose,Shardul Ghuge,Deepak John Reji
発行日 2024-05-21 15:28:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク