要約
大規模言語モデル (LLM) により、さまざまな NLP タスクが大幅に進歩しました。
ただし、これらのモデルは多くの場合、バイアスを永続させる安全でないテキストを生成する危険性があります。
LLM から偏りのない出力を生成する現在のアプローチでは、偏りを軽減できますが、知識の保持が犠牲になります。
この研究では、LLM を通じて安全な (バイアスのない) 出力を生成することで知識と言語理解を維持できるかどうかという問題に取り組みます。
これに応えて、私たちはすでに安全な LLM (Llama2 や
関連)、生成されたテキストのバイアスを軽減します。
目標を達成するために、偏ったテキストを特定して修正するモデルをトレーニングするように設計された特殊なデータセットをコンパイルしました。
このカスタム データと配布外のテスト セットの両方で実験を実施し、バイアスの軽減と知識の保持を示します。
その結果、\textbf{SR}$_{\text{LLM}}$ は、バイアスの軽減と言語知識の完全性の維持の両方において、従来の微調整およびプロンプト手法よりも優れていることが確認されました。
私たちの発見の重要性は、命令の微調整が LLM のバイアス削減のためのより堅牢なソリューションを提供できることを実証したことにあります。
コードとデータは \href{https://github.com/shainarazavi/Safe-Responsible-LLM}{Safe-LLM} で利用できるようにしました。
要約(オリジナル)
Large Language Models (LLMs) have significantly advanced various NLP tasks. However, these models often risk generating unsafe text that perpetuates biases. Current approaches to produce unbiased outputs from LLMs can reduce biases but at the expense of knowledge retention. In this research, we address the question of whether producing safe (unbiased) outputs through LLMs can retain knowledge and language understanding. In response, we developed the Safety and Responsible Large Language Model (\textbf{SR}$_{\text{LLM}}$), an LLM that has been instruction fine-tuned on top of already safe LLMs (e.g., Llama2 or related) to diminish biases in generated text. To achieve our goals, we compiled a specialized dataset designed to train our model in identifying and correcting biased text. We conduct experiments, both on this custom data and out-of-distribution test sets, to show the bias reduction and knowledge retention. The results confirm that \textbf{SR}$_{\text{LLM}}$ outperforms traditional fine-tuning and prompting methods in both reducing biases and preserving the integrity of language knowledge. The significance of our findings lies in demonstrating that instruction fine-tuning can provide a more robust solution for bias reduction in LLMs. We have made our code and data available at \href{https://github.com/shainarazavi/Safe-Responsible-LLM}{Safe-LLM}.
arxiv情報
著者 | Shaina Raza,Oluwanifemi Bamgbose,Shardul Ghuge,Fatemeh Tavakol,Deepak John Reji,Syed Raza Bashir |
発行日 | 2024-07-01 17:40:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google