SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety

要約

過去 2 年間で、大規模言語モデル (LLM) の安全性に対する懸念が急速に高まっています。
研究者や専門家は、LLM の安全性を評価および改善するための新しいデータセットを豊富に導入することで、これらの懸念に対処してきました。
しかし、この作業の多くは、バイアスや有毒コンテンツの生成に関する短期的なリスクの軽減から長期的な壊滅的なリスクの可能性の評価に至るまで、非常に異なる目標を念頭に置いて並行して行われてきました。
このため、研究者や実務者は、特定のユースケースに最も関連性の高いデータセットを見つけたり、将来の作業で埋める可能性のあるデータセットの範囲内のギャップを特定したりすることが困難になります。
これらの問題を解決するために、LLM の安全性を評価および改善するために、オープン データセットの最初の体系的なレビューを実施します。
私たちは、数か月にわたるコミュニティ主導の反復プロセスを通じて特定した 102 のデータセットをレビューします。
完全に合成されたデータセットへの傾向や、英語以外のデータセットの明らかな不足など、データセット カバレッジのギャップなどのパターンと傾向を強調します。
また、LLM 安全性データセットが実際にどのように使用されているか (LLM リリース出版物や一般的な LLM ベンチマークで) も調査し、現在の評価手法が非常に特異であり、利用可能なデータセットのほんの一部しか利用していないことがわかりました。
私たちの貢献は、LLM 安全性のためのオープン データセットの生きたカタログである SafetyPrompts.com に基づいており、LLM 安全性分野の発展に合わせて継続的に更新することに取り組んでいます。

要約(オリジナル)

The last two years have seen a rapid growth in concerns around the safety of large language models (LLMs). Researchers and practitioners have met these concerns by introducing an abundance of new datasets for evaluating and improving LLM safety. However, much of this work has happened in parallel, and with very different goals in mind, ranging from the mitigation of near-term risks around bias and toxic content generation to the assessment of longer-term catastrophic risk potential. This makes it difficult for researchers and practitioners to find the most relevant datasets for a given use case, and to identify gaps in dataset coverage that future work may fill. To remedy these issues, we conduct a first systematic review of open datasets for evaluating and improving LLM safety. We review 102 datasets, which we identified through an iterative and community-driven process over the course of several months. We highlight patterns and trends, such as a a trend towards fully synthetic datasets, as well as gaps in dataset coverage, such as a clear lack of non-English datasets. We also examine how LLM safety datasets are used in practice — in LLM release publications and popular LLM benchmarks — finding that current evaluation practices are highly idiosyncratic and make use of only a small fraction of available datasets. Our contributions are based on SafetyPrompts.com, a living catalogue of open datasets for LLM safety, which we commit to updating continuously as the field of LLM safety develops.

arxiv情報

著者 Paul Röttger,Fabio Pernisi,Bertie Vidgen,Dirk Hovy
発行日 2024-04-08 10:57:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク