BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset

要約

この論文では、大規模言語モデル (LLM) における安全性調整に関する研究を促進することを目的とした \textsc{BeaverTails} データセットを紹介します。
このデータセットは、質問と回答のペアの有用性と無害性のアノテーションを独自に分離し、これらの重要な属性について明確な視点を提供します。
合計で、有用性と無害性の両方の指標について、30,207 の質問と回答 (QA) ペアの安全性メタラベルと 30,144 ペアの専門家比較データを収集しました。
合計で、333,963 の質問と回答 (QA) ペアの安全性メタラベルと、有用性と無害性の両方の指標についての 361,903 ペアの専門家比較データを収集しました。
さらに、コンテンツモデレーションおよびヒューマンフィードバックによる強化学習 (RLHF) における BeaverTails のアプリケーションを紹介し、LLM における実用的な安全対策の可能性を強調します。
私たちは、このデータセットがコミュニティに重要なリソースを提供し、LLM の安全な開発と展開に貢献すると信じています。
私たちのプロジェクト ページは次の URL から入手できます: https://sites.google.com/view/pku-beavertails。
警告: この文書には、攻撃的または有害な可能性のあるデータ例が含まれています。

要約(オリジナル)

In this paper, we introduce the \textsc{BeaverTails} dataset, aimed at fostering research on safety alignment in large language models (LLMs). This dataset uniquely separates annotations of helpfulness and harmlessness for question-answering pairs, thus offering distinct perspectives on these crucial attributes. In total, we have gathered safety meta-labels for 30,207 question-answer (QA) pairs and 30,144 pairs of expert comparison data for both the helpfulness and harmlessness metrics. In total, we have gathered safety meta-labels for 333,963 question-answer (QA) pairs and 361,903 pairs of expert comparison data for both the helpfulness and harmlessness metrics. We further showcase applications of BeaverTails in content moderation and reinforcement learning with human feedback (RLHF), emphasizing its potential for practical safety measures in LLMs. We believe this dataset provides vital resources for the community, contributing towards the safe development and deployment of LLMs. Our project page is available at the following URL: https://sites.google.com/view/pku-beavertails. Warning: this paper contains example data that may be offensive or harmful.

arxiv情報

著者 Jiaming Ji,Mickel Liu,Juntao Dai,Xuehai Pan,Chi Zhang,Ce Bian,Chi Zhang,Ruiyang Sun,Yizhou Wang,Yaodong Yang
発行日 2023-10-29 14:53:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク