BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset

要約

この論文では、大規模言語モデル (LLM) における安全性の調整に関する研究を促進することを目的とした BeaverTails データセットを紹介します。
このデータセットは、質問と回答のペアの有用性と無害性のアノテーションを独自に分離し、これらの重要な属性について明確な視点を提供します。
合計で、30,207 の質問と回答 (QA) ペアの安全性メタラベルを編集し、有用性と無害性の両方の指標について 30,144 ペアの専門家比較データを収集しました。
さらに、コンテンツモデレーションおよびヒューマンフィードバックによる強化学習 (RLHF) における BeaverTails のアプリケーションを紹介し、LLM における実用的な安全対策の可能性を強調します。
私たちは、このデータセットがコミュニティに重要なリソースを提供し、LLM の安全な開発と展開に貢献すると信じています。
私たちのプロジェクト ページは次の URL から入手できます: https://sites.google.com/view/pku-beavertails。

要約(オリジナル)

In this paper, we introduce the BeaverTails dataset, aimed at fostering research on safety alignment in large language models (LLMs). This dataset uniquely separates annotations of helpfulness and harmlessness for question-answering pairs, thus offering distinct perspectives on these crucial attributes. In total, we have compiled safety meta-labels for 30,207 question-answer (QA) pairs and gathered 30,144 pairs of expert comparison data for both the helpfulness and harmlessness metrics. We further showcase applications of BeaverTails in content moderation and reinforcement learning with human feedback (RLHF), emphasizing its potential for practical safety measures in LLMs. We believe this dataset provides vital resources for the community, contributing towards the safe development and deployment of LLMs. Our project page is available at the following URL: https://sites.google.com/view/pku-beavertails.

arxiv情報

著者 Jiaming Ji,Mickel Liu,Juntao Dai,Xuehai Pan,Chi Zhang,Ce Bian,Chi Zhang,Ruiyang Sun,Yizhou Wang,Yaodong Yang
発行日 2023-07-10 15:56:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク