CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI Collaboration for Large Language Models

要約

大規模な言語モデルの社会的偏見を総合的に測定することは、高機能な AI モデルの倫理的リスクを検出して軽減するために重要です。
この研究では、人間の専門家と生成言語モデルが共同で構築した 10 万を超える質問で構成された中国語バイアス ベンチマーク データセットを紹介します。これは、中国の文化と価値観に関連する 14 の社会的側面における固定観念と社会的偏見をカバーしています。
キュレーション プロセスには、広範な文献レビューによるバイアスの特定、曖昧なコンテキストの生成、AI 支援による曖昧さのないコンテキストの生成、SND による手動レビューと再構成の 4 つの重要なステップが含まれます。
データセット内のテスト インスタンスは、厳格な品質管理のもとで手動で作成された 3,000 以上の高品質のテンプレートから自動的に派生されます。
このデータセットは、広い範囲をカバーし、高い多様性を示します。
広範な実験により、モデルのバイアスを検出する際のデータセットの有効性が実証されており、公開されている 10 個の中国語大規模言語モデルすべてが特定のカテゴリで強いバイアスを示しています。
さらに、実験から、微調整されたモデルは、「道徳的自己修正」の方法で、ある程度の指示に注意を払い、ある種の道徳的に有害な出力の生成を回避できることが観察されました。
私たちのデータセットと結果は \href{https://github.com/YFHuangxxxx/CBBQ}{https://github.com/YFHuangxxxx/CBBQ} で公開されており、幅広いコミュニティにバイアスを軽減する研究の機会を提供しています。

要約(オリジナル)

Holistically measuring societal biases of large language models is crucial for detecting and reducing ethical risks in highly capable AI models. In this work, we present a Chinese Bias Benchmark dataset that consists of over 100K questions jointly constructed by human experts and generative language models, covering stereotypes and societal biases in 14 social dimensions related to Chinese culture and values. The curation process contains 4 essential steps: bias identification via extensive literature review, ambiguous context generation, AI-assisted disambiguous context generation, snd manual review \& recomposition. The testing instances in the dataset are automatically derived from 3K+ high-quality templates manually authored with stringent quality control. The dataset exhibits wide coverage and high diversity. Extensive experiments demonstrate the effectiveness of the dataset in detecting model bias, with all 10 publicly available Chinese large language models exhibiting strong bias in certain categories. Additionally, we observe from our experiments that fine-tuned models could, to a certain extent, heed instructions and avoid generating outputs that are morally harmful in some types, in the way of ‘moral self-correction’. Our dataset and results are publicly available at \href{https://github.com/YFHuangxxxx/CBBQ}{https://github.com/YFHuangxxxx/CBBQ}, offering debiasing research opportunities to a widened community.

arxiv情報

著者 Yufei Huang,Deyi Xiong
発行日 2023-06-28 14:14:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク