Insights on Disagreement Patterns in Multimodal Safety Perception across Diverse Rater Groups

要約

AI システムは人間の評価に大きく依存していますが、これらの評価は多くの場合集約され、現実世界の現象に本来備わっている視点の多様性が曖昧になります。
これは、認識とそれに伴う危害が社会文化的文脈によって大きく異なる可能性があるため、生成型 AI の安全性を評価する場合に特に懸念されます。
最近の研究では、注釈付けテキストに対する人口統計の違いの影響が研究されていますが、これらの主観的な違いが生成 AI のマルチモーダル安全性にどのように影響するかについては十分な理解が得られていません。
これに対処するために、年齢、性別、民族を超えた 30 の交差グループにまたがる 630 人の評価者からなる人口統計的に多様な評価者プールからの約 1,000 世代のテキストから画像への (T2I) 世代の高度に並列した安全性評価を使用する大規模な研究を実施します。

私たちの調査では、(1) 危害の深刻度を評価する際には、人口統計上のグループ (交差グループを含む) によって大きな違いがあり、これらの違いは安全違反の種類によって異なること、(2) 多様な評価者プールが注釈を捉えていることが示されています。
特定の安全ポリシーのセットについて訓練を受けた専門評価者とは大きく異なるパターン、および (3) T2I の安全性で観察される違いは、以前に文書化されたテキストベースの安全タスクにおけるグループレベルの違いとは区別されます。
これらのさまざまな視点をさらに理解するために、評価者が提供する自由形式の説明の定性分析を実施します。
この分析により、さまざまなグループが T2I 世代において害を認識する理由の核となる違いが明らかになりました。
私たちの調査結果は、これらのシステムが真に包括的であり、すべてのユーザーの価値観を反映していることを保証するために、生成 AI の安全性評価に多様な視点を組み込むことが重要であることを強調しています。

要約(オリジナル)

AI systems crucially rely on human ratings, but these ratings are often aggregated, obscuring the inherent diversity of perspectives in real-world phenomenon. This is particularly concerning when evaluating the safety of generative AI, where perceptions and associated harms can vary significantly across socio-cultural contexts. While recent research has studied the impact of demographic differences on annotating text, there is limited understanding of how these subjective variations affect multimodal safety in generative AI. To address this, we conduct a large-scale study employing highly-parallel safety ratings of about 1000 text-to-image (T2I) generations from a demographically diverse rater pool of 630 raters balanced across 30 intersectional groups across age, gender, and ethnicity. Our study shows that (1) there are significant differences across demographic groups (including intersectional groups) on how severe they assess the harm to be, and that these differences vary across different types of safety violations, (2) the diverse rater pool captures annotation patterns that are substantially different from expert raters trained on specific set of safety policies, and (3) the differences we observe in T2I safety are distinct from previously documented group level differences in text-based safety tasks. To further understand these varying perspectives, we conduct a qualitative analysis of the open-ended explanations provided by raters. This analysis reveals core differences into the reasons why different groups perceive harms in T2I generations. Our findings underscore the critical need for incorporating diverse perspectives into safety evaluation of generative AI ensuring these systems are truly inclusive and reflect the values of all users.

arxiv情報

著者 Charvi Rastogi,Tian Huey Teh,Pushkar Mishra,Roma Patel,Zoe Ashwood,Aida Mostafazadeh Davani,Mark Diaz,Michela Paganini,Alicia Parrish,Ding Wang,Vinodkumar Prabhakaran,Lora Aroyo,Verena Rieser
発行日 2024-10-22 13:59:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク