Language Agents for Detecting Implicit Stereotypes in Text-to-image Models at Scale

要約

最近の拡散モデルの研究の急増により、さまざまな人工知能生成コンテンツ (AIGC) 商用製品でのテキストから画像へのモデルの採用が加速しています。
これらの優れた AIGC 製品の認知度は高まり、消費者の間で熱狂を引き起こしていますが、これらのモデルが既存の社会的固定観念を意図せず強化してしまうのかどうか、いつ、どのように強化するのかという疑問は、ほとんど解決されていないままです。
言語エージェントの最近の進歩を動機として、ここでは、テキストから画像へのモデルにおけるステレオタイプ検出に合わせた新しいエージェント アーキテクチャを紹介します。
この多用途エージェント アーキテクチャは、自由形式の検出タスクに対応でき、さまざまなツールを自律的に呼び出して、対応する命令や画像の生成からステレオタイプの検出までのプロセス全体を促進できます。
私たちは、複数のオープンテキスト データセットに基づいてステレオタイプ関連のベンチマークを構築し、このアーキテクチャを商用製品や一般的なオープンソースのテキストから画像へのモデルに適用します。
これらのモデルは、個人の特性、社会文化的背景、犯罪関連の側面に関する特定のプロンプトに関して、深刻な固定観念を示すことが多いことがわかりました。
要約すると、これらの経験的発見は、性別、人種、宗教を含む社会的側面を超えて固定観念が広く存在していることを強調しており、これは私たちが提案するアプローチの有効性を検証するだけでなく、急成長する領域における潜在的な倫理的リスクに対処する重要な必要性も強調しています。
AIGCの。
AIGC が急速な拡大軌道を続け、毎日驚異的な数の新しいモデルやプラグインが登場する中、課題はこれらのモデル内の潜在的なバイアスをタイムリーに検出して軽減することにあります。

要約(オリジナル)

The recent surge in the research of diffusion models has accelerated the adoption of text-to-image models in various Artificial Intelligence Generated Content (AIGC) commercial products. While these exceptional AIGC products are gaining increasing recognition and sparking enthusiasm among consumers, the questions regarding whether, when, and how these models might unintentionally reinforce existing societal stereotypes remain largely unaddressed. Motivated by recent advancements in language agents, here we introduce a novel agent architecture tailored for stereotype detection in text-to-image models. This versatile agent architecture is capable of accommodating free-form detection tasks and can autonomously invoke various tools to facilitate the entire process, from generating corresponding instructions and images, to detecting stereotypes. We build the stereotype-relevant benchmark based on multiple open-text datasets, and apply this architecture to commercial products and popular open source text-to-image models. We find that these models often display serious stereotypes when it comes to certain prompts about personal characteristics, social cultural context and crime-related aspects. In summary, these empirical findings underscore the pervasive existence of stereotypes across social dimensions, including gender, race, and religion, which not only validate the effectiveness of our proposed approach, but also emphasize the critical necessity of addressing potential ethical risks in the burgeoning realm of AIGC. As AIGC continues its rapid expansion trajectory, with new models and plugins emerging daily in staggering numbers, the challenge lies in the timely detection and mitigation of potential biases within these models.

arxiv情報

著者 Qichao Wang,Tian Bian,Yian Yin,Tingyang Xu,Hong Cheng,Helen M. Meng,Zibin Zheng,Liang Chen,Bingzhe Wu
発行日 2023-11-02 10:46:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク