Formal Specification, Assessment, and Enforcement of Fairness for Generative AIs

要約

生成型 AI がテキストから画像、そしてそれを超えた現実世界に役立つ成果物をますます生み出すようになるにつれて、社会的な偏見や不平等が強化、さらには悪化することになるでしょう。
私たちは、公平性を監視し強制するための基礎として、生成 AI の公平性の概念を正式に特徴付けることで、これらの問題に対処します。
AI によって生成されたテキストや画像などの抽象化の無限シーケンスの概念を使用して、2 つのレベルの公平性を定義します。
1 つ目は、生成されたシーケンスで実証される公平性です。これは、使用されるプロンプトやモデルに依存せず、出力に対してのみ評価されます。
2 つ目は、生成 AI モデルに固有の公平性です。これは、入力プロンプトが中立的な場合、つまり入力プロンプトが生成 AI に特定の種類の出力を生成するように明示的に指示しない場合に、公平性が明示されることを必要とします。
また、遅延公平性の適用とともに複数のカテゴリを考慮する場合の公平性の組み合わせ爆発に対抗するために、相対的な交差公平性も研究します。
最後に、公平性の監視と適用が、現在のいくつかの生成 AI モデルに対してテストされます。

要約(オリジナル)

Reinforcing or even exacerbating societal biases and inequalities will increase significantly as generative AI increasingly produces useful artifacts, from text to images and beyond, for the real world. We address these issues by formally characterizing the notion of fairness for generative AI as a basis for monitoring and enforcing fairness. We define two levels of fairness using the notion of infinite sequences of abstractions of AI-generated artifacts such as text or images. The first is the fairness demonstrated on the generated sequences, which is evaluated only on the outputs while agnostic to the prompts and models used. The second is the inherent fairness of the generative AI model, which requires that fairness be manifested when input prompts are neutral, that is, they do not explicitly instruct the generative AI to produce a particular type of output. We also study relative intersectional fairness to counteract the combinatorial explosion of fairness when considering multiple categories together with lazy fairness enforcement. Finally, fairness monitoring and enforcement are tested against some current generative AI models.

arxiv情報

著者 Chih-Hong Cheng,Changshun Wu,Harald Ruess,Xingyu Zhao,Saddek Bensalem
発行日 2024-04-26 09:30:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG, cs.LO, cs.SE パーマリンク