Formal Specification, Assessment, and Enforcement of Fairness for Generative AIs

要約

生成型 AI がテキストから画像などに至るまで、人間の出力に似たコンテンツを生成することが増えているため、社会的な偏見や不平等が強化または悪化するリスクが高まっています。
ここでは、公平性を監視し強制するための基礎として、生成 AI の公平性の概念を正式に特徴付けます。
無限ワードの概念を利用して 2 つのレベルの公平性を定義します。
1 つ目は、生成されたシーケンスで実証される公平性です。これは、使用されるプロンプト/モデルに依存せず、出力でのみ評価されます。
2 つ目は、生成 AI モデルに固有の公平性です。これは、入力プロンプトが中立的な場合、つまり入力プロンプトが生成 AI に特定の種類の出力を生成するように明示的に指示しない場合に、公平性が明示されることを必要とします。
また、遅延公平性の適用とともに複数のカテゴリを考慮する場合の公平性の組み合わせ爆発に対抗するために、相対的な交差公平性も研究します。
当社が実装した仕様監視および適用ツールは、いくつかの生成 AI モデルに対してテストすると興味深い結果を示します。

要約(オリジナル)

The risk of reinforcing or exacerbating societal biases and inequalities is growing as generative AI increasingly produces content that resembles human output, from text to images and beyond. Here we formally characterize the notion of fairness for generative AI as a basis for monitoring and enforcing fairness. We define two levels of fairness utilizing the concept of infinite words. The first is the fairness demonstrated on the generated sequences, which is only evaluated on the outputs while agnostic to the prompts/models used. The second is the inherent fairness of the generative AI model, which requires that fairness be manifested when input prompts are neutral, that is, they do not explicitly instruct the generative AI to produce a particular type of output. We also study relative intersectional fairness to counteract the combinatorial explosion of fairness when considering multiple categories together with lazy fairness enforcement. Our implemented specification monitoring and enforcement tool shows interesting results when tested against several generative AI models.

arxiv情報

著者 Chih-Hong Cheng,Changshun Wu,Harald Ruess,Xingyu Zhao,Saddek Bensalem
発行日 2024-04-25 15:04:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG, cs.LO, cs.SE パーマリンク