ImageCaptioner$^2$: Image Captioner for Image Captioning Bias Amplification Assessment

要約

タイトル: ImageCaptioner$^2$: 画像キャプションのバイアス増幅アセスメントのための画像キャプショナー

要約:
– 事前学習された多くのAIシステムは、通常、データ、モデル、またはその両方から生じるバイアスに苦しんでいる。
– バイアスとその原因を測定し量子化することは困難なタスクであり、画像キャプションについて広く研究されてきました。
– 本研究では、画像キャプションのための新しいバイアス評価指標である$ ImageCaptioner^2$を導入する。 既存のメトリックは、視覚信号の包含において一貫性が欠如しているという問題がある。
– $ ImageCaptioner^2$は、モデルのバイアスとデータのバイアスに関連付けられたバイアス増幅を測定するため、既存のメトリックとは異なります。 また、生成されたキャプションだけでなく、画像もバイアスを測定することになっています。
– さらに、言語分類器を使用するのではなく、プロンプトベースの画像キャプションを使用して、生成されたキャプションのバイアスを測定する方法を提案しました。
– 最後に、私たちの$ ImageCaptioner^2$メトリックを11種類の異なる画像キャプショナー、3つの異なるデータセット、すなわちMS-COCOキャプションデータセット、Artemis V1、およびArtemis V2、および3つの異なる保護された属性、つまり性別、人種、および感情に適用しました。
– その結果、私たちは、バイアスメトリックのための新しい人間評価パラダイムであるAnonymousBenchを提案することにより、私たちのメトリックがLICよりも優れていることを確認しました。
– 私たちのメトリックの相関スコアは80%、LICは54%です。 コードは、https://eslambakr.github.io/imagecaptioner2.github.io/で入手できます。

要約(オリジナル)

Most pre-trained learning systems are known to suffer from bias, which typically emerges from the data, the model, or both. Measuring and quantifying bias and its sources is a challenging task and has been extensively studied in image captioning. Despite the significant effort in this direction, we observed that existing metrics lack consistency in the inclusion of the visual signal. In this paper, we introduce a new bias assessment metric, dubbed $ImageCaptioner^2$, for image captioning. Instead of measuring the absolute bias in the model or the data, $ImageCaptioner^2$ pay more attention to the bias introduced by the model w.r.t the data bias, termed bias amplification. Unlike the existing methods, which only evaluate the image captioning algorithms based on the generated captions only, $ImageCaptioner^2$ incorporates the image while measuring the bias. In addition, we design a formulation for measuring the bias of generated captions as prompt-based image captioning instead of using language classifiers. Finally, we apply our $ImageCaptioner^2$ metric across 11 different image captioning architectures on three different datasets, i.e., MS-COCO caption dataset, Artemis V1, and Artemis V2, and on three different protected attributes, i.e., gender, race, and emotions. Consequently, we verify the effectiveness of our $ImageCaptioner^2$ metric by proposing AnonymousBench, which is a novel human evaluation paradigm for bias metrics. Our metric shows significant superiority over the recent bias metric; LIC, in terms of human alignment, where the correlation scores are 80% and 54% for our metric and LIC, respectively. The code is available at https://eslambakr.github.io/imagecaptioner2.github.io/.

arxiv情報

著者 Eslam Mohamed Bakr,Pengzhan Sun,Li Erran Li,Mohamed Elhoseiny
発行日 2023-04-10 21:40:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク