Cross-modality debiasing: using language to mitigate sub-population shifts in imaging

要約

サブ母集団シフトは、トレーニングとテストの間の特定のサブグループまたは母集団内のデータ分布の変化を強調する特定の種類のドメイン シフトです。
部分集団のシフトはアルゴリズムのバイアスの重要な原因となっており、分布の堅牢性が求められます。
最近の研究では、視覚言語モデル CLIP などのマルチモダリティ基礎モデルに固有の分布の堅牢性が発見されましたが、この堅牢性はパラメータの微調整によって脆弱になることがわかっています。
この論文では、異なるモダリティ間のロバスト性の関係を活用し、あるモダリティの分布ロバスト性を別のモダリティで再構築することを提案します。
具体的には、CLIP の分布の堅牢性の観点から、自然言語入力を活用して画像特徴表現の偏りを解消し、部分母集団に対する最悪の場合のパフォーマンスを向上させることを提案します。
私たちの広範な実証研究は、自然言語によって偏りを解消した画像表現が、部分集団の変化の下で大幅なパフォーマンスの向上とパフォーマンスの不安定性の軽減を達成できることを示しています。

要約(オリジナル)

Sub-population shift is a specific type of domain shift that highlights changes in data distribution within specific sub-groups or populations between training and testing. Sub-population shift accounts for a significant source of algorithmic bias and calls for distributional robustness. Recent studies found inherent distributional robustness in multi-modality foundation models, such as the vision-language model CLIP, yet this robustness is vulnerable through parameter fine-tuning. In this paper, we propose leveraging the connection of robustness among different modalities and reshaping the distributional robustness of one modality with another. Specifically, in the context of the distributional robustness of CLIP, we propose to leverage natural language inputs to debias the image feature representations, to improve worst-case performance on sub-populations. Our extensive empirical studies show that image representations debiased by natural language can achieve significant performance improvement and reduction of performance instability under sub-population shifts.

arxiv情報

著者 Yijiang Pang,Bao Hoang,Jiayu Zhou
発行日 2024-04-02 14:47:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク