要約
今日の深層学習モデルの広範な成功は、サイズと複雑さが大幅に異なる広範なデータセットのキュレーションのおかげです。
ただし、このようなモデルはトレーニング プロセス中にデータに固有のバイアスを頻繁に検出し、信頼性の低い予測につながります。
したがって、信頼性の高いモデルのパフォーマンスを確保するには、データセットの診断とバイアスの除去が必要になります。
この論文では、ビジュアル データセットにおける概念の共起バイアスを診断および軽減するための新しいフレームワークである CONBIAS を紹介します。
CONBIAS は、視覚的なデータセットを概念のナレッジ グラフとして表現し、偽の概念の共起を綿密に分析して、データセット全体にわたる概念の不均衡を明らかにします。
さらに、新しいクリークベースの概念バランス戦略を採用することで、これらの不均衡を軽減し、下流タスクのパフォーマンスの向上につながることを示します。
広範な実験により、CONBIAS によって強化されたバランスの取れた概念分布に基づくデータ拡張により、最先端の手法と比較して複数のデータセットにわたる汎化パフォーマンスが向上することが示されました。
コードとデータは公開します。
要約(オリジナル)
The widespread success of deep learning models today is owed to the curation of extensive datasets significant in size and complexity. However, such models frequently pick up inherent biases in the data during the training process, leading to unreliable predictions. Diagnosing and debiasing datasets is thus a necessity to ensure reliable model performance. In this paper, we present CONBIAS, a novel framework for diagnosing and mitigating Concept co-occurrence Biases in visual datasets. CONBIAS represents visual datasets as knowledge graphs of concepts, enabling meticulous analysis of spurious concept co-occurrences to uncover concept imbalances across the whole dataset. Moreover, we show that by employing a novel clique-based concept balancing strategy, we can mitigate these imbalances, leading to enhanced performance on downstream tasks. Extensive experiments show that data augmentation based on a balanced concept distribution augmented by CONBIAS improves generalization performance across multiple datasets compared to state-of-the-art methods. We will make our code and data publicly available.
arxiv情報
著者 | Rwiddhi Chakraborty,Yinong Wang,Jialu Gao,Runkai Zheng,Cheng Zhang,Fernando De la Torre |
発行日 | 2024-09-26 16:59:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google