要約
最近の視覚言語基盤モデルは、入力とずれた出力を依然として頻繁に生成します。これは、キャプションにおける物体の幻覚や、テキストから画像への生成モデルにおけるプロンプトのずれによって証明されています。
最近の研究では、解釈可能性を高めるだけでなく、モデルのパフォーマンスを向上させることを目的として、位置がずれている要素を特定する方法が検討されています。
ただし、現在のアプローチは主に、ゼロショット方式の大規模な基礎モデル、または人間による注釈を備えた微調整されたモデルに依存しているため、膨大な計算コストによりスケーラビリティが制限されます。
この研究では、事前トレーニングされた CLIP から密な位置ずれを検出するための、CLIP4DM と呼ばれる新しいアプローチを提案しています。特に、画像とテキストの間で位置ずれしている単語を正確に特定することに焦点を当てています。
勾配ベースのアトリビューション計算方法を慎重に改良し、個々のテキスト トークンの負の勾配で不整合を示すことができるようにしました。
また、不整合なアトリビューションをグローバル アラインメント スコアで集計する F-CLIPScore も提案します。
さまざまな画像およびテキストのドメインと位置ずれの種類をカバーする、さまざまな密な位置ずれ検出ベンチマークでメソッドを評価します。
当社の手法は、優れた効率を維持しながら、ゼロショット モデルの中でも最先端のパフォーマンスと、微調整されたモデルでの競争力のあるパフォーマンスを実証します。
私たちの定性的な例は、私たちの方法がエンティティレベルのオブジェクト、無形のオブジェクト、および既存の作品では簡単に検出できない属性を検出するという独自の強みを持っていることを示しています。
当社では、アブレーションの研究と分析を実施して、当社のアプローチの長所と限界を明らかにしています。
私たちのコードは https://github.com/naver-ai/CLIP4DM で公開されています。
要約(オリジナル)
Recent vision-language foundation models still frequently produce outputs misaligned with their inputs, evidenced by object hallucination in captioning and prompt misalignment in the text-to-image generation model. Recent studies have explored methods for identifying misaligned elements, aiming not only to enhance interpretability but also to improve model performance. However, current approaches primarily rely on large foundation models in a zero-shot manner or fine-tuned models with human annotations, which limits scalability due to significant computational costs. This work proposes a novel approach, dubbed CLIP4DM, for detecting dense misalignments from pre-trained CLIP, specifically focusing on pinpointing misaligned words between image and text. We carefully revamp the gradient-based attribution computation method, enabling negative gradient of individual text tokens to indicate misalignment. We also propose F-CLIPScore, which aggregates misaligned attributions with a global alignment score. We evaluate our method on various dense misalignment detection benchmarks, covering various image and text domains and misalignment types. Our method demonstrates state-of-the-art performance among zero-shot models and competitive performance with fine-tuned models while maintaining superior efficiency. Our qualitative examples show that our method has a unique strength to detect entity-level objects, intangible objects, and attributes that can not be easily detected for existing works. We conduct ablation studies and analyses to highlight the strengths and limitations of our approach. Our code is publicly available at https://github.com/naver-ai/CLIP4DM.
arxiv情報
著者 | JeongYeon Nam,Jinbae Im,Wonjae Kim,Taeho Kil |
発行日 | 2024-12-24 12:51:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google