CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples

要約

私たちは、対比モデルと生成マルチモーダル モデルの両方の視覚言語的構成推論能力を包括的に向上させるフレームワークである CounterCurate を提案します。
特に、我々は、まだ解明されていない 2 つの重大な問題を特定します。それは、物理的に根拠のある推論 (カウントと位置の理解) の無視、もう 1 つは、意味論的な反事実の微調整に高機能のテキストおよび画像生成モデルを使用する可能性です。
私たちの取り組みは、これらのギャップに対処するアプローチの先駆者です。
まず、物理的に根拠のある構成推論における CLIP や LLaVA などのマルチモーダル モデルのほぼ偶然のパフォーマンスに焦点を当てます。
次に、グラウンディングされた画像生成モデル GLIGEN を使用してシンプルなデータ拡張を適用して微調整データを生成し、その結果、パフォーマンスが大幅に向上しました。新しく厳選された Flickr30k-Positions ベンチマークでは、CLIP と LLaVA でそれぞれ +33% と +37% となりました。
さらに、高性能のテキスト生成モデルと画像生成モデル、特に GPT-4V と DALLE-3 の機能を利用して、困難な意味論的反事実をキュレートし、それによって、CounterCurate が GPT-4V を上回る SugarCrepe などのベンチマークでの構成推論機能をさらに強化します。

将来の研究を促進するために、コード、データセット、ベンチマーク、チェックポイントを https://countercurate.github.io でリリースします。

要約(オリジナル)

We propose CounterCurate, a framework to comprehensively improve the visio-linguistic compositional reasoning capability for both contrastive and generative multimodal models. In particular, we identify two critical under-explored problems: the neglect of the physically grounded reasoning (counting and position understanding) and the potential of using highly capable text and image generation models for semantic counterfactual fine-tuning. Our work pioneers an approach that addresses these gaps. We first spotlight the near-chance performance of multimodal models like CLIP and LLaVA in physically grounded compositional reasoning. We then apply simple data augmentation using grounded image generation model GLIGEN to generate fine-tuning data, resulting in significant performance improvements: +33% and +37% for CLIP and LLaVA, respectively, on our newly curated Flickr30k-Positions benchmark. Moreover, we exploit the capabilities of high-performing text generation and image generation models, specifically GPT-4V and DALLE-3, to curate challenging semantic counterfactuals, thereby further enhancing compositional reasoning capabilities on benchmarks such as SugarCrepe, where CounterCurate outperforms GPT-4V. To facilitate future research, we release our code, dataset, benchmark, and checkpoints at https://countercurate.github.io.

arxiv情報

著者 Jianrui Zhang,Mu Cai,Tengyang Xie,Yong Jae Lee
発行日 2024-06-12 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク