要約
最近の研究では、視覚言語モデル (VLM) が人間の言語の構成特性を完全に理解するのに苦労しており、通常は画像のキャプションを「言葉の袋」としてモデル化していることが経験的に示されています。
その結果、解決するには文のさまざまな実体 (主語、動詞など) とその相互関係をより深く理解する必要がある構成タスクのパフォーマンスが低下します。
この論文では、依存関係パーサーを使用して構築された因果グラフィカル モデル (CGM) を使用してテキスト トークンとビジュアル トークン間の依存関係をモデル化し、VLM ビジュアル エンコーダーによって条件付けされたデコーダーをトレーニングします。
標準的な自己回帰予測や並列予測とは異なり、デコーダの生成プロセスは CGM 構造に従って部分的に順序付けされています。
この構造により、デコーダは文内の主な因果関係のみを学習し、偽の相関関係を破棄するようになります。
5 つの構成ベンチマークに関する広範な実験を使用して、私たちの手法がすべての最先端の構成アプローチを大幅に上回り、さらに大規模なデータセットを使用してトレーニングされた手法よりも優れていることを示しました。
要約(オリジナル)
Recent work has empirically shown that Vision-Language Models (VLMs) struggle to fully understand the compositional properties of the human language, usually modeling an image caption as a ‘bag of words’. As a result, they perform poorly on compositional tasks, which require a deeper understanding of the different entities of a sentence (subject, verb, etc.) jointly with their mutual relationships in order to be solved. In this paper, we model the dependency relations among textual and visual tokens using a Causal Graphical Model (CGM), built using a dependency parser, and we train a decoder conditioned by the VLM visual encoder. Differently from standard autoregressive or parallel predictions, our decoder’s generative process is partially-ordered following the CGM structure. This structure encourages the decoder to learn only the main causal dependencies in a sentence discarding spurious correlations. Using extensive experiments on five compositional benchmarks, we show that our method significantly outperforms all the state-of-the-art compositional approaches by a large margin, and it also improves over methods trained using much larger datasets.
arxiv情報
著者 | Fiorenzo Parascandolo,Nicholas Moratelli,Enver Sangineto,Lorenzo Baraldi,Rita Cucchiara |
発行日 | 2024-12-12 15:22:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google