要約
ビジョン言語モデルは、幅広いタスクにわたって広く検討されており、満足のいくパフォーマンスを実現しています。
ただし、さまざまな数の画像を通じてエンティティの理解を統合し、それを生成タスク用の事前トレーニングされた言語モデルと整合させる方法は十分に検討されていません。
この論文では、ニューラル ネットワークを通じて順列不変の方法で視覚表現を集約することにより、既製の視覚言語モデルを使用してさまざまな画像入力間のギャップを埋めるための一般的なマルチ インスタンス視覚コンポーネントである MIVC を提案します。
MIVC を視覚言語モデルにプラグインして、製品ごとに複数の画像を含む公開されている電子商取引データセット上の視覚的な質問応答、分類、およびキャプションのタスクにおいてモデルのパフォーマンスを一貫して向上できることを示します。
さらに、このコンポーネントが下流のタスクに対する各画像の寄与についての洞察を提供することを示します。
要約(オリジナル)
Vision-language models have been widely explored across a wide range of tasks and achieve satisfactory performance. However, it’s under-explored how to consolidate entity understanding through a varying number of images and to align it with the pre-trained language models for generative tasks. In this paper, we propose MIVC, a general multiple instance visual component to bridge the gap between various image inputs with off-the-shelf vision-language models by aggregating visual representations in a permutation-invariant fashion through a neural network. We show that MIVC could be plugged into the visual-language models to improve the model performance consistently on visual question answering, classification and captioning tasks on a public available e-commerce dataset with multiple images per product. Furthermore, we show that the component provides insight into the contribution of each image to the downstream tasks.
arxiv情報
著者 | Wenyi Wu,Qi Li,Wenliang Zhong,Junzhou Huang |
発行日 | 2023-12-28 16:33:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google