要約
タイトル:複雑な言語的テキストから画像検索のためのニューラル分割征服推論フレームワーク
要約:
– Vision-Language Models (VLMs)は、テキストからの画像検索において驚異的な成果を収めているが、言語的に複雑なテキストでは理解に苦しむため、性能が著しく低下する。
– Divide-and-Conquerアルゴリズムと二重プロセス理論にインスピレーションを得て、複雑なテキストを複数の単純な命題文から構成された複合命題文と見なし、エンドツーエンドのニューラル分割征服推論フレームワーク「NDCR」を提案する。
– NDCRは、3つの主要なコンポーネントを含む:1)Divide:命題生成器が複合命題文を単純な命題文に分割し、それらに対応する表現を生成する、2)Conquer:事前に訓練されたVLMベースの視覚言語相互作用器が分解された命題文と画像の間の相互作用を実現する、3)Combine:ニューラルシンボリック推論器が、上記の推論状態を結合して、ニューラルロジック推論手法を用いて最終的な解決策を得る。
– 二重プロセス理論によると、視覚言語相互作用器とニューラルシンボリック推論器は、類推推論システム1と論理推論システム2として見ることができる。
– 背景的説明データセットを用いた広範な実験を行い、実験結果と分析から、NDCRが複雑な画像テキスト推論問題で性能を大幅に改善することがわかった。コードリンク:https://github.com/YunxinLi/NDCR。
要約(オリジナル)
Pretrained Vision-Language Models (VLMs) have achieved remarkable performance in image retrieval from text. However, their performance drops drastically when confronted with linguistically complex texts that they struggle to comprehend. Inspired by the Divide-and-Conquer algorithm and dual-process theory, in this paper, we regard linguistically complex texts as compound proposition texts composed of multiple simple proposition sentences and propose an end-to-end Neural Divide-and-Conquer Reasoning framework, dubbed NDCR. It contains three main components: 1)Divide: a proposition generator divides the compound proposition text into simple proposition sentences and produces their corresponding representations, 2)Conquer: a pretrained VLMs-based visual-linguistic interactor achieves the interaction between decomposed proposition sentences and images, 3)Combine: a neural-symbolic reasoner combines the above reasoning states to obtain the final solution via a neural logic reasoning approach. According to the dual-process theory, the visual-linguistic interactor and neural-symbolic reasoner could be regarded as analogical reasoning System 1 and logical reasoning System 2. We conduct extensive experiments on a challenging image retrieval from contextual descriptions data set. Experimental results and analyses indicate NDCR significantly improves performance in the complex image-text reasoning problem. Code link: https://github.com/YunxinLi/NDCR.
arxiv情報
著者 | Yunxin Li,Baotian Hu,Yunxin Ding,Lin Ma,Min Zhang |
発行日 | 2023-05-03 16:55:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI