A Neural Divide-and-Conquer Reasoning Framework for Image Retrieval from Linguistically Complex Text




– Pretrained Vision-Languageモデル(VLM)は、テキストからの画像検索で注目すべき成果を挙げています。
– しかし、彼らが理解しにくい言語的に複雑なテキストに直面すると、パフォーマンスが劇的に低下します。
– この論文では、分割と征服アルゴリズムと双方処理理論に触発され、複合命題テキストを複数の単純命題文から構成されるものと見なし、エンドツーエンドのニューラル分割と征服推論フレームワーク、NDCRを提案しています。
– NDCRには、次の3つの主要なコンポーネントが含まれます:1)分割:命題ジェネレーターが複合命題テキストを単純な命題文に分割し、それらの対応する表現を生成します。2)征服:事前にトレーニングされたVLMベースの視覚言語インタラクターが分解された命題文と画像の相互作用を達成します。3)組み合わせ:神経シンボリック推論者は、上記の推論状態を組み合わせ、神経論理推論アプローチを介して最終解決策を取得します。
– デュアルプロセス理論によると、視覚言語インタラクターと神経シンボリック推論者は、類推推論システム1と論理推論システム2と見なすことができます。
– 我々は、コンテキスト説明のデータセットを用いて、広範な実験を行いました。実験の結果と分析により、NDCRが複雑な画像テキスト推論問題のパフォーマンスを著しく向上させることが示されました。コードリンク:https://github.com/YunxinLi/NDCR。


Pretrained Vision-Language Models (VLMs) have achieved remarkable performance in image retrieval from text. However, their performance drops drastically when confronted with linguistically complex texts that they struggle to comprehend. Inspired by the Divide-and-Conquer algorithm and dual-process theory, in this paper, we regard linguistically complex texts as compound proposition texts composed of multiple simple proposition sentences and propose an end-to-end Neural Divide-and-Conquer Reasoning framework, dubbed NDCR. It contains three main components: 1) Divide: a proposition generator divides the compound proposition text into simple proposition sentences and produces their corresponding representations, 2) Conquer: a pretrained VLMs-based visual-linguistic interactor achieves the interaction between decomposed proposition sentences and images, 3) Combine: a neural-symbolic reasoner combines the above reasoning states to obtain the final solution via a neural logic reasoning approach. According to the dual-process theory, the visual-linguistic interactor and neural-symbolic reasoner could be regarded as analogical reasoning System 1 and logical reasoning System 2. We conduct extensive experiments on a challenging image retrieval from contextual descriptions data set. Experimental results and analyses indicate NDCR significantly improves performance in the complex image-text reasoning problem. Code link: https://github.com/YunxinLi/NDCR.


著者 Yunxin Li,Baotian Hu,Yuxin Ding,Lin Ma,Min Zhang
発行日 2023-05-05 17:41:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク