要約
Visual Entailment with natural language explanationsは、テキストと画像のペア間の関係を推論し、意思決定のプロセスを説明する文章を生成することを目的としている。これまでの手法は、関係推論を行うために事前に学習された視覚言語モデルと、対応する説明を生成するための言語モデルに主に依存している。しかし、事前学習された視覚言語モデルは、主にテキストと画像の間のトークンレベルのアライメントを構築するが、視覚言語推論に重要なフレーズ(チャンク)と視覚コンテンツの間の高レベルの意味的アライメントは無視されている。さらに、符号化された結合表現に基づく説明生成器は、関係推論の重要な意思決定点を明示的に考慮しない。そのため、生成される説明は視覚言語推論にあまり忠実でない。これらの問題を軽減するために、我々はCALeCと呼ばれるチャンクを考慮したアライメントと語彙制約に基づく統一的な手法を提案する。CALeCは、チャンクを考慮したセマンティックインタラクタ(CSI)、関係推論器、および、語彙制約を考慮した生成器(LeCG)を含む。具体的には、CSIは言語や様々な画像領域に内在する文構造を利用し、チャンクを考慮したセマンティックアライメントを構築する。Relation inferrerは、注意に基づく推論ネットワークを用いて、トークンレベルとチャンクレベルの視覚-言語表現を取り込む。LeCGは語彙制約を利用し、関係推論者が注目した単語やチャンクを説明生成に明示的に取り込み、説明の忠実度と情報量を向上させる。我々は3つのデータセットで広範な実験を行い、実験結果からCALeCが推論精度や生成された説明の質で他の競合モデルを大きく上回ることを示す。
要約(オリジナル)
Visual Entailment with natural language explanations aims to infer the relationship between a text-image pair and generate a sentence to explain the decision-making process. Previous methods rely mainly on a pre-trained vision-language model to perform the relation inference and a language model to generate the corresponding explanation. However, the pre-trained vision-language models mainly build token-level alignment between text and image yet ignore the high-level semantic alignment between the phrases (chunks) and visual contents, which is critical for vision-language reasoning. Moreover, the explanation generator based only on the encoded joint representation does not explicitly consider the critical decision-making points of relation inference. Thus the generated explanations are less faithful to visual-language reasoning. To mitigate these problems, we propose a unified Chunk-aware Alignment and Lexical Constraint based method, dubbed as CALeC. It contains a Chunk-aware Semantic Interactor (arr. CSI), a relation inferrer, and a Lexical Constraint-aware Generator (arr. LeCG). Specifically, CSI exploits the sentence structure inherent in language and various image regions to build chunk-aware semantic alignment. Relation inferrer uses an attention-based reasoning network to incorporate the token-level and chunk-level vision-language representations. LeCG utilizes lexical constraints to expressly incorporate the words or chunks focused by the relation inferrer into explanation generation, improving the faithfulness and informativeness of the explanations. We conduct extensive experiments on three datasets, and experimental results indicate that CALeC significantly outperforms other competitor models on inference accuracy and quality of generated explanations.
arxiv情報
著者 | Qian Yang,Yunxin Li,Baotian Hu,Lin Ma,Yuxing Ding,Min Zhang |
発行日 | 2022-12-02 09:15:39+00:00 |
arxivサイト | arxiv_id(pdf) |