Unified Multi-Modal Interleaved Document Representation for Information Retrieval

要約

情報検索(IR)手法は、与えられたクエリに応答する関連文書を特定することを目的としており、様々な自然言語タスクへの適用が成功していることから、注目されている。しかしながら、既存のアプローチは、通常、文書内のテキスト情報のみを考慮するものであり、文書がテキスト、画像、表などの複数のモダリティを含み得るという事実を見落としている。さらに、これらのアプローチは、長い文書を埋め込むために複数の個別の文章に分割することが多く、文書全体の文脈や段落間の相互作用を捉えることができない。我々は、これら2つの制約が、検索に最適とは言えない文書表現につながると主張する。本研究では、これらに対処するため、異なるモダリティでインターリーブされた文書を全体的に埋め込むことで、より包括的でニュアンスのある文書表現を生成することを目指す。具体的には、テキスト、画像、表を統一的なフォーマットと表現に処理・統合することを可能にする最近の視覚言語モデルの能力を活用することにより、これを実現する。さらに、文書をパッセージに分割することによる情報損失を軽減するために、パッセージを個々に表現し検索するのではなく、分割されたパッセージの表現をさらに1つの単一の文書表現に統合する一方、必要に応じて文書内の関連パッセージを切り離し識別するためのリランキング戦略を導入する。そして、テキストクエリとマルチモーダルクエリの両方を考慮した多様な情報検索シナリオに対する広範な実験を通して、文書内にインターリーブされたマルチモーダル情報を統一的な方法で考慮することにより、我々のアプローチが関連するベースラインを大幅に上回ることを示す。

要約(オリジナル)

Information Retrieval (IR) methods aim to identify relevant documents in response to a given query, which have gained remarkable attention due to their successful application in various natural language tasks. However, existing approaches typically consider only the textual information within the documents, which overlooks the fact that documents can contain multiple modalities, including texts, images, and tables. Further, they often segment each long document into multiple discrete passages for embedding, preventing them from capturing the overall document context and interactions between paragraphs. We argue that these two limitations lead to suboptimal document representations for retrieval. In this work, to address them, we aim to produce more comprehensive and nuanced document representations by holistically embedding documents interleaved with different modalities. Specifically, we achieve this by leveraging the capability of recent vision-language models that enable the processing and integration of text, images, and tables into a unified format and representation. Moreover, to mitigate the information loss from segmenting documents into passages, instead of representing and retrieving passages individually, we further merge the representations of segmented passages into one single document representation, while we additionally introduce a reranking strategy to decouple and identify the relevant passage within the document if necessary. Then, through extensive experiments on diverse information retrieval scenarios considering both the textual and multimodal queries, we show that our approach substantially outperforms relevant baselines, thanks to the consideration of the multimodal information interleaved within the documents in a unified way.

arxiv情報

著者 Jaewoo Lee,Joonho Ko,Jinheon Baek,Soyeong Jeong,Sung Ju Hwang
発行日 2024-10-03 17:49:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク