Unified Multimodal Interleaved Document Representation for Retrieval

要約

情報検索 (IR) 手法は、クエリに関連するドキュメントを識別することを目的としており、さまざまな自然言語タスクに広く適用されています。
しかし、既存のアプローチは通常、文書内のテキストコンテンツのみを考慮し、文書に画像や表などの複数のモダリティが含まれる可能性があるという事実を見落としています。
また、多くの場合、各長い文書を埋め込みのために複数の個別のパッセージに分割するため、文書全体のコンテキストや段落間の相互作用を把握することができません。
これら 2 つの課題に対処するために、テキスト、画像、表を処理して統合して統一された形式と表現にすることを可能にする最近の視覚言語モデルの機能を活用することで、複数のモダリティが織り交ぜられた文書を総合的に埋め込む方法を提案します。
さらに、文書をパッセージに分割することによる情報損失を軽減するために、パッセージを個別に表現して取得するのではなく、セグメント化されたパッセージの表現を 1 つの単一の文書表現にさらにマージし、その中で関連するパッセージを分離して識別するための再ランキング戦略を追加で導入します。
必要に応じて文書を作成します。
次に、テキストクエリとマルチモーダルクエリの両方を考慮した多様な IR シナリオに関する広範な実験を通じて、ドキュメント内のマルチモーダル情報を考慮したおかげで、私たちのアプローチが関連するベースラインを大幅に上回るパフォーマンスを示しました。

要約(オリジナル)

Information Retrieval (IR) methods aim to identify documents relevant to a query, which have been widely applied in various natural language tasks. However, existing approaches typically consider only the textual content within documents, overlooking the fact that documents can contain multiple modalities, including images and tables. Also, they often segment each long document into multiple discrete passages for embedding, which prevents them from capturing the overall document context and interactions between paragraphs. To address these two challenges, we propose a method that holistically embeds documents interleaved with multiple modalities by leveraging the capability of recent vision-language models that enable the processing and integration of text, images, and tables into a unified format and representation. Moreover, to mitigate the information loss from segmenting documents into passages, instead of representing and retrieving passages individually, we further merge the representations of segmented passages into one single document representation, while we additionally introduce a reranking strategy to decouple and identify the relevant passage within the document if necessary. Then, through extensive experiments on diverse IR scenarios considering both the textual and multimodal queries, we show that our approach substantially outperforms relevant baselines, thanks to the consideration of the multimodal information within documents.

arxiv情報

著者 Jaewoo Lee,Joonho Ko,Jinheon Baek,Soyeong Jeong,Sung Ju Hwang
発行日 2024-12-16 15:11:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク