GeAR: Generation Augmented Retrieval

要約

文書検索技術は、大規模な情報システム開発の基礎を形成します。
一般的な方法論は、バイエンコーダーを構築し、意味上の類似性を計算することです。
しかし、このようなスカラー類似性は十分な情報を反映することが難しく、検索結果の理解を妨げます。
さらに、この計算プロセスは主にグローバル セマンティクスを重視し、クエリとドキュメント内の複雑なテキストの間の詳細なセマンティクス関係を無視します。
この論文では、適切に設計された融合と
デコードモジュール。
これにより、GeAR はクエリとドキュメントの融合表現に基づいてドキュメントから関連テキストを生成できるようになり、きめの細かい情報に「焦点を当てる」ことを学習します。
また、GeAR をレトリーバーとして使用する場合、バイ エンコーダーに比べて計算負荷が追加されません。
新しいフレームワークのトレーニングをサポートするために、大規模な言語モデルを利用して高品質のデータを効率的に合成するパイプラインを導入しました。
GeAR は、さまざまなシナリオやデータセットにわたって競争力のある検索および位置特定パフォーマンスを示します。
さらに、GeAR によって生成された定性分析と結果は、検索結果の解釈に新しい洞察を提供します。
コード、データ、モデルは、将来の研究を促進するために技術レビューが完了した後にリリースされます。

要約(オリジナル)

Document retrieval techniques form the foundation for the development of large-scale information systems. The prevailing methodology is to construct a bi-encoder and compute the semantic similarity. However, such scalar similarity is difficult to reflect enough information and impedes our comprehension of the retrieval results. In addition, this computational process mainly emphasizes the global semantics and ignores the fine-grained semantic relationship between the query and the complex text in the document. In this paper, we propose a new method called $\textbf{Ge}$neration $\textbf{A}$ugmented $\textbf{R}$etrieval ($\textbf{GeAR}$) that incorporates well-designed fusion and decoding modules. This enables GeAR to generate the relevant text from documents based on the fused representation of the query and the document, thus learning to ‘focus on’ the fine-grained information. Also when used as a retriever, GeAR does not add any computational burden over bi-encoders. To support the training of the new framework, we have introduced a pipeline to efficiently synthesize high-quality data by utilizing large language models. GeAR exhibits competitive retrieval and localization performance across diverse scenarios and datasets. Moreover, the qualitative analysis and the results generated by GeAR provide novel insights into the interpretation of retrieval results. The code, data, and models will be released after completing technical review to facilitate future research.

arxiv情報

著者 Haoyu Liu,Shaohan Huang,Jianfeng Liu,Yuefeng Zhan,Hao Sun,Weiwei Deng,Feng Sun,Furu Wei,Qi Zhang
発行日 2025-01-06 05:29:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク