QAEA-DR: A Unified Text Augmentation Framework for Dense Retrieval

要約

高密度検索では、長いテキストを高密度ベクトルに埋め込むと情報が失われ、クエリとテキストのマッチングが不正確になる可能性があります。
さらに、過剰なノイズや重要な情報がまばらな低品質のテキストは、関連するクエリとうまく一致しない可能性があります。
最近の研究は主に、文埋め込みモデルまたは検索プロセスの改善に焦点を当てています。
この研究では、高密度検索のための新しいテキスト拡張フレームワークを導入します。
このフレームワークは、生の文書を情報密度の高いテキスト形式に変換し、元のテキストを補完して、埋め込みや検索の方法論を変更することなく、前述の問題に効果的に対処します。
大規模言語モデル (LLM) のゼロショット プロンプトによって、質問と回答のペアと要素駆動型イベントという 2 つのテキスト表現が生成されます。
私たちはこのアプローチを QAEA-DR と呼びます。質問と回答の生成とイベント抽出をテキスト拡張フレームワークで統合し、高密度検索を実現します。
生成されるテキストの品質をさらに高めるために、スコアベースの評価および再生成メカニズムが LLM プロンプトに導入されています。
当社の QAEA-DR モデルは、理論分析と実証実験の両方によって裏付けられ、高密度検索にプラスの影響を与えます。

要約(オリジナル)

In dense retrieval, embedding long texts into dense vectors can result in information loss, leading to inaccurate query-text matching. Additionally, low-quality texts with excessive noise or sparse key information are unlikely to align well with relevant queries. Recent studies mainly focus on improving the sentence embedding model or retrieval process. In this work, we introduce a novel text augmentation framework for dense retrieval. This framework transforms raw documents into information-dense text formats, which supplement the original texts to effectively address the aforementioned issues without modifying embedding or retrieval methodologies. Two text representations are generated via large language models (LLMs) zero-shot prompting: question-answer pairs and element-driven events. We term this approach QAEA-DR: unifying question-answer generation and event extraction in a text augmentation framework for dense retrieval. To further enhance the quality of generated texts, a scoring-based evaluation and regeneration mechanism is introduced in LLM prompting. Our QAEA-DR model has a positive impact on dense retrieval, supported by both theoretical analysis and empirical experiments.

arxiv情報

著者 Hongming Tan,Shaoxiong Zhan,Hai Lin,Hai-Tao Zheng,Wai Kin,Chan
発行日 2024-07-29 17:39:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク