QAEA-DR: A Unified Text Augmentation Framework for Dense Retrieval


大規模言語モデル (LLM) のゼロショット プロンプトによって、質問と回答のペアと要素駆動型イベントという 2 つのテキスト表現が生成されます。
私たちはこのアプローチを QAEA-DR と呼びます。質問と回答の生成とイベント抽出をテキスト拡張フレームワークで統合し、高密度検索を実現します。
生成されるテキストの品質をさらに高めるために、スコアベースの評価および再生成メカニズムが LLM プロンプトに導入されています。
当社の QAEA-DR モデルは、理論分析と実証実験の両方によって裏付けられ、高密度検索にプラスの影響を与えます。


In dense retrieval, embedding long texts into dense vectors can result in information loss, leading to inaccurate query-text matching. Additionally, low-quality texts with excessive noise or sparse key information are unlikely to align well with relevant queries. Recent studies mainly focus on improving the sentence embedding model or retrieval process. In this work, we introduce a novel text augmentation framework for dense retrieval. This framework transforms raw documents into information-dense text formats, which supplement the original texts to effectively address the aforementioned issues without modifying embedding or retrieval methodologies. Two text representations are generated via large language models (LLMs) zero-shot prompting: question-answer pairs and element-driven events. We term this approach QAEA-DR: unifying question-answer generation and event extraction in a text augmentation framework for dense retrieval. To further enhance the quality of generated texts, a scoring-based evaluation and regeneration mechanism is introduced in LLM prompting. Our QAEA-DR model has a positive impact on dense retrieval, supported by both theoretical analysis and empirical experiments.


著者 Hongming Tan,Shaoxiong Zhan,Hai Lin,Hai-Tao Zheng,Wai Kin,Chan
発行日 2024-07-29 17:39:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク