Robust Neural Information Retrieval: An Adversarial and Out-of-distribution Perspective

要約

神経情報検索 (IR) モデルの最近の進歩により、さまざまな IR タスクに対する有効性が大幅に向上しました。
これらのモデルの堅牢性は、実際の信頼性を確保するために不可欠であり、大きな注目を集めています。
ロバストな IR に関する幅広い研究が提案されているため、現在の状況を統合し、既存の方法論から洞察を収集し、将来の開発の基礎を築くのに最適な時期であると考えています。
当社では、IR の堅牢性は多面的な概念であると考えており、敵対的な攻撃、配布外 (OOD) シナリオ、パフォーマンスの変動に対するその必要性を強調しています。
敵対的および OOD の堅牢性に焦点を当て、高密度検索モデル (DRM) とニューラル ランキング モデル (NRM) をニューラル IR パイプラインの極めて重要なコンポーネントとして認識し、それぞれの堅牢性ソリューションを詳しく分析します。
既存の手法、データセット、評価指標について詳しく説明し、大規模言語モデルの時代における課題と将来の方向性を明らかにします。
私たちの知る限り、これはニューラル IR モデルの堅牢性に関する最初の包括的な調査であり、SIGIR 2024 で最初のチュートリアル プレゼンテーションも行う予定です。 \url{https://sigir2024-robust-information-retrieval.github
.io}。
既存の研究の整理に加えて、堅牢な神経情報取得のための異種評価ベンチマークである堅牢な IR のベンチマーク (BestIR) を導入します。これは \url{https://github.com/Davion-Liu/BestIR で公開されています。
}。
この研究が、IR モデルの堅牢性に関する将来の研究に有用な手がかりを提供し、信頼できる検索エンジン \url{https://github.com/Davion-Liu/Awesome-Robustness-in-Information-Retrieval} の開発に役立つことを願っています。

要約(オリジナル)

Recent advances in neural information retrieval (IR) models have significantly enhanced their effectiveness over various IR tasks. The robustness of these models, essential for ensuring their reliability in practice, has also garnered significant attention. With a wide array of research on robust IR being proposed, we believe it is the opportune moment to consolidate the current status, glean insights from existing methodologies, and lay the groundwork for future development. We view the robustness of IR to be a multifaceted concept, emphasizing its necessity against adversarial attacks, out-of-distribution (OOD) scenarios and performance variance. With a focus on adversarial and OOD robustness, we dissect robustness solutions for dense retrieval models (DRMs) and neural ranking models (NRMs), respectively, recognizing them as pivotal components of the neural IR pipeline. We provide an in-depth discussion of existing methods, datasets, and evaluation metrics, shedding light on challenges and future directions in the era of large language models. To the best of our knowledge, this is the first comprehensive survey on the robustness of neural IR models, and we will also be giving our first tutorial presentation at SIGIR 2024 \url{https://sigir2024-robust-information-retrieval.github.io}. Along with the organization of existing work, we introduce a Benchmark for robust IR (BestIR), a heterogeneous evaluation benchmark for robust neural information retrieval, which is publicly available at \url{https://github.com/Davion-Liu/BestIR}. We hope that this study provides useful clues for future research on the robustness of IR models and helps to develop trustworthy search engines \url{https://github.com/Davion-Liu/Awesome-Robustness-in-Information-Retrieval}.

arxiv情報

著者 Yu-An Liu,Ruqing Zhang,Jiafeng Guo,Maarten de Rijke,Yixing Fan,Xueqi Cheng
発行日 2024-07-09 16:07:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク