Rational Retrieval Acts: Leveraging Pragmatic Reasoning to Improve Sparse Retrieval

要約

現在のスパースニューラル情報検索(IR)メソッド、およびBM25などのより従来のモデルは、単一のドキュメントを表す際にドキュメントコレクションと異なる用語の重みの複雑な相互作用を考慮していません。
この論文では、セット内のオブジェクトを識別するときに伝達される機能の数を最小限に抑えるために使用される言語学的フレームワークである合理的な音声行動(RSA)が、特に多数の潜在的な機能(ここでトークン)に適合させることができる方法を示します。
RSAは、データセット内の他のドキュメントの影響を考慮することにより、トークンドキュメントの相互作用を動的に調節します。
実験では、RSAを組み込むことで複数のスパース検索モデルが一貫して改善され、Beirベンチマークからドメイン外データセットの最先端のパフォーマンスが達成されることが示されています。
https://github.com/arthur-75/rational-retrieval-acts

要約(オリジナル)

Current sparse neural information retrieval (IR) methods, and to a lesser extent more traditional models such as BM25, do not take into account the document collection and the complex interplay between different term weights when representing a single document. In this paper, we show how the Rational Speech Acts (RSA), a linguistics framework used to minimize the number of features to be communicated when identifying an object in a set, can be adapted to the IR case — and in particular to the high number of potential features (here, tokens). RSA dynamically modulates token-document interactions by considering the influence of other documents in the dataset, better contrasting document representations. Experiments show that incorporating RSA consistently improves multiple sparse retrieval models and achieves state-of-the-art performance on out-of-domain datasets from the BEIR benchmark. https://github.com/arthur-75/Rational-Retrieval-Acts

arxiv情報

著者 Arthur Satouf,Gabriel Ben Zenou,Benjamin Piwowarski,Habiboulaye Amadou Boubacar,Pablo Piantanida
発行日 2025-05-06 16:21:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68P20, 68T50, cs.CL, cs.IR, H.3 パーマリンク