Towards Lossless Token Pruning in Late-Interaction Retrieval Models

要約

コルバートのような後期相互作用の神経IRモデルは、多くのベンチマークにわたって競争効果効率の高いトレードオフを提供します。
ただし、すべてのドキュメントトークンのコンテキスト表現を保存するには、巨大なメモリスペースが必要です。
一部の作品は、各ドキュメントからトークンを剪定するために、ヒューリスティックまたは統計ベースの手法を使用して提案しています。
ただし、これは、削除されたトークンが検索スコアに影響を与えないことを保証するものではありません。
私たちの作品は、原則的なアプローチを使用して、ドキュメントとクエリの間のスコアに影響を与えることなくトークンを剪定する方法を定義します。
3つの正規化損失を導入します。これは、剪定比が高いソリューションと2つの剪定戦略を誘発します。
私たちはそれらを実験的に(内外のドメイン)研究し、トークンの30 \%しか使用しないでコルバートのパフォーマンスを維持できることを示しています。

要約(オリジナル)

Late interaction neural IR models like ColBERT offer a competitive effectiveness-efficiency trade-off across many benchmarks. However, they require a huge memory space to store the contextual representation for all the document tokens. Some works have proposed using either heuristics or statistical-based techniques to prune tokens from each document. This however doesn’t guarantee that the removed tokens have no impact on the retrieval score. Our work uses a principled approach to define how to prune tokens without impacting the score between a document and a query. We introduce three regularization losses, that induce a solution with high pruning ratios, as well as two pruning strategies. We study them experimentally (in and out-domain), showing that we can preserve ColBERT’s performance while using only 30\% of the tokens.

arxiv情報

著者 Yuxuan Zong,Benjamin Piwowarski
発行日 2025-04-17 09:18:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク