Investigating Mixture of Experts in Dense Retrieval

要約

高密度検索モデル (DRM) は高度な情報検索 (IR) を備えていますが、これらのニューラル モデルの制限の 1 つは、一般化可能性と堅牢性が狭いことです。
この問題に対処するには、専門家混合 (MoE) アーキテクチャを活用できます。
これまでの IR 研究では、DRM の Transformer 層内に MoE アーキテクチャが組み込まれていましたが、私たちの研究では、最終的な Transformer 層の出力後に単一の MoE ブロック (SB-MoE) を統合するアーキテクチャを調査しています。
私たちの経験的評価では、取得効率の観点から SB-MoE が標準の微調整とどのように比較されるかを調査します。
詳細には、MoE ブロックを追加した場合と追加しない場合の 4 つのベンチマーク コレクションにわたって 3 つの DRM (TinyBERT、BERT、および Contriever) を微調整しました。
さらに、MoE はパラメータ (つまり、専門家の数) に関するパフォーマンスの変動を示すため、この側面をさらに調査するために追加の実験を実施します。
この調査結果は、SB-MoE が 4 つのベンチマークすべてで一貫して微調整された基礎モデルを上回るパフォーマンスを示しているため、特にパラメーター数が少ない DRM (つまり、TinyBERT) に対して SB-MoE の有効性を示しています。
より多くのパラメータを持つ DRM (つまり、BERT や Contriever) の場合、SB-MoE はより良い検索パフォーマンスを得るためにより多くのトレーニング サンプルを必要とします。

要約(オリジナル)

While Dense Retrieval Models (DRMs) have advanced Information Retrieval (IR), one limitation of these neural models is their narrow generalizability and robustness. To cope with this issue, one can leverage the Mixture-of-Experts (MoE) architecture. While previous IR studies have incorporated MoE architectures within the Transformer layers of DRMs, our work investigates an architecture that integrates a single MoE block (SB-MoE) after the output of the final Transformer layer. Our empirical evaluation investigates how SB-MoE compares, in terms of retrieval effectiveness, to standard fine-tuning. In detail, we fine-tune three DRMs (TinyBERT, BERT, and Contriever) across four benchmark collections with and without adding the MoE block. Moreover, since MoE showcases performance variations with respect to its parameters (i.e., the number of experts), we conduct additional experiments to investigate this aspect further. The findings show the effectiveness of SB-MoE especially for DRMs with a low number of parameters (i.e., TinyBERT), as it consistently outperforms the fine-tuned underlying model on all four benchmarks. For DRMs with a higher number of parameters (i.e., BERT and Contriever), SB-MoE requires larger numbers of training samples to yield better retrieval performance.

arxiv情報

著者 Effrosyni Sokli,Pranav Kasela,Georgios Peikos,Gabriella Pasi
発行日 2024-12-16 15:20:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク