ABNIRML: Analyzing the Behavior of Neural IR Models

要約

BERT や T5 などの事前トレーニング済みのコンテキスト化された言語モデルは、アドホック検索の新しい最先端を確立しました。
ただし、これらの方法がなぜ非常に効果的であるのか、一部の方法が他の方法よりも効果的である理由、およびそれらの方法にどのような落とし穴があるのか​​については、まだ十分に理解されていません。
我々は、ニューラル IR モデルの動作の分析 (ABNIRML) のための新しい包括的なフレームワークを提案します。これには、以前の技術では対処できなかった、書き方、事実性、言い換えに対する感度、語順などのいくつかの特性をテストできる新しいタイプの診断プローブが含まれています。
フレームワークの価値を実証するために、ニューラル モデルのゲインに寄与する要因についての洞察を得る広範な実証研究を実施し、モデルが示す潜在的な意図しないバイアスを特定します。
私たちの結果の一部は、最近のニューラルランキングモデルがクエリとの正確な用語の重複には依存せず、代わりに語順や文順に対する感度が高いことから明らかな、より豊富な言語情報を活用するなど、従来の通念を裏付けるものです。
一部のモデル (T5 や ColBERT など) が (単に関連性があるというよりは) 事実として正しいテキストに偏っているなど、他の結果はさらに驚くべきものです。
さらに、同じ基本言語モデルであっても一部の特性は異なり、モデルのトレーニング中のランダムな変動により他の特性が現れる可能性があります。

要約(オリジナル)

Pretrained contextualized language models such as BERT and T5 have established a new state-of-the-art for ad-hoc search. However, it is not yet well-understood why these methods are so effective, what makes some variants more effective than others, and what pitfalls they may have. We present a new comprehensive framework for Analyzing the Behavior of Neural IR ModeLs (ABNIRML), which includes new types of diagnostic probes that allow us to test several characteristics — such as writing styles, factuality, sensitivity to paraphrasing and word order — that are not addressed by previous techniques. To demonstrate the value of the framework, we conduct an extensive empirical study that yields insights into the factors that contribute to the neural model’s gains, and identify potential unintended biases the models exhibit. Some of our results confirm conventional wisdom, like that recent neural ranking models rely less on exact term overlap with the query, and instead leverage richer linguistic information, evidenced by their higher sensitivity to word and sentence order. Other results are more surprising, such as that some models (e.g., T5 and ColBERT) are biased towards factually correct (rather than simply relevant) texts. Further, some characteristics vary even for the same base language model, and other characteristics can appear due to random variations during model training.

arxiv情報

著者 Sean MacAvaney,Sergey Feldman,Nazli Goharian,Doug Downey,Arman Cohan
発行日 2023-07-20 08:56:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク