要約
否定は日常的によく見られる現象であり、言語モデル(LM)の一貫した弱点であった。情報検索(IR)コミュニティでは、LMを最新のIRアーキテクチャのバックボーンとして採用しているが、否定がニューラルIRにどのような影響を与えるかを理解する研究はほとんど行われていない。そこで我々は、このテーマについて、否定だけが異なる2つの文書をランク付けするようIRモデルに求めるという、簡単なベンチマークを構築した。その結果、IRアーキテクチャの種類によって結果が大きく異なることを示す。クロスエンコーダが最も良い結果を示し、次いでレイトインタラクションモデル、そして最後がバイエンコーダとスパースニューラルアーキテクチャである。現在のほとんどの情報検索モデルは否定を考慮せず、ランダムランキングと同等かそれ以下の性能であることがわかった。否定を含む対照的な文書のデータセットで微調整を続けるという明白なアプローチによって性能は向上するが(モデルサイズも同様)、機械と人間の性能の間にはまだ大きなギャップがあることを示す。
要約(オリジナル)
Negation is a common everyday phenomena and has been a consistent area of weakness for language models (LMs). Although the Information Retrieval (IR) community has adopted LMs as the backbone of modern IR architectures, there has been little to no research in understanding how negation impacts neural IR. We therefore construct a straightforward benchmark on this theme: asking IR models to rank two documents that differ only by negation. We show that the results vary widely according to the type of IR architecture: cross-encoders perform best, followed by late-interaction models, and in last place are bi-encoder and sparse neural architectures. We find that most current information retrieval models do not consider negation, performing similarly or worse than randomly ranking. We show that although the obvious approach of continued fine-tuning on a dataset of contrastive documents containing negations increases performance (as does model size), there is still a large gap between machine and human performance.
arxiv情報
著者 | Orion Weller,Dawn Lawrie,Benjamin Van Durme |
発行日 | 2023-05-12 17:05:54+00:00 |
arxivサイト | arxiv_id(pdf) |