FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions


現代の言語モデル(LM)は、長く複雑な指示に従うことができ、ユーザの多様な要求に応えることができる。情報検索(IR)モデルはこれらのLMをアーキテクチャのバックボーンとして用いているが、ユーザがクエリとともに詳細な指示を与えることができるものは事実上皆無であり、そのため複雑な情報ニーズを満たす能力が制限されている。本研究では、IRシステムにおける指示の利用について研究する。まず、我々のデータセットであるFollowIRを紹介する。このデータセットには、厳密な指示評価ベンチマークと、IRモデルが実世界の指示によりよく従うことを学習するためのトレーニングセットが含まれている。FollowIRは、プロの評価者のために開発された詳細な指示(ナラティブとしても知られている)を検索システムの評価に再利用している。特に、Text REtrieval Conference (TREC)の共有タスク用にキュレーションされた3つのコレクションからベンチマークを構築している。これらのコレクションには、クエリごとに数百から数千のラベル付き文書が含まれており、我々の調査に適している。このプロセスを通して、我々は新しいペアワイズ評価の枠組みを通して、IRモデルがどの程度指示に従うかを測定することができる。その結果、既存の検索モデルは、基本的なキーワードのために指示を使い、長文の情報を理解するのに苦労するなど、指示を正しく利用できていないことがわかった。しかし、IRモデルが複雑な指示に従うことを学習することが可能であることを示す。我々の新しいFollowIR-7Bモデルは、トレーニングセットで微調整を行った後、大幅に改善された。


Modern Language Models (LMs) are capable of following long and complex instructions that enable a large and diverse set of user requests. While Information Retrieval (IR) models use these LMs as the backbone of their architectures, virtually none of them allow users to provide detailed instructions alongside queries, thus limiting their ability to satisfy complex information needs. In this work, we study the use of instructions in IR systems. First, we introduce our dataset FollowIR, which contains a rigorous instruction evaluation benchmark as well as a training set for helping IR models learn to better follow real-world instructions. FollowIR repurposes detailed instructions — also known as narratives — developed for professional assessors to evaluate retrieval systems. In particular, we build our benchmark from three collections curated for shared tasks at the Text REtrieval Conference (TREC). These collections contains hundreds to thousands of labeled documents per query, making them suitable for our exploration. Through this process, we can measure how well IR models follow instructions, through a new pairwise evaluation framework. Our results indicate that existing retrieval models fail to correctly use instructions, using them for basic keywords and struggling to understand long-form information. However, we show that it is possible for IR models to learn to follow complex instructions: our new FollowIR-7B model has significant improvements after fine-tuning on our training set.


著者 Orion Weller,Benjamin Chang,Sean MacAvaney,Kyle Lo,Arman Cohan,Benjamin Van Durme,Dawn Lawrie,Luca Soldaini
発行日 2024-05-06 14:56:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク