要約
最新の言語モデル (LM) は、大規模で多様なユーザー リクエストのセットを可能にする、長く複雑な命令に従うことができます。
情報検索 (IR) モデルはこれらの LM をアーキテクチャのバックボーンとして使用しますが、事実上、ユーザーがクエリと一緒に詳細な指示を提供できるものはなく、複雑な情報ニーズを満たす能力が制限されています。
この研究では、IR システムにおける命令の使用について研究します。
まず、データセット FollowIR を紹介します。これには、厳密な命令評価ベンチマークと、IR モデルが現実世界の命令にうまく従うように学習するのに役立つトレーニング セットが含まれています。
FollowIR は、プロの評価者が検索システムを評価するために開発された詳細な指示 (ナラティブとも呼ばれる) を再利用します。
特に、Text REtrieval Conference (TREC) での共有タスク用に厳選された 3 つのコレクションからベンチマークを構築します。
これらのコレクションには、クエリごとに数百から数千のラベル付きドキュメントが含まれているため、探索に適しています。
このプロセスを通じて、新しいペアごとの評価フレームワークを通じて、IR モデルが指示にどの程度従っているかを測定できます。
私たちの結果は、既存の検索モデルが命令を正しく使用できず、基本的なキーワードに命令を使用し、長い形式の情報を理解するのに苦労していることを示しています。
ただし、IR モデルが複雑な命令に従うことを学習できることを示しました。新しい FollowIR-7B モデルは、トレーニング セットを微調整した後、大幅に改善されました。
要約(オリジナル)
Modern Language Models (LMs) are capable of following long and complex instructions that enable a large and diverse set of user requests. While Information Retrieval (IR) models use these LMs as the backbone of their architectures, virtually none of them allow users to provide detailed instructions alongside queries, thus limiting their ability to satisfy complex information needs. In this work, we study the use of instructions in IR systems. First, we introduce our dataset FollowIR, which contains a rigorous instruction evaluation benchmark as well as a training set for helping IR models learn to better follow real-world instructions. FollowIR repurposes detailed instructions — also known as narratives — developed for professional assessors to evaluate retrieval systems. In particular, we build our benchmark from three collections curated for shared tasks at the Text REtrieval Conference (TREC). These collections contains hundreds to thousands of labeled documents per query, making them suitable for our exploration. Through this process, we can measure how well IR models follow instructions, through a new pairwise evaluation framework. Our results indicate that existing retrieval models fail to correctly use instructions, using them for basic keywords and struggling to understand long-form information. However, we show that it is possible for IR models to learn to follow complex instructions: our new FollowIR-7B model has significant improvements after fine-tuning on our training set.
arxiv情報
著者 | Orion Weller,Benjamin Chang,Sean MacAvaney,Kyle Lo,Arman Cohan,Benjamin Van Durme,Dawn Lawrie,Luca Soldaini |
発行日 | 2024-05-07 14:25:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google