要約
最新の大規模言語モデル (LLM) は、さまざまな量のユーザー タスクを可能にする長く複雑な命令に従うことができます。
ただし、アーキテクチャのバックボーンとして LLM を使用する情報検索 (IR) モデルにもかかわらず、ほぼすべてのモデルは依然としてクエリのみを入力として受け取り、指示はありません。
指示を受け取る最近のモデルの一部については、それがどのように使用されるかは不明です。
データセット FollowIR を紹介します。これには、厳密な命令評価ベンチマークと、IR モデルが現実世界の命令にうまく従うように学習するのに役立つトレーニング セットが含まれています。
FollowIR は、TREC カンファレンスの長い歴史に基づいて構築されています。TREC は、文書の関連性を判断するための指示 (ナラティブとも呼ばれる) をヒューマン・アノテーターに提供するため、IR モデルもこれらの詳細な指示を理解し、それに基づいて関連性を判断できる必要があります。
私たちの評価ベンチマークは、深く判断された 3 つの TREC コレクションから始まり、アノテーターの指示を変更して、関連する文書に再アノテーションを付けます。
このプロセスを通じて、新しいペアごとの評価フレームワークを通じて、IR モデルが指示にどの程度従っているかを測定できます。
私たちの結果は、既存の検索モデルが命令を正しく使用できず、基本的なキーワードに命令を使用し、長い形式の情報を理解するのに苦労していることを示しています。
ただし、IR モデルが複雑な命令に従うことを学習できることを示しました。新しい FollowIR-7B モデルは、トレーニング セットを微調整した後、大幅に改善されました (13% 以上)。
要約(オリジナル)
Modern Large Language Models (LLMs) are capable of following long and complex instructions that enable a diverse amount of user tasks. However, despite Information Retrieval (IR) models using LLMs as the backbone of their architectures, nearly all of them still only take queries as input, with no instructions. For the handful of recent models that do take instructions, it’s unclear how they use them. We introduce our dataset FollowIR, which contains a rigorous instruction evaluation benchmark as well as a training set for helping IR models learn to better follow real-world instructions. FollowIR builds off the long history of the TREC conferences: as TREC provides human annotators with instructions (also known as narratives) to determine document relevance, so should IR models be able to understand and decide relevance based on these detailed instructions. Our evaluation benchmark starts with three deeply judged TREC collections and alters the annotator instructions, re-annotating relevant documents. Through this process, we can measure how well IR models follow instructions, through a new pairwise evaluation framework. Our results indicate that existing retrieval models fail to correctly use instructions, using them for basic keywords and struggling to understand long-form information. However, we show that it is possible for IR models to learn to follow complex instructions: our new FollowIR-7B model has significant improvements (over 13%) after fine-tuning on our training set.
arxiv情報
著者 | Orion Weller,Benjamin Chang,Sean MacAvaney,Kyle Lo,Arman Cohan,Benjamin Van Durme,Dawn Lawrie,Luca Soldaini |
発行日 | 2024-03-22 14:42:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google