Can We Use Large Language Models to Fill Relevance Judgment Holes?

要約

関連性の判断が不完全だと、テスト コレクションの再利用が制限されます。
新しいシステムを、判定された文書のプールを構築するために使用された以前のシステムと比較すると、テスト収集の「穴」(つまり、新しいシステムによって返される未評価の文書のポケット)のせいで不利になることがよくあります。

このペーパーでは、大規模言語モデル (LLM) を採用して、既存の人間の判断を活用し、その方法を基礎にして穴を埋めることで、既存のテスト コレクションを拡張するための最初のステップを踏みます。
私たちは、TREC iKAT を使用した会話型検索のコンテキストでこの問題を調査します。情報ニーズは非常に動的であり、応答 (および取得される結果) ははるかに多様です (大きな穴が残されます)。
これまでの研究では、LLM による自動判定により相関性の高いランキングが得られることが示されていますが、人間による自動判定を使用した場合 (LLM、1 発、2 発、または微調整されたショットに関係なく) は相関性が大幅に低いことがわかりました。
さらに、使用される LLM に応じて、新しい実行が非常に有利 (またはペナルティ) になり、この影響はホールのサイズに比例して拡大することがわかりました。
代わりに、文書プール全体に LLM アノテーションを生成して、人間が生成したラベルでより一貫したランキングを達成する必要があります。
今後の作業は、目的により適合するようにモデルを固定して調整するために、LLM のエンジニアリングと微調整を促し、人間の注釈を反映して表現することが必要です。

要約(オリジナル)

Incomplete relevance judgments limit the re-usability of test collections. When new systems are compared against previous systems used to build the pool of judged documents, they often do so at a disadvantage due to the “holes” in test collection (i.e., pockets of un-assessed documents returned by the new system). In this paper, we take initial steps towards extending existing test collections by employing Large Language Models (LLM) to fill the holes by leveraging and grounding the method using existing human judgments. We explore this problem in the context of Conversational Search using TREC iKAT, where information needs are highly dynamic and the responses (and, the results retrieved) are much more varied (leaving bigger holes). While previous work has shown that automatic judgments from LLMs result in highly correlated rankings, we find substantially lower correlates when human plus automatic judgments are used (regardless of LLM, one/two/few shot, or fine-tuned). We further find that, depending on the LLM employed, new runs will be highly favored (or penalized), and this effect is magnified proportionally to the size of the holes. Instead, one should generate the LLM annotations on the whole document pool to achieve more consistent rankings with human-generated labels. Future work is required to prompt engineering and fine-tuning LLMs to reflect and represent the human annotations, in order to ground and align the models, such that they are more fit for purpose.

arxiv情報

著者 Zahra Abbasiantaeb,Chuan Meng,Leif Azzopardi,Mohammad Aliannejadi
発行日 2024-05-09 07:39:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク