要約
検索モデルは通常、トレーニングと評価のための費用のかかる人間標識クエリドキュメント関連の注釈に依存しています。
このコストを削減し、関連性の判断における大規模な言語モデル(LLM)の可能性を活用するために、LLMで生成された注釈がトレーニング検索モデルで人間の注釈を効果的に置き換えることができるかどうかを調査することを目指しています。
検索は通常、関連性を強調します。これは、ドキュメントの「トピック関連性」をクエリに示すものですが、ragでは、ドキュメント(またはユーティリティ)の値は、それが回答生成にどのように貢献するかに依存します。
このミスマッチを認識すると、一部の研究者は、ドキュメントをラベルとしてドキュメントで下流タスクでLLMパフォーマンスを使用しますが、このアプローチには特定のタスクの手動回答が必要であり、高コストと一般化が限られています。
別の作業では、LLMSにRAG参照として有用なドキュメントを選択するように促し、人間の注釈の必要性を排除し、タスク固有ではありません。
LLMSのユーティリティ判断を活用して検索データに注釈を付けると、大規模なコーパスで人間の注釈なしでクロスタスク一般化を保持する場合があります。
したがって、検索およびRAGタスクのドメイン内およびドメイン外の設定の両方で大規模なレトリーバートレーニングデータについて、LLMSを介したユーティリティ中心の注釈を調査します。
LLMSによってラベル付けされた低品質の陽性の影響を減らすために、新しい損失関数、つまりdisj-infonceを設計します。
私たちの実験は、次のことが明らかになりました。(1)ユーティリティ中心の注釈で訓練されたレトリーバーは、両方のタスクでドメイン外の設定で人間の注釈で訓練されたものを大幅に上回り、優れた一般化能力を実証します。
(2)LLM注釈は、領域内の設定で人間の注釈を置き換えません。
ただし、わずか20%のヒトが解決したデータを組み込むことで、ユーティリティ中心の注釈でトレーニングされたレトリーバーを使用すると、人間の注釈で完全にトレーニングされたモデルのパフォーマンスに合わせます。
要約(オリジナル)
Retrieval models typically rely on costly human-labeled query-document relevance annotations for training and evaluation. To reduce this cost and leverage the potential of Large Language Models (LLMs) in relevance judgments, we aim to explore whether LLM-generated annotations can effectively replace human annotations in training retrieval models. Retrieval usually emphasizes relevance, which indicates ‘topic-relatedness’ of a document to a query, while in RAG, the value of a document (or utility) depends on how it contributes to answer generation. Recognizing this mismatch, some researchers use LLM performance on downstream tasks with documents as labels, but this approach requires manual answers for specific tasks, leading to high costs and limited generalization. In another line of work, prompting LLMs to select useful documents as RAG references eliminates the need for human annotation and is not task-specific. If we leverage LLMs’ utility judgments to annotate retrieval data, we may retain cross-task generalization without human annotation in large-scale corpora. Therefore, we investigate utility-focused annotation via LLMs for large-scale retriever training data across both in-domain and out-of-domain settings on the retrieval and RAG tasks. To reduce the impact of low-quality positives labeled by LLMs, we design a novel loss function, i.e., Disj-InfoNCE. Our experiments reveal that: (1) Retrievers trained on utility-focused annotations significantly outperform those trained on human annotations in the out-of-domain setting on both tasks, demonstrating superior generalization capabilities. (2) LLM annotation does not replace human annotation in the in-domain setting. However, incorporating just 20% human-annotated data enables retrievers trained with utility-focused annotations to match the performance of models trained entirely with human annotations.
arxiv情報
著者 | Hengran Zhang,Minghao Tang,Keping Bi,Jiafeng Guo,Shihao Liu,Daiting Shi,Dawei Yin,Xueqi Cheng |
発行日 | 2025-04-07 16:05:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google