要約
検索された生成(RAG)モデルは、特に少数の学習制約の下で、知識集約型のタスクに優れています。
Coragを紹介します。Coragは、コラボレーション設定にRagを拡張するフレームワークであり、クライアントは共同のパッセージストアを使用して共有モデルを共同でトレーニングします。
Coragを評価するために、Crabを紹介します。Crabは、協力的な均一なオープンドメインの質問応答のベンチマークを紹介します。
私たちの実験は、Coragが低リソースのシナリオでパラメトリックな共同学習方法とローカルで訓練されたRAGモデルの両方を常に上回ることを示しています。
さらなる分析により、共有ストア内の関連するパッセージの重要な重要性、無関係なパッセージを組み込むことの驚くべき利点、およびハードネガティブがパフォーマンスに悪影響を与える可能性が明らかになります。
これは、共同のぼろきれに斬新な考慮事項を導入します。つまり、集合的に濃縮された知識ベースを活用することと、他のクライアントから有害な文章を組み込む潜在的なリスクとのトレードオフです。
私たちの調査結果は、Coragの実行可能性を強調していると同時に、主要なデザインの課題と将来の研究のための有望な道を強調しています。
要約(オリジナル)
Retrieval-Augmented Generation (RAG) models excel in knowledge-intensive tasks, especially under few-shot learning constraints. We introduce CoRAG, a framework extending RAG to collaborative settings, where clients jointly train a shared model using a collaborative passage store. To evaluate CoRAG, we introduce CRAB, a benchmark for collaborative homogeneous open-domain question answering. Our experiments demonstrate that CoRAG consistently outperforms both parametric collaborative learning methods and locally trained RAG models in low-resource scenarios. Further analysis reveals the critical importance of relevant passages within the shared store, the surprising benefits of incorporating irrelevant passages, and the potential for hard negatives to negatively impact performance. This introduces a novel consideration in collaborative RAG: the trade-off between leveraging a collectively enriched knowledge base and the potential risk of incorporating detrimental passages from other clients. Our findings underscore the viability of CoRAG, while also highlighting key design challenges and promising avenues for future research.
arxiv情報
著者 | Aashiq Muhamed,Mona Diab,Virginia Smith |
発行日 | 2025-04-02 16:40:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google