R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models

要約

大規模な言語モデルは、一般的な NLP タスクでは目覚ましい成功を収めていますが、ドメイン固有の問題には不十分である可能性があります。
最近、この欠点に対処するために、さまざまな検索拡張大規模言語モデル (RALLM) が提案されています。
ただし、既存の評価ツールはいくつかのベースラインを提供するだけで、ドメイン知識の深さを掘り下げることなく、さまざまなドメインでそれらを評価します。
このペーパーでは、LLM と組み合わせてさまざまな RAG ワークフローの評価を合理化するように設計された Python ツールキットである R-Eval ツールキットを導入することで、RALLM を評価する際の課題に対処します。
当社のツールキットは、一般的な組み込み RAG ワークフローをサポートし、特定のドメインでカスタマイズされたテスト データの組み込みを可能にし、使いやすく、モジュール式で、拡張可能になるように設計されています。
3 つのタスク レベルと 2 つの代表的なドメインにわたって 21 の RALLM の評価を実施し、さまざまなタスクとドメインにわたる RALLM の有効性が大きく異なることが明らかになりました。
私たちの分析では、RAG ワークフローと LLM の組み合わせを選択する際に、タスクとドメインの両方の要件を考慮することが重要であることが強調されています。
私たちは、業界と研究者の両方を促進するために、https://github.com/THU-KEG/R-Eval でプラットフォームを継続的に維持することに取り組んでいます。

要約(オリジナル)

Large language models have achieved remarkable success on general NLP tasks, but they may fall short for domain-specific problems. Recently, various Retrieval-Augmented Large Language Models (RALLMs) are proposed to address this shortcoming. However, existing evaluation tools only provide a few baselines and evaluate them on various domains without mining the depth of domain knowledge. In this paper, we address the challenges of evaluating RALLMs by introducing the R-Eval toolkit, a Python toolkit designed to streamline the evaluation of different RAG workflows in conjunction with LLMs. Our toolkit, which supports popular built-in RAG workflows and allows for the incorporation of customized testing data on the specific domain, is designed to be user-friendly, modular, and extensible. We conduct an evaluation of 21 RALLMs across three task levels and two representative domains, revealing significant variations in the effectiveness of RALLMs across different tasks and domains. Our analysis emphasizes the importance of considering both task and domain requirements when choosing a RAG workflow and LLM combination. We are committed to continuously maintaining our platform at https://github.com/THU-KEG/R-Eval to facilitate both the industry and the researchers.

arxiv情報

著者 Shangqing Tu,Yuanchun Wang,Jifan Yu,Yuyang Xie,Yaran Shi,Xiaozhi Wang,Jing Zhang,Lei Hou,Juanzi Li
発行日 2024-06-17 15:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク