OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain

要約

大規模な言語モデル(LLMS)の典型的かつ実用的な応用として、特にLLMがドメイン固有の知識を欠く可能性のある垂直ドメインでは、検索された生成(RAG)技術が広範囲に注目しています。
このホワイトペーパーでは、金融領域に全方向性および自動ラグベンチマーク、Omnievalを紹介します。
私たちのベンチマークは、(1)クエリを5つのタスククラスと16の財務トピックに分類するマトリックスベースのRAGシナリオ評価システムを含む多次元評価フレームワークによって特徴付けられ、多様なクエリシナリオの構造化された評価につながります。
(2)GPT-4ベースの自動生成と人間の注釈を組み合わせた多次元評価データ生成アプローチで、生成されたインスタンスでの人間の評価における87.47 \%の受け入れ比を達成します。
(3)検索と生成のパフォーマンスの両方を評価するマルチステージ評価システムは、RAGパイプラインで包括的な評価をもたらします。
(4)ルールベースおよびLLMベースのものから導き出された堅牢な評価メトリックは、手動注釈とLLM評価者の監視された微調整を通じて評価の信頼性を高めます。
私たちの実験は、大規模なテストデータセットを含むOmnievalの包括性を実証し、多様なトピックとタスクにわたるRAGシステムのパフォーマンスの変動を強調し、RAGモデルが垂直ドメインでの機能を改善する重要な機会を明らかにします。
\ href {https://github.com/ruc-nlpir/omnieval} {https://github.com/ruc-nlpir/omnieval}でベンチマークのコードをオープンします。

要約(オリジナル)

As a typical and practical application of Large Language Models (LLMs), Retrieval-Augmented Generation (RAG) techniques have gained extensive attention, particularly in vertical domains where LLMs may lack domain-specific knowledge. In this paper, we introduce an omnidirectional and automatic RAG benchmark, OmniEval, in the financial domain. Our benchmark is characterized by its multi-dimensional evaluation framework, including (1) a matrix-based RAG scenario evaluation system that categorizes queries into five task classes and 16 financial topics, leading to a structured assessment of diverse query scenarios; (2) a multi-dimensional evaluation data generation approach, which combines GPT-4-based automatic generation and human annotation, achieving an 87.47\% acceptance ratio in human evaluations on generated instances; (3) a multi-stage evaluation system that evaluates both retrieval and generation performance, result in a comprehensive evaluation on the RAG pipeline; and (4) robust evaluation metrics derived from rule-based and LLM-based ones, enhancing the reliability of assessments through manual annotations and supervised fine-tuning of an LLM evaluator. Our experiments demonstrate the comprehensiveness of OmniEval, which includes extensive test datasets and highlights the performance variations of RAG systems across diverse topics and tasks, revealing significant opportunities for RAG models to improve their capabilities in vertical domains. We open source the code of our benchmark in \href{https://github.com/RUC-NLPIR/OmniEval}{https://github.com/RUC-NLPIR/OmniEval}.

arxiv情報

著者 Shuting Wang,Jiejun Tan,Zhicheng Dou,Ji-Rong Wen
発行日 2025-02-17 18:51:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク