OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain

要約

大規模言語モデル (LLM) の典型的かつ実用的なアプリケーションとして、検索拡張生成 (RAG) 技術が、特に LLM がドメイン固有の知識を欠いている可能性がある垂直ドメインで広く注目を集めています。
このペーパーでは、金融ドメインにおける全方向性の自動 RAG ベンチマークである OmniEval を紹介します。
当社のベンチマークは、多次元の評価フレームワークを特徴としています。(1) クエリを 5 つのタスク クラスと 16 の財務トピックに分類するマトリックス ベースの RAG シナリオ評価システム。これにより、多様なクエリ シナリオの構造化された評価が可能になります。
(2) GPT-4 ベースの自動生成と人間によるアノテーションを組み合わせた多次元評価データ生成アプローチにより、生成されたインスタンスに対する人間による評価で 87.47% の受け入れ率を達成しました。
(3) 取得パフォーマンスと生成パフォーマンスの両方を評価する多段階評価システムにより、RAG パイプラインの総合的な評価が行われます。
(4) ルールベースおよび LLM ベースの評価メトリクスから派生した堅牢な評価メトリクス。手動の注釈と LLM 評価者の監督による微調整によって評価の信頼性が向上します。
私たちの実験は、広範なテスト データセットを含む OmniEval の包括性を実証し、さまざまなトピックやタスクにわたる RAG システムのパフォーマンスの変動を強調し、RAG モデルが垂直領域での機能を向上させる重要な機会を明らかにしています。
\href{https://github.com/RUC-NLPIR/OmniEval}{https://github.com/RUC-NLPIR/OmniEval} でベンチマークのコードをオープンソースにしています。

要約(オリジナル)

As a typical and practical application of Large Language Models (LLMs), Retrieval-Augmented Generation (RAG) techniques have gained extensive attention, particularly in vertical domains where LLMs may lack domain-specific knowledge. In this paper, we introduce an omnidirectional and automatic RAG benchmark, OmniEval, in the financial domain. Our benchmark is characterized by its multi-dimensional evaluation framework, including (1) a matrix-based RAG scenario evaluation system that categorizes queries into five task classes and 16 financial topics, leading to a structured assessment of diverse query scenarios; (2) a multi-dimensional evaluation data generation approach, which combines GPT-4-based automatic generation and human annotation, achieving an 87.47\% acceptance ratio in human evaluations on generated instances; (3) a multi-stage evaluation system that evaluates both retrieval and generation performance, result in a comprehensive evaluation on the RAG pipeline; and (4) robust evaluation metrics derived from rule-based and LLM-based ones, enhancing the reliability of assessments through manual annotations and supervised fine-tuning of an LLM evaluator. Our experiments demonstrate the comprehensiveness of OmniEval, which includes extensive test datasets and highlights the performance variations of RAG systems across diverse topics and tasks, revealing significant opportunities for RAG models to improve their capabilities in vertical domains. We open source the code of our benchmark in \href{https://github.com/RUC-NLPIR/OmniEval}{https://github.com/RUC-NLPIR/OmniEval}.

arxiv情報

著者 Shuting Wang,Jiejun Tan,Zhicheng Dou,Ji-Rong Wen
発行日 2024-12-17 15:38:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク