GRAMMAR: Grounded and Modular Methodology for Assessment of Closed-Domain Retrieval-Augmented Language Model

要約

検索拡張生成 (RAG) システムは、クローズド ドメインおよび社内のナレッジ ベースをクエリするために、さまざまな業界で広く使用されています。
ただし、クローズド ドメイン データのプライベートな性質と、検証可能なグラウンド トゥルースを含むクエリの不足により、これらのシステムの評価には大きな課題が生じます。
さらに、問題のあるモジュールを診断し、知識不足や堅牢性の問題などによって引き起こされる障害の種類を特定するための分析手法が不足しています。
これらの課題に対処するために、当社は GRAMMAR (GRounded And Modular Methodology for Assessment of RAG) を導入します。これは、根拠のあるデータ生成プロセスと、欠陥のあるモジュールを効果的に特定する評価プロトコルで構成される評価フレームワークです。
私たちの検証実験では、GRAMMAR が脆弱なモジュールを特定するための信頼できるアプローチを提供し、テキスト形式の脆弱性の仮説テストをサポートしていることが明らかになりました。
このフレームワークに付属するオープンソース ツールは、GitHub リポジトリ (https://github.com/xinzhel/grammar を参照) で入手できます。これにより、結果を簡単に再現でき、クローズド ドメイン設定で信頼性の高いモジュール式の評価が可能になります。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) systems are widely used across various industries for querying closed-domain and in-house knowledge bases. However, evaluating these systems presents significant challenges due to the private nature of closed-domain data and a scarcity of queries with verifiable ground truths. Moreover, there is a lack of analytical methods to diagnose problematic modules and identify types of failure, such as those caused by knowledge deficits or issues with robustness. To address these challenges, we introduce GRAMMAR (GRounded And Modular Methodology for Assessment of RAG), an evaluation framework comprising a grounded data generation process and an evaluation protocol that effectively pinpoints defective modules. Our validation experiments reveal that GRAMMAR provides a reliable approach for identifying vulnerable modules and supports hypothesis testing for textual form vulnerabilities. An open-source tool accompanying this framework is available in our GitHub repository (see https://github.com/xinzhel/grammar), allowing for easy reproduction of our results and enabling reliable and modular evaluation in closed-domain settings.

arxiv情報

著者 Xinzhe Li,Ming Liu,Shang Gao
発行日 2024-10-23 11:19:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク