要約
大規模な言語モデルは、生成的な観点からより多くのNLPタスクを表示するように促しています。
同時に、主にRAGフレームワークを介して情報にアクセスする新しい方法を提供します。
自己回帰モデルには顕著な改善がありましたが、生成された答えの幻覚を克服することは継続的な問題のままです。
標準ソリューションは、GPT4などの商用LLMを使用して、これらのアルゴリズムを評価することです。
ただし、そのようなフレームワークは高価であり、あまり透明ではありません。
したがって、RAG幻覚を評価するためのオープンウェイトモデルの関心を示す研究を提案します。
小さく、量子化されたLLMSを使用して軽量アプローチを開発し、その正しさと忠実さに関して生成された答えに連続的なスコアを提供するアクセスしやすく解釈可能なメトリックを提供します。
このスコアにより、決定の信頼性に疑問を投げかけ、しきい値を調査して、人間の判断との相関に代わるものとして新しいAUCメトリックを開発することができます。
要約(オリジナル)
Large Language Models are prompting us to view more NLP tasks from a generative perspective. At the same time, they offer a new way of accessing information, mainly through the RAG framework. While there have been notable improvements for the autoregressive models, overcoming hallucination in the generated answers remains a continuous problem. A standard solution is to use commercial LLMs, such as GPT4, to evaluate these algorithms. However, such frameworks are expensive and not very transparent. Therefore, we propose a study which demonstrates the interest of open-weight models for evaluating RAG hallucination. We develop a lightweight approach using smaller, quantized LLMs to provide an accessible and interpretable metric that gives continuous scores for the generated answer with respect to their correctness and faithfulness. This score allows us to question decisions’ reliability and explore thresholds to develop a new AUC metric as an alternative to correlation with human judgment.
arxiv情報
著者 | Alex-Razvan Ispas,Charles-Elie Simon,Fabien Caspani,Vincent Guigue |
発行日 | 2025-03-20 13:58:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google