xFinder: Robust and Pinpoint Answer Extraction for Large Language Models

要約

大規模言語モデル (LLM) の継続的な進歩により、そのパフォーマンスを評価するための公正で信頼性の高い方法を開発するという重要な問題への注目が高まっています。
特に、テスト セットの漏洩や即時フォーマットのオーバーフィッティングなどの主観的または非主観的な不正現象の出現は、LLM の信頼性の高い評価に重大な課題をもたらします。
評価フレームワークは、回答の抽出に正規表現 (RegEx) を使用することが多いため、一部のモデルは、RegEx で簡単に抽出できる特定の形式に準拠するように応答を調整する場合があります。
それにもかかわらず、RegEx に基づくキー回答抽出モジュールは、頻繁に抽出エラーに悩まされます。
このペーパーでは、LLM 評価チェーン全体の包括的な分析を実施し、主要な回答抽出モジュールを最適化することで抽出精度が向上し、LLM の特定の回答形式への依存を減らし、LLM 評価の信頼性を高めることができることを実証しています。
これらの問題に対処するために、重要な回答の抽出のために特別に設計されたモデルである xFinder を提案します。
このプロセスの一環として、効果的なモデルのトレーニングと評価を確実にするために、特殊なデータセットである Key Answer Finder (KAF) データセットを作成します。
現実世界のシナリオでの一般化テストと評価を通じて、その結果は、わずか 5 億個のパラメータを備えた最小の xFinder モデルが平均 93.42% の回答抽出精度を達成することを示しています。
対照的に、最良の評価フレームワークにおける正規表現の精度は 74.38% です。
xFinder は、既存の評価フレームワークと比較して、より強力な堅牢性と高い精度を示します。
xFinder のすべてのリソースは \url{https://github.com/IAAR-Shanghai/xFinder} で入手できます。

要約(オリジナル)

The continuous advancement of large language models (LLMs) has brought increasing attention to the critical issue of developing fair and reliable methods for evaluating their performance. Particularly, the emergence of subjective or non-subjective cheating phenomena, such as test set leakage and prompt format overfitting, poses significant challenges to the reliable evaluation of LLMs. Since evaluation frameworks often utilize Regular Expression (RegEx) for answer extraction, some models may adjust their responses to comply with specific formats that are easily extractable by RegEx. Nevertheless, the key answer extraction module based on RegEx frequently suffers from extraction errors. This paper conducts a comprehensive analysis of the entire LLM evaluation chain, demonstrating that optimizing the key answer extraction module can improve extraction accuracy, reduce LLMs’ reliance on specific answer formats, and enhance the reliability of LLM evaluation. To address these issues, we propose xFinder, a model specifically designed for key answer extraction. As part of this process, we create a specialized dataset, the Key Answer Finder (KAF) dataset, to ensure effective model training and evaluation. Through generalization testing and evaluation in real-world scenarios, the results demonstrate that the smallest xFinder model with only 500 million parameters achieves an average answer extraction accuracy of 93.42%. In contrast, RegEx accuracy in the best evaluation framework is 74.38%. xFinder exhibits stronger robustness and higher accuracy compared to existing evaluation frameworks. All resources for xFinder are available at \url{https://github.com/IAAR-Shanghai/xFinder}.

arxiv情報

著者 Qingchen Yu,Zifan Zheng,Shichao Song,Zhiyu Li,Feiyu Xiong,Bo Tang,Ding Chen
発行日 2024-05-20 08:30:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク