Benchmarking Large Language Models in Complex Question Answering Attribution using Knowledge Graphs

要約

質問応答の役割は、生成されたステートメントをサポートする引用を提供することであり、幅広い研究の注目を集めています。
帰属を自動的に評価する現在の方法は、大規模言語モデル (LLM) に基づいていることが多いですが、特に帰属間の微妙な違いや、引用と記述の間の複雑な関係を認識する点ではまだ不十分です。
これらのアトリビューション評価方法を比較し、新しいアトリビューション評価方法を開発するために、アトリビューションを測定するための一連のきめの細かいカテゴリ (つまり、支持的、不十分、矛盾、無関係) を導入し、知識を活用して複雑なアトリビュート質問回答 (CAQA) ベンチマークを開発します。
質問と回答のペアに対するさまざまなカテゴリの属性を自動的に生成するためのグラフ (KG)。
私たちの分析により、既存の評価者は、きめ細かい帰属設定の下ではパフォーマンスが悪く、複雑な引用文の推論に弱点があることが明らかになりました。
私たちの CAQA ベンチマークは人間による注釈で検証されており、LLM アトリビューション評価者の選択と開発のための有望なツールとして浮上しています。

要約(オリジナル)

The attribution of question answering is to provide citations for supporting generated statements, and has attracted wide research attention. The current methods for automatically evaluating the attribution, which are often based on Large Language Models (LLMs), are still inadequate, particularly in recognizing subtle differences between attributions, and complex relationships between citations and statements. To compare these attribution evaluation methods and develop new ones, we introduce a set of fine-grained categories (i.e., supportive, insufficient, contradictory and irrelevant) for measuring the attribution, and develop a Complex Attributed Question Answering (CAQA) benchmark by leveraging knowledge graphs (KGs) for automatically generating attributions of different categories to question-answer pairs. Our analysis reveals that existing evaluators perform poorly under fine-grained attribution settings and exhibit weaknesses in complex citation-statement reasoning. Our CAQA benchmark, validated with human annotations, emerges as a promising tool for selecting and developing LLM attribution evaluators.

arxiv情報

著者 Nan Hu,Jiaoyan Chen,Yike Wu,Guilin Qi,Sheng Bi,Tongtong Wu,Jeff Z. Pan
発行日 2024-01-26 04:11:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク