LExT: Towards Evaluating Trustworthiness of Natural Language Explanations

要約

大規模な言語モデル(LLM)がハイステークスドメインにますます統合されるにつれて、自然言語の説明を生成するためにいくつかのアプローチが提案されています。
これらの説明は、特に透明性と信頼性が重要なヘルスケアなどの敏感なドメインで、モデルの解釈可能性を高めるために重要です。
LLMSによって生成されるこのような説明とその既知の懸念に照らして、モデル生成された説明を評価するための堅牢な評価フレームワークの必要性が高まっています。
ブルーやルージュなどの自然言語生成指標は、構文とセマンティックの正確さをキャプチャしますが、事実上の正確さ、一貫性、忠実さなどの他の重要な側面を見落としています。
このギャップに対処するために、自然言語の説明の信頼性を定量化し、妥当性と忠実さのバランスをとるための一般的な枠組みを提案し、包括的な言語説明信頼性スコア(LEXT)を導き出します(コードとセットアップの実験はhttps://github.com/cerai-iitm/LEXTM/LEXT)で公開されます。
パブリックメディカルデータセットを使用して、ドメインと存在するフレームワークをヘルスケアドメインに適用すると、ドメイン固有および汎用モデルを含む6つのモデルを評価します。
私たちの調査結果は、信頼できる説明を生み出す能力に大きな違いを示しています。
これらの説明を比較すると、汎用モデルによって実証された忠実さの矛盾や、ドメイン固有の微調整モデルよりも優れている傾向などの興味深い観察を行います。
この作業はさらに、カスタマイズされた評価フレームワークを使用して敏感な分野での自然言語の説明を評価し、医療およびそれ以降の言語モデルの信頼性と透明性を改善するための基盤を提供することの重要性を強調しています。

要約(オリジナル)

As Large Language Models (LLMs) become increasingly integrated into high-stakes domains, there have been several approaches proposed toward generating natural language explanations. These explanations are crucial for enhancing the interpretability of a model, especially in sensitive domains like healthcare, where transparency and reliability are key. In light of such explanations being generated by LLMs and its known concerns, there is a growing need for robust evaluation frameworks to assess model-generated explanations. Natural Language Generation metrics like BLEU and ROUGE capture syntactic and semantic accuracies but overlook other crucial aspects such as factual accuracy, consistency, and faithfulness. To address this gap, we propose a general framework for quantifying trustworthiness of natural language explanations, balancing Plausibility and Faithfulness, to derive a comprehensive Language Explanation Trustworthiness Score (LExT) (The code and set up to reproduce our experiments are publicly available at https://github.com/cerai-iitm/LExT). Applying our domain-agnostic framework to the healthcare domain using public medical datasets, we evaluate six models, including domain-specific and general-purpose models. Our findings demonstrate significant differences in their ability to generate trustworthy explanations. On comparing these explanations, we make interesting observations such as inconsistencies in Faithfulness demonstrated by general-purpose models and their tendency to outperform domain-specific fine-tuned models. This work further highlights the importance of using a tailored evaluation framework to assess natural language explanations in sensitive fields, providing a foundation for improving the trustworthiness and transparency of language models in healthcare and beyond.

arxiv情報

著者 Krithi Shailya,Shreya Rajpal,Gokul S Krishnan,Balaraman Ravindran
発行日 2025-04-08 17:16:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク