Accuracy is Not Agreement: Expert-Aligned Evaluation of Crash Narrative Classification Models

要約

本研究では、ディープラーニング(DL)モデルの精度と、クラッシュナラティブの分類における専門家の一致との関係を調査する。BERT変種、USE、ゼロショット分類器を含む5つのDLモデルを専門家のラベルとナラティブに対して評価し、4つの大規模言語モデル(LLM)に分析を拡張する:GPT-4、LLaMA 3、Qwen、Claudeである。その結果、技術的な精度が高いモデルは、人間の専門家との一致度が低いことが多い一方で、LLMは精度が低いにもかかわらず、専門家との一致度が高いという逆の関係が明らかになった。我々はコーエンのカッパと主成分分析(PCA)を用いてモデルと専門家の一致を定量化・可視化し、SHAP分析を用いて誤分類を説明する。その結果、専門家による整列モデルは、場所固有のキーワードよりも、文脈的・時間的手がかりに依存することが示された。これらの知見は、セーフティクリティカルな自然言語処理タスクでは、精度だけでは不十分であることを示唆している。我々は、専門家の一致をモデル評価フレームワークに組み込むことを主張し、衝突解析パイプラインにおける解釈可能なツールとしてのLLMの可能性を強調する。

要約(オリジナル)

This study investigates the relationship between deep learning (DL) model accuracy and expert agreement in classifying crash narratives. We evaluate five DL models — including BERT variants, USE, and a zero-shot classifier — against expert labels and narratives, and extend the analysis to four large language models (LLMs): GPT-4, LLaMA 3, Qwen, and Claude. Our findings reveal an inverse relationship: models with higher technical accuracy often show lower agreement with human experts, while LLMs demonstrate stronger expert alignment despite lower accuracy. We use Cohen’s Kappa and Principal Component Analysis (PCA) to quantify and visualize model-expert agreement, and employ SHAP analysis to explain misclassifications. Results show that expert-aligned models rely more on contextual and temporal cues than location-specific keywords. These findings suggest that accuracy alone is insufficient for safety-critical NLP tasks. We argue for incorporating expert agreement into model evaluation frameworks and highlight the potential of LLMs as interpretable tools in crash analysis pipelines.

arxiv情報

著者 Sudesh Ramesh Bhagat,Ibne Farabi Shihab,Anuj Sharma
発行日 2025-05-01 23:02:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク