Ranking Over Scoring: Towards Reliable and Robust Automated Evaluation of LLM-Generated Medical Explanatory Arguments

要約

LLM で生成されたテキストの評価は、特に医療分野などのドメイン固有の状況において重要な課題となっています。
この研究では、LLM が生成する医学的説明引数の新しい評価方法論を導入し、代理タスクとランキングに依存して結果を人間の評価基準と厳密に一致させ、裁判官として使用される LLM によく見られるバイアスを克服します。
我々は、提案された評価器が非議論的なテキストの評価を含む敵対的攻撃に対して堅牢であることを実証します。
さらに、評価者のトレーニングに必要な人間が作成した引数は、プロキシ タスクごとに 1 つの例に最小限に抑えられます。
LLM が生成した複数の引数を調べることで、プロキシ タスクが LLM が生成した医学的説明引数の評価に適しているかどうかを判断するための方法論を確立します。これには、5 つの例と 2 人の人間の専門家だけが必要です。

要約(オリジナル)

Evaluating LLM-generated text has become a key challenge, especially in domain-specific contexts like the medical field. This work introduces a novel evaluation methodology for LLM-generated medical explanatory arguments, relying on Proxy Tasks and rankings to closely align results with human evaluation criteria, overcoming the biases typically seen in LLMs used as judges. We demonstrate that the proposed evaluators are robust against adversarial attacks, including the assessment of non-argumentative text. Additionally, the human-crafted arguments needed to train the evaluators are minimized to just one example per Proxy Task. By examining multiple LLM-generated arguments, we establish a methodology for determining whether a Proxy Task is suitable for evaluating LLM-generated medical explanatory arguments, requiring only five examples and two human experts.

arxiv情報

著者 Iker De la Iglesia,Iakes Goenaga,Johanna Ramirez-Romero,Jose Maria Villa-Gonzalez,Josu Goikoetxea,Ander Barrena
発行日 2024-09-30 17:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク