Self-Rationalization in the Wild: A Large Scale Out-of-Distribution Evaluation on NLI-related tasks

要約

フリーテキストの説明は表現力豊かで理解しやすいですが、多くのデータセットには注釈付きの説明データがないため、説明可能な予測のためにモデルを訓練することが困難です。
これに対処するために、既存の説明データセットを自己合理化に使用する方法を調査し、モデルの分散分布(OOD)パフォーマンスを評価します。
T5-LargeおよびOLMO-7Bモデルを微調整し、微調整データ品質の影響、微調整サンプルの数、および少数のショット選択方法を評価します。
モデルは、抽象的要約における自然言語推論(NLI)、ファクトチェック、および幻覚検出の3つのタスクにわたる19の多様なOODデータセットで評価されます。
生成された説明評価では、13の選択されたモデルに関する人間の研究を実施し、受容性スコア(T5-11B)および他の3つのLLMベースの参照フリーメトリックとの相関関係を研究します。
人間の評価は、受容性スコアが人間の判断と最も強く相関していることを示しており、フリーテキストの説明を評価する際の有効性を示しています。
私たちの調査結果は、次のように明らかになりました。1)注釈付きの例は、OOD説明生成のモデルを効果的に適応させます。
2)サンプル選択戦略と比較して、微調整データソースはOODパフォーマンスに大きな影響を与えます。
3)ラベル予測の精度が高いモデルは、より高い受容性スコアに反映されるように、より良い説明を生成する傾向があります。

要約(オリジナル)

Free-text explanations are expressive and easy to understand, but many datasets lack annotated explanation data, making it challenging to train models for explainable predictions. To address this, we investigate how to use existing explanation datasets for self-rationalization and evaluate models’ out-of-distribution (OOD) performance. We fine-tune T5-Large and OLMo-7B models and assess the impact of fine-tuning data quality, the number of fine-tuning samples, and few-shot selection methods. The models are evaluated on 19 diverse OOD datasets across three tasks: natural language inference (NLI), fact-checking, and hallucination detection in abstractive summarization. For the generated explanation evaluation, we conduct a human study on 13 selected models and study its correlation with the Acceptability score (T5-11B) and three other LLM-based reference-free metrics. Human evaluation shows that the Acceptability score correlates most strongly with human judgments, demonstrating its effectiveness in evaluating free-text explanations. Our findings reveal: 1) few annotated examples effectively adapt models for OOD explanation generation; 2) compared to sample selection strategies, fine-tuning data source has a larger impact on OOD performance; and 3) models with higher label prediction accuracy tend to produce better explanations, as reflected by higher Acceptability scores.

arxiv情報

著者 Jing Yang,Max Glockner,Anderson Rocha,Iryna Gurevych
発行日 2025-02-07 10:01:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク