DAHRS: Divergence-Aware Hallucination-Remediated SRL Projection

要約

セマンティック役割ラベル付け (SRL) は、機械翻訳、質問応答、要約、立場/信念の検出など、多くの下流アプリケーションを強化します。
ただし、複数言語の意味的に注釈が付けられたコーパスが不足しているため、多言語 SRL モデルの構築は困難です。
さらに、大規模言語モデル (LLM) に基づく最先端の SRL プロジェクション (XSRL) は、偽の役割ラベルだらけの出力を生成します。
LLM には説明可能性がないため、このような幻覚の修復は簡単ではありません。
私たちは、幻覚の役割ラベルが、初期の調整を妨げる自然に発生する発散タイプに関連していることを示します。
私たちは、言語情報に基づいたアラインメント修復とそれに続く貪欲な先着順割り当て (FCFA) SRL 投影を利用して、Divergence-Aware Hallucination-Remediated SRL Projection (DAHRS) を実装します。
DAHRS は、トランスベースの機械を追加することなく SRL 投影の精度を向上させ、人間による比較と自動比較の両方で XSRL を上回り、見出し語を超えてフレーズレベルの SRL 投影 (例: EN-FR、EN-ES) に対応します。
CoNLL-2009 をグラウンド トゥルースとして使用すると、XSRL よりも高いワードレベル F1 を達成します: 87.6% 対 77.3% (EN-FR)、および 89.0% 対 82.7% (EN-ES)。
人間のフレーズレベルの評価では、89.1% (EN-FR) および 91.0% (EN-ES) の結果が得られました。
また、他の言語ペア (英語とタガログ語など) にアプローチを適応させるための発散指標も定義します。

要約(オリジナル)

Semantic role labeling (SRL) enriches many downstream applications, e.g., machine translation, question answering, summarization, and stance/belief detection. However, building multilingual SRL models is challenging due to the scarcity of semantically annotated corpora for multiple languages. Moreover, state-of-the-art SRL projection (XSRL) based on large language models (LLMs) yields output that is riddled with spurious role labels. Remediation of such hallucinations is not straightforward due to the lack of explainability of LLMs. We show that hallucinated role labels are related to naturally occurring divergence types that interfere with initial alignments. We implement Divergence-Aware Hallucination-Remediated SRL projection (DAHRS), leveraging linguistically-informed alignment remediation followed by greedy First-Come First-Assign (FCFA) SRL projection. DAHRS improves the accuracy of SRL projection without additional transformer-based machinery, beating XSRL in both human and automatic comparisons, and advancing beyond headwords to accommodate phrase-level SRL projection (e.g., EN-FR, EN-ES). Using CoNLL-2009 as our ground truth, we achieve a higher word-level F1 over XSRL: 87.6% vs. 77.3% (EN-FR) and 89.0% vs. 82.7% (EN-ES). Human phrase-level assessments yield 89.1% (EN-FR) and 91.0% (EN-ES). We also define a divergence metric to adapt our approach to other language pairs (e.g., English-Tagalog).

arxiv情報

著者 Sangpil Youm,Brodie Mather,Chathuri Jayaweera,Juliana Prada,Bonnie Dorr
発行日 2024-07-12 14:13:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク