DAHRS: Divergence-Aware Hallucination-Remediated SRL Projection

要約

セマンティックロールラベル(SRL)は、多くの下流のアプリケーション、たとえば機械翻訳、質問応答、要約、およびスタンス/信念の検出を豊かにします。
ただし、多言語のSRLモデルの構築は、複数の言語で意味的に注釈されたコーパスが不足しているため、困難です。
さらに、大規模な言語モデル(LLMS)に基づく最先端のSRL投影(XSRL)は、偽の役割ラベルに悩まされている出力を生成します。
このような幻覚の修復は、LLMの説明可能性がないため、簡単ではありません。
幻覚の役割ラベルは、初期アライメントを妨げる自然に発生する発散タイプに関連していることを示します。
発散を認識した幻覚が修正されたSRL投影(DAHRS)を実装し、言語学的に情報に基づいたアライメント修復を活用し、それに続いて貪欲なファーストコームファーストアサイン(FCFA)SRL投影を行います。
DAHRSは、追加の変圧器ベースの機械なしでSRL投影の精度を改善し、ヒトと自動の両方の比較でXSRLを破り、ヘッドワードを超えてフレーズレベルのSRL投影(EN-FR、EN-ESなど)に対応するために前進します。
CONLL-2009をグラウンドトゥルースとして使用すると、XSRLよりも高い単語レベルのF1を達成します:87.6%対77.3%(EN-FR)および89.0%対82.7%(EN-ES)。
人間のフレーズレベルの評価では、89.1%(EN-FR)と91.0%(EN-ES)が得られます。
また、他の言語ペア(英語のタガログなど)にアプローチを適応させるために、発散メトリックを定義します。

要約(オリジナル)

Semantic role labeling (SRL) enriches many downstream applications, e.g., machine translation, question answering, summarization, and stance/belief detection. However, building multilingual SRL models is challenging due to the scarcity of semantically annotated corpora for multiple languages. Moreover, state-of-the-art SRL projection (XSRL) based on large language models (LLMs) yields output that is riddled with spurious role labels. Remediation of such hallucinations is not straightforward due to the lack of explainability of LLMs. We show that hallucinated role labels are related to naturally occurring divergence types that interfere with initial alignments. We implement Divergence-Aware Hallucination-Remediated SRL projection (DAHRS), leveraging linguistically-informed alignment remediation followed by greedy First-Come First-Assign (FCFA) SRL projection. DAHRS improves the accuracy of SRL projection without additional transformer-based machinery, beating XSRL in both human and automatic comparisons, and advancing beyond headwords to accommodate phrase-level SRL projection (e.g., EN-FR, EN-ES). Using CoNLL-2009 as our ground truth, we achieve a higher word-level F1 over XSRL: 87.6% vs. 77.3% (EN-FR) and 89.0% vs. 82.7% (EN-ES). Human phrase-level assessments yield 89.1% (EN-FR) and 91.0% (EN-ES). We also define a divergence metric to adapt our approach to other language pairs (e.g., English-Tagalog).

arxiv情報

著者 Sangpil Youm,Brodie Mather,Chathuri Jayaweera,Juliana Prada,Bonnie Dorr
発行日 2025-03-19 13:41:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク