Unified Representation for Non-compositional and Compositional Expressions

要約

非合成言語を正確に処理するには、そのような式に対して適切な表現を生成できるかどうかにかかっています。
この研究では、BART に基づいて構築され、英語の潜在的に慣用的な表現 (PIE) に対して意味的に意味があり、文脈的に適切な表現を作成できる言語モデル PIER を提案することにより、言語の非構成性の表現を研究します。
PIE は、文字通りおよび慣用的な解釈における非構成性と文脈の曖昧さによって特徴付けられます。
埋め込み品質に関する内部評価と PIE 処理および NLU タスクに関する外部評価を介して、PIER によって生成された表現では、埋め込みクラスタリングの均一性スコアが BART より 33% 高く、PIE の精度とシーケンス精度が 3.12% および 3.29% 向上することを示します。
センス分類とスパン検出を最先端の IE 表現モデル GIEA と比較。
これらの向上は、BART と比較して、NLU タスクにおける PIER のパフォーマンス (+/- 1% の精度) を犠牲にすることなく達成されます。

要約(オリジナル)

Accurate processing of non-compositional language relies on generating good representations for such expressions. In this work, we study the representation of language non-compositionality by proposing a language model, PIER, that builds on BART and can create semantically meaningful and contextually appropriate representations for English potentially idiomatic expressions (PIEs). PIEs are characterized by their non-compositionality and contextual ambiguity in their literal and idiomatic interpretations. Via intrinsic evaluation on embedding quality and extrinsic evaluation on PIE processing and NLU tasks, we show that representations generated by PIER result in 33% higher homogeneity score for embedding clustering than BART, whereas 3.12% and 3.29% gains in accuracy and sequence accuracy for PIE sense classification and span detection compared to the state-of-the-art IE representation model, GIEA. These gains are achieved without sacrificing PIER’s performance on NLU tasks (+/- 1% accuracy) compared to BART.

arxiv情報

著者 Ziheng Zeng,Suma Bhat
発行日 2023-10-29 19:28:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク