要約
語彙置換は、文の一語を同様のものに置き換えるタスクです。
これは理想的には、必ずしも同義語だけでなく、文の文法構造を保存しながら、ターゲットワードの周囲のコンテキストによく適合する必要があります。
語彙置換における最近の進歩により、事前に訓練された言語モデルのマスクされたトークン予測タスクを活用して、文の特定の単語の代替品を生成しました。
この手法を使用して、元の文を使用してモデルに送信されるコンテキスト情報を強化する単純な拡張アプローチであるConcatを紹介します。
既存のアプローチと比較して、ターゲットワードのコンテキストに関連する予測を行うようにモデルを導くのに非常に効果的であることが証明されています。
私たちの研究には、文の類似性とタスクのパフォーマンスを介して測定される定量的評価が含まれています。
さらに、以前の方法とは対照的に、ユーザーが私たちの方法によって提案された代替を好むことを検証するために、定性的な人間分析を実施します。
最後に、語彙置換のための一般的なベンチマークであるCONICOでアプローチをテストし、ベンチマークの潜在的な落とし穴を明らかにします。
これらの洞察は、語彙置換が評価される方法に関する批判的な議論の基盤として機能します。
要約(オリジナル)
Lexical Substitution is the task of replacing a single word in a sentence with a similar one. This should ideally be one that is not necessarily only synonymous, but also fits well into the surrounding context of the target word, while preserving the sentence’s grammatical structure. Recent advances in Lexical Substitution have leveraged the masked token prediction task of Pre-trained Language Models to generate replacements for a given word in a sentence. With this technique, we introduce ConCat, a simple augmented approach which utilizes the original sentence to bolster contextual information sent to the model. Compared to existing approaches, it proves to be very effective in guiding the model to make contextually relevant predictions for the target word. Our study includes a quantitative evaluation, measured via sentence similarity and task performance. In addition, we conduct a qualitative human analysis to validate that users prefer the substitutions proposed by our method, as opposed to previous methods. Finally, we test our approach on the prevailing benchmark for Lexical Substitution, CoInCo, revealing potential pitfalls of the benchmark. These insights serve as the foundation for a critical discussion on the way in which Lexical Substitution is evaluated.
arxiv情報
著者 | Juraj Vladika,Stephen Meisenbacher,Florian Matthes |
発行日 | 2025-02-06 16:05:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google