Is Less More? Quality, Quantity and Context in Idiom Processing with Natural Language Models

要約

言語モデルの構成性は、慣用表現を処理するときに問題を引き起こします。これは、慣用表現の意味を個々の部分から直接導き出すことができないことが多いためです。
微調整やその他の最適化戦略を使用して慣用表現の表現を改善することはできますが、これは関連データの利用可能性に依存します。
書籍内の名詞複合同義語置換 – NCSSB – データセットを紹介します。このデータセットは、パブリック ドメインの書籍テキスト内の慣用的な可能性のある英語の複合名詞の同義語を置換することによって作成されます。
私たちは、ローカル (周囲の文から) または外部 (言語リソースを通じて) 取得されたコンテキスト情報と組み合わせて、慣用性検出用のモデルをトレーニングする際のデータ量と品質の間のトレードオフを調査します。
慣用性検出タスクのパフォーマンスは、データセットの品質がコンテキスト強化モデルのより強力な要素であることを示していますが、その量はコンテキスト包含戦略のないモデルでも役割を果たします。

要約(オリジナル)

Compositionality in language models presents a problem when processing idiomatic expressions, as their meaning often cannot be directly derived from their individual parts. Although fine-tuning and other optimization strategies can be used to improve representations of idiomatic expressions, this depends on the availability of relevant data. We present the Noun Compound Synonym Substitution in Books – NCSSB – datasets, which are created by substitution of synonyms of potentially idiomatic English noun compounds in public domain book texts. We explore the trade-off between data quantity and quality when training models for idiomaticity detection, in conjunction with contextual information obtained locally (from the surrounding sentences) or externally (through language resources). Performance on an idiomaticity detection task indicates that dataset quality is a stronger factor for context-enriched models, but that quantity also plays a role in models without context inclusion strategies.

arxiv情報

著者 Agne Knietaite,Adam Allsebrook,Anton Minkov,Adam Tomaszewski,Norbert Slinko,Richard Johnson,Thomas Pickard,Dylan Phelps,Aline Villavicencio
発行日 2024-05-14 10:54:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク