Enhancing Idiomatic Representation in Multiple Languages via an Adaptive Contrastive Triplet Loss

要約

慣用言語または非合成言語を正確にモデル化することは、自然言語処理 (NLP) における長年の課題でした。
これは、これらの表現が構成単語のみから意味を導出しているわけではないことも理由の 1 つですが、関連するデータ リソースが不足していること、および機械翻訳や簡略化などの下流タスクのパフォーマンスに影響を与えることも原因です。
この論文では、適応対比学習とリサンプリングマイナーを使用して慣用句を意識した学習目標を構築することにより、言語モデルをトレーニングするための慣用的な意味に対する構成単語の非対称寄与を組み込む三重項損失を使用して慣用性を効果的にモデル化するアプローチを提案します。
私たちが提案した手法は SemEval チャレンジで評価され、多くの指標において以前の代替手法を大幅に上回りました。

要約(オリジナル)

Accurately modeling idiomatic or non-compositional language has been a longstanding challenge in Natural Language Processing (NLP). This is partly because these expressions do not derive their meanings solely from their constituent words, but also due to the scarcity of relevant data resources, and their impact on the performance of downstream tasks such as machine translation and simplification. In this paper we propose an approach to model idiomaticity effectively using a triplet loss that incorporates the asymmetric contribution of components words to an idiomatic meaning for training language models by using adaptive contrastive learning and resampling miners to build an idiomatic-aware learning objective. Our proposed method is evaluated on a SemEval challenge and outperforms previous alternatives significantly in many metrics.

arxiv情報

著者 Wei He,Marco Idiart,Carolina Scarton,Aline Villavicencio
発行日 2024-06-21 14:21:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク