要約
Semeval-2025タスク1は、英語とブラジルのポルトガル語の両方で慣用的な意味を持つ可能性のある特定の公称化合物とのアラインメントに基づいて、ランキング画像に焦点を当てています。
この課題に対処するために、この作業では、生成的な大規模な言語モデル(LLMS)と多言語のクリップモデルを使用して、慣用化複合表現を強化します。
LLMは、潜在的に慣用的な化合物に対して慣用的な意味を生成し、セマンティックな解釈を豊かにします。
これらの意味は、多言語クリップモデルを使用してエンコードされ、画像ランキングの表現として機能します。
対照的な学習とデータ増強技術が適用され、これらの埋め込みを微調整してパフォーマンスを向上させます。
実験結果は、この方法を通じて抽出されたマルチモーダル表現が、元の公称化合物のみに基づいたものよりも優れていることを示しています。
微調整アプローチは有望な結果を示しますが、微調整せずに埋め込みを使用するよりも効果が低いです。
このペーパーで使用されているソースコードは、https://github.com/tongwu17/semeval-2025-task1-uor-nclで入手できます。
要約(オリジナル)
SemEval-2025 Task 1 focuses on ranking images based on their alignment with a given nominal compound that may carry idiomatic meaning in both English and Brazilian Portuguese. To address this challenge, this work uses generative large language models (LLMs) and multilingual CLIP models to enhance idiomatic compound representations. LLMs generate idiomatic meanings for potentially idiomatic compounds, enriching their semantic interpretation. These meanings are then encoded using multilingual CLIP models, serving as representations for image ranking. Contrastive learning and data augmentation techniques are applied to fine-tune these embeddings for improved performance. Experimental results show that multimodal representations extracted through this method outperformed those based solely on the original nominal compounds. The fine-tuning approach shows promising outcomes but is less effective than using embeddings without fine-tuning. The source code used in this paper is available at https://github.com/tongwu17/SemEval-2025-Task1-UoR-NCL.
arxiv情報
著者 | Thanet Markchom,Tong Wu,Liting Huang,Huizhi Liang |
発行日 | 2025-02-28 11:52:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google