OPI at SemEval 2023 Task 1: Image-Text Embeddings and Multimodal Information Retrieval for Visual Word Sense Disambiguation


タイトル:SemEval 2023タスク1におけるOPI:画像テキスト埋め込みと多モーダル情報検索による視覚的単語意味の曖昧性解消


– 視覚的単語意味の曖昧性解消は、与えられた説明に最も適合する画像を見つけることを目的としています。
– 言語理解と画像理解を組み合わせたアプローチが必要な、難しい問題です。
– この論文では、SemEval 2023の視覚的単語意味の曖昧性解消シェアードタスクへの提出を紹介しています。
– 提案されたシステムは、多モーダルな埋め込み、ランキング学習法、知識ベースのアプローチを統合しています。
– CLIPモデルに基づく分類器を構築し、Wikipediaや語彙データベースから取得した追加情報で結果を補完しています。
– 私たちのソリューションは、多言語タスクでは3位にランクインし、3つの言語サブタスクのうちのペルシャ語トラックで優勝しました。


The goal of visual word sense disambiguation is to find the image that best matches the provided description of the word’s meaning. It is a challenging problem, requiring approaches that combine language and image understanding. In this paper, we present our submission to SemEval 2023 visual word sense disambiguation shared task. The proposed system integrates multimodal embeddings, learning to rank methods, and knowledge-based approaches. We build a classifier based on the CLIP model, whose results are enriched with additional information retrieved from Wikipedia and lexical databases. Our solution was ranked third in the multilingual task and won in the Persian track, one of the three language subtasks.


著者 Sławomir Dadas
発行日 2023-04-14 13:45:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク