Vision Meets Definitions: Unsupervised Visual Word Sense Disambiguation Incorporating Gloss Information

要約

タイトル:視覚と辞書情報を組み合わせた教師なしの単語意味曖昧性解消
要約:
– 画像に関するテキストベースのモデルは、従来、多義語の認識に苦しんできた。
– 本研究は、外部レキシカルな知識ベースの語義定義情報を使用した教師なしの視覚単語意味曖昧性解消(VWSD)アプローチを導入する。
– 具体的には、回答の語義情報が提供されていない場合に、語義定義をベイズ推定に組み込むことを提案する。
– また、辞書にない単語の問題を改善するために、GPT-3でコンテキストに応じた定義生成を提案する。
– 実験結果は、ベイズ推定ベースのアプローチによるVWSDの性能が大幅に向上し、辞書にない例においてもより優れた性能を発揮するということを示している。
– ソースコードはできるだけ早く公開する予定。

要約(オリジナル)

Visual Word Sense Disambiguation (VWSD) is a task to find the image that most accurately depicts the correct sense of the target word for the given context. Previously, image-text matching models often suffered from recognizing polysemous words. This paper introduces an unsupervised VWSD approach that uses gloss information of an external lexical knowledge-base, especially the sense definitions. Specifically, we suggest employing Bayesian inference to incorporate the sense definitions when sense information of the answer is not provided. In addition, to ameliorate the out-of-dictionary (OOD) issue, we propose a context-aware definition generation with GPT-3. Experimental results show that the VWSD performance significantly increased with our Bayesian inference-based approach. In addition, our context-aware definition generation achieved prominent performance improvement in OOD examples exhibiting better performance than the existing definition generation method. We will publish source codes as soon as possible.

arxiv情報

著者 Sunjae Kwon,Rishabh Garodia,Minhwa Lee,Zhichao Yang,Hong Yu
発行日 2023-05-02 21:33:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク