要約
視覚的語義曖昧性解消(Visual Word Sense Disambiguation: VWSD)は、言語的語義曖昧性解消と、きめ細かなマルチモーダル検索の中間に位置する、新しいチャレンジングなタスクである。最近の視覚言語(VL)変換器の開発における進歩は、有望な結果をもたらすいくつかのオフザセルフ実装を示唆している。この目的のために、我々は知識ベースとして大規模言語モデル(LLM)を使用することにより、VL変換器の検索性能を向上させるための知識強化技術を提案する。具体的には、LLMに格納された知識を適切なプロンプトの助けを借りてゼロショットで検索し、性能向上を実現する。さらに、生成された画像キャプションを多肢選択式の回答候補とみなすことで、VWSDを純粋にテキストによる質問応答(QA)問題に変換する。このような変換の可能性を探るために、ゼロショットと少数ショットのプロンプティング戦略を活用し、ゼロショット設定におけるChain-of-Thought(CoT)プロンプティングは、LLMが適切な候補を選択するために従う内部推論ステップを明らかにすることができる。全体として、我々のアプローチは、WVSDを解決するためにLLMに格納された知識を様々な方法で利用することの利点を分析した最初のものである。
要約(オリジナル)
Visual Word Sense Disambiguation (VWSD) is a novel challenging task that lies between linguistic sense disambiguation and fine-grained multimodal retrieval. The recent advancements in the development of visiolinguistic (VL) transformers suggest some off-the-self implementations with encouraging results, which however we argue that can be further improved. To this end, we propose some knowledge-enhancement techniques towards improving the retrieval performance of VL transformers via the usage of Large Language Models (LLMs) as Knowledge Bases. More specifically, knowledge stored in LLMs is retrieved with the help of appropriate prompts in a zero-shot manner, achieving performance advancements. Moreover, we convert VWSD to a purely textual question-answering (QA) problem by considering generated image captions as multiple-choice candidate answers. Zero-shot and few-shot prompting strategies are leveraged to explore the potential of such a transformation, while Chain-of-Thought (CoT) prompting in the zero-shot setting is able to reveal the internal reasoning steps an LLM follows to select the appropriate candidate. In total, our presented approach is the first one to analyze the merits of exploiting knowledge stored in LLMs in different ways to solve WVSD.
arxiv情報
著者 | Anastasia Kritharoula,Maria Lymperaiou,Giorgos Stamou |
発行日 | 2023-10-03 11:11:55+00:00 |
arxivサイト | arxiv_id(pdf) |