要約
画像キャプションは、BLIP などの視覚言語事前学習モデル (VLP) を使用して画像から説明文を生成し、大幅に改善されました。
しかし、現在の方法では、アジア文化グループの人々が着る伝統的な衣装など、画像に描かれている文化的要素について詳細に説明するキャプションを生成できません。
この論文では、文化を表す画像の文化的視覚要素から抽出されたキャプションと文化的要素を説明する新しいフレームワーク、Culturally-aware Image Captioning (CIC) を提案します。
適切なプロンプトを通じて視覚モダリティと大規模言語モデル (LLM) を組み合わせた方法に触発された私たちのフレームワークは、(1) 画像から文化的カテゴリに基づいて質問を生成し、(2) 生成された質問を使用して視覚的質問応答 (VQA) から文化的な視覚要素を抽出します。
(3) プロンプトとともに LLM を使用して、文化を意識したキャプションを生成します。
対応する文化を深く理解している 4 つの異なる文化グループからの 45 人の参加者を対象に行った人間による評価では、VLP に基づく画像キャプションのベースラインと比較して、私たちが提案するフレームワークがより文化的に説明的なキャプションを生成することが示されました。
リソースは https://shane3606.github.io/cic でご覧いただけます。
要約(オリジナル)
Image Captioning generates descriptive sentences from images using Vision-Language Pre-trained models (VLPs) such as BLIP, which has improved greatly. However, current methods lack the generation of detailed descriptive captions for the cultural elements depicted in the images, such as the traditional clothing worn by people from Asian cultural groups. In this paper, we propose a new framework, Culturally-aware Image Captioning (CIC), that generates captions and describes cultural elements extracted from cultural visual elements in images representing cultures. Inspired by methods combining visual modality and Large Language Models (LLMs) through appropriate prompts, our framework (1) generates questions based on cultural categories from images, (2) extracts cultural visual elements from Visual Question Answering (VQA) using generated questions, and (3) generates culturally-aware captions using LLMs with the prompts. Our human evaluation conducted on 45 participants from 4 different cultural groups with a high understanding of the corresponding culture shows that our proposed framework generates more culturally descriptive captions when compared to the image captioning baseline based on VLPs. Resources can be found at https://shane3606.github.io/cic..
arxiv情報
著者 | Youngsik Yun,Jihie Kim |
発行日 | 2024-12-09 15:39:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google