RONA: Pragmatically Diverse Image Captioning with Coherence Relations

要約

ライティングアシスタント(Grammarly、Microsoft Copilotなど)は、画像コンポーネントを説明するために構文とセマンティックのバリエーションを使用することにより、伝統的に多様な画像キャプションを生成します。
ただし、人間が作成したキャプションは、実用的な手がかりを使用して視覚的な説明とともに中心的なメッセージを伝えることを優先します。
キャプションの多様性を高めるには、視覚的なコンテンツと組み合わせてこれらのメッセージを伝える代替方法を探ることが不可欠です。
私たちは、コヒーレンス関係を実用的なバリエーションの制御可能な軸として活用するマルチモーダル大手言語モデル(MLLM)の新しいプロンプト戦略であるRonaを提案します。
RONAは、複数のドメインにわたるMLLMベースラインと比較して、全体的な多様性と根本的なアライメントが改善されたキャプションを生成することを実証します。
私たちのコードは、https://github.com/aashish2000/ronaで入手できます

要約(オリジナル)

Writing Assistants (e.g., Grammarly, Microsoft Copilot) traditionally generate diverse image captions by employing syntactic and semantic variations to describe image components. However, human-written captions prioritize conveying a central message alongside visual descriptions using pragmatic cues. To enhance caption diversity, it is essential to explore alternative ways of communicating these messages in conjunction with visual content. We propose RONA, a novel prompting strategy for Multi-modal Large Language Models (MLLM) that leverages Coherence Relations as a controllable axis for pragmatic variations. We demonstrate that RONA generates captions with better overall diversity and ground-truth alignment, compared to MLLM baselines across multiple domains. Our code is available at: https://github.com/aashish2000/RONA

arxiv情報

著者 Aashish Anantha Ramakrishnan,Aadarsh Anantha Ramakrishnan,Dongwon Lee
発行日 2025-06-09 16:48:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.CV, I.2.10 パーマリンク