要約
Omnicaptionerを提案します。これは、さまざまな視覚ドメインにわたって微細なテキストの説明を生成するための多目的な視覚的なキャプションフレームワークです。
特定の画像タイプ(自然画像や幾何学的なビジュアルなど)に限定された以前の方法とは異なり、私たちのフレームワークは、自然な画像、視覚的なテキスト(ポスター、UIS、教科書など)、および構造化されたビジュアル(ドキュメント、表、チャートなど)のキャプションのための統一されたソリューションを提供します。
低レベルのピクセル情報を意味的に豊富なテキスト表現に変換することにより、私たちのフレームワークは視覚的モダリティとテキストモダリティのギャップを埋めます。
私たちの結果は、次の3つの重要な利点を強調しています。(i)LLMSによる視覚的推論の強化。視覚モダリティの長いコンテキストキャプションは、マルチモーダルシナリオで効果的にLLMS、特にDeepSeek-R1シリーズを強化する。
(ii)画像生成の改善。詳細なキャプションがテキストから画像の生成や画像変換などのタスクを改善する。
(iii)効率的な監視された微調整(SFT)。これにより、データが少ないほど速い収束が可能になります。
私たちは、Omnicaptionerの汎用性と適応性は、言語と視覚的モダリティのギャップを埋めるための新しい視点を提供できると考えています。
要約(オリジナル)
We propose OmniCaptioner, a versatile visual captioning framework for generating fine-grained textual descriptions across a wide variety of visual domains. Unlike prior methods limited to specific image types (e.g., natural images or geometric visuals), our framework provides a unified solution for captioning natural images, visual text (e.g., posters, UIs, textbooks), and structured visuals (e.g., documents, tables, charts). By converting low-level pixel information into semantically rich textual representations, our framework bridges the gap between visual and textual modalities. Our results highlight three key advantages: (i) Enhanced Visual Reasoning with LLMs, where long-context captions of visual modalities empower LLMs, particularly the DeepSeek-R1 series, to reason effectively in multimodal scenarios; (ii) Improved Image Generation, where detailed captions improve tasks like text-to-image generation and image transformation; and (iii) Efficient Supervised Fine-Tuning (SFT), which enables faster convergence with less data. We believe the versatility and adaptability of OmniCaptioner can offer a new perspective for bridging the gap between language and visual modalities.
arxiv情報
著者 | Yiting Lu,Jiakang Yuan,Zhen Li,Shitian Zhao,Qi Qin,Xinyue Li,Le Zhuo,Licheng Wen,Dongyang Liu,Yuewen Cao,Xiangchao Yan,Xin Li,Botian Shi,Tao Chen,Zhibo Chen,Lei Bai,Bo Zhang,Peng Gao |
発行日 | 2025-04-09 17:58:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google