Altogether: Image Captioning via Re-aligning Alt-text

要約

このペーパーでは、画像キャプションの品質を向上させるための合成データの作成に焦点を当てます。
既存の作品には通常 2 つの欠点があります。
第一に、既存の代替テキストのメタデータを無視して、画像にキャプションを最初から付けます。第二に、キャプション作成者のトレーニング データ (GPT など) が不明な場合、透明性が欠如します。
この論文では、画像に関連付けられた既存の代替テキストを編集して再配置するという重要なアイデアに基づいた原則的なアプローチを研究します。
トレーニング データを生成するには、人間によるアノテーションを実行します。アノテーターは既存の代替テキストから開始し、それを複数回に分けて画像コンテンツに再配置し、その結果、豊富な視覚的コンセプトを備えたキャプションを構築します。
これは、画像とアノテーターの知識のみに基づいて人間によるアノテーションを 1 回限りの記述タスクとして実行する従来の研究とは異なります。
このデータに基づいてキャプショナをトレーニングし、代替テキストを大規模に再配置するプロセスを一般化します。
私たちの結果は、Altogether アプローチがより豊富な画像キャプションをもたらし、テキストから画像への生成やゼロショット画像分類タスクも改善することを示しています。

要約(オリジナル)

This paper focuses on creating synthetic data to improve the quality of image captions. Existing works typically have two shortcomings. First, they caption images from scratch, ignoring existing alt-text metadata, and second, lack transparency if the captioners’ training data (e.g. GPT) is unknown. In this paper, we study a principled approach Altogether based on the key idea to edit and re-align existing alt-texts associated with the images. To generate training data, we perform human annotation where annotators start with the existing alt-text and re-align it to the image content in multiple rounds, consequently constructing captions with rich visual concepts. This differs from prior work that carries out human annotation as a one-time description task solely based on images and annotator knowledge. We train a captioner on this data that generalizes the process of re-aligning alt-texts at scale. Our results show our Altogether approach leads to richer image captions that also improve text-to-image generation and zero-shot image classification tasks.

arxiv情報

著者 Hu Xu,Po-Yao Huang,Xiaoqing Ellen Tan,Ching-Feng Yeh,Jacob Kahn,Christine Jou,Gargi Ghosh,Omer Levy,Luke Zettlemoyer,Wen-tau Yih,Shang-Wen Li,Saining Xie,Christoph Feichtenhofer
発行日 2024-10-22 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク