Text-only Synthesis for Image Captioning

要約

画像とテキストのペアのトレーニングから画像キャプション用のテキストのみのトレーニングに至るまで、高品質のデータに対する高コストで大規模なアノテーションの要件を緩和するという追求は一貫しています。
この論文では、より少ない人的労力とより少ない計算時間でこの緩和をさらに進める、画像キャプションのためのテキストのみの合成 (ToCa) を提案します。
具体的には、キャプション テキストを構造と語彙に分解し、キャプションの基本コンポーネントとして機能します。
さまざまな構造と語彙を大規模言語モデルへの入力として組み合わせることで、さまざまなパターンの語彙を含む大量のキャプションが生成されます。
この方法は、ターゲット ドメインに近づくだけでなく、新しいキャプションを生成することでターゲット ドメインを超え、それによってモデルのゼロショット汎化能力が強化されます。
現実世界のさまざまなレベルのデータ アクセスを考慮して、クロスドメイン合成、ドメイン内合成、データ効率の高い合成という 3 つの合成シナリオを定義します。
これらのシナリオでの実験では、ゼロショット クロスドメイン キャプションでは 5 CIDEr 近くの向上、データ効率の高いキャプションでは最大 20 CIDEr 以上の増加により、ToCa の汎用性、転送可能性、実用性が実証されました。

要約(オリジナル)

From paired image-text training to text-only training for image captioning, the pursuit of relaxing the requirements for high-cost and large-scale annotation of good quality data remains consistent. In this paper, we propose Text-only Synthesis for Image Captioning (ToCa), which further advances this relaxation with fewer human labor and less computing time. Specifically, we deconstruct caption text into structures and lexical words, which serve as the fundamental components of the caption. By combining different structures and lexical words as inputs to the large language model, massive captions that contain various patterns of lexical words are generated. This method not only approaches the target domain but also surpasses it by generating new captions, thereby enhancing the zero-shot generalization ability of the model. Considering the different levels of data access in the real world, we define three synthesis scenarios: cross-domain synthesis, in-domain synthesis, and data-efficient synthesis. Experiments in these scenarios demonstrate the generalizability, transferability and practicability of ToCa with a nearly 5 CIDEr improvement for zero-shot cross-domain captioning and a maximum increase of over 20 CIDEr for data-efficient captioning.

arxiv情報

著者 Qing Zhou,Junlin Huang,Qiang Li,Junyu Gao,Qi Wang
発行日 2024-05-28 15:11:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク