Exploring Annotation-free Image Captioning with Retrieval-augmented Pseudo Sentence Generation

要約

注釈付きの画像と文のペアを使用せずに画像キャプショナをトレーニングすることは、近年注目を集めています。
これまでのアプローチは 2 つの戦略に分類できます。1 つは不一致のコーパスから文をクロールし、擬似注釈として指定された画像と位置合わせする方法、もう 1 つは外部の画像とテキストのペアを使用してキャプショナを事前トレーニングする方法です。
ただし、調整設定はペアの品質の問題によりパフォーマンスの限界に達しているようで、事前トレーニングには大量の計算リソースが必要です。
これらの課題に対処するために、我々は、大規模な事前訓練済みモデル(LPM)からの事前知識を監視として活用し、検索プロセスを統合してその有効性をさらに強化する新しい戦略「LPM + 検索拡張学習」を提案します。
具体的には、検索拡張疑似文生成 (RaPSG) を導入します。これは、不一致のコーパスから関連性の高い短い領域の記述を取得し、それらを使用して、LPM を介して、明確な表現と高品質を備えたさまざまな疑似文を生成する効率的なアプローチを採用しています。

さらに、モデルの最適化を容易にするために、流暢性フィルターと CLIP ガイド付きトレーニング目標がさらに導入されています。
実験結果は、トレーニング可能なパラメータのわずか 0.3% (1.3B VS 33M) を利用しながら、CIDEr スコア 78.1 (+5.1) を達成することで、私たちのメソッドが SOTA 事前トレーニング モデル (Flamingo3B) を上回ることを示しています。
重要なのは、私たちのアプローチにより、外部データセットでの計算コストのかかる事前トレーニングプロセス(たとえば、Flamingo3B の 3 億 1200 万個の画像とテキストのペアの要件)が不要になることです。
さらに、単純な拡張により、生成された疑似文を弱い監視として展開して、1% の半教師あり画像キャプション ベンチマークを CIDEr スコア 93.4 (+8.9) まで高めることができることを示し、これは私たちのアプローチの多用途性と有効性を示しています。

要約(オリジナル)

Training an image captioner without annotated image-sentence pairs has gained traction in recent years. Previous approaches can be categorized into two strategies: crawling sentences from mismatching corpora and aligning them with the given images as pseudo annotations, or pre-training the captioner using external image-text pairs. However, the aligning setting seems to reach its performance limit due to the quality problem of pairs, and pre-training requires significant computational resources. To address these challenges, we propose a new strategy “LPM + retrieval-augmented learning’ where the prior knowledge from large pre-trained models (LPMs) is leveraged as supervision, and a retrieval process is integrated to further reinforce its effectiveness. Specifically, we introduce Retrieval-augmented Pseudo Sentence Generation (RaPSG), which adopts an efficient approach to retrieve highly relevant short region descriptions from the mismatching corpora and use them to generate a variety of pseudo sentences with distinct representations as well as high quality via LPMs. In addition, a fluency filter and a CLIP-guided training objective are further introduced to facilitate model optimization. Experimental results demonstrate that our method surpasses the SOTA pre-training model (Flamingo3B) by achieving a CIDEr score of 78.1 (+5.1) while utilizing only 0.3% of its trainable parameters (1.3B VS 33M). Importantly, our approach eliminates the need of computationally expensive pre-training processes on external datasets (e.g., the requirement of 312M image-text pairs for Flamingo3B). We further show that with a simple extension, the generated pseudo sentences can be deployed as weak supervision to boost the 1% semi-supervised image caption benchmark up to 93.4 CIDEr score (+8.9) which showcases the versatility and effectiveness of our approach.

arxiv情報

著者 Zhiyuan Li,Dongnan Liu,Heng Wang,Chaoyi Zhang,Weidong Cai
発行日 2023-07-27 10:16:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク