要約
大規模なデータで事前に処理されている大規模なビジョンと言語モデルは、視覚的および言語的事前の事前をエンコードするため、より自然で現実的な画像と言語を簡単に生成できます。
それにもかかわらず、特にトレーニングデータのみがトレーニングに利用できる少ないショット設定でトレーニングデータが不足している場合、ビジョンと言語のモダリティの間にはまだ重要なドメインギャップがあります。
この問題を軽減するために、これら2つの大きなモデルを接続する調整可能なプロンプトを導入することにより、2つの凍結された前提条件の大きなビジョンと言語モデルの間のギャップを埋めるために、マルチモーダルメタラーニングフレームワークが提案されています。
少数のショット画像キャプションの場合、既存のマルチモデルメタラーニングフレームワークは、入力画像の視覚的特徴を蓄積するためのワンステッププロンプトスキームを使用して、少数のトレーニングサンプルで正確な画像の説明を生成するのに苦労しています。
。
代わりに、人間が画像をどのように説明するかをよりよく模倣するためのマルチステップ画像キャプションの手順として、考え方のチェーン(COT)メタラーニングスキームを提案します。
さらに、干渉を避けるために、個別の部分空間の各COTステップに対応するモデルのさまざまなメタパラメータを学習することをさらに提案します。
いくつかのショット設定の下で、一般的に使用されている3つの画像キャプションデータセット、つまりMscoco、Flickr8K、およびFlickr30Kのメソッドを評価しました。
私たちの実験の結果は、私たちの考え方のサブスペースメタラーニング戦略が、異なるメトリックで測定されたさまざまなデータセットのパフォーマンスの点でベースラインよりも優れていることを示しています。
要約(オリジナル)
A large-scale vision and language model that has been pretrained on massive data encodes visual and linguistic prior, which makes it easier to generate images and language that are more natural and realistic. Despite this, there is still a significant domain gap between the modalities of vision and language, especially when training data is scarce in few-shot settings, where only very limited data are available for training. In order to mitigate this issue, a multi-modal meta-learning framework has been proposed to bridge the gap between two frozen pretrained large vision and language models by introducing a tunable prompt connecting these two large models. For few-shot image captioning, the existing multi-model meta-learning framework utilizes a one-step prompting scheme to accumulate the visual features of input images to guide the language model, which struggles to generate accurate image descriptions with only a few training samples. Instead, we propose a chain-of-thought (CoT) meta-learning scheme as a multi-step image captioning procedure to better imitate how humans describe images. In addition, we further propose to learn different meta-parameters of the model corresponding to each CoT step in distinct subspaces to avoid interference. We evaluated our method on three commonly used image captioning datasets, i.e., MSCOCO, Flickr8k, and Flickr30k, under few-shot settings. The results of our experiments indicate that our chain-of-thought subspace meta-learning strategy is superior to the baselines in terms of performance across different datasets measured by different metrics.
arxiv情報
| 著者 | Hao Huang,Shuaihang Yuan,Yu Hao,Congcong Wen,Yi Fang | 
| 発行日 | 2025-02-19 18:35:43+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
