Exploring Diverse In-Context Configurations for Image Captioning

要約

言語モデル (LM) がコンテキスト内の少数ショット学習に優れていることが発見されてから、コンテキスト内のシーケンス構成を最適化するための多数の戦略が提案されています。
最近、ビジョン言語 (VL) 分野の研究者も少数ショット学習器を開発していますが、コンテキスト内の画像とテキストのペアを構成するために最も単純な方法、つまりランダムサンプリングのみを使用しています。
VL インコンテキスト学習におけるさまざまな構成の影響を調査するために、画像キャプション用のインコンテキスト画像とテキストのペアを構成するために、画像選択のための 4 つの戦略とキャプション割り当てのための 4 つの戦略を考案しました。
ここでは、画像キャプションは視覚的に調整された LM として見ることができるため、ケーススタディとして使用されます。
私たちの包括的な実験により、直観に反する 2 つの貴重な洞察が得られ、NLP の場合と比較した、マルチモーダル相乗効果による VL インコンテキスト学習の明確な特徴が強調されています。
さらに、最適な組み合わせ戦略の探索において、ベースラインと比較して CIDEr スコアの平均パフォーマンスが 20.7 向上することが観察されました。
コードは https://github.com/yongliang-wu/ExploreCfg にあります。

要約(オリジナル)

After discovering that Language Models (LMs) can be good in-context few-shot learners, numerous strategies have been proposed to optimize in-context sequence configurations. Recently, researchers in Vision-Language (VL) domains also develop their few-shot learners, while they only use the simplest way, ie., randomly sampling, to configure in-context image-text pairs. In order to explore the effects of varying configurations on VL in-context learning, we devised four strategies for image selection and four for caption assignment to configure in-context image-text pairs for image captioning. Here Image Captioning is used as the case study since it can be seen as the visually-conditioned LM. Our comprehensive experiments yield two counter-intuitive but valuable insights, highlighting the distinct characteristics of VL in-context learning due to multi-modal synergy, as compared to the NLP case. Furthermore, in our exploration of optimal combination strategies, we observed an average performance enhancement of 20.7 of CIDEr scores compared to the baseline. The code is given in https://github.com/yongliang-wu/ExploreCfg.

arxiv情報

著者 Xu Yang,Yongliang Wu,Mingzhuo Yang,Haokun Chen,Xin Geng
発行日 2023-10-27 12:54:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク