要約
Controllable Image Captioning (CIC) は、与えられた制御信号の指導の下で画像に関する自然言語記述を生成するもので、次世代キャプション システムに向けた最も有望な方向性の 1 つです。
これまでに、CICの制御信号は、内容に関する制御から構造に関する制御まで、さまざまな種類が提案されている。
しかし、さまざまな制御信号のフォーマットとターゲットのギャップにより、既存のすべての CIC 作品 (またはアーキテクチャ) は 1 つの特定の制御信号のみに焦点を当てており、人間のような組み合わせ能力を見落としています。
「組み合わせ」とは、人間が記述を生成するときに複数のニーズ (または制約) を同時に簡単に満たすことができることを意味します。
この目的を達成するために、ComPro と呼ばれる Combinatorial Prompts を学習することにより、CIC 用の新しいプロンプトベースのフレームワークを提案します。
具体的には、事前トレーニング済み言語モデル GPT-2 を言語モデルとして直接利用します。これは、さまざまな信号固有の CIC アーキテクチャ間のギャップを埋めるのに役立ちます。
次に、CIC をプロンプトガイド文生成問題として再定式化し、さまざまな種類の制御信号の組み合わせプロンプトを生成する新しい軽量プロンプト生成ネットワークを提案します。
さまざまな制御信号に対して、プロンプトベースの CIC を実現するための新しいマスク アテンション メカニズムをさらに設計します。
ComPro はそのシンプルさにより、これらのプロンプトを連結することで、より多くの種類の組み合わせ制御信号にさらに拡張できます。
2 つの一般的な CIC ベンチマークに関する広範な実験により、単一制御信号と組み合わせた制御信号の両方に対する ComPro の有効性と効率が検証されました。
要約(オリジナル)
Controllable Image Captioning (CIC) — generating natural language descriptions about images under the guidance of given control signals — is one of the most promising directions towards next-generation captioning systems. Till now, various kinds of control signals for CIC have been proposed, ranging from content-related control to structure-related control. However, due to the format and target gaps of different control signals, all existing CIC works (or architectures) only focus on one certain control signal, and overlook the human-like combinatorial ability. By “combinatorial’, we mean that our humans can easily meet multiple needs (or constraints) simultaneously when generating descriptions. To this end, we propose a novel prompt-based framework for CIC by learning Combinatorial Prompts, dubbed as ComPro. Specifically, we directly utilize a pretrained language model GPT-2 as our language model, which can help to bridge the gap between different signal-specific CIC architectures. Then, we reformulate the CIC as a prompt-guide sentence generation problem, and propose a new lightweight prompt generation network to generate the combinatorial prompts for different kinds of control signals. For different control signals, we further design a new mask attention mechanism to realize the prompt-based CIC. Due to its simplicity, our ComPro can be further extended to more kinds of combined control signals by concatenating these prompts. Extensive experiments on two prevalent CIC benchmarks have verified the effectiveness and efficiency of our ComPro on both single and combined control signals.
arxiv情報
著者 | Zhen Wang,Jun Xiao,Yueting Zhuang,Fei Gao,Jian Shao,Long Chen |
発行日 | 2023-08-02 12:56:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google