Improving Image Captioning with Control Signal of Sentence Quality

要約

画像キャプションのデータセットでは、各画像に複数のキャプションが並んでいる。これらの説明文の品質は様々であるにもかかわらず、既存のキャプション作成モデルは学習プロセスにおいてそれらを同等に扱っている。本論文では、キャプションモデルへの追加入力としてとらえる文の品質の制御信号を新たに提案する。制御信号の情報を統合することで、キャプション作成モデルは対象文の品質レベルを認識し、異なる扱いをする。さらに、文の品質に関する制御信号のために特別に設計された新しい強化学習方法を提案する。Q-SATは、R-Drop法を用いた強化学習法である。R-Dropを用いた強化学習により、文の品質レベルを最も高く制御したモデルは、精度評価指標においてベースラインのモデルを大きく上回り、提案手法の有効性を実証することができた。

要約(オリジナル)

In the dataset of image captioning, each image is aligned with several captions. Despite the fact that the quality of these descriptions varies, existing captioning models treat them equally in the training process. In this paper, we propose a new control signal of sentence quality, which is taken as an additional input to the captioning model. By integrating the control signal information, captioning models are aware of the quality level of the target sentences and handle them differently. Moreover, we propose a novel reinforcement training method specially designed for the control signal of sentence quality: Quality-oriented Self-Annotated Training (Q-SAT). Equipped with R-Drop strategy, models controlled by the highest quality level surpass baseline models a lot on accuracy-based evaluation metrics, which validates the effectiveness of our proposed methods.

arxiv情報

著者 Zhangzi Zhu,Hong Qu
発行日 2022-06-07 11:38:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク