Switching to Discriminative Image Captioning by Relieving a Bottleneck of Reinforcement Learning

要約

画像キャプションの望ましい特性は識別性であり、キャプションは入力画像の特徴的な細部を表現する必要がある。しかし、近年の強化学習(RL)を用いたキャプション生成モデルは、他の様々な基準で高い性能を示すにもかかわらず、過度に一般的なキャプションを生成する傾向がある。まず、予想外に低い識別性の原因を調査し、RLには出力単語を高頻度に限定するという副作用が深く根付いていることを示す。語彙の制限は、モデルが語彙を超えた細部を記述することが困難であるため、識別性の厳しいボトルネックとなるのである。そして、このボトルネックの特定に基づき、識別可能な画像キャプションを低頻度の単語生成を促すという、よりシンプルなタスクとしてドラスティックに再構成したのである。ロングテール分類やデビアス法にヒントを得て、既製のRLモデルを、パラメータの一部をシングルエポック微調整するだけで容易に識別性を考慮したモデルに切り替える方法を提案する。本手法は、既存のRLモデルの識別性を大幅に向上させ、従来の識別性を考慮した手法よりも少ない計算コストで識別性を向上させることを、広範な実験により実証する。また、詳細な解析と人間による評価により、キャプションの全体的な品質を犠牲にすることなく識別性を向上させることが確認された。

要約(オリジナル)

Discriminativeness is a desirable feature of image captions: captions should describe the characteristic details of input images. However, recent high-performing captioning models, which are trained with reinforcement learning (RL), tend to generate overly generic captions despite their high performance in various other criteria. First, we investigate the cause of the unexpectedly low discriminativeness and show that RL has a deeply rooted side effect of limiting the output words to high-frequency words. The limited vocabulary is a severe bottleneck for discriminativeness as it is difficult for a model to describe the details beyond its vocabulary. Then, based on this identification of the bottleneck, we drastically recast discriminative image captioning as a much simpler task of encouraging low-frequency word generation. Hinted by long-tail classification and debiasing methods, we propose methods that easily switch off-the-shelf RL models to discriminativeness-aware models with only a single-epoch fine-tuning on the part of the parameters. Extensive experiments demonstrate that our methods significantly enhance the discriminativeness of off-the-shelf RL models and even outperform previous discriminativeness-aware methods with much smaller computational costs. Detailed analysis and human evaluation also verify that our methods boost the discriminativeness without sacrificing the overall quality of captions.

arxiv情報

著者 Ukyo Honda,Taro Watanabe,Yuji Matsumoto
発行日 2022-12-06 18:55:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク