要約
画像キャプションは、視覚的なコンテンツを自然言語で説明することを目的としています。
「百聞は一見に如かず」のように、画像にはさまざまな正しい説明が存在します。
ただし、トレーニング目標として最尤推定を使用すると、キャプション モデルの予測がラベルと一致しない場合は常に、キャプション モデルにペナルティが課されます。
たとえば、モデルがラベルよりも豊富なセマンティクスを表現する単語を予測すると、ペナルティが課され、より簡潔な表現が優先されるように最適化されます (簡潔さの最適化と呼ばれます)。
対照的に、ラベルよりも簡潔な予測はリッチネスの最適化につながります。
このような矛盾する最適化の方向により、最終的にはモデルが一般的な記述を生成する可能性があります。
この研究では、Semipermeable MaxImum Likelihood Estimation (SMILE) を導入します。これにより、簡潔さの最適化をブロックしながらリッチさの最適化が可能になり、モデルがより詳細な長いキャプションを生成することが促進されます。
2 つの主流の画像キャプション データセット MSCOCO と Flickr30K に対する広範な実験により、SMILE が生成されたキャプションの説明性を大幅に向上させることが実証されました。
SMILE の仕組みをより深く理解するために、さらに詳細な調査を提供します。
要約(オリジナル)
Image captioning aims to describe visual content in natural language. As ‘a picture is worth a thousand words’, there could be various correct descriptions for an image. However, with maximum likelihood estimation as the training objective, the captioning model is penalized whenever its prediction mismatches with the label. For instance, when the model predicts a word expressing richer semantics than the label, it will be penalized and optimized to prefer more concise expressions, referred to as conciseness optimization. In contrast, predictions that are more concise than labels lead to richness optimization. Such conflicting optimization directions could eventually result in the model generating general descriptions. In this work, we introduce Semipermeable MaxImum Likelihood Estimation (SMILE), which allows richness optimization while blocking conciseness optimization, thus encouraging the model to generate longer captions with more details. Extensive experiments on two mainstream image captioning datasets MSCOCO and Flickr30K demonstrate that SMILE significantly enhances the descriptiveness of generated captions. We further provide in-depth investigations to facilitate a better understanding of how SMILE works.
arxiv情報
著者 | Zihao Yue,Anwen Hu,Liang Zhang,Qin Jin |
発行日 | 2023-06-27 11:38:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google