要約
画像の内容を説明することを含む自動画像キャプションは、さまざまな研究分野で多くのアプリケーションを持つ困難な問題です。
注目すべき例の 1 つは、視覚障害者向けのアシスタントの設計です。
最近、深層学習のブレークスルーにより、画像のキャプション方法が大幅に進歩しました。
この調査論文は、主に深層学習手法に焦点を当てて、最近の画像キャプション技術とその性能の構造的レビューを提供することを目的としています。
また、画像のキャプションに関する未解決の問題や未解決の課題についての議論に加えて、広く使用されているデータセットとパフォーマンス メトリックを確認します。
要約(オリジナル)
Automatic image captioning, which involves describing the contents of an image, is a challenging problem with many applications in various research fields. One notable example is designing assistants for the visually impaired. Recently, there have been significant advances in image captioning methods owing to the breakthroughs in deep learning. This survey paper aims to provide a structured review of recent image captioning techniques, and their performance, focusing mainly on deep learning methods. We also review widely-used datasets and performance metrics, in addition to the discussions on open problems and unsolved challenges in image captioning.
arxiv情報
著者 | Taraneh Ghandi,Hamidreza Pourreza,Hamidreza Mahyar |
発行日 | 2022-11-17 16:31:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google