Generating image captions with external encyclopedic knowledge

要約

画像にどのオブジェクトが描かれているかを正確に報告することは、自動キャプション生成で大部分が解決された問題です。
真に人間らしいキャプションを作成するための次の大きな課題は、画像のコンテキストと関連する現実世界の知識を組み込むことができるようにすることです。
私たちは、画像固有の百科事典データを広範に利用するエンド ツー エンドのキャプション生成システムを作成することで、この課題に取り組んでいます。
私たちのアプローチには、画像の場所を使用して外部の知識ベースで関連するオープンドメインの事実を特定する新しい方法が含まれており、その後、エンコードとデコードの両方の段階でキャプション パイプラインに統合されます。
私たちのシステムは、自然に生成された知識豊富なキャプションを持つ新しいデータセットでトレーニングおよびテストされており、複数のベースラインで大幅な改善を達成しています。
私たちのアプローチが、事実に正確で画像に関連する百科事典的な知識を備えた文脈化されたキャプションを生成するのに効果的であることを経験的に示しています。

要約(オリジナル)

Accurately reporting what objects are depicted in an image is largely a solved problem in automatic caption generation. The next big challenge on the way to truly humanlike captioning is being able to incorporate the context of the image and related real world knowledge. We tackle this challenge by creating an end-to-end caption generation system that makes extensive use of image-specific encyclopedic data. Our approach includes a novel way of using image location to identify relevant open-domain facts in an external knowledge base, with their subsequent integration into the captioning pipeline at both the encoding and decoding stages. Our system is trained and tested on a new dataset with naturally produced knowledge-rich captions, and achieves significant improvements over multiple baselines. We empirically demonstrate that our approach is effective for generating contextualized captions with encyclopedic knowledge that is both factually accurate and relevant to the image.

arxiv情報

著者 Sofia Nikiforova,Tejaswini Deoskar,Denis Paperno,Yoad Winter
発行日 2022-10-10 16:09:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク