要約
文化遺産ドメインでのディープラーニングとコンピュータービジョンの使用は、オーディオスマートガイド、インタラクティブミュージアム、拡張現実に関する多くのアプリケーションで、ここ数年で非常に関連性が高くなっています。
これらのテクノロジーはすべて、効果的に機能し、ユーザーにとって有用であるために大量のデータを必要とします。
アートワークのコンテキストでは、そのようなデータは、費用と時間のかかるプロセスの専門家によって注釈が付けられます。
特に、視覚的な質問応答などの一般的なタスクを実行するには、アートワークごとに、アートワークの画像と説明シートを収集する必要があります。
この論文では、画像と注釈プロセスを完全に回避して、アートワークに関する視覚的質問と文脈的質問の両方に回答するために使用できる説明シートを実行時に生成できる視覚的質問応答の方法を提案します。
この目的のために、アートワークの説明を生成するためのGPT-3の使用について調査し、キャプションメトリックを通じて生成された説明の品質を分析します。
最後に、視覚的な質問応答とキャプションタスクのパフォーマンスを評価します。
要約(オリジナル)
The use of Deep Learning and Computer Vision in the Cultural Heritage domain is becoming highly relevant in the last few years with lots of applications about audio smart guides, interactive museums and augmented reality. All these technologies require lots of data to work effectively and be useful for the user. In the context of artworks, such data is annotated by experts in an expensive and time consuming process. In particular, for each artwork, an image of the artwork and a description sheet have to be collected in order to perform common tasks like Visual Question Answering. In this paper we propose a method for Visual Question Answering that allows to generate at runtime a description sheet that can be used for answering both visual and contextual questions about the artwork, avoiding completely the image and the annotation process. For this purpose, we investigate on the use of GPT-3 for generating descriptions for artworks analyzing the quality of generated descriptions through captioning metrics. Finally we evaluate the performance for Visual Question Answering and captioning tasks.
arxiv情報
著者 | Pietro Bongini,Federico Becattini,Alberto Del Bimbo |
発行日 | 2022-07-25 12:12:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google