Is GPT-3 all you need for Visual Question Answering in Cultural Heritage?

要約

文化遺産分野におけるディープラーニングとコンピュータービジョンの使用は、音声スマートガイド、インタラクティブな博物館、拡張現実に関する多くのアプリケーションにより、ここ数年で非常に重要になってきています。
これらすべてのテクノロジーが効果的に機能し、ユーザーにとって役立つようにするには、大量のデータが必要です。
芸術作品の場合、そのようなデータは専門家によって高価で時間のかかるプロセスで注釈が付けられます。
特に、視覚的な質問応答などの一般的なタスクを実行するには、各アートワークについて、アートワークの画像と説明シートを収集する必要があります。
この論文では、画像と注釈のプロセスを完全に回避し、アートワークに関する視覚的および文脈上の両方の質問に答えるために使用できる説明シートを実行時に生成できる、視覚的質問回答の方法を提案します。
この目的のために、私たちは、キャプションメトリクスを通じて生成された説明の品質を分析する、アートワークの説明を生成するための GPT-3 の使用について調査します。
最後に、視覚的な質問応答とキャプションタスクのパフォーマンスを評価します。

要約(オリジナル)

The use of Deep Learning and Computer Vision in the Cultural Heritage domain is becoming highly relevant in the last few years with lots of applications about audio smart guides, interactive museums and augmented reality. All these technologies require lots of data to work effectively and be useful for the user. In the context of artworks, such data is annotated by experts in an expensive and time consuming process. In particular, for each artwork, an image of the artwork and a description sheet have to be collected in order to perform common tasks like Visual Question Answering. In this paper we propose a method for Visual Question Answering that allows to generate at runtime a description sheet that can be used for answering both visual and contextual questions about the artwork, avoiding completely the image and the annotation process. For this purpose, we investigate on the use of GPT-3 for generating descriptions for artworks analyzing the quality of generated descriptions through captioning metrics. Finally we evaluate the performance for Visual Question Answering and captioning tasks.

arxiv情報

著者 Pietro Bongini,Federico Becattini,Alberto Del Bimbo
発行日 2023-05-19 09:56:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク