要約
ビジュアル質問応答 (VQA) タスクが提案されてから 8 年が経過しましたが、精度は依然として自動評価の主要な指標です。
VQA Accuracy は、これまで IID 評価設定で有効でした。
しかし、私たちのコミュニティは、オープンエンドの生成モデルと OOD 評価への移行を経験しています。
この新しいパラダイムでは、既存の VQA 精度メトリクスは過度に厳格であり、VQA システムのパフォーマンスを過小評価しています。
したがって、人間の判断の代理として機能する、より堅牢な自動 VQA メトリクスを開発する必要があります。
この研究では、命令調整された大規模言語モデル (LLM) のコンテキスト内学習機能を活用して、より優れた VQA メトリクスを構築することを提案します。
VQA の評価は、一連の参照回答を与えられた場合に、LLM が回答候補の正確さをスコアリングするように指示される回答評価タスクとして定式化されます。
いくつかの VQA モデルおよびベンチマークにわたる既存のメトリクスと比較して、提案されたメトリクスが人間の判断とよりよく相関していることを実証します。
私たちの指標が広く採用されることで、VQA タスクの研究の進捗状況をより適切に推定できるようになることを願っています。
評価コードと人間の判断を集めたものを公開する予定です。
要約(オリジナル)
8 years after the visual question answering (VQA) task was proposed, accuracy remains the primary metric for automatic evaluation. VQA Accuracy has been effective so far in the IID evaluation setting. However, our community is undergoing a shift towards open-ended generative models and OOD evaluation. In this new paradigm, the existing VQA Accuracy metric is overly stringent and underestimates the performance of VQA systems. Thus, there is a need to develop more robust automatic VQA metrics that serve as a proxy for human judgment. In this work, we propose to leverage the in-context learning capabilities of instruction-tuned large language models (LLMs) to build a better VQA metric. We formulate VQA evaluation as an answer-rating task where the LLM is instructed to score the accuracy of a candidate answer given a set of reference answers. We demonstrate the proposed metric better correlates with human judgment compared to existing metrics across several VQA models and benchmarks. We hope wide adoption of our metric will contribute to better estimating the research progress on the VQA task. We plan to release the evaluation code and collected human judgments.
arxiv情報
著者 | Oscar Mañas,Benno Krojer,Aishwarya Agrawal |
発行日 | 2024-01-10 17:00:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google