Understanding Complexity in VideoQA via Visual Program Generation

要約

ビデオ質問(VideoQA)のクエリの複雑さを分析するためのデータ駆動型のアプローチを提案します。
ベンチマーク設計の以前の取り組みは、挑戦的な質問を設計するために人間の専門知識に依存してきましたが、実験的には、人間が機械学習モデルにとってどの質問が困難であるかを予測するのに苦労していることを示しています。
私たちの自動アプローチは、質問の難易度のプロキシとして生成されたコードの複雑さを使用して、視覚的な質問に答えるためのコード生成の最近の進歩を活用しています。
この尺度は、人間の推定値よりもモデルのパフォーマンスと有意に相関することを実証します。
この洞察を操作するために、コードから質問の複雑さを推定するためのアルゴリズムを提案します。
これは、特定のモデルのセットについて最も困難な質問と相関する微細なプリミティブを識別し、将来の新しいアプローチに簡単にスケーリングできるようにします。
最後に、私たちの方法のユーティリティをさらに説明するために、それを拡張して複雑な質問を自動的に生成し、人気のあるQAの1.9倍難しい新しいベンチマークを構築します。

要約(オリジナル)

We propose a data-driven approach to analyzing query complexity in Video Question Answering (VideoQA). Previous efforts in benchmark design have relied on human expertise to design challenging questions, yet we experimentally show that humans struggle to predict which questions are difficult for machine learning models. Our automatic approach leverages recent advances in code generation for visual question answering, using the complexity of generated code as a proxy for question difficulty. We demonstrate that this measure correlates significantly better with model performance than human estimates. To operationalize this insight, we propose an algorithm for estimating question complexity from code. It identifies fine-grained primitives that correlate with the hardest questions for any given set of models, making it easy to scale to new approaches in the future. Finally, to further illustrate the utility of our method, we extend it to automatically generate complex questions, constructing a new benchmark that is 1.9 times harder than the popular NExT-QA.

arxiv情報

著者 Cristobal Eyzaguirre,Igor Vasiljevic,Achal Dave,Jiajun Wu,Rares Andrei Ambrus,Thomas Kollar,Juan Carlos Niebles,Pavel Tokmakov
発行日 2025-05-19 17:55:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク