Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object Interactions

要約

タイトル:Bongard-HOI:人間と物体の相互作用のためのfew-shot視覚推論のベンチマーク検証
要約:

– 本論文は、現在の視覚パターン認識モデルと人間の視覚認知の間には、特にfew-shot学習や新しいコンセプトの構成的推論において、大きな隔たりがあるという問題を提示している。
– 人間と物体の相互作用(HOI)の構成的学習に焦点を当てた新しい視覚推論ベンチマークであるBongard-HOIを紹介している。
– ベンチマークは、古典的なBongard問題(BP)から2つの望ましい特徴を着想し、few-shotの概念学習と文脈依存的な推論を重視して設計されている。
– ポジティブとネガティブの画像がアクションラベルのみで異なるhard negativeなfew-shotインスタンスを慎重に選別し、単純なオブジェクトカテゴリの認識だけではベンチマークを完了できないようになっている。
– 学習モデルのビジュアル学習の一般化を系統的に研究するために、トレーニングとテストのfew-shotインスタンス間のHOIコンセプトのオーバーラップを部分的にからまったものからないものまで変化させた多数のテストセットを設計している。
– Bongard-HOIは、現在の視覚認識モデルにとって大きな課題を提示している。最新のHOI検出モデルでも、few-shotのバイナリ予測で62%の正解率しか達成できず、MTurkのアマチュア人間テスターでも91%の正解率を達成している。
– Bongard-HOIベンチマークを通じて、ホリスティックな知覚推論システムとより良い表現学習に関する視覚推論の研究努力をさらに進展させたいと期待している。

要約(オリジナル)

A significant gap remains between today’s visual pattern recognition models and human-level visual cognition especially when it comes to few-shot learning and compositional reasoning of novel concepts. We introduce Bongard-HOI, a new visual reasoning benchmark that focuses on compositional learning of human-object interactions (HOIs) from natural images. It is inspired by two desirable characteristics from the classical Bongard problems (BPs): 1) few-shot concept learning, and 2) context-dependent reasoning. We carefully curate the few-shot instances with hard negatives, where positive and negative images only disagree on action labels, making mere recognition of object categories insufficient to complete our benchmarks. We also design multiple test sets to systematically study the generalization of visual learning models, where we vary the overlap of the HOI concepts between the training and test sets of few-shot instances, from partial to no overlaps. Bongard-HOI presents a substantial challenge to today’s visual recognition models. The state-of-the-art HOI detection model achieves only 62% accuracy on few-shot binary prediction while even amateur human testers on MTurk have 91% accuracy. With the Bongard-HOI benchmark, we hope to further advance research efforts in visual reasoning, especially in holistic perception-reasoning systems and better representation learning.

arxiv情報

著者 Huaizu Jiang,Xiaojian Ma,Weili Nie,Zhiding Yu,Yuke Zhu,Song-Chun Zhu,Anima Anandkumar
発行日 2023-04-13 07:29:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク