要約
抽象的な視覚推論(AVR)ドメインは、モデルの一般化の研究に専念する類推ベースのタスクの多様なスイートを提示します。
近年、この分野では、特にI.I.D.
モデルが同じデータ分布でトレーニングおよび評価されるシナリオ。
それにもかかわらず、O.O.D。
モデルの一般化を新しいテスト分布に評価するセットアップは、最新のモデルでも依然として困難です。
AVRタスクの一般化を進めるために、グループの畳み込み、正規化、並列設計を特徴とする新しい神経アーキテクチャである正規化されたグループ畳み込みモデル(PONG)の経路を提示します。
Ravenのプログレッシブマトリックスや、合成画像と現実世界の両方の画像での視覚的な類似性の問題を含む、幅広いAVRベンチマークを検討します。
実験は、提案されたモデルの強力な一般化能力を示しており、いくつかの設定では既存の文献方法よりも優れています。
要約(オリジナル)
The abstract visual reasoning (AVR) domain presents a diverse suite of analogy-based tasks devoted to studying model generalization. Recent years have brought dynamic progress in the field, particularly in i.i.d. scenarios, in which models are trained and evaluated on the same data distributions. Nevertheless, o.o.d. setups that assess model generalization to new test distributions remain challenging even for the most recent models. To advance generalization in AVR tasks, we present the Pathways of Normalized Group Convolution model (PoNG), a novel neural architecture that features group convolution, normalization, and a parallel design. We consider a wide set of AVR benchmarks, including Raven’s Progressive Matrices and visual analogy problems with both synthetic and real-world images. The experiments demonstrate strong generalization capabilities of the proposed model, which in several settings outperforms the existing literature methods.
arxiv情報
著者 | Mikołaj Małkiński,Jacek Mańdziuk |
発行日 | 2025-05-19 17:32:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google