Solving the bongard-logo problem by modeling a probabilistic model

要約

抽象的な推論の問題は、AI アルゴリズムの知覚および認知能力に挑戦し、明示的な画像の特徴を超えたより深いパターン識別と帰納的推論を要求します。
この研究では、Bongard-Logo 問題に合わせた確率モデルである PMoC を導入し、独立した確率モデルを構築することで高い推論精度を実現します。
さらに、Bongard-Logo、RAVEN、I-RAVEN、PGM などの複雑な抽象推論タスク用に設計された強化された Transformer-Encoder である Pose-Transformer も紹介します。
Pose-Transformer には、カプセル ネットワークのポーズ マトリックスからインスピレーションを得た位置情報学習が組み込まれており、画像データ処理における局所的な位置関係への重点が強化されています。
PMoC と統合すると、推論の精度がさらに向上します。
私たちのアプローチは、抽象エンティティの位置変化に関連する推論の困難に効果的に対処し、OIG、RAVEN の D3$\times$3 サブセット、および PGM データベースで以前のモデルを上回るパフォーマンスを発揮します。
この研究は、抽象推論と認知パターン認識における AI の能力の向上に貢献します。

要約(オリジナル)

Abstract reasoning problems challenge the perceptual and cognitive abilities of AI algorithms, demanding deeper pattern discernment and inductive reasoning beyond explicit image features. This study introduces PMoC, a tailored probability model for the Bongard-Logo problem, achieving high reasoning accuracy by constructing independent probability models. Additionally, we present Pose-Transformer, an enhanced Transformer-Encoder designed for complex abstract reasoning tasks, including Bongard-Logo, RAVEN, I-RAVEN, and PGM. Pose-Transformer incorporates positional information learning, inspired by capsule networks’ pose matrices, enhancing its focus on local positional relationships in image data processing. When integrated with PMoC, it further improves reasoning accuracy. Our approach effectively addresses reasoning difficulties associated with abstract entities’ positional changes, outperforming previous models on the OIG, D3$\times$3 subsets of RAVEN, and PGM databases. This research contributes to advancing AI’s capabilities in abstract reasoning and cognitive pattern recognition.

arxiv情報

著者 Ruizhuo Song,Beiming Yuan
発行日 2024-05-07 14:34:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク