要約
ビジュアル AI の最近の開発は成功を収めていますが、さまざまな欠点が依然として存在します。
正確な論理的推論の欠如から、抽象的な一般化能力、複雑で騒々しいシーンの理解まで。
残念ながら、既存のベンチマークは、これらの側面の多くを捉えるように設計されていませんでした。
ディープ ラーニング データセットは視覚的に複雑なデータではあるが単純な視覚的推論タスクに焦点を当てているのに対し、帰納的ロジック データセットには複雑な論理学習タスクが含まれていますが、視覚的なコンポーネントが欠けています。
これに対処するために、視覚的課題と論理的課題をシームレスに組み合わせる診断用視覚論理学習データセット V-LoL を提案します。
特に、V-LoL の最初のインスタンス化である V-LoL-Train を紹介します。これは、シンボリック AI の古典的なベンチマークである Michalski train 問題を視覚的に表現したものです。
V-LoL-Train は、複雑なビジュアル シーンと柔軟な論理的推論タスクを汎用性の高いフレームワーク内に組み込むことで、幅広い視覚的論理学習の課題を調査するためのプラットフォームを提供します。
従来のシンボリック AI、ニューラル AI、ニューロシンボリック AI など、さまざまな AI システムを評価します。
私たちの評価では、SOTA AI でも視覚的論理学習の課題に対処するのが困難に直面していることが実証され、各方法論の固有の利点と限界が強調されています。
全体として、V-LoL は、AI システムの視覚的論理学習における現在の能力を理解し、強化するための新しい道を開きます。
要約(オリジナル)
Despite the successes of recent developments in visual AI, different shortcomings still exist; from missing exact logical reasoning, to abstract generalization abilities, to understanding complex and noisy scenes. Unfortunately, existing benchmarks, were not designed to capture more than a few of these aspects. Whereas deep learning datasets focus on visually complex data but simple visual reasoning tasks, inductive logic datasets involve complex logical learning tasks, however, lack the visual component. To address this, we propose the diagnostic visual logical learning dataset, V-LoL, that seamlessly combines visual and logical challenges. Notably, we introduce the first instantiation of V-LoL, V-LoL-Train, – a visual rendition of a classic benchmark in symbolic AI, the Michalski train problem. By incorporating intricate visual scenes and flexible logical reasoning tasks within a versatile framework, V-LoL-Train provides a platform for investigating a wide range of visual logical learning challenges. We evaluate a variety of AI systems including traditional symbolic AI, neural AI, as well as neuro-symbolic AI. Our evaluations demonstrate that even SOTA AI faces difficulties in dealing with visual logical learning challenges, highlighting unique advantages and limitations of each methodology. Overall, V-LoL opens up new avenues for understanding and enhancing current abilities in visual logical learning for AI systems.
arxiv情報
著者 | Lukas Helff,Wolfgang Stammer,Hikaru Shindo,Devendra Singh Dhami,Kristian Kersting |
発行日 | 2024-11-13 12:43:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google