要約
最近の視覚AIの発展が成功を収めているにもかかわらず、正確な論理的推論の欠如、抽象的な汎化能力、複雑でノイズの多いシーンの理解など、さまざまな欠点がまだ存在している。残念なことに、既存のベンチマークは、これらの側面のいくつかを捉えるようには設計されていない。ディープラーニングのデータセットが視覚的に複雑なデータに焦点を当てているが、単純な視覚的推論タスクであるのに対し、帰納論理のデータセットは複雑な論理学習タスクを含むが、視覚的要素が欠けている。これに対処するため、我々は視覚的な課題と論理的な課題をシームレスに組み合わせた視覚的論理学習データセットV-LoLを提案する。V-LoLの最初のインスタンスであるV-LoL-Trainsは、記号AIの古典的なベンチマークであるミハエルスキーの列車問題を視覚的に表現したものである。V-LoL-Trainsは、複雑なビジュアルシーンと柔軟な論理的推論タスクを汎用的なフレームワークに組み込むことで、ビジュアル論理学習の幅広い課題を調査するためのプラットフォームを提供する。我々は、伝統的な記号AI、ニューラルAI、ニューロシンボリックAIを含む様々なAIシステムを評価する。我々の評価は、最先端のAIでさえ視覚的論理学習の課題に対処する難しさに直面していることを示し、それぞれの方法論に特有の利点と限界を浮き彫りにしている。全体として、V-LoLは、AIシステムの視覚的論理学習における現在の能力を理解し、向上させるための新たな道を開くものである。
要約(オリジナル)
Despite the successes of recent developments in visual AI, different shortcomings still exist; from missing exact logical reasoning, to abstract generalization abilities, to understanding complex and noisy scenes. Unfortunately, existing benchmarks, were not designed to capture more than a few of these aspects. Whereas deep learning datasets focus on visually complex data but simple visual reasoning tasks, inductive logic datasets involve complex logical learning tasks, however, lack the visual component. To address this, we propose the visual logical learning dataset, V-LoL, that seamlessly combines visual and logical challenges. Notably, we introduce the first instantiation of V-LoL, V-LoL-Trains, — a visual rendition of a classic benchmark in symbolic AI, the Michalski train problem. By incorporating intricate visual scenes and flexible logical reasoning tasks within a versatile framework, V-LoL-Trains provides a platform for investigating a wide range of visual logical learning challenges. We evaluate a variety of AI systems including traditional symbolic AI, neural AI, as well as neuro-symbolic AI. Our evaluations demonstrate that even state-of-the-art AI faces difficulties in dealing with visual logical learning challenges, highlighting unique advantages and limitations specific to each methodology. Overall, V-LoL opens up new avenues for understanding and enhancing current abilities in visual logical learning for AI systems.
arxiv情報
著者 | Lukas Helff,Wolfgang Stammer,Hikaru Shindo,Devendra Singh Dhami,Kristian Kersting |
発行日 | 2023-07-03 10:24:33+00:00 |
arxivサイト | arxiv_id(pdf) |