要約
既存のモデルは、視覚コンテンツに組み込まれた微妙な文化的、感情的、文脈的意味を把握するのに苦労しているため、画像の比phor的理解はAIシステムにとって重要な課題です。
マルチモーダルの大手言語モデル(MLLM)は基本的な視覚的質問の回答(VQA)タスクに優れていますが、画像の意味合いの基本的な制限と格闘しています。
人間の認知プロセスに触発されて、私たちは、イメージの含意理解と推論のための斬新なフレームワークであるLet Androids Dream(LAD)を提案します。
LADは、3段階のフレームワークを介してコンテキストが欠落しています。(1)知覚:視覚情報をリッチおよびマルチレベルのテキスト表現に変換する、(2)検索:クロスドメインの知識を検索および統合して曖昧さを解決し、(3)推論:明示的な推論によるコンテキスト整列画像の含意を生成します。
軽量のGPT-4O-MINIモデルを使用した当社のフレームワークは、英語の画像の含意ベンチマークで15+ MLLMと比較してSOTAパフォーマンスを実現し、中国のベンチマークで大幅に改善し、多重選択の質問(MCQ)のGPT-4Oモデルに匹敵し、オープンスティールの質問(OSQ)で36.7%を超えます。
さらに、私たちの作品は、AIが画像の意味をより効果的に解釈する方法についての新しい洞察を提供し、視界の推論と人間との相互作用の分野を進めています。
当社のプロジェクトは、https://github.com/ming-zch/let-androids-dream-of-electric-sheepで公開されています。
要約(オリジナル)
Metaphorical comprehension in images remains a critical challenge for AI systems, as existing models struggle to grasp the nuanced cultural, emotional, and contextual implications embedded in visual content. While multimodal large language models (MLLMs) excel in basic Visual Question Answer (VQA) tasks, they struggle with a fundamental limitation on image implication tasks: contextual gaps that obscure the relationships between different visual elements and their abstract meanings. Inspired by the human cognitive process, we propose Let Androids Dream (LAD), a novel framework for image implication understanding and reasoning. LAD addresses contextual missing through the three-stage framework: (1) Perception: converting visual information into rich and multi-level textual representations, (2) Search: iteratively searching and integrating cross-domain knowledge to resolve ambiguity, and (3) Reasoning: generating context-alignment image implication via explicit reasoning. Our framework with the lightweight GPT-4o-mini model achieves SOTA performance compared to 15+ MLLMs on English image implication benchmark and a huge improvement on Chinese benchmark, performing comparable with the GPT-4o model on Multiple-Choice Question (MCQ) and outperforms 36.7% on Open-Style Question (OSQ). Additionally, our work provides new insights into how AI can more effectively interpret image implications, advancing the field of vision-language reasoning and human-AI interaction. Our project is publicly available at https://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheep.
arxiv情報
著者 | Chenhao Zhang,Yazhe Niu |
発行日 | 2025-05-22 17:59:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google