要約
視覚的な推論 – 視覚世界を解釈する能力 – は、3次元シーン内で動作する具体化されたエージェントにとって重要です。
AIの進歩は、画像からの質問に答えることができるビジョンモデルと言語モデルにつながりました。
ただし、3D空間推論を任された場合、パフォーマンスは低下します。
このような推論の問題の複雑さに取り組むために、LLMエージェントが一般的なサブ問題を解決するために新しい機能と共同でPythonic APIを生成するエージェントプログラム統合アプローチを導入します。
私たちの方法は、静的で人間定義されたAPIに依存する以前のアプローチの制限を克服し、より広い範囲のクエリを処理できるようにします。
3D理解のAI機能を評価するために、複数のステップの接地と推論を含むクエリの新しいベンチマークを紹介します。
私たちの方法は、3Dでの視覚的推論のために以前のゼロショットモデルを上回り、3D空間推論タスクのエージェントフレームワークの有効性を経験的に検証することを示します。
プロジェクトWebサイト:https://glab-caltech.github.io/vadar/
要約(オリジナル)
Visual reasoning — the ability to interpret the visual world — is crucial for embodied agents that operate within three-dimensional scenes. Progress in AI has led to vision and language models capable of answering questions from images. However, their performance declines when tasked with 3D spatial reasoning. To tackle the complexity of such reasoning problems, we introduce an agentic program synthesis approach where LLM agents collaboratively generate a Pythonic API with new functions to solve common subproblems. Our method overcomes limitations of prior approaches that rely on a static, human-defined API, allowing it to handle a wider range of queries. To assess AI capabilities for 3D understanding, we introduce a new benchmark of queries involving multiple steps of grounding and inference. We show that our method outperforms prior zero-shot models for visual reasoning in 3D and empirically validate the effectiveness of our agentic framework for 3D spatial reasoning tasks. Project website: https://glab-caltech.github.io/vadar/
arxiv情報
著者 | Damiano Marsili,Rohun Agrawal,Yisong Yue,Georgia Gkioxari |
発行日 | 2025-02-10 18:59:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google