要約
3D 視覚的グラウンディングは、多くの場合、直接的かつ綿密な監視、特にシーン内の各オブジェクトのセマンティック ラベルを必要とする困難なタスクです。
この論文では、代わりに、以前の研究ではパフォーマンスが低かった、3D シーンと QA ペアのみから学習する自然な教師あり設定を研究します。
我々は、言語からの制約を正則化として使用して、自然な教師付き設定における神経記号概念学習器の精度を大幅に向上させる、言語正則化概念学習器 (LARC) を提案します。
私たちのアプローチは 2 つの核となる洞察に基づいています。1 つ目は、言語の制約 (たとえば、単語と単語の関係) が、神経記号モデルにおける構造化表現の効果的な正則化として機能する可能性があるということです。
2 つ目は、大規模な言語モデルをクエリして、言語プロパティからそのような制約を抽出できることです。
我々は、LARC が自然に監視された 3D 視覚的基盤において従来の研究のパフォーマンスを向上させ、ゼロショット合成からデータ効率と転送可能性までの幅広い 3D 視覚的推論機能を実証することを示します。
私たちの方法は、緻密な監督のない環境での学習のために、言語ベースの事前分布を使用して構造化された視覚的推論フレームワークを正規化するための有望な一歩を表しています。
要約(オリジナル)
3D visual grounding is a challenging task that often requires direct and dense supervision, notably the semantic label for each object in the scene. In this paper, we instead study the naturally supervised setting that learns from only 3D scene and QA pairs, where prior works underperform. We propose the Language-Regularized Concept Learner (LARC), which uses constraints from language as regularization to significantly improve the accuracy of neuro-symbolic concept learners in the naturally supervised setting. Our approach is based on two core insights: the first is that language constraints (e.g., a word’s relation to another) can serve as effective regularization for structured representations in neuro-symbolic models; the second is that we can query large language models to distill such constraints from language properties. We show that LARC improves performance of prior works in naturally supervised 3D visual grounding, and demonstrates a wide range of 3D visual reasoning capabilities-from zero-shot composition, to data efficiency and transferability. Our method represents a promising step towards regularizing structured visual reasoning frameworks with language-based priors, for learning in settings without dense supervision.
arxiv情報
著者 | Chun Feng,Joy Hsu,Weiyu Liu,Jiajun Wu |
発行日 | 2024-04-30 16:44:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google