What’s Left? Concept Grounding with Logic-Enhanced Foundation Models

要約

VisProg や ViperGPT などの最近の研究では、大規模言語モデル (LLM) を使用して視覚的推論のための基盤モデルをスマートに構成し、事前トレーニング済みの視覚言語モデルで実行できるプログラムを作成しています。
ただし、これらは 2D 画像などの限られた領域で動作し、言語の一般化を完全には活用していません。「左」のような抽象的な概念は、左に移動する場合のように、3D、時間データ、およびアクション データに基づいていることもあります。
この限られた一般化は、これらの推論のみの方法では、事前トレーニングされたモデルを学習したり、新しいドメインに適応させたりすることができないことに起因しています。
私たちは、微分可能でドメインに依存しない一次ロジックベースのプログラム実行プログラムを使用して、ドメイン全体の概念を根拠付けて推論することを学習する統合フレームワークである、Logic-Enhanced Foundation Model (LEFT) を提案します。
LEFT には、すべてのドメインとタスクにわたって共有される、一般的な論理ベースの推論言語で表現されるプログラムを出力する LLM インタプリタがあります。
次に、LEFT のエグゼキュータは、トレーニング可能なドメイン固有のグラウンディング モジュールを使用してプログラムを実行します。
LEFT が 2D 画像、3D シーン、人間の動作、ロボット操作の 4 つの領域の概念を柔軟に学習することを示します。
複雑でトレーニングでは見られないタスクを含む幅広いタスクで強力な推論能力を発揮し、新しい領域にも簡単に適用できます。

要約(オリジナル)

Recent works such as VisProg and ViperGPT have smartly composed foundation models for visual reasoning-using large language models (LLMs) to produce programs that can be executed by pre-trained vision-language models. However, they operate in limited domains, such as 2D images, not fully exploiting the generalization of language: abstract concepts like ‘left’ can also be grounded in 3D, temporal, and action data, as in moving to your left. This limited generalization stems from these inference-only methods’ inability to learn or adapt pre-trained models to a new domain. We propose the Logic-Enhanced Foundation Model (LEFT), a unified framework that learns to ground and reason with concepts across domains with a differentiable, domain-independent, first-order logic-based program executor. LEFT has an LLM interpreter that outputs a program represented in a general, logic-based reasoning language, which is shared across all domains and tasks. LEFT’s executor then executes the program with trainable domain-specific grounding modules. We show that LEFT flexibly learns concepts in four domains: 2D images, 3D scenes, human motions, and robotic manipulation. It exhibits strong reasoning ability in a wide variety of tasks, including those that are complex and not seen during training, and can be easily applied to new domains.

arxiv情報

著者 Joy Hsu,Jiayuan Mao,Joshua B. Tenenbaum,Jiajun Wu
発行日 2023-10-24 17:50:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, stat.ML パーマリンク