Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models

要約

動的環境内でオブジェクトの動作を解釈することを含む物理的推論は、ビジョン言語モデル(VLM)にとって重要な課題のままです。
身体的推論の制限は、学習した知識を身体的行動に関する予測に変換できないことから生じます。
私たちは慎重な研究を行い、継続的な微調整がこの問題をどのように軽減できるかを示します。
ただし、微調整は大規模なモデルには高価であり、すべてのタスクで繰り返し実行することは非現実的です。
これにより、物理的な推論についてVLMを教えるためのモジュール式でスケーラブルな方法の作成が必要です。
そのために、Physics Context Builders(PCB)を紹介します。これは、特殊なVLMが詳細な物理シーンの説明を生成するために微調整されている新しいモジュラーフレームワークです。
これらは、推論機能を強化するために、より大きなVLMの物理的コンテキストとして使用できます。
PCBは、視覚的認識を推論と分離できるようにし、身体的理解に対する相対的な貢献を分析することができます。
ClevrerとFalling Towerで慎重な実験を行い、シミュレートされたシーンと実世界の両方のシーンを備えた安定性検出データセットで、PCBが大幅なパフォーマンスの改善を提供し、複雑な物理的推論タスクで最大13.8%の平均精度を高めることを実証します。
特に、PCBは強力なSim2real転送を示し、シミュレートされたトレーニングデータから実際のシーンに成功しました。
私たちの研究は、モジュール式のシミュレーション訓練を受けたコンポーネントを通じて視覚的知覚を強化することで、VLMの物理的推論を改善しながら、これらのモデルの物理的理解に影響を与える要因に関する洞察を提供する実用的なアプローチを提供することを示しています。

要約(オリジナル)

Physical reasoning, which involves interpreting object behaviors within dynamic environments, remains a significant challenge for Vision-Language Models (VLMs). The limitations in physical reasoning arise from an inability to translate learned knowledge into predictions about physical behavior. We perform a careful study to show how continual fine-tuning can mitigate this issue. However, fine-tuning is expensive for large models and impractical to repeatedly perform for every task. This necessitates the creation of modular and scalable ways to teach VLMs about physical reasoning. To that end, we introduce Physics Context Builders (PCBs), a novel modular framework where specialized VLMs are fine-tuned to generate detailed physical scene descriptions. These can be used as physical contexts for larger VLMs to enhance their reasoning capabilities. PCBs enable the separation of visual perception from reasoning, allowing us to analyze their relative contributions to physical understanding. We perform careful experiments on CLEVRER and on Falling Tower, a stability detection dataset with both simulated and real-world scenes, to demonstrate that PCBs provide substantial performance improvements, increasing average accuracy by up to 13.8% on complex physical reasoning tasks. Notably, PCBs show strong Sim2Real transfer, successfully generalizing from simulated training data to real-world scenes. Our work demonstrates that enhancing visual perception through modular, simulation-trained components offers a practical approach to improving physical reasoning in VLMs, while providing insights into the factors affecting physical understanding in these models.

arxiv情報

著者 Vahid Balazadeh,Mohammadmehdi Ataei,Hyunmin Cheong,Amir Hosein Khasahmadi,Rahul G. Krishnan
発行日 2025-03-10 17:01:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク