要約
食品準備タスク計画のためのコンテキスト学習を使用して、マルチモーダル大手言語モデル(MLLM)を研究しています。
これに関連して、2つの重要な課題を特定します。クロスモーダルの注意散漫と幾何学的な実現可能性です。
視覚入力を含めるとMLLMの推論パフォーマンスを分解すると、クロスモーダルの注意散漫が発生します。
幾何学的な実現可能性とは、選択したスキルが環境で物理的に実行可能であることを保証するMLLMの能力を指します。
これらの問題に対処するために、私たちは自己整合性を備えた思考の連鎖(COT)を適応させて、モーダルの注意散漫からの推論の損失を軽減し、アフォーダンス予測子をスキルの前提条件として使用して、MLLMを幾何学の実現可能性に導きます。
数量推定、到達可能性分析、相対的な位置付け、衝突回避に対するMLLMの能力を評価するためのデータセットを構築します。
さまざまなベースライン間の問題を特定し、改善の理由を分析するための詳細な評価を実施し、各アプローチに関する洞察を提供しました。
私たちの方法は、データセット全体で76.7%の成功率に達し、COTベースラインよりも36.7%の大幅な改善を示しています。
要約(オリジナル)
We study Multimodal Large Language Models (MLLMs) with in-context learning for food preparation task planning. In this context, we identify two key challenges: cross-modal distraction and geometric feasibility. Cross-modal distraction occurs when the inclusion of visual input degrades the reasoning performance of a MLLM. Geometric feasibility refers to the ability of MLLMs to ensure that the selected skills are physically executable in the environment. To address these issues, we adapt Chain of Thought (CoT) with Self-Consistency to mitigate reasoning loss from cross-modal distractions and use affordance predictor as skill preconditions to guide MLLM on geometric feasibility. We construct a dataset to evaluate the ability of MLLMs on quantity estimation, reachability analysis, relative positioning and collision avoidance. We conducted a detailed evaluation to identify issues among different baselines and analyze the reasons for improvement, providing insights into each approach. Our method reaches a success rate of 76.7% on the entire dataset, showing a substantial improvement over the CoT baseline at 36.7%.
arxiv情報
著者 | Yu-Hong Shen,Chuan-Yu Wu,Yi-Ru Yang,Yen-Ling Tai,Yi-Ting Chen |
発行日 | 2025-03-17 11:01:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google