要約
大規模言語モデル (LLM) とビジュアル言語モデル (VLM) は、さまざまなドメインやタスクにわたってパフォーマンスとアプリケーションが向上するため、関心が高まっています。
ただし、LLM と VLM は、特に問題領域を深く理解する必要がある場合に、誤った結果を生成する可能性があります。
たとえば、計画と認識が同時に必要な場合、これらのモデルは、マルチモーダルな情報を統合することが難しいため、苦労することがよくあります。
この問題に対処するために、通常、微調整されたモデルが採用され、環境を表す特殊なデータ構造でトレーニングされます。
このアプローチは、処理のコンテキストが過度に複雑になる可能性があるため、効果が限られています。
この論文では、入力として特定のデータ構造を必要とせずに動作する、具体化されたタスク計画のためのマルチエージェント アーキテクチャを提案します。
代わりに、環境の単一イメージを使用し、常識的な知識を活用して自由形式のドメインを処理します。
また、計画の品質をより適切に評価するために設計された、新しい完全自動評価手順 PG2S も導入します。
私たちは、広く認知されている ALFRED データセットを使用してアプローチを検証し、PG2S を既存の KAS メトリクスと比較して、生成された計画の品質をさらに評価しました。
要約(オリジナル)
Large Language Models (LLMs) and Visual Language Models (VLMs) are attracting increasing interest due to their improving performance and applications across various domains and tasks. However, LLMs and VLMs can produce erroneous results, especially when a deep understanding of the problem domain is required. For instance, when planning and perception are needed simultaneously, these models often struggle because of difficulties in merging multi-modal information. To address this issue, fine-tuned models are typically employed and trained on specialized data structures representing the environment. This approach has limited effectiveness, as it can overly complicate the context for processing. In this paper, we propose a multi-agent architecture for embodied task planning that operates without the need for specific data structures as input. Instead, it uses a single image of the environment, handling free-form domains by leveraging commonsense knowledge. We also introduce a novel, fully automatic evaluation procedure, PG2S, designed to better assess the quality of a plan. We validated our approach using the widely recognized ALFRED dataset, comparing PG2S to the existing KAS metric to further evaluate the quality of the generated plans.
arxiv情報
著者 | Michele Brienza,Francesco Argenziano,Vincenzo Suriani,Domenico D. Bloisi,Daniele Nardi |
発行日 | 2024-12-29 12:15:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google