要約
タイトル:デュアルテキスト-画像プロンプティングによる多モーダル手順計画
要約:
– 体系的エージェントは、人間の指示に従ってタスクを完了することにおいて優れたパフォーマンスを発揮しています。
– ただし、タスクを完了するための指示が、テキストと画像によって支援される可能性は未だに未開拓です。
– この能力を明らかにするために、多モーダル手順計画(MPP)タスクを提示しています。
– MPPでは、モデルに高レベルな目標が与えられ、ペアのテキスト-画像ステッププランを生成し、単一のモーダルプランよりも補完的かつ情報的なガイダンスを提供します。
– MPPの主な課題は、モダリティ間の計画の情報量、時間的な一貫性、および精度を確保することです。
– これを解決するために、文言モデルのゼロショット推論能力を共同で活用し、拡散ベースのモデルからの魅力的な文言-画像生成能力を活用したデュアルモダリティプロンプティング(TIP)を提案しています。
– TIPは、テキスト-画像ブリッジおよび画像-テキストブリッジを使用して、デュアルモダリティの相互作用を改善し、文言モデルをテキストに基づく画像プラン生成に案内し、画像プランの記述を逆にテキストプランに基づくものに活用しています。
– 関連するデータセットの不足に対応するため、MPPのテストベッドとしてWIKIPLANおよびRECIPEPLANを収集しました。
– 結果として、情報量、時間的な一貫性、およびプランの精度に関して、WIKIPLANおよびRECIPEPLAN上の単一モーダルおよび多モーダルベースラインとの比較において、魅力的な人間の好みと自動スコアが示されています。
– コードおよびデータ:https://github.com/YujieLu10/MPP
要約(オリジナル)
Embodied agents have achieved prominent performance in following human instructions to complete tasks. However, the potential of providing instructions informed by texts and images to assist humans in completing tasks remains underexplored. To uncover this capability, we present the multimodal procedural planning (MPP) task, in which models are given a high-level goal and generate plans of paired text-image steps, providing more complementary and informative guidance than unimodal plans. The key challenges of MPP are to ensure the informativeness, temporal coherence,and accuracy of plans across modalities. To tackle this, we propose Text-Image Prompting (TIP), a dual-modality prompting method that jointly leverages zero-shot reasoning ability in large language models (LLMs) and compelling text-to-image generation ability from diffusion-based models. TIP improves the interaction in the dual modalities using Text-to-Image Bridge and Image-to-Text Bridge, allowing LLMs to guide the textual-grounded image plan generation and leveraging the descriptions of image plans to ground the textual plan reversely. To address the lack of relevant datasets, we collect WIKIPLAN and RECIPEPLAN as a testbed for MPP. Our results show compelling human preferences and automatic scores against unimodal and multimodal baselines on WIKIPLAN and RECIPEPLAN in terms of informativeness, temporal coherence, and plan accuracy. Our code and data: https://github.com/YujieLu10/MPP.
arxiv情報
著者 | Yujie Lu,Pan Lu,Zhiyu Chen,Wanrong Zhu,Xin Eric Wang,William Yang Wang |
発行日 | 2023-05-02 21:46:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI