A Picture is Worth a Thousand Words: Language Models Plan from Pixels

要約

計画は、実世界の環境で長期的なタスクを実行する人工エージェントの重要な機能です。
この作業では、事前にトレーニングされた言語モデル (PLM) を使用して、具現化されたビジュアル環境でのテキスト命令からの計画シーケンスについて推論する方法を探ります。
計画のための従来の PLM ベースのアプローチは、観察結果がテキストの形式で利用可能であると仮定するか (キャプション モデルによって提供されるなど)、指示のみから計画についての理由を説明するか、視覚環境に関する情報を限られた方法で組み込むか (事前準備など) のいずれかです。
訓練されたアフォーダンス関数)。
対照的に、観測がPLMの入力プロンプトとして直接エンコードされている場合でも、PLMが正確に計画できることを示しています。
ALFWorld および VirtualHome ベンチマークでの実験では、この単純なアプローチが以前のアプローチよりも優れていることを示しています。

要約(オリジナル)

Planning is an important capability of artificial agents that perform long-horizon tasks in real-world environments. In this work, we explore the use of pre-trained language models (PLMs) to reason about plan sequences from text instructions in embodied visual environments. Prior PLM based approaches for planning either assume observations are available in the form of text (e.g., provided by a captioning model), reason about plans from the instruction alone, or incorporate information about the visual environment in limited ways (such as a pre-trained affordance function). In contrast, we show that PLMs can accurately plan even when observations are directly encoded as input prompts for the PLM. We show that this simple approach outperforms prior approaches in experiments on the ALFWorld and VirtualHome benchmarks.

arxiv情報

著者 Anthony Z. Liu,Lajanugen Logeswaran,Sungryull Sohn,Honglak Lee
発行日 2023-03-16 02:02:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク