Embodied CoT Distillation From LLM To Off-the-shelf Agents

要約

私たちは、容量が限られた既製のデバイスで意思決定システムがタイムリーに動作する環境で、複雑な具体化されたタスクに大規模言語モデル (LLM) を利用するという課題に取り組みます。
我々は、LLM から効率的な小規模言語モデル (sLM) ベースのポリシーまで、具体化された推論機能を分解して抽出するためのフレームワークである DeDer を紹介します。
DeDer では、LLM ベースの戦略の意思決定プロセスが、推論ポリシーと計画ポリシーを備えた階層に再構築されます。
推論ポリシーは、LLM の具体化されたコンテキスト内学習と自己検証を通じて生成されたデータから抽出されるため、効果的な理論的根拠を生成できます。
理論的根拠に基づいた計画ポリシーにより、最適化された計画を効率的に作成できます。
さらに、DeDer では、両方のポリシーに sLM を採用し、既製のデバイスに展開することができます。
さらに、身体化されたタスクに特有の中間根拠の質を高めるために、身体化知識グラフを考案し、単一の推論を通じて複数の根拠をタイムリーに生成するために、対照的に促された注意モデルも使用します。
ALFRED ベンチマークを使用した実験では、DeDer が主要な言語計画および蒸留アプローチを上回っていることが実証され、DeDer を通じて導出された sLM ベースの具体化されたポリシーの適用可能性と効率性が示されています。

要約(オリジナル)

We address the challenge of utilizing large language models (LLMs) for complex embodied tasks, in the environment where decision-making systems operate timely on capacity-limited, off-the-shelf devices. We present DeDer, a framework for decomposing and distilling the embodied reasoning capabilities from LLMs to efficient, small language model (sLM)-based policies. In DeDer, the decision-making process of LLM-based strategies is restructured into a hierarchy with a reasoning-policy and planning-policy. The reasoning-policy is distilled from the data that is generated through the embodied in-context learning and self-verification of an LLM, so it can produce effective rationales. The planning-policy, guided by the rationales, can render optimized plans efficiently. In turn, DeDer allows for adopting sLMs for both policies, deployed on off-the-shelf devices. Furthermore, to enhance the quality of intermediate rationales, specific to embodied tasks, we devise the embodied knowledge graph, and to generate multiple rationales timely through a single inference, we also use the contrastively prompted attention model. Our experiments with the ALFRED benchmark demonstrate that DeDer surpasses leading language planning and distillation approaches, indicating the applicability and efficiency of sLM-based embodied policies derived through DeDer.

arxiv情報

著者 Wonje Choi,Woo Kyung Kim,Minjong Yoo,Honguk Woo
発行日 2024-12-16 07:18:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク