diff History for Long-Context Language Agents

要約

言語モデル (LM) は、汎用の組み込み制御のための魅力的なソリューションを提供します。
ただし、LM ベースのコントローラーを使用する場合、重要な技術的問題が発生します。環境観察をテキストに変換する必要があり、履歴と組み合わせると、法外に大きなテキスト プロンプトが表示されます。
結果として、LM エージェントでのこれまでの研究は、観測サイズが小さいか、対話履歴の必要性が最小限の制限されたドメインに限定されていました。
このホワイトペーパーでは、これらの問題に対するシンプルで非常に効果的な解決策を紹介します。
私たちは、連続したテキスト観察が高い類似性を持っているという事実を利用し、Unix diff コマンドを介してそれらを圧縮することを提案します。
私たちは、意思決定に長期的な推論を必要とする複雑なローグライク ビデオ ゲームである NetHack でのアプローチを実証しますが、特にニューラル エージェントに関しては解決には程遠いものです。
差分履歴により、LM が利用できるテキストベースのインタラクション履歴の長さが平均 4 倍に増加します。
この観察による圧縮と抽象化の利点により、最先端のベースラインと比較して、保留環境インスタンスでのゲーム スコアが 7 倍向上します。
また、視覚的な観察を使用する従来のエージェントよりも 40% 以上優れています。

要約(オリジナル)

Language Models (LMs) offer an exciting solution for general-purpose embodied control. However, a key technical issue arises when using an LM-based controller: environment observations must be converted to text, which coupled with history, leads to prohibitively large textual prompts. As a result, prior work in LM agents is limited to restricted domains with either small observation size or minimal needs for interaction history. In this paper, we introduce a simple and highly effective solution to these issues. We exploit the fact that consecutive text observations have high similarity and propose to compress them via the Unix diff command. We demonstrate our approach in NetHack, a complex rogue-like video game, that requires long-horizon reasoning for decision-making and is far from solved, particularly for neural agents. Diff history offers an average of 4x increase in the length of the text-based interaction history available to the LM. This observational compression along with the benefits of abstraction yields a 7x improvement in game score on held-out environment instances over state-of-the-art baselines. It also outperforms prior agents that use visual observations by over 40%.

arxiv情報

著者 Ulyana Piterbarg,Lerrel Pinto,Rob Fergus
発行日 2023-12-12 18:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク