要約
ニューラル言語モデル (LM) は、汎用の組み込み制御のための魅力的なソリューションを提供します。
ただし、LM ベースのコントローラーを使用する場合、重要な技術的問題が発生します。環境観察をテキストに変換する必要があり、履歴と組み合わせると、長く冗長なテキスト プロンプトが表示されます。
結果として、LM エージェントでのこれまでの作業は、観測サイズが小さく、対話履歴や命令調整の必要性が最小限である限定されたドメインに限定されていました。
このペーパーでは、これらの問題に対するシンプルかつ非常に効果的な解決策である diff 履歴を紹介します。
LM ポリシーを促すために使用されるインタラクション履歴内の連続するテキスト観察に Unix diff コマンドを適用することで、冗長な情報を抽象化し、テキスト入力の内容を環境の顕著な変化に集中させることができます。
意思決定に長期的な推論を必要とする未解決のビデオ ゲームである NetHack では、差分履歴を使用して調整された LM はニューラル エージェントの最先端のパフォーマンスに匹敵し、必要なトレーニング サンプルの数は以前の研究に比べて 1800 分の 1 です。
簡潔なテキストを観察したより単純な BabyAI-Text 環境でも、差分履歴によってプロンプトの長さは増加しますが、差分履歴によって提供される表現により、低サンプル命令チューニングの効率が 25% 向上することがわかりました。
さらに、差分履歴がさまざまな調整データセット サイズにわたって良好にスケールされることを示します。
私たちはコードとデータを https://diffhistory.github.io にオープンソース化しています。
要約(オリジナル)
Neural Language Models (LMs) offer an exciting solution for general-purpose embodied control. However, a key technical issue arises when using an LM-based controller: environment observations must be converted to text, which coupled with history, results in long and verbose textual prompts. As a result, prior work in LM agents is limited to restricted domains with small observation size as well as minimal needs for interaction history or instruction tuning. In this paper, we introduce diff history, a simple and highly effective solution to these issues. By applying the Unix diff command on consecutive text observations in the interaction histories used to prompt LM policies, we can both abstract away redundant information and focus the content of textual inputs on the salient changes in the environment. On NetHack, an unsolved video game that requires long-horizon reasoning for decision-making, LMs tuned with diff history match state-of-the-art performance for neural agents while needing 1800x fewer training examples compared to prior work. Even on the simpler BabyAI-Text environment with concise text observations, we find that although diff history increases the length of prompts, the representation it provides offers a 25% improvement in the efficiency of low-sample instruction tuning. Further, we show that diff history scales favorably across different tuning dataset sizes. We open-source our code and data to https://diffhistory.github.io.
arxiv情報
著者 | Ulyana Piterbarg,Lerrel Pinto,Rob Fergus |
発行日 | 2024-06-11 17:57:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google