要約
予測モデルをエージェントのようなシステム、特に言語モデルに基づく AI アシスタントに適応させることにますます注目が集まっています。
これらのモデルをエージェントに変えたときに失敗する可能性がある 2 つの構造的な理由を概説します。
まず、自己暗示妄想について説明します。
これまでの研究では、エージェントが隠れた観測に依存している場合、モデルはトレーニング データを生成したエージェントを模倣できないことが理論的に示されています。隠れた観測は交絡変数として機能し、モデルは生成するアクションを存在しない観測の証拠として扱います。
第 2 に、関連する新しい制限、つまり予測子とポリシーの一貫性のなさを導入し、正式に研究します。
モデルが一連のアクションを生成する場合、それらのアクションを生成したポリシーのモデルの暗黙的な予測が交絡変数として機能する可能性があります。
その結果、モデルは将来のアクションが最適ではないことを予期しているかのようにアクションを選択し、過度に保守的になります。
これらの失敗はどちらも、環境からのフィードバック ループを組み込むことによって修正されること、つまりモデル自身のアクションについてモデルを再トレーニングすることによって修正されることを示します。
Decision Transformers を使用して両方の制限を簡単に実証し、経験的結果が概念的および形式的な分析と一致することを確認します。
私たちの治療法は、これらの障害モードについての統一的な見解を提供し、なぜオフラインで学習したポリシーをオンライン学習で微調整することでより効果的になるのかという疑問を明らかにします。
要約(オリジナル)
There is increasing focus on adapting predictive models into agent-like systems, most notably AI assistants based on language models. We outline two structural reasons for why these models can fail when turned into agents. First, we discuss auto-suggestive delusions. Prior work has shown theoretically that models fail to imitate agents that generated the training data if the agents relied on hidden observations: the hidden observations act as confounding variables, and the models treat actions they generate as evidence for nonexistent observations. Second, we introduce and formally study a related, novel limitation: predictor-policy incoherence. When a model generates a sequence of actions, the model’s implicit prediction of the policy that generated those actions can serve as a confounding variable. The result is that models choose actions as if they expect future actions to be suboptimal, causing them to be overly conservative. We show that both of those failures are fixed by including a feedback loop from the environment, that is, re-training the models on their own actions. We give simple demonstrations of both limitations using Decision Transformers and confirm that empirical results agree with our conceptual and formal analysis. Our treatment provides a unifying view of those failure modes, and informs the question of why fine-tuning offline learned policies with online learning makes them more effective.
arxiv情報
著者 | Raymond Douglas,Jacek Karwowski,Chan Bae,Andis Draguns,Victoria Krakovna |
発行日 | 2024-02-08 17:08:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google