要約
言語モデル(LM)が自律型エージェントとして導入されるにつれ、人間が設定した目標に忠実に従うことが、安全な運用のために重要になってきている。このようなエージェントが人間の監視を受けずに長期間自立的に動作する場合、当初は適切に設定された目標であっても、徐々にずれていく可能性がある。目標が徐々に変化し、微妙な行動変化しか引き起こさないため、目標ドリフト(エージェントが時間とともに当初の目標から逸脱する傾向)を検出・測定することは大きな課題となる。本稿では、LMエージェントのゴールドリフトを分析する新しいアプローチを提案する。我々の実験では、エージェントはまずシステムプロンプトによって明示的に目標を与えられ、次に環境からの圧力によって競合する目標にさらされる。その結果、最も成績の良いエージェント(クロード3.5ソネットの足場バージョン)は、最も難しい評価設定において、10万トークンを超える間、ほぼ完璧な目標順守を維持する一方、全ての評価モデルはある程度の目標ドリフトを示すことがわかった。また、ゴールのドリフトは、コンテキストの長さが長くなるにつれて、モデルがパターンマッチングの影響を受けやすくなることと相関していることがわかった。
要約(オリジナル)
As language models (LMs) are increasingly deployed as autonomous agents, their robust adherence to human-assigned objectives becomes crucial for safe operation. When these agents operate independently for extended periods without human oversight, even initially well-specified goals may gradually shift. Detecting and measuring goal drift – an agent’s tendency to deviate from its original objective over time – presents significant challenges, as goals can shift gradually, causing only subtle behavioral changes. This paper proposes a novel approach to analyzing goal drift in LM agents. In our experiments, agents are first explicitly given a goal through their system prompt, then exposed to competing objectives through environmental pressures. We demonstrate that while the best-performing agent (a scaffolded version of Claude 3.5 Sonnet) maintains nearly perfect goal adherence for more than 100,000 tokens in our most difficult evaluation setting, all evaluated models exhibit some degree of goal drift. We also find that goal drift correlates with models’ increasing susceptibility to pattern-matching behaviors as the context length grows.
arxiv情報
著者 | Rauno Arike,Elizabeth Donoway,Henning Bartsch,Marius Hobbhahn |
発行日 | 2025-05-05 15:06:09+00:00 |
arxivサイト | arxiv_id(pdf) |