Evaluating Language-Model Agents on Realistic Autonomous Tasks

要約

このレポートでは、言語モデルエージェントがリソースを獲得し、自分自身のコピーを作成し、野生で遭遇する新たな課題に適応する能力を探求する。我々はこの能力群を「自律的複製と適応」あるいはARAと呼んでいる。私たちは、ARAが可能なシステムは広範囲に及び、予測困難な結果をもたらす可能性があり、ARAを測定し予測することは、セキュリティ、モニタリング、アライメントに関する対策に情報を提供するために有用であると考えている。さらに、一旦システムがARAを可能にすると、システムの能力に制限を設けることが著しく困難になる可能性がある。 我々は4つの単純なエージェント例を構築し、言語モデルと、世界で行動を起こすことを可能にするツールを組み合わせる。そして、これらのエージェントをARAに関連する12のタスクで評価する。その結果、これらの言語モデルエージェントは、このリストの中で最も簡単なタスクしかこなせないことがわかった。残念ながら、これらの評価は、近い将来のエージェントがARAを行えるようになる可能性を排除するには不十分である。特に、言語モデルの「次世代」(例えば、既存モデルの100倍の有効計算量スケールアップ)が、ARAが可能なエージェントを生み出さないという保証を、これらの評価から得られるとは考えていない。これに関連して、既存のモデルを微調整することで、ARAを直接対象としない場合でも、より有能なエージェントが生成されることが期待される。

要約(オリジナル)

In this report, we explore the ability of language model agents to acquire resources, create copies of themselves, and adapt to novel challenges they encounter in the wild. We refer to this cluster of capabilities as ‘autonomous replication and adaptation’ or ARA. We believe that systems capable of ARA could have wide-reaching and hard-to-anticipate consequences, and that measuring and forecasting ARA may be useful for informing measures around security, monitoring, and alignment. Additionally, once a system is capable of ARA, placing bounds on a system’s capabilities may become significantly more difficult. We construct four simple example agents that combine language models with tools that allow them to take actions in the world. We then evaluate these agents on 12 tasks relevant to ARA. We find that these language model agents can only complete the easiest tasks from this list, although they make some progress on the more challenging tasks. Unfortunately, these evaluations are not adequate to rule out the possibility that near-future agents will be capable of ARA. In particular, we do not think that these evaluations provide good assurance that the “next generation” of language models (e.g. 100x effective compute scaleup on existing models) will not yield agents capable of ARA, unless intermediate evaluations are performed during pretraining. Relatedly, we expect that fine-tuning of the existing models could produce substantially more competent agents, even if the fine-tuning is not directly targeted at ARA.

arxiv情報

著者 Megan Kinniment,Lucas Jun Koba Sato,Haoxing Du,Brian Goodrich,Max Hasin,Lawrence Chan,Luke Harold Miles,Tao R. Lin,Hjalmar Wijk,Joel Burget,Aaron Ho,Elizabeth Barnes,Paul Christiano
発行日 2024-01-04 18:46:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク