Automated Capability Discovery via Model Self-Exploration

要約

基礎モデルは汎用アシスタントになり、Webスケールデータのトレーニングを通じて多数のドメインにわたって多様な機能を示しています。
新しいモデルの機能と潜在的なリスクの全範囲のほんの一部を正確に特徴付けることは困難なままです。
既存の評価アプローチは、多くの場合、かなりの人間の努力を必要とし、より能力のあるモデルにもっと困難な課題を設計するためにますます努力を払っています。
科学者として1つの基礎モデルを指定するフレームワークであるAutomated Capability Discovery(ACD)を導入し、主題モデル(潜在的にそれ自体)の能力を調査する自由回答形式のタスクを体系的に提案します。
フロンティアモデルをオープンエンドネスの分野からのアイデアと組み合わせることにより、ACDは、サブジェクトモデルの驚くべき能力と障害の両方を自動的かつ体系的に明らかにします。
さまざまなファンデーションモデル(GPT、Claude、およびLlamaシリーズを含む)にわたってACDを実証し、1つのチームが発見するのが難しい数千の機能を自動的に明らかにしていることを示しています。
さらに、モデル生成と人間の評価との間の高い一致を観察し、広範な人間の調査でメソッドの自動スコアリングを検証します。
ファンデーションモデルのタスクを作成する能力と自己評価の両方を活用することにより、ACDは、新しいAIシステムのスケーラブルで自動化された評価に向けた重要なステップです。
すべてのコードと評価ログは、https://github.com/conglu1997/acdでオープンソースを受けています。

要約(オリジナル)

Foundation models have become general-purpose assistants, exhibiting diverse capabilities across numerous domains through training on web-scale data. It remains challenging to precisely characterize even a fraction of the full spectrum of capabilities and potential risks in any new model. Existing evaluation approaches often require significant human effort, and it is taking increasing effort to design ever harder challenges for more capable models. We introduce Automated Capability Discovery (ACD), a framework that designates one foundation model as a scientist to systematically propose open-ended tasks probing the abilities of a subject model (potentially itself). By combining frontier models with ideas from the field of open-endedness, ACD automatically and systematically uncovers both surprising capabilities and failures in the subject model. We demonstrate ACD across a range of foundation models (including the GPT, Claude, and Llama series), showing that it automatically reveals thousands of capabilities that would be challenging for any single team to uncover. We further validate our method’s automated scoring with extensive human surveys, observing high agreement between model-generated and human evaluations. By leveraging foundation models’ ability to both create tasks and self-evaluate, ACD is a significant step toward scalable, automated evaluation of novel AI systems. All code and evaluation logs are open-sourced at https://github.com/conglu1997/ACD.

arxiv情報

著者 Cong Lu,Shengran Hu,Jeff Clune
発行日 2025-02-12 16:25:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク