要約
言語モデル(LM)機能が進歩するにつれて、それらを大規模に評価および監督することは、人間にとって難しくなっています。
他の言語モデルがこれらの両方のタスクを自動化できることを期待しています。これは「AI監視」と呼ばれます。
モデルの類似性が、モデルのミスの重複に基づいてLM類似性の確率論的メトリックを提案することにより、AI監視の両方の側面にどのように影響するかを研究します。
このメトリックを使用して、最初にLLM-as-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-judgeが裁判官と同様のモデルを支持し、最近の自己再参照の結果を一般化することを示します。
次に、LMアノテーションに関するトレーニングを研究し、弱い監督者と強力な学生モデルの間の補完的な知識を見つけ、「弱い一般化」からの利益に重要な役割を果たします。
モデル機能が増加するにつれて、間違いを見つけるのが難しくなり、AIの監視により多くの延期を繰り返す可能性があります。
ただし、懸念される傾向が観察されます。モデルの間違いは、能力の増加とともにより類似しており、相関障害からのリスクを指し示しています。
私たちの仕事は、特にAI監視の新たなパラダイムにおいて、モデルの類似性を報告し、修正することの重要性を強調しています。
要約(オリジナル)
As Language Model (LM) capabilities advance, evaluating and supervising them at scale is getting harder for humans. There is hope that other language models can automate both these tasks, which we refer to as ‘AI Oversight’. We study how model similarity affects both aspects of AI oversight by proposing a probabilistic metric for LM similarity based on overlap in model mistakes. Using this metric, we first show that LLM-as-a-judge scores favor models similar to the judge, generalizing recent self-preference results. Then, we study training on LM annotations, and find complementary knowledge between the weak supervisor and strong student model plays a crucial role in gains from ‘weak-to-strong generalization’. As model capabilities increase, it becomes harder to find their mistakes, and we might defer more to AI oversight. However, we observe a concerning trend — model mistakes are becoming more similar with increasing capabilities, pointing to risks from correlated failures. Our work underscores the importance of reporting and correcting for model similarity, especially in the emerging paradigm of AI oversight.
arxiv情報
著者 | Shashwat Goel,Joschka Struber,Ilze Amanda Auzina,Karuna K Chandra,Ponnurangam Kumaraguru,Douwe Kiela,Ameya Prabhu,Matthias Bethge,Jonas Geiping |
発行日 | 2025-02-06 18:56:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google