要約
自己教師あり学習とニューラル ネットワークのスケーリングにおける最近の進歩により、基礎モデルとして知られる大規模なモデルの作成が可能になり、幅広い下流タスクに簡単に適応できます。
基礎モデルを比較するための現在のパラダイムには、さまざまなベンチマーク データセットの集計メトリックを使用して基礎モデルを評価することが含まれます。
このモデル比較方法は、選択した評価指標に大きく依存するため、理想的な指標が明らかでない、または利用できない状況には適していません。
この研究では、基礎モデルの埋め込み空間ジオメトリを直接比較するための方法論を紹介します。これにより、明示的な評価基準を必要とせずにモデルの比較が容易になります。
私たちの方法論はランダム グラフ理論に基づいており、データごとの埋め込み類似性の有効な仮説テストを可能にします。
さらに、母集団レベルのモデルの比較を容易にするために方法論を拡張する方法を示します。
特に、私たちのフレームワークが、いくつかの下流メトリクスと強く相関する距離関数を備えた多様なモデルをどのように誘導できるかを示します。
基礎モデルの分類科学への第一歩として、この集団レベルのモデル比較の有用性について言及します。
要約(オリジナル)
Recent advances in self-supervised learning and neural network scaling have enabled the creation of large models, known as foundation models, which can be easily adapted to a wide range of downstream tasks. The current paradigm for comparing foundation models involves evaluating them with aggregate metrics on various benchmark datasets. This method of model comparison is heavily dependent on the chosen evaluation metric, which makes it unsuitable for situations where the ideal metric is either not obvious or unavailable. In this work, we present a methodology for directly comparing the embedding space geometry of foundation models, which facilitates model comparison without the need for an explicit evaluation metric. Our methodology is grounded in random graph theory and enables valid hypothesis testing of embedding similarity on a per-datum basis. Further, we demonstrate how our methodology can be extended to facilitate population level model comparison. In particular, we show how our framework can induce a manifold of models equipped with a distance function that correlates strongly with several downstream metrics. We remark on the utility of this population level model comparison as a first step towards a taxonomic science of foundation models.
arxiv情報
著者 | Brandon Duderstadt,Hayden S. Helm,Carey E. Priebe |
発行日 | 2023-05-18 14:19:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google