要約
機械学習モデルがトレーニングおよびデプロイメント条件の違いに対処する能力。
ディストリビューションの変化や新しいクラスへの一般化が存在する場合、これは現実のユースケースにとって非常に重要です。
ただし、この分野におけるほとんどの実証研究は、一般化の個々の側面を測定するために構築された人工ベンチマークを使用した画像ドメインに焦点を当てています。
我々は、トレーニングに利用できる大規模な市民科学コーパスからの焦点記録を与えられた場合に、受動的に記録されたデータセットからの鳥の鳴き声の検索を中心とした複雑なベンチマークである BIRB を紹介します。
我々は、表現学習と最近傍重心探索を使用した、この一連のタスクのベースライン システムを提案します。
私たちの徹底的な実証的評価と分析は研究の方向性を明らかにし、BIRB が分布の変化に対する堅牢性と ML モデルの一般化の進歩を促進するための、より現実的で複雑なベンチマークのニーズを満たすことを示唆しています。
要約(オリジナル)
The ability for a machine learning model to cope with differences in training and deployment conditions–e.g. in the presence of distribution shift or the generalization to new classes altogether–is crucial for real-world use cases. However, most empirical work in this area has focused on the image domain with artificial benchmarks constructed to measure individual aspects of generalization. We present BIRB, a complex benchmark centered on the retrieval of bird vocalizations from passively-recorded datasets given focal recordings from a large citizen science corpus available for training. We propose a baseline system for this collection of tasks using representation learning and a nearest-centroid search. Our thorough empirical evaluation and analysis surfaces open research directions, suggesting that BIRB fills the need for a more realistic and complex benchmark to drive progress on robustness to distribution shifts and generalization of ML models.
arxiv情報
著者 | Jenny Hamer,Eleni Triantafillou,Bart van Merrienboer,Stefan Kahl,Holger Klinck,Tom Denton,Vincent Dumoulin |
発行日 | 2023-12-12 17:06:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google