Oops, I Sampled it Again: Reinterpreting Confidence Intervals in Few-Shot Learning

要約

少数ショット学習 (FSL) における信頼区間 (CI) を計算するための主な方法は、置換を伴うタスクのサンプリング、つまり、同じサンプルが複数のタスクに現れることを許可することに基づいています。
このため、CI はデータ自体ではなくサンプラーのランダム性を考慮しているという点で誤解を招きます。
この問題の程度を定量化するために、置換を使用して計算された CI と置換なしで計算された CI の間で比較分析を実行します。
これらは、支配的な方法による顕著な過小評価を明らかにします。
この観察は、FSL 比較研究における信頼区間とその結果得られる結論をどのように解釈するかについての再評価を必要とします。
私たちの調査では、ペアテストを使用することでこの問題を部分的に解決できることが実証されています。
さらに、特定のサイズのタスクを戦略的にサンプリングすることで、CI (のサイズ) をさらに縮小する方法を検討します。
また、新しい最適化されたベンチマークも紹介します。これは https://github.com/RafLaf/FSL-benchmark-again からアクセスできます。

要約(オリジナル)

The predominant method for computing confidence intervals (CI) in few-shot learning (FSL) is based on sampling the tasks with replacement, i.e.\ allowing the same samples to appear in multiple tasks. This makes the CI misleading in that it takes into account the randomness of the sampler but not the data itself. To quantify the extent of this problem, we conduct a comparative analysis between CIs computed with and without replacement. These reveal a notable underestimation by the predominant method. This observation calls for a reevaluation of how we interpret confidence intervals and the resulting conclusions in FSL comparative studies. Our research demonstrates that the use of paired tests can partially address this issue. Additionally, we explore methods to further reduce the (size of the) CI by strategically sampling tasks of a specific size. We also introduce a new optimized benchmark, which can be accessed at https://github.com/RafLaf/FSL-benchmark-again

arxiv情報

著者 Raphael Lafargue,Luke Smith,Franck Vermet,Mathias Löwe,Ian Reid,Vincent Gripon,Jack Valmadre
発行日 2024-09-04 16:20:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T06, cs.AI, cs.LG, G.3, stat.ML パーマリンク