A Challenging Benchmark for Low-Resource Learning

要約

高リソース設定で有望ながら飽和状態の結果が得られるため、低リソース データセットは、高度なニューラル ネットワーク (BigBench、superGLUE など) の学習能力を評価するための一般的なベンチマークになりつつあります。
ベンチマークテストの結果によると、一部のモデルは人間を凌駕しています。
ただし、リソースの少ない設定では、ニューラル ネットワークに挑戦するものの、十分に評価されていない一連の難しい例が存在し、パフォーマンスが過大評価されることがわかりました。
まず、リソース不足の学習を困難にする要因について、理論的な分析を行います。
次に、3 つのコンピューター ビジョン (CV) データセットと 8 つの自然言語処理 (NLP) データセットを含む 11 のデータセットをカバーする、学習能力をより適切に評価するための挑戦的なベンチマーク hardBench を提案するように私たちを動機付けます。
幅広いモデルでの実験では、事前にトレーニングされた言語モデルであっても、ニューラル ネットワークのパフォーマンスがベンチマークで急激に低下することが示され、ニューラル ネットワークの弱点を評価する際の有効性が実証されました。
NLP タスクでは、驚くべきことに、従来の低リソース ベンチマークでより良い結果が得られたにもかかわらず、事前にトレーニングされたネットワークがベンチマークでパフォーマンスの向上を示さないことがわかりました。
これらの結果は、既存のモデルと人間レベルのパフォーマンスとの間には、依然として大きな堅牢性のギャップがあることを示しています。

要約(オリジナル)

With promising yet saturated results in high-resource settings, low-resource datasets have gradually become popular benchmarks for evaluating the learning ability of advanced neural networks (e.g., BigBench, superGLUE). Some models even surpass humans according to benchmark test results. However, we find that there exists a set of hard examples in low-resource settings that challenge neural networks but are not well evaluated, which causes over-estimated performance. We first give a theoretical analysis on which factors bring the difficulty of low-resource learning. It then motivate us to propose a challenging benchmark hardBench to better evaluate the learning ability, which covers 11 datasets, including 3 computer vision (CV) datasets and 8 natural language process (NLP) datasets. Experiments on a wide range of models show that neural networks, even pre-trained language models, have sharp performance drops on our benchmark, demonstrating the effectiveness on evaluating the weaknesses of neural networks. On NLP tasks, we surprisingly find that despite better results on traditional low-resource benchmarks, pre-trained networks, does not show performance improvements on our benchmarks. These results demonstrate that there are still a large robustness gap between existing models and human-level performance.

arxiv情報

著者 Yudong Wang,Chang Ma,Qingxiu Dong,Lingpeng Kong,Jingjing Xu
発行日 2023-03-07 12:10:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク