Benchmarking Neural Network Generalization for Grammar Induction

要約

ニューラル ネットワークはどの程度一般化できるのでしょうか?
対象となる一般化が完全にわかっている文法誘導タスクであっても、以前の研究では問題が未解決のままであり、トレーニング セットを超えた非常に限られた範囲をテストし、異なる成功基準を使用していました。
完全に指定された形式言語に基づいて、ニューラル ネットワークの一般化の尺度を提供します。
モデルと形式的な文法が与えられると、このメソッドは、モデルがトレーニングされたデータの量に反比例して、モデルが未見のサンプルに対してどの程度一般化できるかを表す一般化スコアを割り当てます。
ベンチマークには、$a^nb^n$、$a^nb^nc^n$、$a^nb^mc^{n+m}$、Dyck-1 および 2 などの言語が含まれます。
ベンチマークを実行すると、最小記述長目標 (MDL) でトレーニングされたネットワークは、標準の損失関数を使用してトレーニングされたネットワークよりも一般化がうまく、使用するデータが少ないことがわかります。
ベンチマークは https://github.com/taucompling/bliss で入手できます。

要約(オリジナル)

How well do neural networks generalize? Even for grammar induction tasks, where the target generalization is fully known, previous works have left the question open, testing very limited ranges beyond the training set and using different success criteria. We provide a measure of neural network generalization based on fully specified formal languages. Given a model and a formal grammar, the method assigns a generalization score representing how well a model generalizes to unseen samples in inverse relation to the amount of data it was trained on. The benchmark includes languages such as $a^nb^n$, $a^nb^nc^n$, $a^nb^mc^{n+m}$, and Dyck-1 and 2. We evaluate selected architectures using the benchmark and find that networks trained with a Minimum Description Length objective (MDL) generalize better and using less data than networks trained using standard loss functions. The benchmark is available at https://github.com/taucompling/bliss.

arxiv情報

著者 Nur Lan,Emmanuel Chemla,Roni Katzir
発行日 2023-08-25 13:40:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク