Harnessing Dataset Cartography for Improved Compositional Generalization in Transformers

要約

ニューラル ネットワークは言語モデリングに革命をもたらし、さまざまな下流タスクで優れた性能を発揮しました。
ただし、これらのモデルが人間の認知能力に匹敵する構成的一般化をどの程度達成するかについては、依然として議論の余地があります。
この分野の既存のアプローチは主に新しいアーキテクチャと代替学習パラダイムに焦点を当ててきましたが、私たちはデータセット地図作成の力を利用した先駆的な方法を紹介します (Swayamdipta et al., 2020)。
このアプローチを使用して構成一般化データのサブセットを戦略的に特定することにより、モデルの精度が大幅に向上し、CFQ および COGS データセットで最大 10% の向上が得られます。
特に、私たちの技術にはカリキュラム学習基準としてデータセット地図作成が組み込まれており、一貫して優れたパフォーマンスを達成しながらハイパーパラメーター調整の必要性が排除されています。
私たちの調査結果は、Transformer モデル内で構成一般化の全機能を解放するというデータセット カートグラフィーの未開発の可能性を浮き彫りにしています。
私たちのコードは https://github.com/cyberiada/cartography-for-compositionality で入手できます。

要約(オリジナル)

Neural networks have revolutionized language modeling and excelled in various downstream tasks. However, the extent to which these models achieve compositional generalization comparable to human cognitive abilities remains a topic of debate. While existing approaches in the field have mainly focused on novel architectures and alternative learning paradigms, we introduce a pioneering method harnessing the power of dataset cartography (Swayamdipta et al., 2020). By strategically identifying a subset of compositional generalization data using this approach, we achieve a remarkable improvement in model accuracy, yielding enhancements of up to 10% on CFQ and COGS datasets. Notably, our technique incorporates dataset cartography as a curriculum learning criterion, eliminating the need for hyperparameter tuning while consistently achieving superior performance. Our findings highlight the untapped potential of dataset cartography in unleashing the full capabilities of compositional generalization within Transformer models. Our code is available at https://github.com/cyberiada/cartography-for-compositionality.

arxiv情報

著者 Osman Batur İnce,Tanin Zeraati,Semih Yagcioglu,Yadollah Yaghoobzadeh,Erkut Erdem,Aykut Erdem
発行日 2023-10-18 17:14:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク