How Do In-Context Examples Affect Compositional Generalization?


AI コミュニティは主に、多くのトレーニング サンプルでニューラル ネットワークを微調整することによってこの機能を研究していますが、コンテキスト学習 (大規模な言語モデルに基づく一般的な少数ショット パラダイム) が構成的な一般化を示すかどうか、またどのように示すのかはまだ不明です。
この論文では、コンテキスト内の組成の一般化を調査するためのテスト スイートである CoFe を紹介します。
私たちは、類似性、多様性、複雑さという 3 つの潜在的な要因を研究します。
私たちの系統的な実験では、コンテキスト内のサンプルは構造的にテスト ケースと類似しており、相互に多様性があり、個別に単純である必要があることが示されています。
さらに、2 つの強い制限が観察されます。つまり、架空の単語に対する文脈内の構成的一般化は、一般的に使用される単語に対するものよりもはるかに弱いです。
バックボーン モデルが大規模なコーパスで事前トレーニングされている場合でも、コンテキスト内の例が必要な言語構造をカバーしていることが依然として重要です。


Compositional generalization–understanding unseen combinations of seen primitives–is an essential reasoning capability in human intelligence. The AI community mainly studies this capability by fine-tuning neural networks on lots of training samples, while it is still unclear whether and how in-context learning–the prevailing few-shot paradigm based on large language models–exhibits compositional generalization. In this paper, we present CoFe, a test suite to investigate in-context compositional generalization. We find that the compositional generalization performance can be easily affected by the selection of in-context examples, thus raising the research question what the key factors are to make good in-context examples for compositional generalization. We study three potential factors: similarity, diversity and complexity. Our systematic experiments indicate that in-context examples should be structurally similar to the test case, diverse from each other, and individually simple. Furthermore, two strong limitations are observed: in-context compositional generalization on fictional words is much weaker than that on commonly used ones; it is still critical that the in-context examples should cover required linguistic structures, even though the backbone model has been pre-trained on large corpus. We hope our analysis would facilitate the understanding and utilization of in-context learning paradigm.


著者 Shengnan An,Zeqi Lin,Qiang Fu,Bei Chen,Nanning Zheng,Jian-Guang Lou,Dongmei Zhang
発行日 2023-06-09 02:25:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL パーマリンク