要約
構成的一般化、つまり目に見えるプリミティブの目に見えない組み合わせを理解することは、人間の知性において不可欠な推論能力です。
AI コミュニティは主に、多くのトレーニング サンプルでニューラル ネットワークを微調整することによってこの機能を研究していますが、コンテキスト学習 (大規模な言語モデルに基づく一般的な少数ショット パラダイム) が構成的な一般化を示すかどうか、またどのように示すのかはまだ不明です。
この論文では、コンテキスト内の組成の一般化を調査するためのテスト スイートである CoFe を紹介します。
構成的な一般化のパフォーマンスは、文脈内の例の選択によって容易に影響を受ける可能性があることがわかり、したがって、構成的な一般化に適した文脈内の例を作成するための重要な要素は何かという研究課題が生じます。
私たちは、類似性、多様性、複雑さという 3 つの潜在的な要因を研究します。
私たちの系統的な実験では、コンテキスト内のサンプルは構造的にテスト ケースと類似しており、相互に多様性があり、個別に単純である必要があることが示されています。
さらに、2 つの強い制限が観察されます。つまり、架空の単語に対する文脈内の構成的一般化は、一般的に使用される単語に対するものよりもはるかに弱いです。
バックボーン モデルが大規模なコーパスで事前トレーニングされている場合でも、コンテキスト内の例が必要な言語構造をカバーしていることが依然として重要です。
私たちの分析が、コンテキスト内学習パラダイムの理解と活用を促進することを願っています。
要約(オリジナル)
Compositional generalization–understanding unseen combinations of seen primitives–is an essential reasoning capability in human intelligence. The AI community mainly studies this capability by fine-tuning neural networks on lots of training samples, while it is still unclear whether and how in-context learning–the prevailing few-shot paradigm based on large language models–exhibits compositional generalization. In this paper, we present CoFe, a test suite to investigate in-context compositional generalization. We find that the compositional generalization performance can be easily affected by the selection of in-context examples, thus raising the research question what the key factors are to make good in-context examples for compositional generalization. We study three potential factors: similarity, diversity and complexity. Our systematic experiments indicate that in-context examples should be structurally similar to the test case, diverse from each other, and individually simple. Furthermore, two strong limitations are observed: in-context compositional generalization on fictional words is much weaker than that on commonly used ones; it is still critical that the in-context examples should cover required linguistic structures, even though the backbone model has been pre-trained on large corpus. We hope our analysis would facilitate the understanding and utilization of in-context learning paradigm.
arxiv情報
著者 | Shengnan An,Zeqi Lin,Qiang Fu,Bei Chen,Nanning Zheng,Jian-Guang Lou,Dongmei Zhang |
発行日 | 2023-06-09 02:25:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google