要約
タイトル:言語モデルは暗黙のうちにトピックモデルであり、コンテキスト内学習に対する良いデモンストレーションの説明と発見
要約:
– 多くの言語モデルが、コンテキスト内学習と呼ばれる推論時少量データ学習能力を実現できることが知られている
– しかしながら、これらの能力は、少量のデモンストレーション選択に非常に敏感であるという問題が指摘されている
– この研究では、ベイズ的な視点から言語モデルをトピックモデルと捉え、タスク関連情報をデモンストレーションから暗黙的に推定する可能性を仮定した
– この仮定に基づき、注釈付きデータの一連から最適なデモンストレーションを選択するアルゴリズムを提案し、8つの異なる実際のテキスト分類データセット上で8つのGPT2とGPT3モデルの平均をとった結果、ランダム選択基準に比べて12.5%の改善が見られた
– 著者らの実証結果は、言語モデルが暗黙的に潜在的なコンセプト変数を推定することを示唆している。
要約(オリジナル)
In recent years, pre-trained large language models have demonstrated remarkable efficiency in achieving an inference-time few-shot learning capability known as in-context learning. However, existing literature has highlighted the sensitivity of this capability to the selection of few-shot demonstrations. The underlying mechanisms by which this capability arises from regular language model pretraining objectives remain poorly understood. In this study, we aim to examine the in-context learning phenomenon through a Bayesian lens, viewing large language models as topic models that implicitly infer task-related information from demonstrations. On this premise, we propose an algorithm for selecting optimal demonstrations from a set of annotated data and demonstrate a significant 12.5% improvement relative to the random selection baseline, averaged over eight GPT2 and GPT3 models on eight different real-world text classification datasets. Our empirical findings support our hypothesis that large language models implicitly infer a latent concept variable.
arxiv情報
| 著者 | Xinyi Wang,Wanrong Zhu,Michael Saxon,Mark Steyvers,William Yang Wang |
| 発行日 | 2023-05-04 15:09:50+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI