要約
インコンテキスト学習は一般に GPT などの因果的言語モデルと関連付けられていますが、この機能がマスクされた言語モデルでも「出現」することを実証します。
恥ずかしいほど単純な推論手法を通じて、追加のトレーニングやアーキテクチャの変更を行わずに、既存のマスクされたモデル DeBERTa が生成タスクを実行できるようにします。
私たちの評価では、マスクされた言語モデルと因果的言語モデルは、異なるカテゴリのタスクで明らかに相互に優れているため、まったく異なる動作をすることが明らかになりました。
これらの補完的な強みは、この分野がコンテキスト内学習の因果モデルに焦点を当てていることに限界がある可能性があることを示唆しています。どちらのアーキテクチャもこれらの機能を開発できますが、明確な利点があります。
両方の目的の長所を組み合わせた、有望なハイブリッドアプローチを指しています。
要約(オリジナル)
While in-context learning is commonly associated with causal language models, such as GPT, we demonstrate that this capability also ‘emerges’ in masked language models. Through an embarrassingly simple inference technique, we enable an existing masked model, DeBERTa, to perform generative tasks without additional training or architectural changes. Our evaluation reveals that the masked and causal language models behave very differently, as they clearly outperform each other on different categories of tasks. These complementary strengths suggest that the field’s focus on causal models for in-context learning may be limiting – both architectures can develop these capabilities, but with distinct advantages; pointing toward promising hybrid approaches that combine the strengths of both objectives.
arxiv情報
著者 | David Samuel |
発行日 | 2024-10-31 16:48:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google