要約
Transformer アーキテクチャは、大規模なラベルのないテキストから強力な言語表現を学習する自然言語タスクの解決に大きな成功を収めています。
この論文では、さらに先に進み、より良い言語表現学習のための新しい論理的帰納的バイアスを探求しようとしています。
論理推論は、与えられた知識や事実から答えを導き出すための形式的な方法論として知られています。
このような見解に着想を得て、この新しい誘導バイアスをエンコードするために、FOLNet (First-Order Logic Network) という新しいニューラル アーキテクチャを開発しました。
ニューラル論理演算子のセットを学習可能な Horn 節として構築し、さらに完全微分可能なニューラル アーキテクチャ (FOLNet) にフォワード チェーンします。
興味深いことに、トランスフォーマーの自己注意モジュールは、2 つのニューラル ロジック オペレーターによって構成できることがわかりました。これはおそらく、それらの強力な推論パフォーマンスを説明しています。
私たちが提案する FOLNet は、他の事前トレーニング済みモデルと同じ入力および出力インターフェイスを備えているため、同様の損失を使用して事前トレーニング/微調整することができます。
また、他の事前トレーニング済みモデルを置き換えるときに、FOLNet をプラグアンドプレイで使用することもできます。
私たちの論理帰納バイアスにより、事前トレーニングを通じて学習した同じ「論理演繹スキル」のセットは、さまざまな下流のタスクを同等に解決できると期待されます。
このため、FOLNet は、はるかに強力な転送機能を持つ言語表現を学習します。
いくつかの言語理解タスクに関する実験結果は、事前トレーニング済みの FOLNet モデルが既存の強力な変換ベースのアプローチよりも優れていることを示しています。
要約(オリジナル)
Transformer architectures have achieved great success in solving natural language tasks, which learn strong language representations from large-scale unlabeled texts. In this paper, we seek to go further beyond and explore a new logical inductive bias for better language representation learning. Logic reasoning is known as a formal methodology to reach answers from given knowledge and facts. Inspired by such a view, we develop a novel neural architecture named FOLNet (First-Order Logic Network), to encode this new inductive bias. We construct a set of neural logic operators as learnable Horn clauses, which are further forward-chained into a fully differentiable neural architecture (FOLNet). Interestingly, we find that the self-attention module in transformers can be composed by two of our neural logic operators, which probably explains their strong reasoning performance. Our proposed FOLNet has the same input and output interfaces as other pretrained models and thus could be pretrained/finetuned by using similar losses. It also allows FOLNet to be used in a plug-and-play manner when replacing other pretrained models. With our logical inductive bias, the same set of “logic deduction skills” learned through pretraining are expected to be equally capable of solving diverse downstream tasks. For this reason, FOLNet learns language representations that have much stronger transfer capabilities. Experimental results on several language understanding tasks show that our pretrained FOLNet model outperforms the existing strong transformer-based approaches.
arxiv情報
著者 | Jianshu Chen |
発行日 | 2023-02-19 02:21:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google