StrAE: Autoencoding for Pre-Trained Embeddings using Explicit Structure

要約

この研究では、StrAE を紹介します。StrAE は、明示的な構造への厳密な準拠と、ツリー構造表現に対する新しい対照的な目的の使用を通じて、マルチレベル表現の効果的な学習を可能にする構造化オートエンコーダー フレームワークです。
さまざまな形式の構造を比較することで、結果が入力として提供された構造の有益性に直接起因することを検証し、これが既存のツリー モデルには当てはまらないことを示します。
次に、StrAE をさらに拡張して、単純な局所的マージ アルゴリズムを使用してモデルが独自の構成を定義できるようにします。
Self-StrAE と呼ばれるこのバリアントは、明示的な階層構成を含まないベースラインよりも優れたパフォーマンスを示し、情報構造 (構成要素の解析など) が与えられたモデルと同等です。
私たちの実験は、効果的な学習に対する帰納的バイアスの寄与を明らかにするために、データに制約のある設定 (約 1,000 万トークン) で実施されています。
ただし、このフレームワークはスケールに対して堅牢であり、はるかに大きなデータセット (約 1 億トークン) に拡張すると、430 パラメーター モデルはサイズが何桁も大きい 6 層 RoBERTa と同等のパフォーマンスを発揮することがわかりました。
私たちの発見は、効果的な表現学習のための帰納的バイアスとして明示的な構成を組み込むことの有用性を裏付けています。

要約(オリジナル)

This work presents StrAE: a Structured Autoencoder framework that through strict adherence to explicit structure, and use of a novel contrastive objective over tree-structured representations, enables effective learning of multi-level representations. Through comparison over different forms of structure, we verify that our results are directly attributable to the informativeness of the structure provided as input, and show that this is not the case for existing tree models. We then further extend StrAE to allow the model to define its own compositions using a simple localised-merge algorithm. This variant, called Self-StrAE, outperforms baselines that don’t involve explicit hierarchical compositions, and is comparable to models given informative structure (e.g. constituency parses). Our experiments are conducted in a data-constrained (circa 10M tokens) setting to help tease apart the contribution of the inductive bias to effective learning. However, we find that this framework can be robust to scale, and when extended to a much larger dataset (circa 100M tokens), our 430 parameter model performs comparably to a 6-layer RoBERTa many orders of magnitude larger in size. Our findings support the utility of incorporating explicit composition as an inductive bias for effective representation learning.

arxiv情報

著者 Mattia Opper,Victor Prokhorov,N. Siddharth
発行日 2023-10-25 15:30:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク