Augmenting transformers with recursively composed multi-grained representations

要約

我々は、学習と推論の両方においてゴールドツリーに依存せずに生のテキストの階層構文構造を明示的にモデル化できる再帰的合成拡張TransformerであるReCATを紹介します。
この方向に沿った既存の研究では、データが階層ツリー構造に従うように制限されているため、スパン間の通信が不足しています。
この問題を解決するために、ボトムアップおよびトップダウンのパスを通じてスパンのコンテキスト化された表現を学習する新しいコンテキスト インサイドアウトサイド (CIO) レイヤーを提案します。ボトムアップ パスは、低レベルのスパンを構成することによって高レベルのスパンの表現を形成します。
トップダウン パスではスパンの内部と外部の情報が結合されます。
Transformer のエンベディング レイヤーとアテンション レイヤーの間に複数の CIO レイヤーをスタックすることにより、ReCAT モデルは深いスパン内と深いスパン間の相互作用の両方を実行できるため、他のスパンと完全にコンテキスト化されたマルチグレイン表現を生成できます。
さらに、CIO レイヤーは Transformers と共同で事前トレーニングできるため、ReCAT はスケーリング能力、強力なパフォーマンス、解釈可能性を同時に享受できます。
私たちは、さまざまな文レベルおよびスパンレベルのタスクについて実験を行います。
評価結果によると、ReCAT は、自然言語推論タスクで再帰的ネットワークと Transformer を組み合わせたすべてのスパンレベル タスクおよびベースラインで、通常の Transformer モデルよりも大幅に優れたパフォーマンスを発揮できることが示されています。
さらに興味深いことに、ReCAT によって誘導された階層構造は、人間が注釈を付けた構文ツリーと強い一貫性を示し、CIO 層によってもたらされる良好な解釈可能性を示しています。

要約(オリジナル)

We present ReCAT, a recursive composition augmented Transformer that is able to explicitly model hierarchical syntactic structures of raw texts without relying on gold trees during both learning and inference. Existing research along this line restricts data to follow a hierarchical tree structure and thus lacks inter-span communications. To overcome the problem, we propose a novel contextual inside-outside (CIO) layer that learns contextualized representations of spans through bottom-up and top-down passes, where a bottom-up pass forms representations of high-level spans by composing low-level spans, while a top-down pass combines information inside and outside a span. By stacking several CIO layers between the embedding layer and the attention layers in Transformer, the ReCAT model can perform both deep intra-span and deep inter-span interactions, and thus generate multi-grained representations fully contextualized with other spans. Moreover, the CIO layers can be jointly pre-trained with Transformers, making ReCAT enjoy scaling ability, strong performance, and interpretability at the same time. We conduct experiments on various sentence-level and span-level tasks. Evaluation results indicate that ReCAT can significantly outperform vanilla Transformer models on all span-level tasks and baselines that combine recursive networks with Transformers on natural language inference tasks. More interestingly, the hierarchical structures induced by ReCAT exhibit strong consistency with human-annotated syntactic trees, indicating good interpretability brought by the CIO layers.

arxiv情報

著者 Xiang Hu,Qingyang Zhu,Kewei Tu,Wei Wu
発行日 2023-09-28 10:24:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク