Semi-Structured Object Sequence Encoders

要約

この論文では、(半) 構造化されたオブジェクト シーケンスをモデル化するタスクについて説明します。
特に、そのようなシーケンスの構造を意識した入力表現を開発する問題に注意を向けます。
このようなシーケンスでは、各構造化オブジェクトは、構造化オブジェクトの属性をエンコードするキーと値のペアのセットによって表されると想定しています。
キーのユニバースが与えられると、構造化されたオブジェクトのシーケンスは、時間の経過に伴う各キーの値の進化と見なすことができます。
特定のキーの値を使用して順次表現をエンコードおよび構築し (Temporal Value Modeling – TVM)、キー条件付きの一連の値シーケンスを自己管理して、構造化されたオブジェクト シーケンスの表現を作成します (Key Aggregation – KA
)。
2 つのコンポーネントを個別に事前トレーニングして微調整し、両方のモジュールのトレーニングをインターリーブする革新的なトレーニング スケジュールを提示します。
この反復的な 2 つの部分トレーニングは、階層エンコーディングを使用した統合ネットワークや、シーケンス \cite{de2021transformers4rec} の {\em record-view} 表現または単純な {
\em flattened} シーケンスの表現。
実世界のデータを使用して実験を行い、複数のタスクで TVM-KA をインターリーブすることの利点と、モデリングの選択を動機付ける詳細なアブレーション研究を実証します。
私たちのアプローチは、シーケンス オブジェクトをフラット化するよりも優れたパフォーマンスを発揮し、既存のメソッドよりもはるかに大きなシーケンスを操作できることがわかりました。

要約(オリジナル)

In this paper we explore the task of modeling (semi) structured object sequences; in particular we focus our attention on the problem of developing a structure-aware input representation for such sequences. In such sequences, we assume that each structured object is represented by a set of key-value pairs which encode the attributes of the structured object. Given a universe of keys, a sequence of structured objects can then be viewed as an evolution of the values for each key, over time. We encode and construct a sequential representation using the values for a particular key (Temporal Value Modeling – TVM) and then self-attend over the set of key-conditioned value sequences to a create a representation of the structured object sequence (Key Aggregation – KA). We pre-train and fine-tune the two components independently and present an innovative training schedule that interleaves the training of both modules with shared attention heads. We find that this iterative two part-training results in better performance than a unified network with hierarchical encoding as well as over, other methods that use a {\em record-view} representation of the sequence \cite{de2021transformers4rec} or a simple {\em flattened} representation of the sequence. We conduct experiments using real-world data to demonstrate the advantage of interleaving TVM-KA on multiple tasks and detailed ablation studies motivating our modeling choices. We find that our approach performs better than flattening sequence objects and also allows us to operate on significantly larger sequences than existing methods.

arxiv情報

著者 Rudra Murthy V,Riyaz Bhat,Chulaka Gunasekara,Siva Sankalp Patel,Hui Wan,Tejas Indulal Dhamecha,Danish Contractor,Marina Danilevsky
発行日 2023-01-10 12:52:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク