Compositionality as Lexical Symmetry

要約

セマンティック解析、命令追跡、質問応答などのタスクでは、標準的なディープ ネットワークは小さなデータセットから構成的に一般化できません。
既存のアプローチの多くは、文解釈の構成プロセスを強制するモデル アーキテクチャによってこの制限を克服しています。
この論文では、モデルではなくデータ分布の対称性に対する制約として、領域一般的かつモデルに依存しない構成性の定式化を示します。
非公式には、タスクが構成モデルによって解決できる場合は常に、同じ問題を解決するように訓練されたモデルに構成の帰納的バイアスを与える、対応するデータ拡張スキーム (例を他の適切に形成された例に変換する手順) が存在することを証明します。
タスク。
これらの変換を自動的に検出し、通常のニューラル シーケンス モデルのトレーニング データに適用する LEXSYM と呼ばれる手順について説明します。
既存の構成データの拡張手順とは異なり、LEXSYM はテキスト、構造化データ、さらには画像にとらわれずに導入できます。
これは、COGS セマンティック解析、SCAN および ALCHEMY 命令追従、および CLEVR-COGENT 視覚的質問応答データセットに関する最先端のタスク固有モデルと同等またはそれを上回っています。

要約(オリジナル)

In tasks like semantic parsing, instruction following, and question answering, standard deep networks fail to generalize compositionally from small datasets. Many existing approaches overcome this limitation with model architectures that enforce a compositional process of sentence interpretation. In this paper, we present a domain-general and model-agnostic formulation of compositionality as a constraint on symmetries of data distributions rather than models. Informally, we prove that whenever a task can be solved by a compositional model, there is a corresponding data augmentation scheme — a procedure for transforming examples into other well formed examples — that imparts compositional inductive bias on any model trained to solve the same task. We describe a procedure called LEXSYM that discovers these transformations automatically, then applies them to training data for ordinary neural sequence models. Unlike existing compositional data augmentation procedures, LEXSYM can be deployed agnostically across text, structured data, and even images. It matches or surpasses state-of-the-art, task-specific models on COGS semantic parsing, SCAN and ALCHEMY instruction following, and CLEVR-COGENT visual question answering datasets.

arxiv情報

著者 Ekin Akyürek,Jacob Andreas
発行日 2023-07-05 17:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク