Sub-Task Decomposition Enables Learning in Sequence to Sequence Tasks

要約

自然言語処理の分野では、最近の巨大な言語モデルの導入により、機能が劇的に飛躍しました。
この成功にもかかわらず、いくつかの複雑なステップを含む自然言語の問題は、最大の LM でさえも、実際にはまだ学習できません。
これは、さまざまなドメインで実証された複合問題のエンドツーエンド学習の実験的失敗に準拠しています。
効果的な軽減策は、複合問題のサブタスクを解決するための中間監督を導入することです。
最近、複数の自然言語問題に中間監督を組み込むための直接的なアプローチを採用することで、いくつかの研究が高い成果を上げていることが示されています。
入力。
この論文では、これらの最近の取り組みの動機となる肯定的な学習結果を証明します。
中間監督を入力に連結し、この変更された入力でシーケンスからシーケンスへのモデルをトレーニングすると、学習不可能な複合問題が学習可能になる可能性があることを示します。
これは、一方では学習不可能であり、他方では単純なサブタスクの多項式数に分解できるタスクのファミリーすべてに当てはまることを示します。各サブタスクは、以前の O(1) のみに依存します。
サブタスクの結果。
シーケンスからシーケンスへの言語モデルに中間教師を組み込むための現代の経験的努力を動機付けるだけでなく、ニューラル ネットワーク学習のための中間教師の利点に関する結果のランドスケープの中で、私たちの肯定的な理論的結果はその種の最初のものです。
この主題に関する結果は否定的です。つまり、中間の監督なしでは学習が不可能な場合を示していますが、私たちの結果は肯定的であり、中間の監督の存在下で学習が促進されることを示しています。

要約(オリジナル)

The field of Natural Language Processing has experienced a dramatic leap in capabilities with the recent introduction of huge Language Models. Despite this success, natural language problems that involve several compounded steps are still practically unlearnable, even by the largest LMs. This complies with experimental failures for end-to-end learning of composite problems that were demonstrated in a variety of domains. An effective mitigation is to introduce intermediate supervision for solving sub-tasks of the compounded problem. Recently, several works have demonstrated high gains by taking a straightforward approach for incorporating intermediate supervision in compounded natural language problems: the sequence-to-sequence LM is fed with an augmented input, in which the decomposed tasks’ labels are simply concatenated to the original input. In this paper, we prove a positive learning result that motivates these recent efforts. We show that when concatenating intermediate supervision to the input and training a sequence-to-sequence model on this modified input, unlearnable composite problems can become learnable. We show that this is true for any family of tasks which on the one hand, are unlearnable, and on the other hand, can be decomposed into a polynomial number of simple sub-tasks, each of which depends only on O(1) previous sub-task results. Beyond motivating contemporary empirical efforts for incorporating intermediate supervision in sequence-to-sequence language models, our positive theoretical result is the first of its kind in the landscape of results on the benefits of intermediate supervision for neural-network learning: Until now, all theoretical results on the subject are negative, i.e., show cases where learning is impossible without intermediate supervision, while our result is positive, showing that learning is facilitated in the presence of intermediate supervision.

arxiv情報

著者 Noam Wies,Yoav Levine,Amnon Shashua
発行日 2023-02-15 09:50:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク