RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval

要約

この論文では、アルゴリズムの問​​題を解決するという観点から、リカレント ニューラル ネットワーク (RNN) とトランスフォーマーの表現力のギャップを調査します。
私たちは、長いシーケンスを処理する際のメモリ効率で知られる RNN が、特に思考連鎖 (CoT) プロンプトで強化された場合に、Transformer のパフォーマンスに匹敵するかどうかを理解することに重点を置いています。
私たちの理論分析により、CoT は RNN を改善しますが、Transformer との差を埋めるには不十分であることが明らかになりました。
主要なボトルネックは、CoT であっても RNN がコンテキストから情報を完全に取得できないことにあります。連想再現やグラフがツリーであるかどうかの判断など、明示的または暗黙的にこの機能を必要とするいくつかのタスクについては、RNN が
トランスフォーマーは問題を簡単に解決できるのに対し、トランスフォーマーは問題を解決するのに十分な表現力がありません。
逆に、検索拡張生成 (RAG) や単一の Transformer 層の追加など、RNN のコンテキスト内検索機能を強化する手法を採用すると、RNN が CoT で多項式時間で解決可能なすべての問題を解決できるように向上できることを証明します。
したがって、トランスフォーマーとの表現のギャップを埋めることができます。

要約(オリジナル)

This paper investigates the gap in representation powers of Recurrent Neural Networks (RNNs) and Transformers in the context of solving algorithmic problems. We focus on understanding whether RNNs, known for their memory efficiency in handling long sequences, can match the performance of Transformers, particularly when enhanced with Chain-of-Thought (CoT) prompting. Our theoretical analysis reveals that CoT improves RNNs but is insufficient to close the gap with Transformers. A key bottleneck lies in the inability of RNNs to perfectly retrieve information from the context, even with CoT: for several tasks that explicitly or implicitly require this capability, such as associative recall and determining if a graph is a tree, we prove that RNNs are not expressive enough to solve the tasks while Transformers can solve them with ease. Conversely, we prove that adopting techniques to enhance the in-context retrieval capability of RNNs, including Retrieval-Augmented Generation (RAG) and adding a single Transformer layer, can elevate RNNs to be capable of solving all polynomial-time solvable problems with CoT, hence closing the representation gap with Transformers.

arxiv情報

著者 Kaiyue Wen,Xingyu Dang,Kaifeng Lyu
発行日 2024-02-28 17:38:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク