要約
最近、多数の大規模言語モデル (LLM) の出現により、AI の実装は新しい時代に入りました。
これらのモデル自体の容量や構造に関係なく、比較的小さいサイズでより長く複雑なコンテキストの理解を強化する LLM に対する需要が高まっています。
モデルは、理解能力を超えた一連の文を処理するときに上限に遭遇することが多く、その結果、主題から外れた、あるいは無秩序な応答が生じることさえあります。
最近のいくつかの研究では、さまざまな方法でこの問題に対処しようとしていますが、「なぜモデルが自らの機能を補ったり強化したりできないのか」に焦点を当てることはほとんどありません。
この論文では、LLM 内の情報転送の性質を徹底的に調査し、アテンション トランジションと呼ばれる新しい手法を提案します。
この手法により、追加のトレーニングや生成の流暢性への影響を最小限に抑えながら、モデルがより長くより優れたコンテキスト理解を達成できるようになります。
私たちの実験は XSum で行われ、元の生成結果と比較して大幅な改善が達成されました。
要約(オリジナル)
Recently, with the emergence of numerous Large Language Models (LLMs), the implementation of AI has entered a new era. Irrespective of these models’ own capacity and structure, there is a growing demand for LLMs to possess enhanced comprehension of longer and more complex contexts with relatively smaller sizes. Models often encounter an upper limit when processing sequences of sentences that extend beyond their comprehension capacity and result in off-topic or even chaotic responses. While several recent works attempt to address this issue in various ways, they rarely focus on ‘why models are unable to compensate or strengthen their capabilities on their own’. In this paper, we thoroughly investigate the nature of information transfer within LLMs and propose a novel technique called Attention Transition. This technique empowers models to achieve longer and better context comprehension with minimal additional training or impact on generation fluency. Our experiments are conducted in XSum and achieve substantial improvement compared with the original generation results.
arxiv情報
著者 | Yifei Gao,Lei Wang,Jun Fang,Longhua Hu,Jun Cheng |
発行日 | 2023-07-25 09:34:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google