Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey

要約

ChatGPT によって点火された爆弾により、トランスフォーマーベースの大規模言語モデル (LLM) は汎用人工知能 (AGI) への革命的な道を切り開き、ナレッジ ベース、ヒューマン インターフェイス、および動的エージェントとしてさまざまな分野に適用されています。
ただし、一般的な制限が存在します。現在の LLM の多くは、リソースの制約を受けており、主に短いテキストで事前トレーニングされているため、現実世界の設定で一般的に遭遇する、より長いコンテキストのプロンプトに対して効果が低くなります。
このペーパーでは、事前トレーニングから推論までのすべての段階でロングコンテキスト機能を最適化するための、Transformer ベースの LLM のモデル アーキテクチャの進歩に焦点を当てた包括的な調査を紹介します。
まず、現在の Transformer ベースのモデルでロングコンテキストの入出力を処理する際の問題点を概説し、分析します。
次に、これらの問題を解決するために、アーキテクチャ上の Transformer アップグレードの状況をナビゲートするための総合的な分類法を主に提供します。
その後、データセット、メトリクス、ベースライン モデルなど、ロング コンテキスト LLM に合わせて調整された広く使用されている評価の必要性に関する調査を提供します。また、ライブラリ、システム、コンパイラなどの驚くべき最適化ツールキットも提供して、さまざまなシステム間で LLM の効率と有効性を強化します。
段階。
最後に、この分野における主な課題と将来の研究の可能性についてさらに議論します。
さらに、リアルタイムの更新情報を含む関連文献を厳選するリポジトリを https://github.com/Strivin0311/long-llms-learning に設立しました。

要約(オリジナル)

With the bomb ignited by ChatGPT, Transformer-based Large Language Models (LLMs) have paved a revolutionary path toward Artificial General Intelligence (AGI) and have been applied in diverse areas as knowledge bases, human interfaces, and dynamic agents. However, a prevailing limitation exists: many current LLMs, constrained by resources, are primarily pre-trained on shorter texts, rendering them less effective for longer-context prompts, commonly encountered in real-world settings. In this paper, we present a comprehensive survey focusing on the advancement of model architecture in Transformer-based LLMs to optimize long-context capabilities across all stages from pre-training to inference. We firstly delineate and analyze the problems of handling long-context input and output with the current Transformer-based models. Then, we mainly offer a holistic taxonomy to navigate the landscape of Transformer upgrades on architecture to solve these problems. Afterward, we provide the investigation on wildly used evaluation necessities tailored for long-context LLMs, including datasets, metrics, and baseline models, as well as some amazing optimization toolkits like libraries, systems, and compilers to augment LLMs’ efficiency and efficacy across different stages. Finally, we further discuss the predominant challenges and potential avenues for future research in this domain. Additionally, we have established a repository where we curate relevant literature with real-time updates at https://github.com/Strivin0311/long-llms-learning.

arxiv情報

著者 Yunpeng Huang,Jingwei Xu,Zixu Jiang,Junyu Lai,Zenan Li,Yuan Yao,Taolue Chen,Lijuan Yang,Zhou Xin,Xiaoxing Ma
発行日 2023-11-21 04:59:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク