要約
大規模言語モデル (LLM) は、汎用人工知能 (AGI) の火花を使って世界を実証してきました。
ある意見、特に LLM に取り組んでいる一部のスタートアップからの意見では、ほぼ無制限のコンテキスト長を持つ LLM が AGI を実現できると主張しています。
しかし、彼らは、(既存の) LLM のロングコンテキスト機能について楽観的すぎる可能性があります。(1) 最近の文献では、LLM の実効コンテキスト長が、主張されているコンテキスト長よりも大幅に小さいことが示されています。
(2) 干し草の山の中の推論実験では、長い文脈から関連情報を見つけ出すことと (単純な) 推論を同時に行うことはほぼ不可能であることがさらに実証されました。
この論文では、\emph{memory} の統合を通じた LLM から AGI への経路を想定しています。
私たちは、AGI は LLM がコアプロセッサとして機能するシステムであるべきだと考えています。
このシステムのメモリには、生データに加えて、推論プロセスから得られた多数の重要な結論が保存されます。
単に生データを処理する検索拡張生成 (RAG) と比較して、このアプローチは意味的に関連する情報をより密接に結び付けるだけでなく、クエリ時の複雑な推論も簡素化します。
中間段階として、メモリは自然言語記述の形式になる可能性が高く、ユーザーもそれを直接利用できます。
最終的には、すべてのエージェント/個人は、自然言語で記述できないものであっても、あらゆるタイプの記憶をパラメータ化して圧縮するディープ ニューラル ネットワーク モデル (したがって \emph{AI ネイティブ}) という、独自の大規模な個人モデルを持たなければなりません。
最後に、AGI 時代の (プロアクティブな) エンゲージメント、パーソナライゼーション、配信、ソーシャルのための革新的なインフラストラクチャとしての AI ネイティブ メモリの大きな可能性と、予備的なソリューションで発生するプライバシーとセキュリティの課題について説明します。
要約(オリジナル)
Large language models (LLMs) have demonstrated the world with the sparks of artificial general intelligence (AGI). One opinion, especially from some startups working on LLMs, argues that an LLM with nearly unlimited context length can realize AGI. However, they might be too optimistic about the long-context capability of (existing) LLMs — (1) Recent literature has shown that their effective context length is significantly smaller than their claimed context length; and (2) Our reasoning-in-a-haystack experiments further demonstrate that simultaneously finding the relevant information from a long context and conducting (simple) reasoning is nearly impossible. In this paper, we envision a pathway from LLMs to AGI through the integration of \emph{memory}. We believe that AGI should be a system where LLMs serve as core processors. In addition to raw data, the memory in this system would store a large number of important conclusions derived from reasoning processes. Compared with retrieval-augmented generation (RAG) that merely processing raw data, this approach not only connects semantically related information closer, but also simplifies complex inferences at the time of querying. As an intermediate stage, the memory will likely be in the form of natural language descriptions, which can be directly consumed by users too. Ultimately, every agent/person should have its own large personal model, a deep neural network model (thus \emph{AI-native}) that parameterizes and compresses all types of memory, even the ones cannot be described by natural languages. Finally, we discuss the significant potential of AI-native memory as the transformative infrastructure for (proactive) engagement, personalization, distribution, and social in the AGI era, as well as the incurred privacy and security challenges with preliminary solutions.
arxiv情報
著者 | Jingbo Shang,Zai Zheng,Xiang Ying,Felix Tao,Mindverse Team |
発行日 | 2024-06-26 12:51:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google