BriLLM: Brain-inspired Large Language Model

要約

この論文は、最初の脳に触発された大手言語モデル(Brillm)を報告します。
これは、非トランスフォーマー、非GPT、非伝統的な機械学習入出力制御生成言語モデルです。
このモデルは、ニューラルネットワークの観点から指示されたグラフ上の信号完全に接続された流れる(SIFU)定義に基づいており、入力と出力の終わりで解釈可能性が制限されている従来の機械学習モデルの代わりに、モデル全体のグラフ上のすべてのノードの解釈可能性を備えています。
言語モデルのシナリオでは、トークンはグラフのノードとして定義されます。
パスに沿った「最小抵抗」の原理でノード間のランダムに形状またはユーザー定義の信号フローが流れます。
予測または生成される次のトークンまたはノードは、信号フローのターゲットです。
言語モデルとして、ブリルムは、モデルサイズがモデルの入力と予測された長さに依存しない場合、無限に長い$ n $ -GRAMモデルを理論的にサポートします。
モデルの作業信号の流れは、人間の脳の認知パターンと同様に、リコールの活性化と生来のマルチモーダルサポートの可能性を提供します。
現在、4000トークン、32次元ノード幅、16トークンの長いシーケンス予測能力、およびGPT-1に匹敵する言語モデル予測パフォーマンスを備えた中国語で最初のBrillmバージョンをリリースしました。
より多くのコンピューティングパワーは、上記の無限の可能性を探るのに役立ちます。

要約(オリジナル)

This paper reports the first brain-inspired large language model (BriLLM). This is a non-Transformer, non-GPT, non-traditional machine learning input-output controlled generative language model. The model is based on the Signal Fully-connected flowing (SiFu) definition on the directed graph in terms of the neural network, and has the interpretability of all nodes on the graph of the whole model, instead of the traditional machine learning model that only has limited interpretability at the input and output ends. In the language model scenario, the token is defined as a node in the graph. A randomly shaped or user-defined signal flow flows between nodes on the principle of ‘least resistance’ along paths. The next token or node to be predicted or generated is the target of the signal flow. As a language model, BriLLM theoretically supports infinitely long $n$-gram models when the model size is independent of the input and predicted length of the model. The model’s working signal flow provides the possibility of recall activation and innate multi-modal support similar to the cognitive patterns of the human brain. At present, we released the first BriLLM version in Chinese, with 4000 tokens, 32-dimensional node width, 16-token long sequence prediction ability, and language model prediction performance comparable to GPT-1. More computing power will help us explore the infinite possibilities depicted above.

arxiv情報

著者 Hai Zhao,Hongqiu Wu,Dongjie Yang,Anni Zou,Jiale Hong
発行日 2025-03-14 11:08:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク