要約
このペーパーでは、モデルアーキテクチャとデータ構成が生成変圧器の経験的記憶能力にどのように影響するかを研究します。
モデルは、体系化された医学の命名法(スノーム)の知識グラフから派生した合成テキストデータセットを使用してトレーニングされます。トリプレット、静的接続、およびシーケンスを表し、複雑な関係パターンをシミュレートします。
結果は、埋め込みサイズが学習速度と容量の主要な決定要因であり、追加のレイヤーが限られた利点を提供し、より単純なデータセットのパフォーマンスを妨げる可能性があることを示しています。
活性化関数は重要な役割を果たし、SoftMaxはより大きな安定性と容量を示します。
さらに、データセットの複雑さを高めると、最終的な暗記が改善されるようです。
これらの洞察は、変圧器メモリメカニズムの理解を改善し、構造化された実世界データを使用してモデル設計を最適化するためのフレームワークを提供します。
要約(オリジナル)
This paper studies how the model architecture and data configurations influence the empirical memorization capacity of generative transformers. The models are trained using synthetic text datasets derived from the Systematized Nomenclature of Medicine (SNOMED) knowledge graph: triplets, representing static connections, and sequences, simulating complex relation patterns. The results show that embedding size is the primary determinant of learning speed and capacity, while additional layers provide limited benefits and may hinder performance on simpler datasets. Activation functions play a crucial role, and Softmax demonstrates greater stability and capacity. Furthermore, increasing the complexity of the data set seems to improve the final memorization. These insights improve our understanding of transformer memory mechanisms and provide a framework for optimizing model design with structured real-world data.
arxiv情報
著者 | Anton Changalidis,Aki Härmä |
発行日 | 2025-06-17 16:42:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google