A Mathematical Theory for Learning Semantic Languages by Abstract Learners

要約

大規模言語モデル (LLM) の最近の進歩により、システム パラメーターの数とトレーニング データのサイズが特定のしきい値を超えると、機能 (学習されたスキル) が出現することが実証されました。
このような現象の背後にある正確なメカニズムは完全には理解されておらず、依然として活発な研究課題となっています。
意味論的言語をモデル化するために [1] で提示されたスキルとテキストの二部グラフ モデルに触発され、学習 (またはトレーニング) プロセスを考慮に入れて、学習済みスキルの出現を説明する数学理論を開発します。
私たちのアプローチは、低密度パリティ チェック (LDPC) コードおよび不規則反復スロット ALOHA (IRSA) の反復復号プロセスとして、スキルとテキストの 2 部グラフでのスキルの学習プロセスをモデル化します。
密度進化分析を使用して、スキルの数に対するトレーニング テキストのサイズの比率が特定のしきい値を超えたときに、学習されたスキルが出現することを示します。
私たちの分析では、トレーニング テキストのサイズに対するテスト エラーのスケーリング則も得られます。
トレーニングの完了後、意味論的圧縮の方法を提案し、意味論的通信におけるその応用について議論します。

要約(オリジナル)

Recent advances in Large Language Models (LLMs) have demonstrated the emergence of capabilities (learned skills) when the number of system parameters and the size of training data surpass certain thresholds. The exact mechanisms behind such phenomena are not fully understood and remain a topic of active research. Inspired by the skill-text bipartite graph model presented in [1] for modeling semantic language, we develop a mathematical theory to explain the emergence of learned skills, taking the learning (or training) process into account. Our approach models the learning process for skills in the skill-text bipartite graph as an iterative decoding process in Low-Density Parity Check (LDPC) codes and Irregular Repetition Slotted ALOHA (IRSA). Using density evolution analysis, we demonstrate the emergence of learned skills when the ratio of the size of training texts to the number of skills exceeds a certain threshold. Our analysis also yields a scaling law for testing errors relative to the size of training texts. Upon completion of the training, we propose a method for semantic compression and discuss its application in semantic communication.

arxiv情報

著者 Kuo-Yu Liao,Cheng-Shang Chang,Y. -W. Peter Hong
発行日 2024-04-10 13:50:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IT, cs.LG, math.IT パーマリンク