Less is More: Efficient Weight Farcasting with 1-Layer Neural Network

要約

大規模な深いニューラルネットワークのトレーニングに固有の計算上の課題に対処することは、現代の機械学習研究において重要な努力です。
以前の取り組みは、勢いを伴う勾配降下、学習率のスケジューリング、体重の正則化などの技術を通じてトレーニング効率を高めることに焦点を当ててきましたが、モデルサイズが拡大し続けるにつれて、さらなるイノベーションの需要が急成長し続けています。
この研究では、長期の時系列予測技術を活用することにより、従来のアプローチから分岐する新しいフレームワークを紹介します。
私たちの方法は、初期および最終的な重量値のみを大文字にして、複雑なモデルアーキテクチャの合理化された代替品を提供します。
また、アプローチの予測パフォーマンスを向上させるために調整された新しい正規者を紹介します。
顕著な大規模な言語モデルDistilbertを含む、合成重量シーケンスと現実世界の深い学習アーキテクチャで行われた経験的評価は、精度と計算効率を予測するという点での方法の優位性を示しています。
特に、私たちのフレームワークは、最小限の計算オーバーヘッドを必要としながら、パフォーマンスの向上を紹介するため、多様なタスクとアーキテクチャ全体でトレーニングプロセスを加速するための有望な手段を提示します。

要約(オリジナル)

Addressing the computational challenges inherent in training large-scale deep neural networks remains a critical endeavor in contemporary machine learning research. While previous efforts have focused on enhancing training efficiency through techniques such as gradient descent with momentum, learning rate scheduling, and weight regularization, the demand for further innovation continues to burgeon as model sizes keep expanding. In this study, we introduce a novel framework which diverges from conventional approaches by leveraging long-term time series forecasting techniques. Our method capitalizes solely on initial and final weight values, offering a streamlined alternative for complex model architectures. We also introduce a novel regularizer that is tailored to enhance the forecasting performance of our approach. Empirical evaluations conducted on synthetic weight sequences and real-world deep learning architectures, including the prominent large language model DistilBERT, demonstrate the superiority of our method in terms of forecasting accuracy and computational efficiency. Notably, our framework showcases improved performance while requiring minimal additional computational overhead, thus presenting a promising avenue for accelerating the training process across diverse tasks and architectures.

arxiv情報

著者 Xiao Shou,Debarun Bhattacharjya,Yanna Ding,Chen Zhao,Rui Li,Jianxi Gao
発行日 2025-05-05 15:10:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Less is More: Efficient Weight Farcasting with 1-Layer Neural Network はコメントを受け付けていません

Cooperative Bayesian and variance networks disentangle aleatoric and epistemic uncertainties

要約

現実世界のデータには、不完全な測定から生じる既約ノイズまたはデータ生成プロセスに関する不完全な知識から発生する還元できないノイズが含まれています。
平均分散推定(MVE)ネットワークは、このタイプの不確実性を学ぶことができますが、過剰適合を避けるためにアドホックな正規化戦略が必要であり、認識論的不確実性を予測することができません(モデルの不確実性)。
逆に、ベイジアンニューラルネットワークは認識論的不確実性を予測しますが、ベイジアン推論のおおよその性質のためにトレーニングが難しいことで有名です。
ベイジアンニューラルネットワークを使用して分散ネットワークを協力して訓練し、結果として生じるモデルが平均推定を改善しながら、アレアトリックおよび認識論的不確実性を解き放つことを実証することを提案します。
アレアティックの不確実性が知られている場所で作成した時間依存性の異系回帰データセットを含む、多様なデータセットにわたるこの方法の有効性とスケーラビリティを実証します。
提案された方法は、さまざまなモデルアーキテクチャに実装し、堅牢で、適応可能です。

要約(オリジナル)

Real-world data contains aleatoric uncertainty – irreducible noise arising from imperfect measurements or from incomplete knowledge about the data generation process. Mean variance estimation (MVE) networks can learn this type of uncertainty but require ad-hoc regularization strategies to avoid overfitting and are unable to predict epistemic uncertainty (model uncertainty). Conversely, Bayesian neural networks predict epistemic uncertainty but are notoriously difficult to train due to the approximate nature of Bayesian inference. We propose to cooperatively train a variance network with a Bayesian neural network and demonstrate that the resulting model disentangles aleatoric and epistemic uncertainties while improving the mean estimation. We demonstrate the effectiveness and scalability of this method across a diverse range of datasets, including a time-dependent heteroscedastic regression dataset we created where the aleatoric uncertainty is known. The proposed method is straightforward to implement, robust, and adaptable to various model architectures.

arxiv情報

著者 Jiaxiang Yi,Miguel A. Bessa
発行日 2025-05-05 15:50:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Cooperative Bayesian and variance networks disentangle aleatoric and epistemic uncertainties はコメントを受け付けていません

Physics-Informed Weakly Supervised Learning for Interatomic Potentials

要約

機械学習は、計算化学および材料科学においてますます重要な役割を果たし、計算集中的なAB initioおよび第一原理的方法を補完します。
その有用性にもかかわらず、機械学習モデルは、原子論的シミュレーション中に一般化能力と堅牢性を欠いていることが多く、実際のアプリケーションを妨げる非物理的エネルギーと力の予測をもたらします。
この課題に対処し、機械学習された原子間ポテンシャル(MLIP)をトレーニングするための物理学に基づいた、弱く監視されているアプローチを導入します。
2つの新しい損失関数を導入し、テイラーの拡張を介してポテンシャルエネルギーを推定し、保守的な力の概念を使用します。
私たちのアプローチは、まばらなトレーニングデータセットを使用したトレーニングタスクに適用されるMLIPの精度を改善し、大規模なデータセットでトレーニング前の計算要求のモデルの必要性を減らします。
特に、さまざまなベースラインモデルとベンチマークデータセットについて、エネルギーと力のエラーが低下し、力の低下と2倍低いことを示す広範な実験を実行します。
さらに、提案された弱く監視された損失で訓練されたMLIPモデルのMDシミュレーション中に、堅牢性の改善を示します。
最後に、私たちのアプローチは、まばらで非常に正確なab initioデータに関する基礎モデルの微調整を改善します。
実験を実行するためのメソッドとスクリプトの実装は、https://github.com/nec-research/picps-ml4sciで入手できます。

要約(オリジナル)

Machine learning plays an increasingly important role in computational chemistry and materials science, complementing computationally intensive ab initio and first-principles methods. Despite their utility, machine-learning models often lack generalization capability and robustness during atomistic simulations, yielding unphysical energy and force predictions that hinder their real-world applications. We address this challenge by introducing a physics-informed, weakly supervised approach for training machine-learned interatomic potentials (MLIPs). We introduce two novel loss functions, extrapolating the potential energy via a Taylor expansion and using the concept of conservative forces. Our approach improves the accuracy of MLIPs applied to training tasks with sparse training data sets and reduces the need for pre-training computationally demanding models with large data sets. Particularly, we perform extensive experiments demonstrating reduced energy and force errors — often lower by a factor of two — for various baseline models and benchmark data sets. Moreover, we demonstrate improved robustness during MD simulations of the MLIP models trained with the proposed weakly supervised loss. Finally, our approach improves the fine-tuning of foundation models on sparse, highly accurate ab initio data. An implementation of our method and scripts for executing experiments are available at https://github.com/nec-research/PICPS-ML4Sci.

arxiv情報

著者 Makoto Takamoto,Viktor Zaverkin,Mathias Niepert
発行日 2025-05-05 15:57:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.bio-ph, physics.chem-ph, physics.comp-ph | Physics-Informed Weakly Supervised Learning for Interatomic Potentials はコメントを受け付けていません

tPARAFAC2: Tracking evolving patterns in (incomplete) temporal data

要約

テンソル因数分解は、さまざまなドメインのパターンを明らかにするタスクに広く使用されています。
多くの場合、入力は時間発生的であり、代わりに基礎となるパターンの進化を追跡するための目標をシフトします。
このより複雑な設定に適応するために、既存の方法には一時的な正則化が組み込まれていますが、それらは過度に制約された構造要件を持っているか、解釈に重要な一意性を欠いています。
この論文では、基礎となる進化するパターンをキャプチャするために、進化する要因に一時的な滑らかさの正則化を利用するT(エンパラル)Parafac2を導入します。
以前は、PARAFAC2モデルを完全に観察されたデータに適合させるために、交互の最適化(AO)および交互方向の乗数(ADMM)ベースのアルゴリズムアプローチが導入されています。
このホワイトペーパーでは、このアルゴリズムフレームワークを部分的に観察されたデータの場合に拡張し、それを使用して、進化するパターンを明らかにすることを目的として、TPARAFAC2モデルに適合してデータセットを完成させ、不完全なデータセットを完成させます。
シミュレートされたデータセットでの数値実験は、TPARAFAC2が、高量のノイズと欠落データの存在下で、最先端と比較して、基礎となる進化パターンをより正確に抽出できることを示しています。
2つの実際のデータセットを使用して、進化するパターンを明らかにするという点で、欠損データとTPARAFAC2モデルの処理に関して、アルゴリズムアプローチの有効性も示します。
このペーパーでは、提案されたフレームワーク内で欠落データを処理するためのさまざまなアプローチの広範な比較を提供し、TPARAFAC2モデルの利点と制限の両方について説明します。

要約(オリジナル)

Tensor factorizations have been widely used for the task of uncovering patterns in various domains. Often, the input is time-evolving, shifting the goal to tracking the evolution of the underlying patterns instead. To adapt to this more complex setting, existing methods incorporate temporal regularization but they either have overly constrained structural requirements or lack uniqueness which is crucial for interpretation. In this paper, in order to capture the underlying evolving patterns, we introduce t(emporal)PARAFAC2, which utilizes temporal smoothness regularization on the evolving factors. Previously, Alternating Optimization (AO) and Alternating Direction Method of Multipliers (ADMM)-based algorithmic approach has been introduced to fit the PARAFAC2 model to fully observed data. In this paper, we extend this algorithmic framework to the case of partially observed data and use it to fit the tPARAFAC2 model to complete and incomplete datasets with the goal of revealing evolving patterns. Our numerical experiments on simulated datasets demonstrate that tPARAFAC2 can extract the underlying evolving patterns more accurately compared to the state-of-the-art in the presence of high amounts of noise and missing data. Using two real datasets, we also demonstrate the effectiveness of the algorithmic approach in terms of handling missing data and tPARAFAC2 model in terms of revealing evolving patterns. The paper provides an extensive comparison of different approaches for handling missing data within the proposed framework, and discusses both the advantages and limitations of tPARAFAC2 model.

arxiv情報

著者 Christos Chatzis,Carla Schenker,Max Pfeffer,Evrim Acar
発行日 2025-05-05 16:35:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | tPARAFAC2: Tracking evolving patterns in (incomplete) temporal data はコメントを受け付けていません

Adaptive Bidding Policies for First-Price Auctions with Budget Constraints under Non-stationarity

要約

予算制約の入札者が、累積的なペイオフを最大化するために、繰り返される第一価格のオークションに適応的に入札することをどのように学ぶべきかを研究します。
この問題は、最近の2番目の価格のオークションからディスプレイ広告の第一価格のオークションへの業界全体の移行により発生しました。
入札者が予算を消費するにつれて、予算の制約のための二重変数を維持する簡単なデュアル勾配ベースの入札ポリシーを提案します。
分析では、将来の彼女の私的価値に関する入札者の知識に関する2つの設定を検討します。(i)すべての分布知識(非定常)が入札者に完全に知られていない情報のない設定と、(ii)予算配分の予測が事前に予測される有益な設定。
確率に関する完全な情報を使用して、最適なポリシーと比較して、パフォーマンスの損失(または後悔)を特徴付けます。
情報のない設定の場合、後悔は\ Tilde {o}(\ sqrt {t})と、価値分布の非定常性を反映する変動用語であることを示します。これは最適な順序です。
次に、予測の助けを借りてバリエーション用語を取り除くことができることを示します。
具体的には、後悔は\ tilde {o}(\ sqrt {t})に加えて、有益な設定の予測誤差項です。

要約(オリジナル)

We study how a budget-constrained bidder should learn to adaptively bid in repeated first-price auctions to maximize her cumulative payoff. This problem arose due to an industry-wide shift from second-price auctions to first-price auctions in display advertising recently, which renders truthful bidding (i.e., always bidding one’s private value) no longer optimal. We propose a simple dual-gradient-descent-based bidding policy that maintains a dual variable for budget constraint as the bidder consumes her budget. In analysis, we consider two settings regarding the bidder’s knowledge of her private values in the future: (i) an uninformative setting where all the distributional knowledge (can be non-stationary) is entirely unknown to the bidder, and (ii) an informative setting where a prediction of the budget allocation in advance. We characterize the performance loss (or regret) relative to an optimal policy with complete information on the stochasticity. For uninformative setting, We show that the regret is \tilde{O}(\sqrt{T}) plus a variation term that reflects the non-stationarity of the value distributions, and this is of optimal order. We then show that we can get rid of the variation term with the help of the prediction; specifically, the regret is \tilde{O}(\sqrt{T}) plus the prediction error term in the informative setting.

arxiv情報

著者 Yige Wang,Jiashuo Jiang
発行日 2025-05-05 17:13:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG | Adaptive Bidding Policies for First-Price Auctions with Budget Constraints under Non-stationarity はコメントを受け付けていません

Adaptive Anomaly Detection in Network Flows with Low-Rank Tensor Decompositions and Deep Unrolling

要約

異常検出(AD)は、将来の通信システムの回復力を確保するための重要なコンポーネントとしてますます認識されています。
ディープラーニングは最先端の広告パフォーマンスを示していますが、重要なシステムでのそのアプリケーションは、トレーニングデータの効率、ドメインの適応、および解釈性に関する懸念によって妨げられています。
この作業では、不完全な測定を使用してネットワークフローのADを考慮し、これらの課題に対処するための堅牢なテンソル分解アプローチと深い展開技術を活用します。
最初に、通常のフローが低ランクのテンソルとしてモデル化され、異常がまばらであるようにモデル化される正規化されたモデル適合目的に基づいて、新しいブロック分散凸近似アルゴリズムを提案します。
目標の増強が導入され、計算コストが削減されます。
深い展開を適用して、提案されたアルゴリズムに基づいて新しいディープネットワークアーキテクチャを導き出し、正規化パラメーターを学習可能な重みとして扱います。
ベイジアンアプローチに触発されて、モデルアーキテクチャを拡張して、フローごとにオンライン適応を実行し、時間あたりの統計を実行し、低パラメーターカウントを維持しながら広告パフォーマンスを向上させ、問題の順列性を維持します。
検出パフォーマンスのためにディープネットワークの重みを最適化するために、受信機動作特性曲線の下での領域の効率的な近似に基づいて、ホモトピー最適化アプローチを採用しています。
合成および実世界のデータに関する広範な実験は、提案されているディープネットワークアーキテクチャが高いトレーニングデータ効率を示し、参照方法を上回り、さまざまなネットワークトポロジにシームレスに適応することを示しています。

要約(オリジナル)

Anomaly detection (AD) is increasingly recognized as a key component for ensuring the resilience of future communication systems. While deep learning has shown state-of-the-art AD performance, its application in critical systems is hindered by concerns regarding training data efficiency, domain adaptation and interpretability. This work considers AD in network flows using incomplete measurements, leveraging a robust tensor decomposition approach and deep unrolling techniques to address these challenges. We first propose a novel block-successive convex approximation algorithm based on a regularized model-fitting objective where the normal flows are modeled as low-rank tensors and anomalies as sparse. An augmentation of the objective is introduced to decrease the computational cost. We apply deep unrolling to derive a novel deep network architecture based on our proposed algorithm, treating the regularization parameters as learnable weights. Inspired by Bayesian approaches, we extend the model architecture to perform online adaptation to per-flow and per-time-step statistics, improving AD performance while maintaining a low parameter count and preserving the problem’s permutation equivariances. To optimize the deep network weights for detection performance, we employ a homotopy optimization approach based on an efficient approximation of the area under the receiver operating characteristic curve. Extensive experiments on synthetic and real-world data demonstrate that our proposed deep network architecture exhibits a high training data efficiency, outperforms reference methods, and adapts seamlessly to varying network topologies.

arxiv情報

著者 Lukas Schynol,Marius Pesavento
発行日 2025-05-05 17:23:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP | Adaptive Anomaly Detection in Network Flows with Low-Rank Tensor Decompositions and Deep Unrolling はコメントを受け付けていません

Towards Quantifying the Hessian Structure of Neural Networks

要約

実証研究は、ニューラルネットワークのヘシアンマトリックス(NNS)が遮断に近い構造を示すことを報告しましたが、その理論的基盤は不明のままです。
この作業では、ヘシアン構造を形成する2つの力を明らかにします。アーキテクチャデザインに根ざした「静的力」と、トレーニングから生じた「ダイナミックフォース」です。
次に、ランダムな初期化で「静的力」の厳密な理論分析を提供します。
分類タスクの平均二乗(MSE)損失とクロスエントロピー(CE)損失を備えた線形モデルと1ハイダード層ネットワークを研究します。
ランダムマトリックス理論を活用することにより、対角線および対角のヘシアンブロックの限界分布を比較し、ブロック対角構造が$ c \ rightarrow \ infty $として生じることを発見します。$ c $はクラスの数を示します。
私たちの調査結果は、$ c $がブロック角近視構造の主要なドライバーであることを明らかにしています。
これらの結果は、大規模な$ 10^4 $または$ 10^5 $を超える大きな$ c $で動作する大規模な言語モデル(LLMS)のヘシアン構造に新たな光を当てる可能性があります。

要約(オリジナル)

Empirical studies reported that the Hessian matrix of neural networks (NNs) exhibits a near-block-diagonal structure, yet its theoretical foundation remains unclear. In this work, we reveal two forces that shape the Hessian structure: a “static force” rooted in the architecture design, and a “dynamic force” arisen from training. We then provide a rigorous theoretical analysis of “static force” at random initialization. We study linear models and 1-hidden-layer networks with the mean-square (MSE) loss and the Cross-Entropy (CE) loss for classification tasks. By leveraging random matrix theory, we compare the limit distributions of the diagonal and off-diagonal Hessian blocks and find that the block-diagonal structure arises as $C \rightarrow \infty$, where $C$ denotes the number of classes. Our findings reveal that $C$ is a primary driver of the near-block-diagonal structure. These results may shed new light on the Hessian structure of large language models (LLMs), which typically operate with a large $C$ exceeding $10^4$ or $10^5$.

arxiv情報

著者 Zhaorui Dong,Yushun Zhang,Zhi-Quan Luo,Jianfeng Yao,Ruoyu Sun
発行日 2025-05-05 17:34:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML | Towards Quantifying the Hessian Structure of Neural Networks はコメントを受け付けていません

Impact of Noisy Supervision in Foundation Model Learning

要約

基礎モデルは通常、大規模なデータセットで事前に訓練されており、チューニングを通じて下流のタスクに適応します。
ただし、しばしばアクセスできない、または処理するには高すぎる大規模なトレーニングデータセットは、モデルの一般化に悪影響を及ぼし、予期しないリスクをもたらす可能性のあるラベルノイズを含む可能性があります。
この論文は、トレーニング前のデータセットの騒音の性質を包括的に理解して分析し、その後、下流のタスクへの影響を効果的に緩和するための最初の作業として際立っています。
具体的には、合成ノイズの1K、YFCC15M、およびCC12Mデータセットでの完全に監視された画像テキストの対照的なプリトレーニングの広範な実験を通じて、トレーニング前のパフォーマンスとトレーニングの分布が常に描かれている場合、トレーニングとテスト分布の場合、トレーニングとテスト分布がある場合、トレーニングとテスト分布の場合、トレーニング前(ID)のパフォーマンスに恩恵をもたらすことを実証します。
かなり異なります。
これらの観察結果は、トレーニング前のデータセット、トレーニング前のノイズタイプ、モデルアーキテクチャ、トレーニング前の目標、ダウンストリームチューニング方法、およびダウンストリームアプリケーションのスケールに対して不可知論的です。
この背後にある理由は、トレーニング前のノイズが特徴空間を異なって形作ることであることを経験的に確認します。
次に、チューニング方法(NMTUNE)を提案して、ノイズの悪性効果を軽減し、パラメーター効率の高いおよびブラックボックスチューニングマナーの両方に適用される一般化を改善するための特徴空間を添加します。
さらに、評価のために現実的な騒々しいデータに関する監督された自己監督の事前に訓練されたAPIを含む、一般的なビジョンと言語モデルに関する広範な実験を実施します。
私たちの分析と結果は、この斬新で基本的な研究の方向性の重要性を示しています。これは騒々しいモデル学習と呼ばれます。

要約(オリジナル)

Foundation models are usually pre-trained on large-scale datasets and then adapted to downstream tasks through tuning. However, the large-scale pre-training datasets, often inaccessible or too expensive to handle, can contain label noise that may adversely affect the generalization of the model and pose unexpected risks. This paper stands out as the first work to comprehensively understand and analyze the nature of noise in pre-training datasets and then effectively mitigate its impacts on downstream tasks. Specifically, through extensive experiments of fully-supervised and image-text contrastive pre-training on synthetic noisy ImageNet-1K, YFCC15M, and CC12M datasets, we demonstrate that, while slight noise in pre-training can benefit in-domain (ID) performance, where the training and testing data share a similar distribution, it always deteriorates out-of-domain (OOD) performance, where training and testing distributions are significantly different. These observations are agnostic to scales of pre-training datasets, pre-training noise types, model architectures, pre-training objectives, downstream tuning methods, and downstream applications. We empirically ascertain that the reason behind this is that the pre-training noise shapes the feature space differently. We then propose a tuning method (NMTune) to affine the feature space to mitigate the malignant effect of noise and improve generalization, which is applicable in both parameter-efficient and black-box tuning manners. We additionally conduct extensive experiments on popular vision and language models, including APIs, which are supervised and self-supervised pre-trained on realistic noisy data for evaluation. Our analysis and results demonstrate the importance of this novel and fundamental research direction, which we term as Noisy Model Learning.

arxiv情報

著者 Hao Chen,Zihan Wang,Ran Tao,Hongxin Wei,Xing Xie,Masashi Sugiyama,Bhiksha Raj,Jindong Wang
発行日 2025-05-05 03:07:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Impact of Noisy Supervision in Foundation Model Learning はコメントを受け付けていません

Constructive Approach to Bidirectional Influence between Qualia Structure and Language Emergence

要約

このパースペクティブペーパーでは、言語の出現と主観的な経験のリレーショナル構造との間の双方向の影響を探り、Qualia構造と呼ばれ、2つの間の複雑な依存関係に対する建設的なアプローチを示しています。
分布セマンティクスを持つ言語の出現(例えば、構文セマンチックな構造)は、経験によって形作られた内部表現の調整にリンクされており、相互の影響を介してより構造化された言語を促進する可能性があると仮定します。
この仮説的な相互依存関係は、AIおよびシンボルの出現ロボット工学の最近の進歩につながり、集合的な予測コーディングなどの理論的フレームワークを通じてこのホワイトペーパー内で調査されています。
計算研究は、ニューラルネットワークベースの言語モデルが体系的に構造化された内部表現を形成し、マルチモーダル言語モデルが言語と知覚情報の間で表現を共有できることを示しています。
この視点は、言語の出現は、コミュニケーションツールを作成するメカニズムとしてだけでなく、人々が定性的体験の共通の理解を実現できるようにするためのメカニズムとしても役立つことを示唆しています。
この論文は、意識研究、言語学、認知科学の文脈におけるこの双方向の影響の意味について説明し、言語の出現とクオリア構造の間のこの動的な関係をさらに探求するための将来の建設的な研究の方向性を概説しています。

要約(オリジナル)

This perspective paper explores the bidirectional influence between language emergence and the relational structure of subjective experiences, termed qualia structure, and lays out a constructive approach to the intricate dependency between the two. We hypothesize that the emergence of languages with distributional semantics (e.g., syntactic-semantic structures) is linked to the coordination of internal representations shaped by experience, potentially facilitating more structured language through reciprocal influence. This hypothesized mutual dependency connects to recent advancements in AI and symbol emergence robotics, and is explored within this paper through theoretical frameworks such as the collective predictive coding. Computational studies show that neural network-based language models form systematically structured internal representations, and multimodal language models can share representations between language and perceptual information. This perspective suggests that language emergence serves not only as a mechanism creating a communication tool but also as a mechanism for allowing people to realize shared understanding of qualitative experiences. The paper discusses the implications of this bidirectional influence in the context of consciousness studies, linguistics, and cognitive science, and outlines future constructive research directions to further explore this dynamic relationship between language emergence and qualia structure.

arxiv情報

著者 Tadahiro Taniguchi,Masafumi Oizumi,Noburo Saji,Takato Horii,Naotsugu Tsuchiya
発行日 2025-05-05 03:26:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Constructive Approach to Bidirectional Influence between Qualia Structure and Language Emergence はコメントを受け付けていません

The Illusion of Role Separation: Hidden Shortcuts in LLM Role Learning (and How to Fix Them)

要約

複数の入力ロール(システム命令、ユーザークエリ、外部ツール出力など)を統合する大規模な言語モデル(LLMS)は、実際にますます一般的になっています。
モデルが各ロール(\ emphed {役割分離}と呼ばれる概念)からメッセージを正確に区別することが、一貫したマルチロール動作に不可欠であることを保証することです。
最近の研究では、最先端の迅速な噴射防御をターゲットにしていることがよくありますが、そのような方法は、LLMに役割を区別するか、単に既知のトリガーを記憶するように本当に教えているかどうかは不明のままです。
このホワイトペーパーでは、\ emph {ロール分離学習}を調べます。LLMSを教えるプロセスを、システムとユーザートークンを堅牢に区別するプロセスです。
\ emph {シンプルで制御された実験フレームワーク}を通じて、微調整されたモデルは、しばしば役割識別のために2つのプロキシに依存していることがわかります:(1)タスクタイプの搾取、および(2)テキストの開始への近さ。
データの増強はこれらのショートカットを部分的に軽減できますが、一般に、より深い修正ではなく、反復的なパッチングにつながります。
これに対処するために、モデルの入力エンコードでトークンごとのキューを調整することにより、役割の境界をマークする強化\ emph {invariant信号}を提案します。
特に、ポジションIDを操作することで、モデルがより明確な区別を学習し、表面的なプロキシへの依存を減らすのに役立ちます。
このメカニズム中心の視点に焦点を当てることにより、私たちの仕事は、LLMが単に既知のプロンプトやトリガーを記憶することなく、より確実に一貫したマルチロール動作をより確実に維持できる方法を照らします。

要約(オリジナル)

Large language models (LLMs) that integrate multiple input roles (e.g., system instructions, user queries, external tool outputs) are increasingly prevalent in practice. Ensuring that the model accurately distinguishes messages from each role — a concept we call \emph{role separation} — is crucial for consistent multi-role behavior. Although recent work often targets state-of-the-art prompt injection defenses, it remains unclear whether such methods truly teach LLMs to differentiate roles or merely memorize known triggers. In this paper, we examine \emph{role-separation learning}: the process of teaching LLMs to robustly distinguish system and user tokens. Through a \emph{simple, controlled experimental framework}, we find that fine-tuned models often rely on two proxies for role identification: (1) task type exploitation, and (2) proximity to begin-of-text. Although data augmentation can partially mitigate these shortcuts, it generally leads to iterative patching rather than a deeper fix. To address this, we propose reinforcing \emph{invariant signals} that mark role boundaries by adjusting token-wise cues in the model’s input encoding. In particular, manipulating position IDs helps the model learn clearer distinctions and reduces reliance on superficial proxies. By focusing on this mechanism-centered perspective, our work illuminates how LLMs can more reliably maintain consistent multi-role behavior without merely memorizing known prompts or triggers.

arxiv情報

著者 Zihao Wang,Yibo Jiang,Jiahao Yu,Heqing Huang
発行日 2025-05-05 03:29:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, I.2 | The Illusion of Role Separation: Hidden Shortcuts in LLM Role Learning (and How to Fix Them) はコメントを受け付けていません