Feature Mapping in Physics-Informed Neural Networks (PINNs)

要約

この論文では、制限付き共役カーネルとニューラル タンジェント カーネルを介した特徴マッピング層による PINN のトレーニング ダイナミクスを調査し、PINN の収束に光を当てます。
一般的に使用されているフーリエベースの特徴マッピングは大きな成功を収めていますが、いくつかの物理シナリオでは不十分であることが示されています。
これら 2 つのスコープを通じて、条件付き正定放射基底関数をより良い代替手段として提案します。
最後に、ワイド ニューラル ネットワークでの特徴マッピングを数値的に調査します。
私たちの経験的結果は、多様な順方向および逆方向の問題セットにおける私たちの方法の有効性を明らかにしています。
特徴関数を合成することは、表現力と一般化性のトレードオフに対処する実用的な方法であることがわかりました。つまり、カーネルの帯域幅と特徴マッピング関数の全射性を調整することです。
この単純な手法は座標入力に実装でき、広範な PINN 研究に役立ちます。

要約(オリジナル)

In this paper, the training dynamics of PINNs with a feature mapping layer via the limiting Conjugate Kernel and Neural Tangent Kernel is investigated, shedding light on the convergence of PINNs; Although the commonly used Fourier-based feature mapping has achieved great success, we show its inadequacy in some physics scenarios. Via these two scopes, we propose conditionally positive definite Radial Basis Function as a better alternative. Lastly, we explore the feature mapping numerically in wide neural networks. Our empirical results reveal the efficacy of our method in diverse forward and inverse problem sets. Composing feature functions is found to be a practical way to address the expressivity and generalisability trade-off, viz., tuning the bandwidth of the kernels and the surjectivity of the feature mapping function. This simple technique can be implemented for coordinate inputs and benefits the broader PINNs research.

arxiv情報

著者 Chengxi Zeng,Tilo Burghardt,Alberto M Gambaruto
発行日 2024-10-21 15:26:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.LG | Feature Mapping in Physics-Informed Neural Networks (PINNs) はコメントを受け付けていません

Addressing Spectral Bias of Deep Neural Networks by Multi-Grade Deep Learning

要約

ディープ ニューラル ネットワーク (DNN) はスペクトル バイアスに悩まされており、DNN は通常、関数の低周波成分の学習を優先する傾向があり、高周波の特徴を捕捉するのに苦労します。
この文書はこの問題に対処するものです。
低周波成分のみを持つ関数は、少数の層しか持たないネットワークであるシャロー ニューラル ネットワーク (SNN) によって適切に表現できる場合があることに注意してください。
低周波関数の合成が高周波関数を効果的に近似できることを観察することにより、それぞれが与えられたデータから特定の低周波情報を学習する複数の SNN を合成することにより、高周波成分を含む関数を学習することを提案します。
提案されたアイデアは、マルチグレード ディープ ラーニング (MGDL) モデルを利用して実装されます。MGDL モデルは、DNN を学年ごとに段階的にトレーニングし、前の学年の残りから現在の学年を学習し、SNN で構成された SNN のみを学習する最近導入されたモデルです。
前の学年で特徴として訓練されました。
MGDL を合成、多様体、カラー画像、および MNIST データセットに適用します。これらはすべて、高周波特徴の存在によって特徴付けられます。
私たちの調査では、MGDL が高周波情報を含む関数の表現に優れていることが明らかになりました。
具体的には、各学年で学習したニューラル ネットワークは一部の低周波情報を適切に捕捉し、前の学年で学習した SNN と組み合わせて高周波の特徴を効果的に表現することができます。
私たちの実験結果は、DNN に固有のスペクトル バイアスに対処する際の MGDL の有効性を強調しています。
MGDL を活用することで、DNN のスペクトル バイアス制限を克服するための洞察を提供し、それによって高周波情報の表現を必要とするタスクにおける深層学習モデルのパフォーマンスと適用性を強化します。
この研究は、提案された方法が DNN のスペクトル バイアスに対処するための有望な解決策を提供することを確認しています。

要約(オリジナル)

Deep neural networks (DNNs) suffer from the spectral bias, wherein DNNs typically exhibit a tendency to prioritize the learning of lower-frequency components of a function, struggling to capture its high-frequency features. This paper is to address this issue. Notice that a function having only low frequency components may be well-represented by a shallow neural network (SNN), a network having only a few layers. By observing that composition of low frequency functions can effectively approximate a high-frequency function, we propose to learn a function containing high-frequency components by composing several SNNs, each of which learns certain low-frequency information from the given data. We implement the proposed idea by exploiting the multi-grade deep learning (MGDL) model, a recently introduced model that trains a DNN incrementally, grade by grade, a current grade learning from the residue of the previous grade only an SNN composed with the SNNs trained in the preceding grades as features. We apply MGDL to synthetic, manifold, colored images, and MNIST datasets, all characterized by presence of high-frequency features. Our study reveals that MGDL excels at representing functions containing high-frequency information. Specifically, the neural networks learned in each grade adeptly capture some low-frequency information, allowing their compositions with SNNs learned in the previous grades effectively representing the high-frequency features. Our experimental results underscore the efficacy of MGDL in addressing the spectral bias inherent in DNNs. By leveraging MGDL, we offer insights into overcoming spectral bias limitation of DNNs, thereby enhancing the performance and applicability of deep learning models in tasks requiring the representation of high-frequency information. This study confirms that the proposed method offers a promising solution to address the spectral bias of DNNs.

arxiv情報

著者 Ronglong Fang,Yuesheng Xu
発行日 2024-10-21 15:34:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Addressing Spectral Bias of Deep Neural Networks by Multi-Grade Deep Learning はコメントを受け付けていません

SeaDAG: Semi-autoregressive Diffusion for Conditional Directed Acyclic Graph Generation

要約

有向非巡回グラフ (DAG) の条件付き生成のための半自己回帰拡散モデルである SeaDAG を紹介します。
固有の層ごとの構造を考慮して、層ごとに異なるノイズ除去速度を設計することにより、層ごとの自己回帰生成をシミュレートします。
グローバルなグラフ構造ビューを持たない従来の自己回帰生成とは異なり、私たちの方法は各拡散ステップで完全なグラフ構造を維持し、完全なグラフ構造を必要とするプロパティ制御などの操作を可能にします。
この機能を利用して、グラフ プロパティ デコーダーを使用してトレーニング中に DAG プロパティを評価します。
条件損失を伴うグラフ条件付けを学習するようにモデルを明示的にトレーニングします。これにより、現実的で指定されたプロパティに合わせたグラフを生成する拡散モデルの能力が強化されます。
我々は、2 つの代表的な条件付き DAG 生成タスクでメソッドを評価します。(1) 回路機能を実現するには正確な DAG 構造が重要である真理値表からの回路生成、および (2) 量子特性に基づく分子生成です。
私たちのアプローチは有望な結果を示し、特定の条件に厳密に一致する高品質で現実的な DAG を生成します。

要約(オリジナル)

We introduce SeaDAG, a semi-autoregressive diffusion model for conditional generation of Directed Acyclic Graphs (DAGs). Considering their inherent layer-wise structure, we simulate layer-wise autoregressive generation by designing different denoising speed for different layers. Unlike conventional autoregressive generation that lacks a global graph structure view, our method maintains a complete graph structure at each diffusion step, enabling operations such as property control that require the full graph structure. Leveraging this capability, we evaluate the DAG properties during training by employing a graph property decoder. We explicitly train the model to learn graph conditioning with a condition loss, which enhances the diffusion model’s capacity to generate graphs that are both realistic and aligned with specified properties. We evaluate our method on two representative conditional DAG generation tasks: (1) circuit generation from truth tables, where precise DAG structures are crucial for realizing circuit functionality, and (2) molecule generation based on quantum properties. Our approach demonstrates promising results, generating high-quality and realistic DAGs that closely align with given conditions.

arxiv情報

著者 Xinyi Zhou,Xing Li,Yingzhao Lian,Yiwen Wang,Lei Chen,Mingxuan Yuan,Jianye Hao,Guangyong Chen,Pheng Ann Heng
発行日 2024-10-21 15:47:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | SeaDAG: Semi-autoregressive Diffusion for Conditional Directed Acyclic Graph Generation はコメントを受け付けていません

SMART: Self-learning Meta-strategy Agent for Reasoning Tasks

要約

演繹的推論を必要とするタスク、特に複数のステップを伴うタスクでは、普遍的に最適な単一のアプローチは存在しないため、理論的根拠やプログラムの中間生成などの適応戦略が必要になることがよくあります。
言語モデル (LM) は、反復的な自己洗練と戦略調整を通じて出力を強化できますが、最初の試行では最も効果的な戦略を適用できないことがよくあります。
この非効率性により、LM は改良を必要とせずに、最初の試行で最適な戦略を選択できるようになるだろうか、という疑問が生じます。
この課題に対処するために、LM がさまざまな推論タスクに対して最も効果的な戦略を自律的に学習して選択できるようにする新しいフレームワークである SMART (推論タスク用自己学習メタ戦略エージェント) を紹介します。
戦略選択プロセスをマルコフ決定プロセスとしてモデル化し、強化学習による継続的な自己改善を活用して、モデルが特定のタスクを解決するための適切な戦略を見つけられるようにします。
複数の推論パスや外部フィードバックに依存する従来の自己洗練手法とは異なり、SMART では、LM が自身の推論プロセスの結果を内部化し、それに応じて戦略を調整し、最初の試行で正しい解決策を目指すことができます。
さまざまな推論データセットとさまざまなモデル アーキテクチャを使用した実験では、SMART が外部のガイダンスなしで最適な戦略を選択するモデルの能力を大幅に向上させることが実証されました (GSM8K データセットで +15 ポイント)。
単一の推論パスでより高い精度を達成することで、SMART はパフォーマンスを向上させるだけでなく、改良ベースの戦略の計算コストを削減し、LM でのより効率的でインテリジェントな推論への道を開きます。

要約(オリジナル)

Tasks requiring deductive reasoning, especially those involving multiple steps, often demand adaptive strategies such as intermediate generation of rationales or programs, as no single approach is universally optimal. While Language Models (LMs) can enhance their outputs through iterative self-refinement and strategy adjustments, they frequently fail to apply the most effective strategy in their first attempt. This inefficiency raises the question: Can LMs learn to select the optimal strategy in the first attempt, without a need for refinement? To address this challenge, we introduce SMART (Self-learning Meta-strategy Agent for Reasoning Tasks), a novel framework that enables LMs to autonomously learn and select the most effective strategies for various reasoning tasks. We model the strategy selection process as a Markov Decision Process and leverage reinforcement learning-driven continuous self-improvement to allow the model to find the suitable strategy to solve a given task. Unlike traditional self-refinement methods that rely on multiple inference passes or external feedback, SMART allows an LM to internalize the outcomes of its own reasoning processes and adjust its strategy accordingly, aiming for correct solutions on the first attempt. Our experiments across various reasoning datasets and with different model architectures demonstrate that SMART significantly enhances the ability of models to choose optimal strategies without external guidance (+15 points on the GSM8K dataset). By achieving higher accuracy with a single inference pass, SMART not only improves performance but also reduces computational costs for refinement-based strategies, paving the way for more efficient and intelligent reasoning in LMs.

arxiv情報

著者 Rongxing Liu,Kumar Shridhar,Manish Prajapat,Patrick Xia,Mrinmaya Sachan
発行日 2024-10-21 15:55:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | SMART: Self-learning Meta-strategy Agent for Reasoning Tasks はコメントを受け付けていません

A Data-driven Crowd Simulation Framework Integrating Physics-informed Machine Learning with Navigation Potential Fields

要約

従来のルールベースの物理モデルは、単一の物理式とパラメータに依存するため限界があり、群衆シミュレーションに関連する複雑なタスクに効果的に取り組むことが困難になっていました。
最近の研究では、これらの問題に取り組むために深層学習手法が導入されていますが、現在のアプローチのほとんどは主に歩行者の軌跡を生成することに焦点を当てており、多くの場合解釈可能性が欠けており、リアルタイムの動的シミュレーションを提供できません。前述の問題に対処するために、私たちは新しいデータ駆動型群集を提案します。
Physics-informed Machine Learning (PIML) とナビゲーション ポテンシャル フィールドを統合するシミュレーション フレームワーク。
私たちのアプローチは、物理モデルと PIML の両方の長所を活用しています。
具体的には、群衆の時空間データに基づいて歩行者の移動傾向を予測するためのデータ駆動型モジュールとして、革新的な物理情報に基づいた時空間グラフ畳み込みネットワーク (PI-STGCN) を設計します。
さらに、流れ場理論に基づいて歩行者の動きをガイドするナビゲーションポテンシャルフィールドの物理モデルを構築し、それによってシミュレーション中の物理的制約を強化します。
私たちのフレームワークでは、ナビゲーションの潜在的なフィールドは、PI-STGCN によって予測された移動傾向に基づいて動的に計算および更新されますが、これらのフィールドによって導かれた更新された群集ダイナミクスは、その後 PI-STGCN にフィードバックされます。
5 つのシーンにわたる 2 つの公的に利用可能な大規模な実世界データセットの比較実験により、私たちが提案したフレームワークが精度と忠実度において既存のルールベースの手法よりも優れていることが実証されました。
シミュレートされた歩行者の軌跡と実際の歩行者の軌跡の類似性は 10.8% 増加し、平均誤差は 4% 減少しました。
さらに、私たちのフレームワークは、軌道生成のために深層学習のみに依存する方法と比較して、より優れた適応性とより優れた解釈可能性を示します。

要約(オリジナル)

Traditional rule-based physical models are limited by their reliance on singular physical formulas and parameters, making it difficult to effectively tackle the intricate tasks associated with crowd simulation. Recent research has introduced deep learning methods to tackle these issues, but most current approaches focus primarily on generating pedestrian trajectories, often lacking interpretability and failing to provide real-time dynamic simulations.To address the aforementioned issues, we propose a novel data-driven crowd simulation framework that integrates Physics-informed Machine Learning (PIML) with navigation potential fields. Our approach leverages the strengths of both physical models and PIML. Specifically, we design an innovative Physics-informed Spatio-temporal Graph Convolutional Network (PI-STGCN) as a data-driven module to predict pedestrian movement trends based on crowd spatio-temporal data. Additionally, we construct a physical model of navigation potential fields based on flow field theory to guide pedestrian movements, thereby reinforcing physical constraints during the simulation. In our framework, navigation potential fields are dynamically computed and updated based on the movement trends predicted by the PI-STGCN, while the updated crowd dynamics, guided by these fields, subsequently feed back into the PI-STGCN. Comparative experiments on two publicly available large-scale real-world datasets across five scenes demonstrate that our proposed framework outperforms existing rule-based methods in accuracy and fidelity. The similarity between simulated and actual pedestrian trajectories increases by 10.8%, while the average error is reduced by 4%. Moreover, our framework exhibits greater adaptability and better interpretability compared to methods that rely solely on deep learning for trajectory generation.

arxiv情報

著者 Runkang Guo,Bin Chen,Qi Zhang,Yong Zhao,Xiao Wang,Zhengqiu Zhu
発行日 2024-10-21 15:56:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | A Data-driven Crowd Simulation Framework Integrating Physics-informed Machine Learning with Navigation Potential Fields はコメントを受け付けていません

MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs

要約

大規模言語モデル (LLM) は算術文章題を高精度で解くことができますが、トレーニングされた問題よりも複雑な問題に対して LLM がどの程度一般化できるかについてはほとんどわかっていません。
このような問題の実証的調査は、現在の評価の 2 つの大きな欠陥によって妨げられています。(i) 評価データの多くは、トレーニング中にすでに見られているという意味で汚染されています。(ii) ベンチマーク データセットは問題の証明方法を捉えていません。
さまざまな方法で任意に複雑になる可能性があります。
これらの問題に対処するためのステップとして、MathGAP と呼ばれる、任意に複雑な算術証明の問題について LLM を評価するためのフレームワークを紹介します。
MathGAP は、固定の証明仕様に従う問題を、思考連鎖推論の注釈とともに生成し、算術証明の複雑さに関する一般化に関する体系的な研究を可能にします。
MathGAP を適用して、コンテキスト内学習がより複雑な証明を持つ問題への一般化とどのように相互作用するかを分析します。
テストしたモデルのほとんどは、証明が深く広くなるにつれてパフォーマンスが大幅に低下することがわかりました。
この効果は、GPT-4o であっても困難な、複雑な非線形証明構造でより顕著になります。
驚くべきことに、テスト セットと同じディストリビューションからコンテキスト内の例を提供することは、パフォーマンスにとって常に有益であるとは限りません。
特に、ゼロショットのプロンプトだけでなく、テストデータよりも複雑ではないさまざまな例をデモンストレーションすると、同等またはより高い精度が得られる場合があります。

要約(オリジナル)

Large language models (LLMs) can solve arithmetic word problems with high accuracy, but little is known about how well they generalize to problems that are more complex than the ones on which they have been trained. Empirical investigations of such questions are impeded by two major flaws of current evaluations: (i) much of the evaluation data is contaminated, in the sense that it has already been seen during training, and (ii) benchmark datasets do not capture how problem proofs may be arbitrarily complex in various ways. As a step towards addressing these issues, we present a framework for evaluating LLMs on problems with arbitrarily complex arithmetic proofs, called MathGAP. MathGAP generates problems that follow fixed proof specifications — along with chain-of-thought reasoning annotations — enabling systematic studies on generalization with respect to arithmetic proof complexity. We apply MathGAP to analyze how in-context learning interacts with generalization to problems that have more complex proofs. We find that among the models tested, most show a significant decrease in performance as proofs get deeper and wider. This effect is more pronounced in complex, nonlinear proof structures, which are challenging even for GPT-4o. Surprisingly, providing in-context examples from the same distribution as the test set is not always beneficial for performance. In particular, zero-shot prompting as well as demonstrating a diverse range of examples that are less complex than the test data sometimes yield similar or higher accuracies.

arxiv情報

著者 Andreas Opedal,Haruki Shirakami,Bernhard Schölkopf,Abulhair Saparov,Mrinmaya Sachan
発行日 2024-10-21 15:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs はコメントを受け付けていません

Do Large Language Models Need a Content Delivery Network?

要約

大規模言語モデル (LLM) の使用が急速に拡大するにつれて、さまざまな LLM クエリを補足するために必要な知識の範囲も拡大しています。
したがって、LLM 推論において新しい知識を柔軟かつ効率的に注入できるようにすることが重要です。
3 つの高レベルのオプションが存在します: (i) LLM の重みに知識を埋め込む (つまり、微調整)、(ii) LLM のテキスト入力の一部として知識を含める (つまり、コンテキスト内学習)、または (iii)
プレフィル中に新しいナレッジの KV キャッシュを LLM に注入します。
この論文では、微調整とコンテキスト内学習が一般的ですが、知識の媒体として KV キャッシュを使用すると、知識注入のよりモジュール化された管理と、低コストで高速な応答によるより効率的な LLM サービスが同時に可能になる可能性があると主張しています。
これらのメリットを実現するために、私たちは、LLM エンジンやその他のコンピューティングおよびストレージ リソースにわたる KV キャッシュのストレージ、転送、構成を動的に最適化する、LLM サービスの新しいシステム コンポーネントである Knowledge Delivery Network (KDN) を構想しています。
Akamai などのコンテンツ配信ネットワーク (CDN) が効率的なデータ配信を通じてインターネット エコシステムの成功を可能にしたのと同様に、KDN は効率的なナレッジ配信を通じて LLM アプリケーションの成功に不可欠になると考えています。
KDN プロトタイプを https://github.com/LMCache/LMCache でオープンソース化しました。

要約(オリジナル)

As the use of large language models (LLMs) expands rapidly, so does the range of knowledge needed to supplement various LLM queries. Thus, enabling flexible and efficient injection of new knowledge in LLM inference is critical. Three high-level options exist: (i) embedding the knowledge in LLM’s weights (i.e., fine-tuning), (ii) including the knowledge as a part of LLM’s text input (i.e., in-context learning), or (iii) injecting the KV caches of the new knowledge to LLM during prefill. This paper argues that, although fine-tuning and in-context learning are popular, using KV caches as the medium of knowledge could simultaneously enable more modular management of knowledge injection and more efficient LLM serving with low cost and fast response. To realize these benefits, we envision a Knowledge Delivery Network (KDN), a new system component in LLM services that dynamically optimizes the storage, transfer, and composition of KV cache across LLM engines and other compute and storage resources. We believe that, just like content delivery networks (CDNs), such as Akamai, enabled the success of the Internet ecosystem through their efficient data delivery, KDNs will be critical to the success of LLM applications through their efficient knowledge delivery. We have open-sourced a KDN prototype at https://github.com/LMCache/LMCache.

arxiv情報

著者 Yihua Cheng,Kuntai Du,Jiayi Yao,Junchen Jiang
発行日 2024-10-21 15:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Do Large Language Models Need a Content Delivery Network? はコメントを受け付けていません

Exploring the Potential of Large Language Models for Heterophilic Graphs

要約

大規模言語モデル (LLM) は、グラフ ニューラル ネットワーク (GNN) を含むさまざまな機械学習アプリケーションを強化する重要な機会を提供します。
LLM 内の膨大なオープンワールドの知識を活用することで、テキスト データをより効果的に解釈して利用して、隣接するノードに異なるラベルが付いていることが多い異好性グラフの特徴をより適切に特徴付けることができます。
ただし、異好性グラフに対する既存のアプローチでは、ノードに関連付けられた豊富なテキスト データが見落とされており、異好性のコンテキストに対するより深い洞察が得られる可能性があります。
この研究では、異好性グラフをモデル化するための LLM の可能性を調査し、LLM 強化エッジ弁別器と LLM ガイド付きエッジ再重み付けという新しい 2 段階のフレームワークを提案します。
最初の段階では、LLM を微調整して、ノードのテキスト内容に基づいて同親和性エッジと異親和性エッジをより適切に識別します。
第 2 段階では、ノードの特徴、構造、異好性または同種性の特性に基づいて、さまざまなエッジ タイプの GNN でのメッセージ伝播を適応的に管理します。
実際のシナリオで LLM を展開する際の計算需要に対処するために、競争力のあるパフォーマンスを維持する、より小型で効率的なモデルを微調整するためのモデル抽出手法をさらに検討します。
広範な実験によりフレームワークの有効性が検証され、LLM を使用して異好性グラフ上のノード分類を強化する実現可能性が実証されました。

要約(オリジナル)

Large language models (LLMs) have presented significant opportunities to enhance various machine learning applications, including graph neural networks (GNNs). By leveraging the vast open-world knowledge within LLMs, we can more effectively interpret and utilize textual data to better characterize heterophilic graphs, where neighboring nodes often have different labels. However, existing approaches for heterophilic graphs overlook the rich textual data associated with nodes, which could unlock deeper insights into their heterophilic contexts. In this work, we explore the potential of LLMs for modeling heterophilic graphs and propose a novel two-stage framework: LLM-enhanced edge discriminator and LLM-guided edge reweighting. In the first stage, we fine-tune the LLM to better identify homophilic and heterophilic edges based on the textual content of their nodes. In the second stage, we adaptively manage message propagation in GNNs for different edge types based on node features, structures, and heterophilic or homophilic characteristics. To cope with the computational demands when deploying LLMs in practical scenarios, we further explore model distillation techniques to fine-tune smaller, more efficient models that maintain competitive performance. Extensive experiments validate the effectiveness of our framework, demonstrating the feasibility of using LLMs to enhance node classification on heterophilic graphs.

arxiv情報

著者 Yuxia Wu,Shujie Li,Yuan Fang,Chuan Shi
発行日 2024-10-21 15:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SI | Exploring the Potential of Large Language Models for Heterophilic Graphs はコメントを受け付けていません

Beyond 2:4: exploring V:N:M sparsity for efficient transformer inference on GPUs

要約

現在まで、2:4 スパース性は、GPU 上のスパース テンソル コアを使用して高速化できる唯一のスパース パターンです。
実際には、2:4 スパース性は実際の速度向上が低く ($\leq 1.3$)、固定のスパース比を必要とすることがよくあります。つまり、4:8、8:16、または 50% を超えるスパース性などの他の比率では影響がありません。
GPU の高速化。
最近の研究では、V:N:M スパース性が 2:4 スパース性の制限に対処する上で有望であることが示唆されています。
ただし、精度に関しては、ビジョン Transformer や大規模言語モデル (LLM) など、より広範な Transformer モデルに対する V:N:M スパース性の影響はほとんど調査されていません。
さらに、適切な V 値と M 値を選択する方法など、V:N:M スパース性に関連するいくつかの特定の問題は未解決のままです。
この研究では、下流のタスクに関連するものから、複数のタスクにわたるビジョン モデルと LLM における V:N:M スパース性の適用を徹底的に調査します。
我々は、ヒューリスティックな V および M 選択、V:N:M 固有のチャネル順列、および 3 段階の LoRA トレーニング手法を含む、V:N:M スパース トランスフォーマーの適用性と精度を向上させるための 3 つの主要なアプローチを提案します。
実験結果は、私たちの方法を使用すると、DeiT-small が 64:2:5 スパース性でロスレス精度を達成するのに対し、DeiT ベースは 64:2:8 スパース性でも精度を維持することを示しています。
さらに、64:2:5 スパースで微調整された LLama2-7B は、ダウンストリーム タスクにおいてトレーニング不要の 2:4 スパース代替案と同等以上のパフォーマンスを発揮します。
さらに重要なことは、V:N:M スパース トランスフォーマーは、2:4 スパースと比較して、高速化と精度のトレードオフの範囲が広いことです。
全体として、私たちの調査により、コスト重視の推論シナリオにおいて V:N:M スパース性が Transformer の真に効果的な加速ソリューションとして機能することが大幅に促進されました。

要約(オリジナル)

To date, 2:4 sparsity has stood as the only sparse pattern that can be accelerated using sparse tensor cores on GPUs. In practice, 2:4 sparsity often possesses low actual speedups ($\leq 1.3$) and requires fixed sparse ratios, meaning that other ratios, such as 4:8, 8:16, or those exceeding 50% sparsity, do not incur any speedups on GPUs. Recent studies suggest that V:N:M sparsity is promising in addressing these limitations of 2:4 sparsity. However, regarding accuracy, the effects of V:N:M sparsity on broader Transformer models, such as vision Transformers and large language models (LLMs), are largely unexamined. Moreover, Some specific issues related to V:N:M sparsity, such as how to select appropriate V and M values, remain unresolved. In this study, we thoroughly investigate the application of V:N:M sparsity in vision models and LLMs across multiple tasks, from pertaining to downstream tasks. We propose three key approaches to enhance the applicability and accuracy of V:N:M-sparse Transformers, including heuristic V and M selection, V:N:M-specific channel permutation, and three-staged LoRA training techniques. Experimental results show that, with our methods, the DeiT-small achieves lossless accuracy at 64:2:5 sparsity, while the DeiT-base maintains accuracy even at 64:2:8 sparsity. In addition, the fine-tuned LLama2-7B at 64:2:5 sparsity performs comparably or better than training-free 2:4 sparse alternatives on downstream tasks. More importantly, V:N:M-sparse Transformers offer a wider range of speedup-accuracy trade-offs compared to 2:4 sparsity. Overall, our exploration largely facilitates the V:N:M sparsity to act as a truly effective acceleration solution for Transformers in cost-sensitive inference scenarios.

arxiv情報

著者 Kang Zhao,Tao Yuan,Han Bao,Zhenfeng Su,Chang Gao,Zhaofeng Sun,Zichen Liang,Liping Jing,Jianfei Chen
発行日 2024-10-21 16:00:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Beyond 2:4: exploring V:N:M sparsity for efficient transformer inference on GPUs はコメントを受け付けていません

Modeling dynamic neural activity by combining naturalistic video stimuli and stimulus-independent latent factors

要約

脳が動的な自然刺激をどのように処理するかを理解することは、依然として神経科学における基本的な課題です。
現在の動的ニューラルエンコーディングモデルは、入力として刺激を受け取りますが、神経応答の共有変動を無視するか、視覚入力を無視して神経応答または動作から潜在的な埋め込みを導出することでこの変動をモデル化します。
このギャップに対処するために、我々はビデオ入力と刺激に依存しない潜在因子を組み込んでニューロン応答の変動を捉え、母集団全体の同時分布を予測する確率モデルを提案します。
マウス V1 ニューロン応答でモデルをトレーニングおよびテストした結果、対数尤度の点でビデオのみのモデルよりも優れており、他のニューロンからの応答に条件付けするとさらなる改善が達成されることがわかりました。
さらに、モデルは行動データなしでトレーニングされたにもかかわらず、学習された潜在的要因がマウスの行動と強く相関していることがわかりました。

要約(オリジナル)

Understanding how the brain processes dynamic natural stimuli remains a fundamental challenge in neuroscience. Current dynamic neural encoding models either take stimuli as input but ignore shared variability in neural responses, or they model this variability by deriving latent embeddings from neural responses or behavior while ignoring the visual input. To address this gap, we propose a probabilistic model that incorporates video inputs along with stimulus-independent latent factors to capture variability in neuronal responses, predicting a joint distribution for the entire population. After training and testing our model on mouse V1 neuronal responses, we found that it outperforms video-only models in terms of log-likelihood and achieves further improvements when conditioned on responses from other neurons. Furthermore, we find that the learned latent factors strongly correlate with mouse behavior, although the model was trained without behavior data.

arxiv情報

著者 Finn Schmidt,Suhas Shrinivasan,Polina Turishcheva,Fabian H. Sinz
発行日 2024-10-21 16:01:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-bio.NC | Modeling dynamic neural activity by combining naturalistic video stimuli and stimulus-independent latent factors はコメントを受け付けていません