NNetNav: Unsupervised Learning of Browser Agents Through Environment Interaction in the Wild

要約

NNETNAVを紹介します。これは、ブラウザエージェントのトレーニング用の合成デモンストレーションを生成するWebサイトとの監視されていない相互作用の方法です。
Webサイトを考慮して、Nnetnavは、探査ポリシーからアクションシーケンスを遡及的にラベル付けすることにより、これらのデモンストレーションを作成します。
トレーニングブラウザエージェントのほとんどの作業は、高価な人間の監督に依存しており、そのような相互作用ベースの手法に関する限られた以前の作業は、指数関数的に大きな探査空間を通じて効果的な検索を提供できませんでした。
対照的に、NNETNAVは、言語命令の階層構造を活用してこの検索をより扱いやすくするために:複雑な命令は通常、より単純なサブタスクに分解され、NNETNAVが意味のあるサブタスクで中間の導体を発行できない場合に相互作用エピソードを自動的にプルンすることができます。
\ texttt {llama-3.1-8b} finetuned 10k nnetnav自己生成デモンストレーションでは、Webarenaで16 \%の成功率、Webvoyagerで35%を超える成功率が得られ、15ptsと31ptの改善がそれぞれZero-shot \ textt {llama- {llama- {llama-
3.1-8b}、ゼロショットGPT-4を上回り、両方のベンチマークについて、監視されていない方法の中で最先端に到達します。

要約(オリジナル)

We introduce NNetNav, a method for unsupervised interaction with websites that generates synthetic demonstrations for training browser agents. Given any website, NNetNav produces these demonstrations by retroactively labeling action sequences from an exploration policy. Most work on training browser agents has relied on expensive human supervision, and the limited prior work on such interaction-based techniques has failed to provide effective search through the exponentially large space of exploration. In contrast, NNetNav exploits the hierarchical structure of language instructions to make this search more tractable: Complex instructions are typically decomposable into simpler sub-tasks, allowing NNetNav to automatically prune interaction episodes when an intermediate trajectory cannot be annotated with a meaningful sub-task. \texttt{LLama-3.1-8b} finetuned on 10k NNetNav self-generated demonstrations obtains over 16\% success rate on WebArena, and 35\% on WebVoyager, an improvement of 15pts and 31pts respectively over zero-shot \texttt{LLama-3.1-8b}, outperforming zero-shot GPT-4 and reaching the state-of-the-art among unsupervised methods, for both benchmarks.

arxiv情報

著者 Shikhar Murty,Hao Zhu,Dzmitry Bahdanau,Christopher D. Manning
発行日 2025-02-05 18:56:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | NNetNav: Unsupervised Learning of Browser Agents Through Environment Interaction in the Wild はコメントを受け付けていません

Do Large Language Model Benchmarks Test Reliability?

要約

大規模な言語モデル(LLMS)を展開する場合、これらのモデルが有能であるだけでなく、信頼性が高いことを確認することが重要です。
LLMSの成長能力を追跡するために多くのベンチマークが作成されていますが、信頼性の測定に同様の焦点はありませんでした。
このギャップの潜在的な影響を理解するために、現在のベンチマークがモデルの信頼性をどの程度定量化するかを調査します。
広範なラベルエラーは、これらの評価を危険にさらし、長引くモデルの障害を曖昧にし、信頼できない動作を隠すことができることがわかります。
信頼性の評価におけるこのギャップに動機付けられた後、いわゆるプラチナベンチマークの概念を提案します。つまり、ラベルのエラーと曖昧さを最小限に抑えるために慎重にキュレーションされたベンチマークを提案します。
このようなベンチマークを構築する最初の試みとして、15の既存の人気のあるベンチマークから例を修正します。
これらのプラチナベンチマークで幅広いモデルを評価し、実際、フロンティアLLMが依然として初等レベルの数学語の問題などの単純なタスクで障害を示していることがわかります。
これらの障害を分析すると、フロンティアモデルが一貫して苦労している問題の以前は正体不明のパターンがさらに明らかになります。
https://github.com/madrylab/platinum-benchmarksでコードを提供します

要約(オリジナル)

When deploying large language models (LLMs), it is important to ensure that these models are not only capable, but also reliable. Many benchmarks have been created to track LLMs’ growing capabilities, however there has been no similar focus on measuring their reliability. To understand the potential ramifications of this gap, we investigate how well current benchmarks quantify model reliability. We find that pervasive label errors can compromise these evaluations, obscuring lingering model failures and hiding unreliable behavior. Motivated by this gap in the evaluation of reliability, we then propose the concept of so-called platinum benchmarks, i.e., benchmarks carefully curated to minimize label errors and ambiguity. As a first attempt at constructing such benchmarks, we revise examples from fifteen existing popular benchmarks. We evaluate a wide range of models on these platinum benchmarks and find that, indeed, frontier LLMs still exhibit failures on simple tasks such as elementary-level math word problems. Analyzing these failures further reveals previously unidentified patterns of problems on which frontier models consistently struggle. We provide code at https://github.com/MadryLab/platinum-benchmarks

arxiv情報

著者 Joshua Vendrow,Edward Vendrow,Sara Beery,Aleksander Madry
発行日 2025-02-05 18:58:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Do Large Language Model Benchmarks Test Reliability? はコメントを受け付けていません

PERP: Rethinking the Prune-Retrain Paradigm in the Era of LLMs

要約

ニューラルネットワークは、剪定により効果的に圧縮され、予測パフォーマンスを維持しながら、ストレージと需要の計算を大幅に削減できます。
マグニチュードプルーニングなどのシンプルで効果的な方法は、それほど重要ではないパラメーターを削除し、通常、パフォーマンスを回復するために費用のかかる再トレーニング手順が必要です。
ただし、LLMSの上昇により、メモリと計算の制約により、完全な再訓練が実行不可能になりました。
この研究では、非常に表現力豊かなパラメーターの小さなサブセットを更新することで、剪定後のパフォーマンスを回復または強化するのに十分であることを示すことにより、すべてのパラメーターを再訓練する慣行に挑戦します。
驚くべきことに、GPT-Architecturesのパラメーターのわずか0.01%-0.05%が、さまざまなスパースレベルにわたって完全な再訓練のパフォーマンスと一致し、計算とメモリの要件を大幅に削減し、単一のGPUで最大300億パラメーターのモデルの再訓練を可能にすることができます。
数分で。
高いスパース領域での完全な再訓練へのギャップを埋めるために、標準のLORAとは異なり、スパースを損なうことなくアダプターをマージすることを可能にする2つの新しいLoraバリアントを導入します。
さらに一歩進むと、これらの方法は、メモリ効率の高いレイヤーごとの再構成に適用できることを示し、ワンダ(Sun et al。、2023)やSparsegpt(Frantar&&
Alistarh、2023)。
私たちの調査結果は、再訓練を避けるための有望な代替手段を提示します。

要約(オリジナル)

Neural Networks can be effectively compressed through pruning, significantly reducing storage and compute demands while maintaining predictive performance. Simple yet effective methods like magnitude pruning remove less important parameters and typically require a costly retraining procedure to restore performance. However, with the rise of LLMs, full retraining has become infeasible due to memory and compute constraints. This study challenges the practice of retraining all parameters by showing that updating a small subset of highly expressive parameters can suffice to recover or even enhance performance after pruning. Surprisingly, retraining just 0.01%-0.05% of the parameters in GPT-architectures can match the performance of full retraining across various sparsity levels, significantly reducing compute and memory requirements, and enabling retraining of models with up to 30 billion parameters on a single GPU in minutes. To bridge the gap to full retraining in the high sparsity regime, we introduce two novel LoRA variants that, unlike standard LoRA, allow merging adapters back without compromising sparsity. Going a step further, we show that these methods can be applied for memory-efficient layer-wise reconstruction, significantly enhancing state-of-the-art retraining-free methods like Wanda (Sun et al., 2023) and SparseGPT (Frantar & Alistarh, 2023). Our findings present a promising alternative to avoiding retraining.

arxiv情報

著者 Max Zimmer,Megi Andoni,Christoph Spiegel,Sebastian Pokutta
発行日 2025-02-05 15:10:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | PERP: Rethinking the Prune-Retrain Paradigm in the Era of LLMs はコメントを受け付けていません

The Alternative Annotator Test for LLM-as-a-Judge: How to Statistically Justify Replacing Human Annotators with LLMs

要約

「LLM-as-a-judge」パラダイムは、伝統的に人間によって行われたタスクでのアノテーターおよび評価者として大規模な言語モデル(LLM)を採用しています。
LLMアノテーションは、NLPの研究だけでなく、医学、心理学、社会科学などの分野でも広く使用されています。
研究の結果と洞察を形成する上での役割にもかかわらず、LLMがヒトのアノテーターを置き換えることができるかどうかを判断するための標準的または厳密な手順はありません。
このホワイトペーパーでは、LLMアノテーションを使用して正当化するために注釈付き例の控えめなサブセットのみを必要とする新しい統計的手順(代替アノテーターテスト(ALTテスト))を提案します。
さらに、LLM審査員を比較するための多目的で解釈可能な尺度を紹介します。
手順を実証するために、言語とビジョン言語のタスクで構成される10個のデータセットの多様なコレクションをキュレーションし、6つのLLMSと4つのプロンプト技術で実験を実施しました。
私たちの結果は、LLMが人間をクローズドソースLLM(GPT-4Oなど)に置き換え、オープンソースLLMを上回ることがあり、促す技術がさまざまな品質の裁判官をもたらすことを示しています。
この研究が、より厳密で信頼できる実践を奨励することを願っています。

要約(オリジナル)

The ‘LLM-as-a-judge’ paradigm employs Large Language Models (LLMs) as annotators and evaluators in tasks traditionally performed by humans. LLM annotations are widely used, not only in NLP research but also in fields like medicine, psychology, and social science. Despite their role in shaping study results and insights, there is no standard or rigorous procedure to determine whether LLMs can replace human annotators. In this paper, we propose a novel statistical procedure — the Alternative Annotator Test (alt-test) — that requires only a modest subset of annotated examples to justify using LLM annotations. Additionally, we introduce a versatile and interpretable measure for comparing LLM judges. To demonstrate our procedure, we curated a diverse collection of ten datasets, consisting of language and vision-language tasks, and conducted experiments with six LLMs and four prompting techniques. Our results show that LLMs can sometimes replace humans with closed-source LLMs (such as GPT-4o), outperforming open-source LLMs, and that prompting techniques yield judges of varying quality. We hope this study encourages more rigorous and reliable practices.

arxiv情報

著者 Nitay Calderon,Roi Reichart,Rotem Dror
発行日 2025-02-05 15:24:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC | The Alternative Annotator Test for LLM-as-a-Judge: How to Statistically Justify Replacing Human Annotators with LLMs はコメントを受け付けていません

Kolmogorov-Arnold Networks for Time Series Granger Causality Inference

要約

グレンジャーの因果関係の推論Kolmogorov-Arnold Networks(Kangci)を提案します。これは、最近提案されたKolmogorov-Arnold Networks(Kan)を因果的推論の領域に拡張する新しいアーキテクチャです。
Kan層からベースウェイトを抽出し、スパースを誘発するペナルティとリッジの正則化を組み込むことにより、Kangciはグレンジャーの因果関係を時系列から効果的に推進します。
さらに、元のまたは時間反転した時系列からより良い推論パフォーマンスを備えた因果関係を自動的に選択する、または結果を統合してスプリアスな結合性を緩和する、時間反転グレンジャーの因果関係に基づいてアルゴリズムを提案します。
Lorenz-96、遺伝子調節ネットワーク、fMRI Bold Signals、var、および実際のEEGデータセットで実施された包括的な実験は、提案されたモデルが非線形、高地からのグレンジャーの因果関係を推測する最先端の方法に対して競争力のあるパフォーマンスを達成することを示しています。
寸法、および限られたサンプルの時系列。

要約(オリジナル)

We propose the Granger causality inference Kolmogorov-Arnold Networks (KANGCI), a novel architecture that extends the recently proposed Kolmogorov-Arnold Networks (KAN) to the domain of causal inference. By extracting base weights from KAN layers and incorporating the sparsity-inducing penalty and ridge regularization, KANGCI effectively infers the Granger causality from time series. Additionally, we propose an algorithm based on time-reversed Granger causality that automatically selects causal relationships with better inference performance from the original or time-reversed time series or integrates the results to mitigate spurious connectivities. Comprehensive experiments conducted on Lorenz-96, Gene regulatory networks, fMRI BOLD signals, VAR, and real-world EEG datasets demonstrate that the proposed model achieves competitive performance to state-of-the-art methods in inferring Granger causality from nonlinear, high-dimensional, and limited-sample time series.

arxiv情報

著者 Meiliang Liu,Yunfang Xu,Zijin Li,Zhengye Si,Xiaoxiao Yang,Xinyue Yang,Zhiwen Zhao
発行日 2025-02-05 15:26:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Kolmogorov-Arnold Networks for Time Series Granger Causality Inference はコメントを受け付けていません

A Scalable Approach to Probabilistic Neuro-Symbolic Verification

要約

神経系シンボリック人工知能(NESY AI)は、神経学習を象徴的な推論と統合するための有望な方向として浮上しています。
このようなシステムの確率的バリアントでは、ニューラルネットワークは最初にサブシンボリック入力からシンボルのセットを抽出します。これは、記号コンポーネントによって使用され、クエリに答えるために確率的な方法で推論します。
この作業では、このような不気味な確率的推論システムの堅牢性を正式に検証する問題に対処し、したがって、重要なドメインでの安全な展開への道を開いています。
この問題を正確に解決することの複雑さを分析し、$ \ mathrm {np}^{\#\ mathrm {p}} $-hardであることを示します。
この問題を克服するために、確率的な不気味なシステムのおおよそのリラクゼーションベースの検証のための最初のアプローチを提案します。
提案された方法は、ソルバーベースのソリューションよりも指数関数的に優れていることを実験的に実証し、手法を実際の自律運転データセットに適用し、そこで大規模な入力寸法とネットワークサイズの下で安全プロパティを確認します。

要約(オリジナル)

Neuro-Symbolic Artificial Intelligence (NeSy AI) has emerged as a promising direction for integrating neural learning with symbolic reasoning. In the probabilistic variant of such systems, a neural network first extracts a set of symbols from sub-symbolic input, which are then used by a symbolic component to reason in a probabilistic manner towards answering a query. In this work, we address the problem of formally verifying the robustness of such NeSy probabilistic reasoning systems, therefore paving the way for their safe deployment in critical domains. We analyze the complexity of solving this problem exactly, and show that it is $\mathrm{NP}^{\# \mathrm{P}}$-hard. To overcome this issue, we propose the first approach for approximate, relaxation-based verification of probabilistic NeSy systems. We demonstrate experimentally that the proposed method scales exponentially better than solver-based solutions and apply our technique to a real-world autonomous driving dataset, where we verify a safety property under large input dimensionalities and network sizes.

arxiv情報

著者 Vasileios Manginas,Nikolaos Manginas,Edward Stevinson,Sherwin Varghese,Nikos Katzouris,Georgios Paliouras,Alessio Lomuscio
発行日 2025-02-05 15:29:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | A Scalable Approach to Probabilistic Neuro-Symbolic Verification はコメントを受け付けていません

Multi-Agent Path Finding under Limited Communication Range Constraint via Dynamic Leading

要約

このペーパーでは、限られた通信範囲の制約の下で問題を発見するマルチエージェントパスの問題を処理する新しいフレームワークを提案します。そこでは、すべてのエージェントがチームの残りの部分に接続された通信チャネルを持っている必要があります。
マルチエージェントパスの発見に対する多くの既存のアプローチ(例:リーダーフォロワープラトーニング)は、一度に1つのエージェントを固定順序で計画することにより、このドメインでの計画の計算上の課題を克服します。
ただし、固定されたリーダーフォロワーアプローチは、計画中に立ち往生する可能性があり、密集した環境での実用的なユーティリティを制限します。
この制限を克服するために、動的な主要なマルチエージェントパスの発見を開発します。これにより、進行ができないときはいつでもパス計画中にリーディングエージェントの動的再選択が可能になります。
実験は、ベースラインが日常的に故障している5つの環境タイプで90%以上の成功率を持つ最大25人のエージェントを処理できるフレームワークの効率を示しています。

要約(オリジナル)

This paper proposes a novel framework to handle a multi-agent path finding problem under a limited communication range constraint, where all agents must have a connected communication channel to the rest of the team. Many existing approaches to multi-agent path finding (e.g., leader-follower platooning) overcome computational challenges of planning in this domain by planning one agent at a time in a fixed order. However, fixed leader-follower approaches can become stuck during planning, limiting their practical utility in dense-clutter environments. To overcome this limitation, we develop dynamic leading multi-agent path finding, which allows for dynamic reselection of the leading agent during path planning whenever progress cannot be made. The experiments show the efficiency of our framework, which can handle up to 25 agents with more than 90% success-rate across five environment types where baselines routinely fail.

arxiv情報

著者 Hoang-Dung Bui,Erion Plaku,Gregoy J. Stein
発行日 2025-02-05 15:32:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO | Multi-Agent Path Finding under Limited Communication Range Constraint via Dynamic Leading はコメントを受け付けていません

Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning

要約

大規模な言語モデル(LLMS)は、テキストトークンによって段階的な思考プロセスが明示的に概説されている、考え方(COT)データで訓練されたときに推論と計画に優れています。
ただし、これにより、多くの単語がコア推論情報ではなくテキストの一貫性をサポートする長い入力が発生し、これらの入力を処理すると実質的な計算リソースが消費されます。
この作業では、推論プロセスのハイブリッド表現を提案します。ここでは、VQ-Vaeによって生成された潜在的な離散トークンを使用して、最初の推論ステップを部分的に抽象化し、推論トレースの長さを大幅に削減します。
2つのシナリオでの潜在的な微量の抽象化の使用を調査します。1)キーを発見する迷路の問題のためにゼロからモデルをトレーニングする、2)このハイブリッドデータの微調整LLMSは、目立つ潜在トークンを含む拡張された語彙を含む、論理的および論理的および両方のために
数学的推論の問題。
効果的な学習を促進するために、潜在トークンとテキストトークンをランダムに混合する簡単なトレーニング手順を導入し、新しい潜在トークンへの迅速な適応を可能にします。
私たちのアプローチは、さまざまなベンチマークのベースラインメソッドよりも一貫して優れています。

要約(オリジナル)

Large Language Models (LLMs) excel at reasoning and planning when trained on chainof-thought (CoT) data, where the step-by-step thought process is explicitly outlined by text tokens. However, this results in lengthy inputs where many words support textual coherence rather than core reasoning information, and processing these inputs consumes substantial computation resources. In this work, we propose a hybrid representation of the reasoning process, where we partially abstract away the initial reasoning steps using latent discrete tokens generated by VQ-VAE, significantly reducing the length of reasoning traces. We explore the use of latent trace abstractions in two scenarios: 1) training the model from scratch for the Keys-Finding Maze problem, 2) fine-tuning LLMs on this hybrid data with an extended vocabulary including unseen latent tokens, for both logical and mathematical reasoning problems. To facilitate effective learning, we introduce a simple training procedure that randomly mixes latent and text tokens, which enables fast adaptation to new latent tokens. Our approach consistently outperforms the baselines methods in various benchmarks.

arxiv情報

著者 DiJia Su,Hanlin Zhu,Yingchen Xu,Jiantao Jiao,Yuandong Tian,Qinqing Zheng
発行日 2025-02-05 15:33:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.LO | Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning はコメントを受け付けていません

SymAgent: A Neural-Symbolic Self-Learning Agent Framework for Complex Reasoning over Knowledge Graphs

要約

最近の進歩は、複雑な推論の問題を解決する際に大規模な言語モデル(LLM)が幻覚を起こしやすく、誤った結果につながることを強調しています。
この問題に取り組むために、研究者はLLMSの推論能力を向上させるために知識グラフ(KG)を組み込みます。
ただし、既存の方法は2つの制限に直面しています。1)彼らは通常、質問に対するすべての答えがKGSに含まれており、KGSの不完全性の問題を無視し、2)KGを静的リポジトリとして扱い、内在する暗黙の論理推論構造を見落としていると仮定します。
kgs。
この論文では、KGSとLLMSの間の共同増強を達成する革新的な神経系シンボリックエージェントフレームワークであるSymagentを紹介します。
KGSを動的環境として概念化し、複雑な推論タスクをマルチステップインタラクティブプロセスに変換し、KGSが推論プロセスに深く参加できるようにします。
Symagentは、エージェントプランナーとエージェントと執行者の2つのモジュールで構成されています。
エージェントプレーナーは、KGSから象徴的なルールを抽出するLLMの帰納的推論能力を活用し、効率的な質問分解を導きます。
エージェントと執行者は、KGおよび外部文書からの情報を統合するための事前定義されたアクションツールを自律的に呼び出し、KGの不完全性の問題に対処します。
さらに、オンライン探索とオフラインの反復ポリシー更新フェーズを含む自己学習フレームワークを設計し、エージェントが推論の軌跡を自動的に合成し、パフォーマンスを改善できるようにします。
実験結果は、LLMバックボーンが弱い(つまり、7Bシリーズ)、さまざまな強力なベースラインと比較して、より良いまたは同等のパフォーマンスが得られることを示しています。
さらなる分析により、エージェントが不足しているトリプルを特定し、自動KGの更新を容易にすることができることが明らかになりました。

要約(オリジナル)

Recent advancements have highlighted that Large Language Models (LLMs) are prone to hallucinations when solving complex reasoning problems, leading to erroneous results. To tackle this issue, researchers incorporate Knowledge Graphs (KGs) to improve the reasoning ability of LLMs. However, existing methods face two limitations: 1) they typically assume that all answers to the questions are contained in KGs, neglecting the incompleteness issue of KGs, and 2) they treat the KG as a static repository and overlook the implicit logical reasoning structures inherent in KGs. In this paper, we introduce SymAgent, an innovative neural-symbolic agent framework that achieves collaborative augmentation between KGs and LLMs. We conceptualize KGs as dynamic environments and transform complex reasoning tasks into a multi-step interactive process, enabling KGs to participate deeply in the reasoning process. SymAgent consists of two modules: Agent-Planner and Agent-Executor. The Agent-Planner leverages LLM’s inductive reasoning capability to extract symbolic rules from KGs, guiding efficient question decomposition. The Agent-Executor autonomously invokes predefined action tools to integrate information from KGs and external documents, addressing the issues of KG incompleteness. Furthermore, we design a self-learning framework comprising online exploration and offline iterative policy updating phases, enabling the agent to automatically synthesize reasoning trajectories and improve performance. Experimental results demonstrate that SymAgent with weak LLM backbones (i.e., 7B series) yields better or comparable performance compared to various strong baselines. Further analysis reveals that our agent can identify missing triples, facilitating automatic KG updates.

arxiv情報

著者 Ben Liu,Jihai Zhang,Fangquan Lin,Cheng Yang,Min Peng,Wotao Yin
発行日 2025-02-05 15:37:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | SymAgent: A Neural-Symbolic Self-Learning Agent Framework for Complex Reasoning over Knowledge Graphs はコメントを受け付けていません

STEM: Spatial-Temporal Mapping Tool For Spiking Neural Networks

要約

スパイクニューラルネットワーク(SNN)は、バイオ風に触発された第3世代のニューラルネットワークの有望です。
最近の研究では、人工ニューラルネットワーク(ANNS)と同等の精度で深いSNNモデルを訓練しています。
SNNのイベント駆動型でまばらな性質は、ANNよりもエネルギー効率の高い計算の可能性を示していますが、SNNニューロンには時間とともに進化する内部状態があります。
SNN状態を追跡することで、データの動きとストレージの要件が大幅に増加し、ANNに対する利点が失われる可能性があります。
このペーパーでは、ニューロン状態を持つことのエネルギー効果と、高度なメモリ階層を備えた現実的なハードウェアアーキテクチャへの選択されたマッピングの影響を受けていることを調査します。
したがって、SNNのマッピング設計スペース探索ツールであるSTEMSを開発します。
STEMSは、SNNのステートフルな動作をモデル化し、空間的および時間的SNNディメンションの両方を考慮して、データの動きを最小限に抑えるために、層内および層間マッピングの最適化を調査します。
STEMを使用して、2つのイベントベースのVision SNNベンチマークで、最大12倍のチップデータ移動の減少とエネルギーの5倍の減少(層内最適化の上)を示しています。
最後に、すべてのSNN層にニューロン状態は必要ないかもしれません。
ベンチマークの1つについてニューロン状態を最適化することにより、ニューロン状態の20倍の削減と、精度の損失なしでパフォーマンスが1.4倍であることが示されます。

要約(オリジナル)

Spiking Neural Networks (SNNs) are promising bio-inspired third-generation neural networks. Recent research has trained deep SNN models with accuracy on par with Artificial Neural Networks (ANNs). Although the event-driven and sparse nature of SNNs show potential for more energy efficient computation than ANNs, SNN neurons have internal states which evolve over time. Keeping track of SNN states can significantly increase data movement and storage requirements, potentially losing its advantages with respect to ANNs. This paper investigates the energy effects of having neuron states, and how it is influenced by the chosen mapping to realistic hardware architectures with advanced memory hierarchies. Therefore, we develop STEMS, a mapping design space exploration tool for SNNs. STEMS models SNN’s stateful behavior and explores intra-layer and inter-layer mapping optimizations to minimize data movement, considering both spatial and temporal SNN dimensions. Using STEMS, we show up to 12x reduction in off-chip data movement and 5x reduction in energy (on top of intra-layer optimizations), on two event-based vision SNN benchmarks. Finally, neuron states may not be needed for all SNN layers. By optimizing neuron states for one of our benchmarks, we show 20x reduction in neuron states and 1.4x better performance without accuracy loss.

arxiv情報

著者 Sherif Eissa,Sander Stuijk,Floran De Putter,Andrea Nardi-Dei,Federico Corradi,Henk Corporaal
発行日 2025-02-05 15:44:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.DC, cs.NE | STEM: Spatial-Temporal Mapping Tool For Spiking Neural Networks はコメントを受け付けていません