SuperMerge: An Approach For Gradient-Based Model Merging

要約

ChatGpt、Claude、Llamaなどの大規模な言語モデルは、巨大でモノリシックであり、数千のタスクを同時にサポートするための超大国を所有しています。
ただし、ハイスループットアプリケーションは、遅延とコストが低いため、タスク固有のモデルが小さいことが多いことがよくあります。
タスク固有のモデルを使用することの1つの課題は、既存のタスク用にモデルが既に展開されている後に、新しいタスクを解決するための漸進的な必要性です。
簡単なソリューションでは、既存のタスクと新しいタスクの両方に対してモデルを再度微調整する必要があります。これは、計算的に高価で時間がかかります。
この問題に対処するために、SuperMergeと呼ばれるモデルマージベースのアプローチを提案します。
SuperMergeは、既存のタスクと新しいタスクでトレーニングされたいくつかの微調整されたモデルを体系的にマージするグラデーションベースの方法です。
SuperMergeは軽量で高速になるように設計されており、マージされたモデルは、すべてのタスクで完全に微調整されたモデルと同様のパフォーマンスを実現します。
さらに、マージモデルのパフォーマンスを犠牲にすることなく、ピーク空間要件を減らすために、階層モデルの合併戦略を提案しました。
スーパーマージは、一般的な自然言語処理とコンピュータービジョンタスクに関する既存のモデルの融合方法を上回ることを実験的に実証します。

要約(オリジナル)

Large language models, such as ChatGPT, Claude, or LLaMA, are gigantic, monolithic, and possess the superpower to simultaneously support thousands of tasks. However, high-throughput applications often prefer smaller task-specific models because of their lower latency and cost. One challenge of using task-specific models is the incremental need for solving newer tasks after the model is already deployed for existing tasks. A straightforward solution requires fine-tuning the model again for both existing and new tasks, which is computationally expensive and time-consuming. To address this issue, we propose a model merging based approach called SUPERMERGE. SUPERMERGE is a gradient-based method to systematically merge several fine-tuned models trained on existing and new tasks. SUPERMERGE is designed to be lightweight and fast, and the merged model achieves similar performance to fully fine-tuned models on all tasks. Furthermore, we proposed a hierarchical model merging strategy to reduce the peak space requirement without sacrificing the performance of the merged model. We experimentally demonstrate that SUPERMERGE outperforms existing model merging methods on common natural language processing and computer vision tasks.

arxiv情報

著者 Haoyu Yang,Zheng Zhang,Saket Sathe
発行日 2025-02-14 17:40:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | SuperMerge: An Approach For Gradient-Based Model Merging はコメントを受け付けていません

Evaluating the Meta- and Object-Level Reasoning of Large Language Models for Question Answering

要約

大規模な言語モデル(LLM)は自然言語のタスクに優れていますが、複雑でマルチステップの推論を必要とする問題応答(QA)タスクで課題に直面しています。
これらのタスクのいくつかに必要な推論の種類の概要を説明し、メタレベルの推論(高レベルの戦略的推論または計画に似ています)とオブジェクトレベルの推論(数学的推論などの低レベルのタスクで具体化されています。
)。
メタレベルの推論とオブジェクトレベルの推論の要件を備えた新しいデータセットであるフランクリンが導入され、他の3つのデータセットとともに使用され、複数の推論の必要な質問に答える質問で4つのLLMを評価します。
人間の注釈研究の結果は、LLMが高頻度でメタレベルの推論を示していることを示唆していますが、使用されるデータセットの一部のオブジェクトレベルの推論タスクと闘っています。
さらに、LLMSは、Franklin Datasetの質問に必要なオブジェクトレベルの推論が挑戦的であることを示唆していますが、メタレベルの推論要件に関して強力なパフォーマンスを示しています。

要約(オリジナル)

Large Language Models (LLMs) excel in natural language tasks but still face challenges in Question Answering (QA) tasks requiring complex, multi-step reasoning. We outline the types of reasoning required in some of these tasks, and reframe them in terms of meta-level reasoning (akin to high-level strategic reasoning or planning) and object-level reasoning (embodied in lower-level tasks such as mathematical reasoning). Franklin, a novel dataset with requirements of meta- and object-level reasoning, is introduced and used along with three other datasets to evaluate four LLMs at question answering tasks requiring multiple steps of reasoning. Results from human annotation studies suggest LLMs demonstrate meta-level reasoning with high frequency, but struggle with object-level reasoning tasks in some of the datasets used. Additionally, evidence suggests that LLMs find the object-level reasoning required for the questions in the Franklin dataset challenging, yet they do exhibit strong performance with respect to the meta-level reasoning requirements.

arxiv情報

著者 Nick Ferguson,Liane Guillou,Alan Bundy,Kwabena Nuamah
発行日 2025-02-14 17:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Evaluating the Meta- and Object-Level Reasoning of Large Language Models for Question Answering はコメントを受け付けていません

STAR: Spectral Truncation and Rescale for Model Merging

要約

モデルのマージは、さらに微調整することなく、いくつかの前提条件モデルからマルチタスクモデルを取得する効率的な方法であり、自然言語処理(NLP)を含むさまざまなドメインで注目を集めています。
効率にもかかわらず、モデルの合併における重要な課題は、モデルの数が増えるにつれて、タスクのパフォーマンスの一見避けられないほどの減少です。
この論文では、$ \ mathbf {s} $ pectral $ \ mathbf {t} $ runcation $ \ mathbf {a} $ nd $ $ \ mathbf {r} $ escale(星)を緩和することを目的としています。
‘それぞれのスペクトルスペースに小さなコンポーネントを切り捨てることにより、元のマトリックスの核基準を保持するための自動パラメーターの再スケーリングスキームが続きます。
STARは、元のトレーニングデータに関する追加の推論を必要とせず、ハイパーパラマターの選択に堅牢です。
多様なNLPタスクに対する大規模なモデルのマージケースを通じて、星の有効性を実証します。
具体的には、Starはさまざまなモデルサイズで堅牢に動作し、Flan-T5で12モデルをマージすると、ベースラインを4.2 $ \%$よりも優れています。
私たちのコードは、https://github.com/ibm/starで公開されています。

要約(オリジナル)

Model merging is an efficient way of obtaining a multi-task model from several pretrained models without further fine-tuning, and it has gained attention in various domains, including natural language processing (NLP). Despite the efficiency, a key challenge in model merging is the seemingly inevitable decrease in task performance as the number of models increases. In this paper, we propose $\mathbf{S}$pectral $\mathbf{T}$runcation $\mathbf{A}$nd $\mathbf{R}$escale (STAR) that aims at mitigating “merging conflicts” by truncating small components in the respective spectral spaces, which is followed by an automatic parameter rescaling scheme to retain the nuclear norm of the original matrix. STAR requires no additional inference on original training data and is robust to hyperparamater choice. We demonstrate the effectiveness of STAR through extensive model merging cases on diverse NLP tasks. Specifically, STAR works robustly across varying model sizes, and can outperform baselines by 4.2$\%$ when merging 12 models on Flan-T5. Our code is publicly available at https://github.com/IBM/STAR.

arxiv情報

著者 Yu-Ang Lee,Ching-Yun Ko,Tejaswini Pedapati,I-Hsin Chung,Mi-Yen Yeh,Pin-Yu Chen
発行日 2025-02-14 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | STAR: Spectral Truncation and Rescale for Model Merging はコメントを受け付けていません

MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs

要約

大規模な言語モデル(LLMS)は、高精度で算術的な単語の問題を解決できますが、より複雑な問題にどれだけよく一般化するかについてはほとんど知られていません。
(i)利用可能な評価データの多くは、トレーニング中に最も有能なモデルですでに見られているため、(ii)既存のベンチマークは、問題の証明がさまざまな方法で任意に複雑である可能性があるため、既存のベンチマークを把握していないため、研究が困難です。
この論文では、Mathgapと呼ばれる任意の複雑な算術証明の問題に関するLLMを評価するためのデータ生成フレームワークを紹介します。
Mathgapは、算術的な証明構造に関する仕様に従って問題の声明と考え方の推論の痕跡を生成し、樹木の複雑さに関する容易な一般化に関する体系的な研究を可能にします。
Mathgapを使用すると、LLMSは、証明がより深く、より広くなるにつれて、パフォーマンスの大幅な減少を示していることがわかります。
この効果は、複雑で非線形の証明構造でより顕著であり、最も有能なモデルでも挑戦的です。
モデルは、文の順序付けの単純な変更にも敏感です。
しかし、彼らはいくつかの複雑な問題を解決することができ、推論の一般化はうるさいことを示唆しています。

要約(オリジナル)

Large language models (LLMs) can solve arithmetic word problems with high accuracy, but little is known about how well they generalize to more complex problems. This is difficult to study, as (i) much of the available evaluation data has already been seen by the most capable models during training, and (ii) existing benchmarks do not capture how problem proofs may be arbitrarily complex in various ways. In this paper, we present a data-generation framework for evaluating LLMs on problems with arbitrarily complex arithmetic proofs, called MathGAP. MathGAP generates problem statements and chain-of-thought reasoning traces according to specifications about their arithmetic proof structure, enabling systematic studies on easy-to-hard generalization with respect to complexity of proof trees. Using MathGAP, we find that LLMs show a significant decrease in performance as proofs get deeper and wider. This effect is more pronounced in complex, nonlinear proof structures, which are challenging even for the most capable models. The models are also sensitive to simple changes in sentence ordering. However, they remain capable of solving some complex problems, suggesting that reasoning generalization is noisy.

arxiv情報

著者 Andreas Opedal,Haruki Shirakami,Bernhard Schölkopf,Abulhair Saparov,Mrinmaya Sachan
発行日 2025-02-14 18:15:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs はコメントを受け付けていません

The Graph’s Apprentice: Teaching an LLM Low Level Knowledge for Circuit Quality Estimation

要約

ロジック合成は、ハードウェア説明言語(HDL)設計を最適化されたネットリストに変換することを担当する回路設計プロセスの重要な段階です。
ただし、従来の論理合成方法は計算集中的であり、チップ設計の改良における反復的な使用を制限しています。
大規模な言語モデル(LLM)、特にプログラミング言語で微調整された言語モデル(LLMS)の最近の進歩は、有望な代替案を提示します。
この作業は、HDLコードから直接回路の品質を推定するように訓練された予測因子ネットワークでLLMを増強することを提案しています。
パフォーマンスを向上させるために、ルックアップテーブル(LUT)グラフでトレーニングされたグラフニューラルネットワーク(GNNS)の埋め込みを使用してモデルを正規化し、それによって下位レベルの回路の洞察を組み込んでいます。
提案された方法は、HDLコードの品質に関する即時フィードバックを提供しながら、既存のグラフベースのRTLレベルの推定技術と比較して優れたパフォーマンスを示しています。

要約(オリジナル)

Logic synthesis is a crucial phase in the circuit design process, responsible for transforming hardware description language (HDL) designs into optimized netlists. However, traditional logic synthesis methods are computationally intensive, restricting their iterative use in refining chip designs. Recent advancements in large language models (LLMs), particularly those fine-tuned on programming languages, present a promising alternative. This work proposes augmenting LLMs with predictor networks trained to estimate circuit quality directly from HDL code. To enhance performance, the model is regularized using embeddings from graph neural networks (GNNs) trained on Look-Up Table (LUT) graphs, thereby incorporating lower-level circuit insights. The proposed method demonstrates superior performance compared to existing graph-based RTL-level estimation techniques on the established benchmark OpenABCD, while providing instant feedback on HDL code quality.

arxiv情報

著者 Reza Moravej,Saurabh Bodhe,Zhanguang Zhang,Didier Chetelat,Dimitrios Tsaras,Yingxue Zhang,Hui-Ling Zhen,Jianye Hao,Mingxuan Yuan
発行日 2025-02-14 18:35:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.CL, cs.LG | The Graph’s Apprentice: Teaching an LLM Low Level Knowledge for Circuit Quality Estimation はコメントを受け付けていません

BeamDojo: Learning Agile Humanoid Locomotion on Sparse Footholds

要約

まばらな足場で危険な地形を横断することは、ヒューマノイドロボットに大きな課題をもたらし、正確な足の配置と安定した移動を必要とします。
四足動物ロボット向けに設計された既存のアプローチは、足の形状と不安定な形態の違いによりヒューマノイドロボットに一般化できないことがよくありますが、ヒューマノイド運動のための学習ベースのアプローチは、毛の毛様式の報酬信号と非効率的な学習プロセスのために、複雑な地形の大きな課題に直面しています。
これらの課題に対処するために、スパースの足場でアジャイルヒューマノイド移動を可能にするために設計された強化学習(RL)フレームワークであるBeam​​dojoを紹介します。
Beamdojoは、ポリゴンの足に合わせたサンプリングベースの足場報酬を導入することから始まり、密な移動報酬とまばらな足場報酬の間の学習プロセスのバランスをとる二重批評家とともに始めます。
十分なトレイルアンドエラー探査を促進するために、Beamdojoには2段階のRLアプローチが組み込まれています。最初の段階では、タスク地形の知覚的観測を提供しながら、フラット地形でヒューマノイドをトレーニングすることで地形のダイナミクスをリラックスさせ、第2段階は微調整します。
実際のタスク地形に関するポリシー。
さらに、現実世界の展開を可能にするために、オンボードLIDARベースの標高マップを実装します。
広範なシミュレーションと現実世界の実験は、Beamdojoがシミュレーションで効率的な学習を達成し、現実世界のまばらな足場に正確な足を配置することでアジャイルな移動を可能にし、重要な外乱の下でも高い成功率を維持することを示しています。

要約(オリジナル)

Traversing risky terrains with sparse footholds poses a significant challenge for humanoid robots, requiring precise foot placements and stable locomotion. Existing approaches designed for quadrupedal robots often fail to generalize to humanoid robots due to differences in foot geometry and unstable morphology, while learning-based approaches for humanoid locomotion still face great challenges on complex terrains due to sparse foothold reward signals and inefficient learning processes. To address these challenges, we introduce BeamDojo, a reinforcement learning (RL) framework designed for enabling agile humanoid locomotion on sparse footholds. BeamDojo begins by introducing a sampling-based foothold reward tailored for polygonal feet, along with a double critic to balancing the learning process between dense locomotion rewards and sparse foothold rewards. To encourage sufficient trail-and-error exploration, BeamDojo incorporates a two-stage RL approach: the first stage relaxes the terrain dynamics by training the humanoid on flat terrain while providing it with task terrain perceptive observations, and the second stage fine-tunes the policy on the actual task terrain. Moreover, we implement a onboard LiDAR-based elevation map to enable real-world deployment. Extensive simulation and real-world experiments demonstrate that BeamDojo achieves efficient learning in simulation and enables agile locomotion with precise foot placement on sparse footholds in the real world, maintaining a high success rate even under significant external disturbances.

arxiv情報

著者 Huayi Wang,Zirui Wang,Junli Ren,Qingwei Ben,Tao Huang,Weinan Zhang,Jiangmiao Pang
発行日 2025-02-14 18:42:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | BeamDojo: Learning Agile Humanoid Locomotion on Sparse Footholds はコメントを受け付けていません

OWLS: Scaling Laws for Multilingual Speech Recognition and Translation Models

要約

ニューラルスケーリング法則は、堅牢なシーケンス処理アーキテクチャを設計するための貴重な洞察を提供します。
これらの法律は他のモダリティで広範囲に特徴付けられていますが、スピーチの行動は比較的目立たないままです。
この作業では、0.25Bから18Bパラメーターに及ぶ多言語の音声認識と翻訳モデルのオープンアクセスの再現可能なスイートであるOwlsを紹介します。
Owlsは、150の言語で最大36万時間のパブリック音声データを活用して、多言語の音声タスクにおける各影響パフォーマンスのデータ、モデル化、および計算方法を体系的に調査することができます。
フクロウを使用して、神経スケーリング法則を導き出し、スケーリング時に最終的なパフォーマンスを確実に予測する方法を示します。
私たちの重要な調査結果の1つは、スケーリングが低リソース言語/方言のパフォーマンスを向上させ、バイアスを軽減し、音声技術のアクセシビリティを改善するのに役立つことです。
最後に、大規模な音声モデルで緊急能力を発見することにより、フクロウを使用して新しい研究の方向性を促進する方法を示します。
モデルチェックポイントは、https://huggingface.co/collections/espnet/owls-scaling-laws-for-sepeech-agecognition-and-translation-67AB7F991C194065F057CE8Dで将来の研究のためにリリースされます。

要約(オリジナル)

Neural scaling laws offer valuable insights for designing robust sequence processing architectures. While these laws have been extensively characterized in other modalities, their behavior in speech remains comparatively underexplored. In this work, we introduce OWLS, an open-access, reproducible suite of multilingual speech recognition and translation models spanning 0.25B to 18B parameters, with the 18B version being the largest speech model, to the best of our knowledge. OWLS leverages up to 360K hours of public speech data across 150 languages, enabling a systematic investigation into how data, model, and compute scaling each influence performance in multilingual speech tasks. We use OWLS to derive neural scaling laws, showing how final performance can be reliably predicted when scaling. One of our key findings is that scaling enhances performance on low-resource languages/dialects, helping to mitigate bias and improve the accessibility of speech technologies. Finally, we show how OWLS can be used to power new research directions by discovering emergent abilities in large-scale speech models. Model checkpoints will be released on https://huggingface.co/collections/espnet/owls-scaling-laws-for-speech-recognition-and-translation-67ab7f991c194065f057ce8d for future studies.

arxiv情報

著者 William Chen,Jinchuan Tian,Yifan Peng,Brian Yan,Chao-Han Huck Yang,Shinji Watanabe
発行日 2025-02-14 18:51:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS | OWLS: Scaling Laws for Multilingual Speech Recognition and Translation Models はコメントを受け付けていません

Representation and Interpretation in Artificial and Natural Computing

要約

人工コンピューティング機械は、人間によって主観的に解釈される客観的なプロセスを通じて表現を変換するため、機械とインタープリターは異なるエンティティですが、推定自然コンピューティングでは、両方のプロセスが同じエージェントによって実行されます。
表現を変換する方法またはプロセスは、ここで呼ばれます\ emph {コンピューティングのモード}。
デジタルコンピューターで使用されるモードはアルゴリズムのものですが、量子コンピューターや非共同コンピューティングの多様な形式など、他にもあります。
コンピューティング。
チューリングとは異なるコンピューティングの概念に基づくモードは、チューリングマシンが行っているものを超えて偉業を実行する可能性がありますが、モードは同じ種類ではなく、比較できませんでした。
コンピューティングのモードがアルゴリズムのモードよりも強力であるためには、効果的なアルゴリズムを欠く関数を計算する必要があり、教会の論文は保持されません。
ここでは、このような効果の仮説モードを使用した計算悪魔を含む思考実験が提示されています。
自然なコンピューティングがある場合、特性が現象学的経験に因果関係にある可能性のある自然コンピューティングのモードがあります。
それが意識の困難な問題を解決することでそれが来ることを発見するでしょう。
しかし、そのようなモードが存在しないことが判明した場合、自然なコンピューティングのようなものはなく、心は計算プロセスではありません。

要約(オリジナル)

Artificial computing machinery transforms representations through an objective process, to be interpreted subjectively by humans, so the machine and the interpreter are different entities, but in the putative natural computing both processes are performed by the same agent. The method or process that transforms a representation is called here \emph{the mode of computing}. The mode used by digital computers is the algorithmic one, but there are others, such as quantum computers and diverse forms of non-conventional computing, and there is an open-ended set of representational formats and modes that could be used in artificial and natural computing. A mode based on a notion of computing different from Turing’s may perform feats beyond what the Turing Machine does but the modes would not be of the same kind and could not be compared. For a mode of computing to be more powerful than the algorithmic one, it ought to compute functions lacking an effective algorithm, and Church Thesis would not hold. Here, a thought experiment including a computational demon using a hypothetical mode for such an effect is presented. If there is natural computing, there is a mode of natural computing whose properties may be causal to the phenomenological experience. Discovering it would come with solving the hard problem of consciousness; but if it turns out that such a mode does not exist, there is no such thing as natural computing, and the mind is not a computational process.

arxiv情報

著者 Luis A. Pineda
発行日 2025-02-14 18:57:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, F.0 | Representation and Interpretation in Artificial and Natural Computing はコメントを受け付けていません

Navigating Label Ambiguity for Facial Expression Recognition in the Wild

要約

表情認識(FER)は、表情の主観的な性質とノイズの多いサンプルによって引き起こされるあいまいさのラベルのため、依然として挑戦的な作業です。
さらに、現実世界のデータセットで一般的なクラスの不均衡は、さらに複雑になります。
多くの研究では印象的な改善が示されていますが、通常、これらの問題の1つのみに対処し、最適ではない結果につながります。
両方の課題に同時に取り組むために、実際の条件下で堅牢であるナビゲーションラベルAmviguity(NLA)と呼ばれる新しいフレームワークを提案します。
NLAの背後にある動機は、各反復で曖昧なサンプルを動的に推定および強調することで、モデルのバイアスを多数派クラスに削減することにより、ノイズとクラスの不均衡を軽減するのに役立つことです。
これを達成するために、NLAは2つの主要なコンポーネントで構成されています:ノイズ認識適応重み(NAW)と一貫性の正則化。
具体的には、NAWは、グラウンドトゥルースの中間予測スコアと最も近いネガティブの相関に基づいて、曖昧なサンプルに対してより大きな重要性を騒々しいサンプルに対してより大きな重要性を割り当て、ノイズの多いサンプルに対してより低いサンプルに割り当てます。
さらに、一貫した潜在分布を確保するために、正規化用語を組み込みます。
その結果、NLAにより、モデルは、主に少数派クラスに属するより挑戦的な曖昧なサンプルに徐々に焦点を当てることができます。
広範な実験は、NLAが全体的な精度と平均精度の両方で既存の方法よりも優れていることを示しており、ノイズとクラスの不均衡に対する堅牢性を確認しています。
私たちの知る限り、これは両方の問題に同時に対処する最初のフレームワークです。

要約(オリジナル)

Facial expression recognition (FER) remains a challenging task due to label ambiguity caused by the subjective nature of facial expressions and noisy samples. Additionally, class imbalance, which is common in real-world datasets, further complicates FER. Although many studies have shown impressive improvements, they typically address only one of these issues, leading to suboptimal results. To tackle both challenges simultaneously, we propose a novel framework called Navigating Label Ambiguity (NLA), which is robust under real-world conditions. The motivation behind NLA is that dynamically estimating and emphasizing ambiguous samples at each iteration helps mitigate noise and class imbalance by reducing the model’s bias toward majority classes. To achieve this, NLA consists of two main components: Noise-aware Adaptive Weighting (NAW) and consistency regularization. Specifically, NAW adaptively assigns higher importance to ambiguous samples and lower importance to noisy ones, based on the correlation between the intermediate prediction scores for the ground truth and the nearest negative. Moreover, we incorporate a regularization term to ensure consistent latent distributions. Consequently, NLA enables the model to progressively focus on more challenging ambiguous samples, which primarily belong to the minority class, in the later stages of training. Extensive experiments demonstrate that NLA outperforms existing methods in both overall and mean accuracy, confirming its robustness against noise and class imbalance. To the best of our knowledge, this is the first framework to address both problems simultaneously.

arxiv情報

著者 JunGyu Lee,Yeji Choi,Haksub Kim,Ig-Jae Kim,Gi Pyo Nam
発行日 2025-02-14 08:24:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Navigating Label Ambiguity for Facial Expression Recognition in the Wild はコメントを受け付けていません

Benchmarking Predictive Coding Networks — Made Simple

要約

この作業では、機械学習における予測コーディングネットワーク(PCN)の効率とスケーラビリティの問題に取り組みます。
そのために、パフォーマンスとシンプルさに焦点を当てたPCXと呼ばれるライブラリを提案し、それを使用して、コミュニティが実験に使用するための標準ベンチマークの大規模なセットを実装します。
フィールドのほとんどの作品が独自のタスクとアーキテクチャを提案しているため、互いに比較しないでください。小規模なタスク、シンプルで高速なオープンソースライブラリ、および包括的なベンチマークのセットに焦点を当て、これらすべての懸念に対処します。
次に、PCN用の既存のアルゴリズムの両方を使用して、バイオプリュージブルディープラーニングコミュニティで人気のある他の方法の適応を使用して、このようなベンチマークで広範なテストを実行します。
これにより、(i)より複雑なデータセットで、文献で一般的に使用されているよりもはるかに大きいテストアーキテクチャが可能になりました。
(ii)〜提供されたすべてのタスクとデータセットで、新しい最先端の結果に到達します。
(iii)〜PCNの現在の制限が何であるかを明確に強調し、重要な将来の研究の方向性を述べることができます。
フィールドの主要なオープンな問題の1つであるスケーラビリティに向けてコミュニティの努力を促進することを期待して、コード、テスト、ベンチマークをリリースします。
ライブラリへのリンク:https://github.com/liukidar/pcx

要約(オリジナル)

In this work, we tackle the problems of efficiency and scalability for predictive coding networks (PCNs) in machine learning. To do so, we propose a library, called PCX, that focuses on performance and simplicity, and use it to implement a large set of standard benchmarks for the community to use for their experiments. As most works in the field propose their own tasks and architectures, do not compare one against each other, and focus on small-scale tasks, a simple and fast open-source library and a comprehensive set of benchmarks would address all these concerns. Then, we perform extensive tests on such benchmarks using both existing algorithms for PCNs, as well as adaptations of other methods popular in the bio-plausible deep learning community. All this has allowed us to (i) test architectures much larger than commonly used in the literature, on more complex datasets; (ii)~reach new state-of-the-art results in all of the tasks and datasets provided; (iii)~clearly highlight what the current limitations of PCNs are, allowing us to state important future research directions. With the hope of galvanizing community efforts towards one of the main open problems in the field, scalability, we release code, tests, and benchmarks. Link to the library: https://github.com/liukidar/pcx

arxiv情報

著者 Luca Pinchetti,Chang Qi,Oleh Lokshyn,Gaspard Olivers,Cornelius Emde,Mufeng Tang,Amine M’Charrak,Simon Frieder,Bayar Menzat,Rafal Bogacz,Thomas Lukasiewicz,Tommaso Salvatori
発行日 2025-02-14 08:38:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, I.2.6 | Benchmarking Predictive Coding Networks — Made Simple はコメントを受け付けていません