Rate of Model Collapse in Recursive Training

要約

機械学習モデルから合成データを簡単に作成できるため、以前のモデルによって生成された合成データに基づいて新しいモデルをトレーニングできる可能性があります。
この再帰的なトレーニング プロセスにより、モデルの品質に対する長期的な影響に関する懸念が生じます。
モデルは前のラウンドで生成されたデータに基づいて再帰的にトレーニングされるため、人間が生成した元のデータのニュアンスを捉える能力が低下する可能性があります。
これは、\emph{モデルの崩壊} と呼ばれることがよくあります。
この研究では、再帰的トレーニング中の最尤 (ML または準 ML) 推定のもとで、よく研究された一部の分布族に対してモデルの崩壊がどのくらいの速さで起こるかを調べます。
驚くべきことに、離散分布やガウス分布などの基本的な分布であっても、モデル崩壊の正確な割合は不明です。
この研究では、これらの基本的な設定における崩壊速度を理論的に特徴付け、実験的評価でそれを補完します。
私たちの結果は、離散分布の場合、単語を忘れるまでの時間は、元のコーパスでの単語の出現回数にほぼ線形に依存し、ガウス モデルの場合、標準偏差は $n$ 回の反復でほぼゼロに減少することを示しています。
n$ は各反復のサンプル数です。
これらの発見は両方とも、少なくとも多くのサンプルを使用したほぼ ML 推定下のこれらの単純な分布では、モデルの忘却に長い時間がかかることを意味します。

要約(オリジナル)

Given the ease of creating synthetic data from machine learning models, new models can be potentially trained on synthetic data generated by previous models. This recursive training process raises concerns about the long-term impact on model quality. As models are recursively trained on generated data from previous rounds, their ability to capture the nuances of the original human-generated data may degrade. This is often referred to as \emph{model collapse}. In this work, we ask how fast model collapse occurs for some well-studied distribution families under maximum likelihood (ML or near ML) estimation during recursive training. Surprisingly, even for fundamental distributions such as discrete and Gaussian distributions, the exact rate of model collapse is unknown. In this work, we theoretically characterize the rate of collapse in these fundamental settings and complement it with experimental evaluations. Our results show that for discrete distributions, the time to forget a word is approximately linearly dependent on the number of times it occurred in the original corpus, and for Gaussian models, the standard deviation reduces to zero roughly at $n$ iterations, where $n$ is the number of samples at each iteration. Both of these findings imply that model forgetting, at least in these simple distributions under near ML estimation with many samples, takes a long time.

arxiv情報

著者 Ananda Theertha Suresh,Andrew Thangaraj,Aditya Nanda Kishore Khandavally
発行日 2024-12-23 15:21:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, stat.ML | コメントする

Sharp bounds on aggregate expert error

要約

ナイーブ ベイズ設定としても知られる、条件付きで独立した専門家からのバイナリ アドバイスを集約するという古典的な問題を再検討します。
私たちの関心のある量は、最適な決定ルールのエラー確率です。
対称的なエラー (感度 = 特異性) の場合、最適なエラー確率に対するかなり厳しい制限がわかっています。
一般的な非対称の場合、この量に関する自明でない推定値はわかりません。
私たちの貢献は、一般的なケースにおける最適なエラー確率の明確な上限と下限で構成されており、対称的な特殊なケースで最もよく知られている結果を回復し鮮明にします。
これは 2 つの製品分布間の合計変動距離を推定することと同等であることが判明したため、私たちの結果はこの重要かつ困難な問題にも関係します。

要約(オリジナル)

We revisit the classic problem of aggregating binary advice from conditionally independent experts, also known as the Naive Bayes setting. Our quantity of interest is the error probability of the optimal decision rule. In the case of symmetric errors (sensitivity = specificity), reasonably tight bounds on the optimal error probability are known. In the general asymmetric case, we are not aware of any nontrivial estimates on this quantity. Our contribution consists of sharp upper and lower bounds on the optimal error probability in the general case, which recover and sharpen the best known results in the symmetric special case. Since this turns out to be equivalent to estimating the total variation distance between two product distributions, our results also have bearing on this important and challenging problem.

arxiv情報

著者 Aryeh Kontorovich,Ariel Avital
発行日 2024-12-23 15:25:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.PR, math.ST, stat.ML, stat.TH | コメントする

Benchmarking Generative AI Models for Deep Learning Test Input Generation

要約

テスト入力ジェネレーター (TIG) は、ディープラーニング (DL) 画像分類器がトレーニング セットやテスト セットを超えて入力に対して正しい予測を提供する能力を評価するために重要です。
生成 AI (GenAI) モデルの最近の進歩により、合成画像を作成および操作するための強力なツールになりましたが、これらの進歩は、トレーニングの複雑さとリソース要求の増大も意味します。
この研究では、さまざまな GenAI モデルをベンチマークして TIG と組み合わせ、ドメインの有効性とラベルの保存の観点から、その有効性、効率、生成されたテスト画像の品質を評価します。
私たちは、3 つの異なる GenAI アーキテクチャ (VAE、GAN、拡散モデル)、複雑さが増す 5 つの分類タスク、および 364 件の人による評価を含む実証研究を実施します。
私たちの結果は、MNIST のようなそれほど複雑でないデータセットには、VAE などのより単純なアーキテクチャで十分であることを示しています。
ただし、ImageNet などの機能豊富なデータセットを扱う場合、拡散モデルなどのより洗練されたアーキテクチャは、誤分類を誘発する有効な入力をより多く生成することで優れたパフォーマンスを実現します。

要約(オリジナル)

Test Input Generators (TIGs) are crucial to assess the ability of Deep Learning (DL) image classifiers to provide correct predictions for inputs beyond their training and test sets. Recent advancements in Generative AI (GenAI) models have made them a powerful tool for creating and manipulating synthetic images, although these advancements also imply increased complexity and resource demands for training. In this work, we benchmark and combine different GenAI models with TIGs, assessing their effectiveness, efficiency, and quality of the generated test images, in terms of domain validity and label preservation. We conduct an empirical study involving three different GenAI architectures (VAEs, GANs, Diffusion Models), five classification tasks of increasing complexity, and 364 human evaluations. Our results show that simpler architectures, such as VAEs, are sufficient for less complex datasets like MNIST. However, when dealing with feature-rich datasets, such as ImageNet, more sophisticated architectures like Diffusion Models achieve superior performance by generating a higher number of valid, misclassification-inducing inputs.

arxiv情報

著者 Maryam,Matteo Biagiola,Andrea Stocco,Vincenzo Riccio
発行日 2024-12-23 15:30:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE, D.2.5 | コメントする

COBRA: COmBinatorial Retrieval Augmentation for Few-Shot Learning

要約

取得拡張、つまり大規模な補助プールから追加データを取得する手法は、低データ領域でのモデルのパフォーマンスを向上させるための効果的な手法として浮上しています。
数ショット学習。
従来のアプローチでは、データ選択に最近傍ベースの戦略のみが採用されており、ターゲット タスク内のインスタンスとの類似性が高い補助サンプルを取得していました。
ただし、これらのアプローチには多様性の概念が組み込まれていないため、冗長性の高いサンプルが選択される傾向があります。
私たちの研究では、事前の検索拡張少数ショット学習設定で使用されたデータ選択戦略が、組み合わせ相互情報量 (CMI) 測定として知られる関数のクラスを使用して一般化できることを最初に示します。
次に、ターゲット データセットに対する多様性と類似性の両方を考慮する代替 CMI 尺度を採用する COBRA (COmBinatorial Retrieval Augmentation) を提案します。
COBRA は、LAION-2B からサンプルを取得するために使用された場合、画像分類タスクおよび少数ショット学習技術にわたって以前の取得アプローチよりも一貫して優れたパフォーマンスを発揮します。
COBRA は、ダウンストリーム モデルのパフォーマンスを大幅に向上させながら、取得コストに無視できる計算オーバーヘッドを導入します。

要約(オリジナル)

Retrieval augmentation, the practice of retrieving additional data from large auxiliary pools, has emerged as an effective technique for enhancing model performance in the low-data regime, e.g. few-shot learning. Prior approaches have employed only nearest-neighbor based strategies for data selection, which retrieve auxiliary samples with high similarity to instances in the target task. However, these approaches are prone to selecting highly redundant samples, since they fail to incorporate any notion of diversity. In our work, we first demonstrate that data selection strategies used in prior retrieval-augmented few-shot learning settings can be generalized using a class of functions known as Combinatorial Mutual Information (CMI) measures. We then propose COBRA (COmBinatorial Retrieval Augmentation), which employs an alternative CMI measure that considers both diversity and similarity to a target dataset. COBRA consistently outperforms previous retrieval approaches across image classification tasks and few-shot learning techniques when used to retrieve samples from LAION-2B. COBRA introduces negligible computational overhead to the cost of retrieval while providing significant gains in downstream model performance.

arxiv情報

著者 Arnav M. Das,Gantavya Bhatt,Lilly Kumari,Sahil Verma,Jeff Bilmes
発行日 2024-12-23 16:10:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Global Optimization with A Power-Transformed Objective and Gaussian Smoothing

要約

我々は、大域的最適化問題を 2 つのステップで解決する新しい方法を提案します: (1) 必ずしも微分可能ではない目的関数 $f$ に対して (指数) べき乗 $N$ 変換を実行し、$f_N$ を取得します。(2) 最適化します。
確率的近似を使用してガウス平滑化された $f_N$。
$f$ の穏やかな条件下では、任意の $\delta>0$ に対して、十分に大きな検出力 $N_\delta$ があれば、この方法は $f$’ の $\delta$ 近傍の解に収束することを証明します。
s グローバル最適点。
収束率は $O(d^2\sigma^4\varepsilon^{-2})$ で、$\sigma$ が $ に含まれるように事前に選択されている場合、標準および単一ループのホモトピー法の両方よりも高速です。
(0,1)$。
実行された実験のほとんどにおいて、私たちの方法は、同様に平滑化技術を適用する他のアルゴリズムよりも優れたソリューションを生成します。

要約(オリジナル)

We propose a novel method that solves global optimization problems in two steps: (1) perform a (exponential) power-$N$ transformation to the not-necessarily differentiable objective function $f$ and get $f_N$, and (2) optimize the Gaussian-smoothed $f_N$ with stochastic approximations. Under mild conditions on $f$, for any $\delta>0$, we prove that with a sufficiently large power $N_\delta$, this method converges to a solution in the $\delta$-neighborhood of $f$’s global optimum point. The convergence rate is $O(d^2\sigma^4\varepsilon^{-2})$, which is faster than both the standard and single-loop homotopy methods if $\sigma$ is pre-selected to be in $(0,1)$. In most of the experiments performed, our method produces better solutions than other algorithms that also apply smoothing techniques.

arxiv情報

著者 Chen Xu
発行日 2024-12-23 16:15:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 65K05, 68T07, 68W40, 90C30, cs.LG, math.OC | コメントする

Variational Graph Generator for Multi-View Graph Clustering

要約

グラフ構造情報を含むマルチビュー データが急増しているため、マルチビュー グラフ クラスタリング (MGC) 手法の研究が増えています。
MGC の重要な点は、複数のビューの特徴とグラフにおけるビュー固有の情報とビュー共通の情報をより適切に利用することです。
しかし、既存の作品には、複数のグラフにわたるコンセンサスグラフ情報とビュー固有の特徴情報を同時に利用できないという固有の制限があります。
この問題に対処するために、マルチビュー グラフ クラスタリングのための変分グラフ ジェネレーター (VGMGC) を提案します。
具体的には、複数のグラフ間で共通する情報を抽出するための新しい変分グラフ生成器を提案する。
このジェネレーターは、複数のグラフに対する先験的な仮定に基づいて、信頼性の高い変分コンセンサス グラフを推論します。
次に、クラスタリングに必要なグラフ埋め込みを学習するために、マルチビュー クラスタリング目標と組み合わせたシンプルかつ効果的なグラフ エンコーダが提示されます。これは、推論されたビュー共通グラフとビュー固有のグラフを特徴とともに埋め込みます。
最後に、理論的な結果は、情報ボトルネック原理を使用して推定されたコンセンサス グラフの不確実性を分析することにより、VGMGC の合理性を示しています。広範な実験により、SOTA よりも優れた VGMGC のパフォーマンスが実証されています。
ソース コードは https://github.com/cjpcool/VGMGC で公開されています。

要約(オリジナル)

Multi-view graph clustering (MGC) methods are increasingly being studied due to the explosion of multi-view data with graph structural information. The critical point of MGC is to better utilize view-specific and view-common information in features and graphs of multiple views. However, existing works have an inherent limitation that they are unable to concurrently utilize the consensus graph information across multiple graphs and the view-specific feature information. To address this issue, we propose Variational Graph Generator for Multi-View Graph Clustering (VGMGC). Specifically, a novel variational graph generator is proposed to extract common information among multiple graphs. This generator infers a reliable variational consensus graph based on a priori assumption over multiple graphs. Then a simple yet effective graph encoder in conjunction with the multi-view clustering objective is presented to learn the desired graph embeddings for clustering, which embeds the inferred view-common graph and view-specific graphs together with features. Finally, theoretical results illustrate the rationality of the VGMGC by analyzing the uncertainty of the inferred consensus graph with the information bottleneck principle.Extensive experiments demonstrate the superior performance of our VGMGC over SOTAs. The source code is publicly available at https://github.com/cjpcool/VGMGC.

arxiv情報

著者 Jianpeng Chen,Yawen Ling,Jie Xu,Yazhou Ren,Shudong Huang,Xiaorong Pu,Zhifeng Hao,Philip S. Yu,Lifang He
発行日 2024-12-23 16:29:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Fast Causal Discovery by Approximate Kernel-based Generalized Score Functions with Linear Computational Complexity

要約

スコアベースの因果関係発見手法は、候補グラフを評価し、最も高いスコアを持つグラフを選択することにより、因果関係を効果的に特定できます。
よく使用されるスコアのクラスの 1 つは、カーネルベースの一般化スコア関数です。これは、因果関係のメカニズムやデータ分布に関する仮定を回避するため、幅広いシナリオに適応でき、実際にうまく機能します。
これらの利点にもかかわらず、カーネルベースの一般化スコア関数は、時間と空間の点で深刻な計算上の課題を引き起こし、時間計算量は $\mathcal{O}(n^3)$ 、メモリ計算量は $\mathcal{O}(n^
2)$、$n$ はサンプルサイズです。
この論文では、低ランク技術を使用し、必要な複雑な複合行列演算を処理するためのルールのセットを設計することにより、 $\mathcal{O}(n)$ の時間と空間の複雑さを備えた近似カーネルベースの一般化スコア関数を提案します。
スコアを計算するだけでなく、さまざまなデータ型を効率的に処理できるようにさまざまなデータ型のサンプリング アルゴリズムを開発します。
合成データと実世界データの両方に対する当社の大規模な因果関係発見実験は、最先端の方法と比較して、当社の方法が計算コストを大幅に削減できるだけでなく、特に大規模なデータセットにおいて同等の精度を達成できることを実証しています。

要約(オリジナル)

Score-based causal discovery methods can effectively identify causal relationships by evaluating candidate graphs and selecting the one with the highest score. One popular class of scores is kernel-based generalized score functions, which can adapt to a wide range of scenarios and work well in practice because they circumvent assumptions about causal mechanisms and data distributions. Despite these advantages, kernel-based generalized score functions pose serious computational challenges in time and space, with a time complexity of $\mathcal{O}(n^3)$ and a memory complexity of $\mathcal{O}(n^2)$, where $n$ is the sample size. In this paper, we propose an approximate kernel-based generalized score function with $\mathcal{O}(n)$ time and space complexities by using low-rank technique and designing a set of rules to handle the complex composite matrix operations required to calculate the score, as well as developing sampling algorithms for different data types to benefit the handling of diverse data types efficiently. Our extensive causal discovery experiments on both synthetic and real-world data demonstrate that compared to the state-of-the-art method, our method can not only significantly reduce computational costs, but also achieve comparable accuracy, especially for large datasets.

arxiv情報

著者 Yixin Ren,Haocheng Zhang,Yewei Xia,Hao Zhang,Jihong Guan,Shuigeng Zhou
発行日 2024-12-23 16:51:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | コメントする

Asynchronous Federated Learning: A Scalable Approach for Decentralized Machine Learning

要約

Federated Learning (FL) は、分散型機械学習の強力なパラダイムとして登場し、生データを共有することなく、多様なクライアント間での共同モデル トレーニングを可能にします。
ただし、従来の FL アプローチは、同期クライアント更新に依存するため、スケーラビリティと効率の制限に直面することが多く、特に異種環境や動的な環境では、大幅な遅延や通信オーバーヘッドの増加が発生する可能性があります。
この論文では、これらの課題に対処するために、クライアントがグローバル モデルを独立して非同期で更新できるようにする非同期フェデレーテッド ラーニング (AFL) アルゴリズムを提案します。
私たちの主な貢献には、クライアントの遅延やモデルの古さがある場合の AFL の包括的な収束分析が含まれます。
マルチンゲール差分数列理論と分散限界を活用することで、非同期更新にもかかわらず堅牢な収束を保証します。
強く凸の局所目的関数を仮定して、ランダムなクライアント サンプリングの下で​​勾配分散の限界を確立し、収束に対するクライアントの遅延の影響を定量化する再帰式を導出します。
さらに、CMIP6 気候データセット上で分散型長短期記憶 (LSTM) ベースの深層学習モデルをトレーニングし、非 IID および地理的に分散したデータを効果的に処理することにより、AFL の実用的な適用可能性を実証します。
提案された AFL アルゴリズムは、グローバル同期による非効率性やクライアント ドリフトの影響など、従来の FL 方式の主要な制限に対処します。
異種クライアントが混在し、動的なネットワーク条件が存在する現実世界の設定において、スケーラビリティ、堅牢性、効率性が向上します。
私たちの結果は、AFL が分散学習システム、特にリソースに制約のある環境における大規模なプライバシー保護アプリケーションの進歩を促進する可能性を強調しています。

要約(オリジナル)

Federated Learning (FL) has emerged as a powerful paradigm for decentralized machine learning, enabling collaborative model training across diverse clients without sharing raw data. However, traditional FL approaches often face limitations in scalability and efficiency due to their reliance on synchronous client updates, which can result in significant delays and increased communication overhead, particularly in heterogeneous and dynamic environments. To address these challenges in this paper, we propose an Asynchronous Federated Learning (AFL) algorithm, which allows clients to update the global model independently and asynchronously. Our key contributions include a comprehensive convergence analysis of AFL in the presence of client delays and model staleness. By leveraging martingale difference sequence theory and variance bounds, we ensure robust convergence despite asynchronous updates. Assuming strongly convex local objective functions, we establish bounds on gradient variance under random client sampling and derive a recursion formula quantifying the impact of client delays on convergence. Furthermore, we demonstrate the practical applicability of AFL by training a decentralized Long Short-Term Memory (LSTM)-based deep learning model on the CMIP6 climate dataset, effectively handling non-IID and geographically distributed data. The proposed AFL algorithm addresses key limitations of traditional FL methods, such as inefficiency due to global synchronization and susceptibility to client drift. It enhances scalability, robustness, and efficiency in real-world settings with heterogeneous client populations and dynamic network conditions. Our results underscore the potential of AFL to drive advancements in distributed learning systems, particularly for large-scale, privacy-preserving applications in resource-constrained environments.

arxiv情報

著者 Ali Forootani,Raffaele Iervolino
発行日 2024-12-23 17:11:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY | コメントする

LASE: Learned Adjacency Spectral Embeddings

要約

私たちは、グラフ入力からノード隣接スペクトル埋め込み (ASE) を学習するためのニューラル アーキテクチャの原則的な設計を提案しました。
勾配降下法 (GD) 法を導入し、アルゴリズム展開の原理を活用することで、各 GD 反復を切り捨て、ASE を近似するようにトレーニングされたグラフ ニューラル ネットワーク (GNN) の層として再解釈します。
したがって、結果の埋め込みとパラメトリック モデルを学習済み ASE (LASE) と呼びます。これは、解釈可能で、パラメーター効率が高く、観測されていないエッジを持つ入力に対して堅牢で、推論中に制御可能な複雑さを提供します。
LASE レイヤーは、グラフ畳み込みネットワーク (GCN) と完全接続グラフ アテンション ネットワーク (GAT) モジュールを組み合わせています。これは、GCN ベースのローカル集約だけでは、求められるグラフ固有ベクトルを表現するには不十分であるため、直感的に快適です。
我々は、アンロールド LASE アーキテクチャに対して、好ましい近似誤差と計算のトレードオフを提供するいくつかの改良点 (GAT モジュールのスパース アテンションや層ごとのパラメーターの分離など) を提案します。
科学計算ライブラリからの高度に最適化された固有分解ルーチンよりも優れたパフォーマンスを発揮します。
LASE はそのパラメータおよびグラフ入力に関して微分可能な関数であるため、より大規模な (半) 教師ありグラフ表現学習パイプライン内のトレーニング可能なモジュールとして LASE をシームレスに統合できます。
結果として得られるエンドツーエンド システムは、教師ありリンク予測タスクとノード分類タスクで競争力のあるパフォーマンスを示す「識別 ASE」を効果的に学習し、GNN に開ループが備わっている場合でも、GNN を上回るパフォーマンスを発揮します。これは、タスクに依存せず、事前に計算されたスペクトル位置を意味します。
エンコーディング。

要約(オリジナル)

We put forth a principled design of a neural architecture to learn nodal Adjacency Spectral Embeddings (ASE) from graph inputs. By bringing to bear the gradient descent (GD) method and leveraging the principle of algorithm unrolling, we truncate and re-interpret each GD iteration as a layer in a graph neural network (GNN) that is trained to approximate the ASE. Accordingly, we call the resulting embeddings and our parametric model Learned ASE (LASE), which is interpretable, parameter efficient, robust to inputs with unobserved edges, and offers controllable complexity during inference. LASE layers combine Graph Convolutional Network (GCN) and fully-connected Graph Attention Network (GAT) modules, which is intuitively pleasing since GCN-based local aggregations alone are insufficient to express the sought graph eigenvectors. We propose several refinements to the unrolled LASE architecture (such as sparse attention in the GAT module and decoupled layerwise parameters) that offer favorable approximation error versus computation tradeoffs; even outperforming heavily-optimized eigendecomposition routines from scientific computing libraries. Because LASE is a differentiable function with respect to its parameters as well as its graph input, we can seamlessly integrate it as a trainable module within a larger (semi-)supervised graph representation learning pipeline. The resulting end-to-end system effectively learns “discriminative ASEs” that exhibit competitive performance in supervised link prediction and node classification tasks, outperforming a GNN even when the latter is endowed with open loop, meaning task-agnostic, precomputed spectral positional encodings.

arxiv情報

著者 Sofía Pérez Casulo,Marcelo Fiori,Federico Larroca,Gonzalo Mateos
発行日 2024-12-23 17:35:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | コメントする

Contextual Backpropagation Loops: Amplifying Deep Reasoning with Iterative Top-Down Feedback

要約

ディープ ニューラル ネットワークは通常、推論に単一のフォワード パスに依存するため、あいまいな入力を解決する能力が制限される可能性があります。
トップダウンのフィードバックを組み込んで中間表現を洗練する反復メカニズムとしてコンテキスト逆伝播ループ (CBL) を導入し、それによって精度と堅牢性を向上させます。
この繰り返されるプロセスは、人間が文脈上の手がかりを使用して認識を確認し、再確認することによって、日常生活の中でどのように感覚情報を継続的に再解釈するかを反映しています。
私たちの結果は、CBL がそのような文脈上の推論を最新の深層学習アーキテクチャに組み込むための簡単かつ強力な方法を提供できることを示唆しています。

要約(オリジナル)

Deep neural networks typically rely on a single forward pass for inference, which can limit their capacity to resolve ambiguous inputs. We introduce Contextual Backpropagation Loops (CBLs) as an iterative mechanism that incorporates top-down feedback to refine intermediate representations, thereby improving accuracy and robustness. This repeated process mirrors how humans continuously re-interpret sensory information in daily life-by checking and re-checking our perceptions using contextual cues. Our results suggest that CBLs can offer a straightforward yet powerful way to incorporate such contextual reasoning in modern deep learning architectures.

arxiv情報

著者 Jacob Fein-Ashley
発行日 2024-12-23 17:36:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする