Massively Scaling Explicit Policy-conditioned Value Functions

要約

明示的なポリシーコンディショニングされたバリュー関数(EPVFS)のスケーリング戦略を導入し、挑戦的な継続制御タスクのパフォーマンスを大幅に改善します。
EPVFSは、ポリシーパラメーターに明示的に条件付けられた値関数V({\ theta})を学習し、ポリシーのパラメーターに直接勾配ベースの更新を可能にします。
ただし、EPVFは、ポリシーパラメーター空間における無制限のパラメーターの成長と効率的な探索に苦労しています。
これらの問題に対処するために、GPUベースのシミュレータ、大きなバッチサイズ、重量クリッピング、スケーリングされた大型の大規模な並列化を利用します。
私たちの結果は、EPVFをスケーリングしてカスタムアリ環境などの複雑なタスクを解決し、近位政策最適化(PPO)やソフトアクタークリティティックなどの最先端のディープ補強学習(DRL)ベースラインと競合できることを示しています。
(SAC)。
さらに、以前の作業と専門のニューラルネットワークアーキテクチャのアクションベースのポリシーパラメーター表現を調査して、以前にDRLのコンテキストで使用されていなかった重量空間機能を効率的に処理します。

要約(オリジナル)

We introduce a scaling strategy for Explicit Policy-Conditioned Value Functions (EPVFs) that significantly improves performance on challenging continuous-control tasks. EPVFs learn a value function V({\theta}) that is explicitly conditioned on the policy parameters, enabling direct gradient-based updates to the parameters of any policy. However, EPVFs at scale struggle with unrestricted parameter growth and efficient exploration in the policy parameter space. To address these issues, we utilize massive parallelization with GPU-based simulators, big batch sizes, weight clipping and scaled peturbations. Our results show that EPVFs can be scaled to solve complex tasks, such as a custom Ant environment, and can compete with state-of-the-art Deep Reinforcement Learning (DRL) baselines like Proximal Policy Optimization (PPO) and Soft Actor-Critic (SAC). We further explore action-based policy parameter representations from previous work and specialized neural network architectures to efficiently handle weight-space features, which have not been used in the context of DRL before.

arxiv情報

著者 Nico Bohlinger,Jan Peters
発行日 2025-02-17 16:02:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Massively Scaling Explicit Policy-conditioned Value Functions はコメントを受け付けていません

Qubit-Based Framework for Quantum Machine Learning: Bridging Classical Data and Quantum Algorithms

要約

この論文は、量子コンピューティングのエキサイティングで急速に成長している分野に分かれ、その中心的なアイデア、現在の進歩、そしてそれが複雑な問題を解決する方法に革命をもたらす方法を説明しています。
それは、Qubits、量子回路、および重ね合わせやエンタングルメントなどの原則が、今日使用している古典的なコンピューターと比べて特定のタスクに対して基本的に異なるものとはるかに強力な量子コンピューターをどのようにするかなど、基本を分解することから始まります。
また、Quantum Computingが複雑な問題をどのように扱うか、そしてそれがクラシックシステムが処理するのに苦労している課題に独自に適している理由を探ります。
このペーパーの大部分は、量子機械学習(QML)に焦点を当てています。ここでは、量子コンピューティングの強みが人工知能の世界に出会います。
大規模なデータセットを処理し、複雑なアルゴリズムを最適化することにより、量子システムは機械学習の新しい可能性を提供します。
量子と古典のコンピューティングを組み合わせるためのさまざまなアプローチを強調し、より高速でより正確な結果を生み出すために協力する方法を示します。
さらに、研究者や開発者がこれらの理論を実現するのに役立つ、利用可能なTensorflow Quantum、Qiskit、およびPennylaneのようなツールとプラットフォームを探索します。
もちろん、量子コンピューティングにはハードルがあります。
ハードウェアのスケールアップ、エラーの修正、Qubitsの安定性を維持するなどの課題は、重要な障害です。
しかし、クラウドベースのプラットフォームと革新的なテクノロジーの急速な進歩により、量子コンピューティングの可能性はこれまで以上に近づいています。
このペーパーは、読者に量子コンピューティングの明確で包括的な紹介、機械学習におけるその役割、およびテクノロジーの将来のために保持される計り知れない可能性を提供することを目的としています。

要約(オリジナル)

This paper dives into the exciting and rapidly growing field of quantum computing, explaining its core ideas, current progress, and how it could revolutionize the way we solve complex problems. It starts by breaking down the basics, like qubits, quantum circuits, and how principles like superposition and entanglement make quantum computers fundamentally different-and far more powerful for certain tasks-than the classical computers we use today. We also explore how quantum computing deals with complex problems and why it is uniquely suited for challenges classical systems struggle to handle. A big part of this paper focuses on Quantum Machine Learning (QML), where the strengths of quantum computing meet the world of artificial intelligence. By processing massive datasets and optimizing intricate algorithms, quantum systems offer new possibilities for machine learning. We highlight different approaches to combining quantum and classical computing, showing how they can work together to produce faster and more accurate results. Additionally, we explore the tools and platforms available-like TensorFlow Quantum, Qiskit and PennyLane-that are helping researchers and developers bring these theories to life. Of course, quantum computing has its hurdles. Challenges like scaling up hardware, correcting errors, and keeping qubits stable are significant roadblocks. Yet, with rapid advancements in cloud-based platforms and innovative technologies, the potential of quantum computing feels closer than ever. This paper aims to offer readers a clear and comprehensive introduction to quantum computing, its role in machine learning, and the immense possibilities it holds for the future of technology.

arxiv情報

著者 Bhavna Bose,Saurav Verma
発行日 2025-02-17 16:04:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.LG, quant-ph | Qubit-Based Framework for Quantum Machine Learning: Bridging Classical Data and Quantum Algorithms はコメントを受け付けていません

Refined PAC-Bayes Bounds for Offline Bandits

要約

このホワイトペーパーでは、盗賊問題におけるポリシー外学習の経験的報酬推定に関する洗練された確率的境界を示します。
Seldin et al。
(2010)およびRodr \ ‘Iguez et al。
(2024)。
この手法は、「確率」パラメーターを最適化するための可能なイベントの空間の離散化に基づいています。
2つのパラメーターのないPACベイの境界を提供します。1つはHoeffding-Azumaの不平等に基づいており、もう1つはBernsteinの不平等に基づいています。
データの実現後に「確率」パラメーターを設定することで得られるのと同じ速度を回復するため、私たちの境界がほぼ最適であることを証明します。

要約(オリジナル)

In this paper, we present refined probabilistic bounds on empirical reward estimates for off-policy learning in bandit problems. We build on the PAC-Bayesian bounds from Seldin et al. (2010) and improve on their results using a new parameter optimization approach introduced by Rodr\’iguez et al. (2024). This technique is based on a discretization of the space of possible events to optimize the ‘in probability’ parameter. We provide two parameter-free PAC-Bayes bounds, one based on Hoeffding-Azuma’s inequality and the other based on Bernstein’s inequality. We prove that our bounds are almost optimal as they recover the same rate as would be obtained by setting the ‘in probability’ parameter after the realization of the data.

arxiv情報

著者 Amaury Gouverneur,Tobias J. Oechtering,Mikael Skoglund
発行日 2025-02-17 16:05:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Refined PAC-Bayes Bounds for Offline Bandits はコメントを受け付けていません

Path Planning for Masked Diffusion Model Sampling

要約

このホワイトペーパーでは、トークンのマスキング順序がマスクされた拡散モデル(MDM)の生成品質にどのように影響するかを探ります。
拡張されたエビデンス下限(Elbo)を導き出し、各ステップでマスクするトークンを選択するプランナーを導入します。
私たちの分析により、代替のアンマスキング戦略が生成パフォーマンスを向上させることができることが明らかになりました。
これに基づいて、Path Planning(P2)を提案します。これは、事前に訓練されたBERTモデルまたは悪魔自体を使用して、決定を導くためにemoiser自体を使用するサンプリングフレームワークを提案します。
P2は、既知のすべてのMDMサンプリング戦略を一般化し、言語生成(コンテキスト学習、コード生成、ストーリーの浸透、数学的推論、逆呪い補正)および生物学的配列生成(タンパク質およびRNA配列)を含む多様なドメインのパフォーマンスを大幅に向上させます。

要約(オリジナル)

In this paper, we explore how token unmasking order influences generative quality in masked diffusion models (MDMs). We derive an expanded evidence lower bound (ELBO) that introduces a planner to select which tokens to unmask at each step. Our analysis reveals that alternative unmasking strategies can enhance generation performance. Building on this, we propose Path Planning (P2), a sampling framework that uses a pre-trained BERT model or the denoiser itself to guide unmasking decisions. P2 generalizes all known MDM sampling strategies and significantly improves performance across diverse domains, including language generation (in-context learning, code generation, story infilling, mathematical reasoning, reverse curse correction) and biological sequence generation (protein and RNA sequences).

arxiv情報

著者 Fred Zhangzhi Peng,Zachary Bezemek,Sawan Patel,Jarrid Rector-Brooks,Sherwood Yao,Alexander Tong,Pranam Chatterjee
発行日 2025-02-17 16:07:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Path Planning for Masked Diffusion Model Sampling はコメントを受け付けていません

Selective Task Group Updates for Multi-Task Optimization

要約

マルチタスク学習により、統一されたアーキテクチャ内で複数のタスクをトレーニングすることにより、タスクジェネリの知識を獲得できます。
ただし、すべてのタスクを単一のアーキテクチャで一緒にトレーニングすると、マルチタスク学習の主な関心事であるネガティブ転送として知られるパフォーマンスの劣化につながる可能性があります。
以前の作品は、勾配操作または加重損失調整を通じてマルチタスクネットワークを最適化することにより、この問題に対処しています。
ただし、最適化戦略は、共有パラメーターのタスクの不均衡に対処し、タスク固有のパラメーターの学習を無視することに焦点を当てています。
その結果、共有スペースとタスク固有の情報の学習が最適化中に互いに影響を与えるため、否定的な転送を緩和する際の制限を示しています。
これに対処するために、タスクを選択的にグループ化し、最適化中に各バッチの更新を行うことにより、マルチタスクのパフォーマンスを向上させる別のアプローチを提案します。
学習プロセス中にタスクを効果的にグループ化し、更新する方法を適応的に決定するアルゴリズムを紹介します。
タスク間の関係を追跡し、マルチタスクネットワークを同時に最適化するために、最適化プロセス中に測定できる近位タスク間親和性を提案します。
タスクを複数のグループに分割し、それらを順次更新することが、タスク固有のパラメーターの学習を強化することにより、マルチタスクのパフォーマンスに順番に大きく影響する方法についての理論的分析を提供します。
当社の方法は、以前のマルチタスク最適化アプローチを大幅に上回っており、さまざまなアーキテクチャやさまざまな数のタスクに拡張可能です。

要約(オリジナル)

Multi-task learning enables the acquisition of task-generic knowledge by training multiple tasks within a unified architecture. However, training all tasks together in a single architecture can lead to performance degradation, known as negative transfer, which is a main concern in multi-task learning. Previous works have addressed this issue by optimizing the multi-task network through gradient manipulation or weighted loss adjustments. However, their optimization strategy focuses on addressing task imbalance in shared parameters, neglecting the learning of task-specific parameters. As a result, they show limitations in mitigating negative transfer, since the learning of shared space and task-specific information influences each other during optimization. To address this, we propose a different approach to enhance multi-task performance by selectively grouping tasks and updating them for each batch during optimization. We introduce an algorithm that adaptively determines how to effectively group tasks and update them during the learning process. To track inter-task relations and optimize multi-task networks simultaneously, we propose proximal inter-task affinity, which can be measured during the optimization process. We provide a theoretical analysis on how dividing tasks into multiple groups and updating them sequentially significantly affects multi-task performance by enhancing the learning of task-specific parameters. Our methods substantially outperform previous multi-task optimization approaches and are scalable to different architectures and various numbers of tasks.

arxiv情報

著者 Wooseong Jeong,Kuk-Jin Yoon
発行日 2025-02-17 16:26:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Selective Task Group Updates for Multi-Task Optimization はコメントを受け付けていません

RDSA: A Robust Deep Graph Clustering Framework via Dual Soft Assignment

要約

グラフクラスタリングは、ノードを個別のクラスターにグループ化することを含むネットワーク分析の重要な側面です。
深い学習の最近の開発により、多くのアプリケーションで効果的であることが証明されているグラフクラスタリングが生じています。
それにもかかわらず、これらの方法は、特に騒々しいエッジの存在下で、実際のグラフを扱うときに困難に遭遇することがよくあります。
さらに、多くの除去グラフクラスタリング方法は、非異数のモデルと比較して、パフォーマンスの低下、トレーニング不安定性、および大規模なデータセットへのスケーリングにおける課題に悩まされる傾向があります。
これらの問題に取り組むために、デュアルソフト割り当て(RDSA)を介して、堅牢なディープグラフクラスタリングフレームワークと呼ばれる新しいフレームワークを紹介します。
RDSAは、3つの重要なコンポーネントで構成されています。(i)グラフのトポロジ機能とノード属性を効果的に統合するノード埋め込みモジュール。
(ii)ノード割り当てにアフィニティマトリックスを使用することによりグラフモジュール性を向上させる構造ベースのソフト割り当てモジュール。
(iii)コミュニティのランドマークを識別し、ノード割り当てを改良してモデルの堅牢性を高めるノードベースのソフト割り当てモジュール。
さまざまな現実世界のデータセットでRDSAを評価し、既存の最先端の方法に比べて優れたパフォーマンスを実証します。
私たちの調査結果は、RDSAがさまざまなグラフタイプにわたって堅牢なクラスタリングを提供し、ノイズ、安定性、スケーラビリティへの適応性を含むクラスタリングの有効性と堅牢性に優れていることを示しています。

要約(オリジナル)

Graph clustering is an essential aspect of network analysis that involves grouping nodes into separate clusters. Recent developments in deep learning have resulted in graph clustering, which has proven effective in many applications. Nonetheless, these methods often encounter difficulties when dealing with real-world graphs, particularly in the presence of noisy edges. Additionally, many denoising graph clustering methods tend to suffer from lower performance, training instability, and challenges in scaling to large datasets compared to non-denoised models. To tackle these issues, we introduce a new framework called the Robust Deep Graph Clustering Framework via Dual Soft Assignment (RDSA). RDSA consists of three key components: (i) a node embedding module that effectively integrates the graph’s topological features and node attributes; (ii) a structure-based soft assignment module that improves graph modularity by utilizing an affinity matrix for node assignments; and (iii) a node-based soft assignment module that identifies community landmarks and refines node assignments to enhance the model’s robustness. We assess RDSA on various real-world datasets, demonstrating its superior performance relative to existing state-of-the-art methods. Our findings indicate that RDSA provides robust clustering across different graph types, excelling in clustering effectiveness and robustness, including adaptability to noise, stability, and scalability.

arxiv情報

著者 Yang Xiang,Li Fan,Tulika Saha,Xiaoying Pang,Yushan Pan,Haiyang Zhang,Chengtao Ji
発行日 2025-02-17 16:26:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG | RDSA: A Robust Deep Graph Clustering Framework via Dual Soft Assignment はコメントを受け付けていません

Reconfigurable Intelligent Surfaces-Assisted Integrated Access and Backhaul

要約

この論文では、統合アクセスとバックホール(IAB)ネットワークのカバレッジ拡張に対する再構成可能なインテリジェントサーフェス(RISS)の影響を研究します。
特に、有限の確率幾何学モデルを使用して、有限領域にユーザー機器(UE)のランダム分布、およびIABの計画された階層アーキテクチャを使用して、UESの最小レート要件のイベントの確率として定義されたサービスカバレッジ確率を研究します。
満足しています。
IABのみを含むさまざまなケースの比較を提示します。IABは、バックホールのRISを支援し、ネットワーク制御リピーター(NCR)によって支援されたIABを支援しました。
私たちの調査は、さまざまなデザインアーキテクチャと展開のレンズを介したRISを支援し、季節の変化に対する葉の葉の効果を最小限に抑えるための紛争と相乗効果の両方を明らかにしました。
私たちのシミュレーション結果は、IABでのRIの実装に向けた機会と課題の両方を明らかにしています。

要約(オリジナル)

In this paper, we study the impact of reconfigurable intelligent surfaces (RISs) on the coverage extension of integrated access and backhaul (IAB) networks. Particularly, using a finite stochastic geometry model, with random distributions of user equipments (UEs) in a finite region, and planned hierachical architecture for IAB, we study the service coverage probability defined as the probability of the event that the UEs’ minimum rate requirements are satisfied. We present comparisons between different cases including IAB-only, IAB assisted with RIS for backhaul as well as IAB assisted by network controlled repeaters (NCRs). Our investigations focus on wide-area IAB assisted with RIS through the lens of different design architectures and deployments, revealing both conflicts and synergies for minimizing the effect of tree foliage over seasonal changes. Our simulation results reveal both opportunities and challenges towards the implementation of RIS in IAB.

arxiv情報

著者 Charitha Madapatha,Behrooz Makki,Hao Guo,Tommy Svensson
発行日 2025-02-17 16:46:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, cs.NI, math.IT | Reconfigurable Intelligent Surfaces-Assisted Integrated Access and Backhaul はコメントを受け付けていません

Unsupervised Structural-Counterfactual Generation under Domain Shift

要約

クロスドメイン学習への急成長の関心に動機付けられ、新しい生成モデリングの課題を提示します。ソースドメインからの事実の観察に基づいて、ターゲットドメインで反事実的なサンプルを生成します。
私たちのアプローチは、各ドメインの明確な観測サンプルと因果グラフにのみ依存して、平行または共同データセットを欠いている監視されていないパラダイム内で動作します。
この設定には、従来の反事実的生成の課題を上回る課題があります。
私たちの方法論の中心は、外因性の原因が効果的な原因とドメインintrincicのカテゴリを曖昧にしていることです。
この分化により、ドメイン固有の因果グラフの統合が、共有効果 – 内向性外因性変数を介して統一されたジョイント因果グラフに統合されます。
この共同フレームワーク内で神経因果モデルを活用して、標準の識別可能性の仮定の下で正確な反事実生成を可能にすることを提案します。
さらに、モデルトレーニング中にドメイン内膜変数から効果的にintrincicを分離する新しい損失関数を導入します。
事実上の観察を考えると、我々のフレームワークは、ソースドメインからの効果内向変数の事後分布と、ターゲットドメインからのドメインintrincic変数の事前分布を組み合わせて、目的の反事実を合成し、パールの因果階層を順守します。
興味深いことに、ドメインシフトが共変量シフトを伴わずに因果メカニズムの変化に限定される場合、トレーニングレジメンは条件付き最適輸送問題の解決と類似しています。
合成データセットの経験的評価は、私たちのフレームワークがターゲットドメインで非常に類似しているターゲットドメインで反事実を生成することを示しています。

要約(オリジナル)

Motivated by the burgeoning interest in cross-domain learning, we present a novel generative modeling challenge: generating counterfactual samples in a target domain based on factual observations from a source domain. Our approach operates within an unsupervised paradigm devoid of parallel or joint datasets, relying exclusively on distinct observational samples and causal graphs for each domain. This setting presents challenges that surpass those of conventional counterfactual generation. Central to our methodology is the disambiguation of exogenous causes into effect-intrinsic and domain-intrinsic categories. This differentiation facilitates the integration of domain-specific causal graphs into a unified joint causal graph via shared effect-intrinsic exogenous variables. We propose leveraging Neural Causal models within this joint framework to enable accurate counterfactual generation under standard identifiability assumptions. Furthermore, we introduce a novel loss function that effectively segregates effect-intrinsic from domain-intrinsic variables during model training. Given a factual observation, our framework combines the posterior distribution of effect-intrinsic variables from the source domain with the prior distribution of domain-intrinsic variables from the target domain to synthesize the desired counterfactuals, adhering to Pearl’s causal hierarchy. Intriguingly, when domain shifts are restricted to alterations in causal mechanisms without accompanying covariate shifts, our training regimen parallels the resolution of a conditional optimal transport problem. Empirical evaluations on a synthetic dataset show that our framework generates counterfactuals in the target domain that very closely resemble the ground truth.

arxiv情報

著者 Krishn Vishwas Kher,Lokesh Venkata Siva Maruthi Badisa,Kusampudi Venkata Datta Sri Harsha,Chitneedi Geetha Sowmya,SakethaNath Jagarlapudi
発行日 2025-02-17 16:48:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Unsupervised Structural-Counterfactual Generation under Domain Shift はコメントを受け付けていません

Investigating the importance of social vulnerability in opioid-related mortality across the United States

要約

オピオイドの危機は、米国では重要な公衆衛生上の課題のままです。
2011年から2021年の間にオピオイド処方率を45%近く削減するための全国的な努力にもかかわらず、この同じ期間にオピオイドの過剰摂取による死亡は3倍以上になりました。
この驚くべき傾向は、危機の大きな変化を反映しており、違法なオピオイドは処方オピオイドの代わりに過剰摂取による死亡の大部分を促進しています。
この移行を促進する供給側の要因には多くの注意が払われていますが、オピオイドの誤用を永続させ、悪化させる根本的な社会経済的条件は理解されていないままです。
さらに、Covid-19のパンデミックは、広範囲にわたる社会的孤立と記録的な失業を通じてオピオイドの危機を強めました。
その結果、この流行の社会経済的要因を理解することは、近年さらに重要になっています。
このニーズに対処するために、我々の研究では、オピオイド関連の死亡率と社会的脆弱性指数(SVI)の13成分との相関関係を調べます。
2010年から2022年までの連続年に及ぶ全国規模の郡レベルのデータセットを活用して、この研究では、実験データ分析からの経験的洞察を、機械学習モデルから派生した機能の重要性メトリックと統合します。
私たちの調査結果は、オピオイド関連の死亡率と強く相関する重要な社会的要因を強調し、レベルが高いときに流行を悪化させる潜在的な役割を強調し、レベルが低いときにそれを緩和します。

要約(オリジナル)

The opioid crisis remains a critical public health challenge in the United States. Despite national efforts to reduce opioid prescribing rates by nearly 45\% between 2011 and 2021, opioid overdose deaths more than tripled during this same period. This alarming trend reflects a major shift in the crisis, with illegal opioids now driving the majority of overdose deaths instead of prescription opioids. Although much attention has been given to supply-side factors fueling this transition, the underlying socioeconomic conditions that perpetuate and exacerbate opioid misuse remain less understood. Moreover, the COVID-19 pandemic intensified the opioid crisis through widespread social isolation and record-high unemployment; consequently, understanding the socioeconomic drivers of this epidemic has become even more crucial in recent years. To address this need, our study examines the correlation between opioid-related mortality and thirteen components of the Social Vulnerability Index (SVI). Leveraging a nationwide county-level dataset spanning consecutive years from 2010 to 2022, this study integrates empirical insights from exploratory data analysis with feature importance metrics derived from machine learning models. Our findings highlight critical social factors strongly correlated with opioid-related mortality, emphasizing their potential roles in worsening the epidemic when their levels are high and mitigating it when their levels are low.

arxiv情報

著者 Andrew Deas,Adam Spannaus,Dakotah D. Maguire,Jodie Trafton,Anuj J. Kapadia,Vasileios Maroulas
発行日 2025-02-17 16:54:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.LG | Investigating the importance of social vulnerability in opioid-related mortality across the United States はコメントを受け付けていません

The geometry of BERT

要約

トランスニューラルネットワーク、特に変圧器(BERT)からの双方向エンコーダー表現は、分類、テキストの要約、質問への回答などのさまざまなタスクで顕著なパフォーマンスを示しています。
しかし、それらの内部メカニズムは数学的にあいまいなままであり、より大きな説明可能性と解釈可能性の必要性を強調しています。
この方向に、この論文は、理論的視点からバートの注意メカニズムに関する新しい視点を提案するバートの内部メカニズムを調査します。
分析には、ローカルおよびグローバルネットワークの両方の動作が含まれます。
ローカルレベルでは、サブスペース選択の方向性の概念と、自己関節マトリックスから出現するパターンの包括的な研究が提示されています。
さらに、この作業では、データ分布分析と、コーンインデックスの新しい概念を含むグローバルな統計的測定を通じて、情報ストリームの意味コンテンツを調査します。
RNAを使用したSARS-COV-2バリアントの分類に関するケーススタディで、アプリケーションでこれらの概念を観察するために非常に高い精度が選択されました。
この分析から得られた洞察は、バートの分類プロセスのより深い理解に貢献し、変圧器モデルの将来の建築改善とトレーニングプロセスのさらなる分析のための潜在的な道を提供します。

要約(オリジナル)

Transformer neural networks, particularly Bidirectional Encoder Representations from Transformers (BERT), have shown remarkable performance across various tasks such as classification, text summarization, and question answering. However, their internal mechanisms remain mathematically obscure, highlighting the need for greater explainability and interpretability. In this direction, this paper investigates the internal mechanisms of BERT proposing a novel perspective on the attention mechanism of BERT from a theoretical perspective. The analysis encompasses both local and global network behavior. At the local level, the concept of directionality of subspace selection as well as a comprehensive study of the patterns emerging from the self-attention matrix are presented. Additionally, this work explores the semantic content of the information stream through data distribution analysis and global statistical measures including the novel concept of cone index. A case study on the classification of SARS-CoV-2 variants using RNA which resulted in a very high accuracy has been selected in order to observe these concepts in an application. The insights gained from this analysis contribute to a deeper understanding of BERT’s classification process, offering potential avenues for future architectural improvements in Transformer models and further analysis in the training process.

arxiv情報

著者 Matteo Bonino,Giorgia Ghione,Giansalvo Cirrincione
発行日 2025-02-17 17:03:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | The geometry of BERT はコメントを受け付けていません