Bridging Perception and Action: Spatially-Grounded Mid-Level Representations for Robot Generalization

要約

この作業では、空間的に接地された補助表現が、幅広い高レベルの接地と直接的な実用的な情報の両方をどのように提供して、巧妙なタスクのポリシー学習のパフォーマンスと一般化を改善することができるかを調査します。
これらの中間レベルの表現は、オブジェクト中心、ポーズ認識、深さの認識という3つの重要な次元にわたって研究しています。
これらの解釈可能なミッドレベル表現を使用して、監視された学習を介して専門のエンコーダーを訓練し、拡散ポリシーへの入力としてフィードして、現実世界の器用な双方向の操作タスクを解決します。
ポリシーの一般化を改善するために、それぞれが明確な中間レベルの表現で訓練された複数の専門的な専門家モデルを組み合わせた新しい専門家のポリシーアーキテクチャを提案します。
この方法では、言語に基づいたベースラインより11%高く、評価タスクの標準拡散ポリシーベースラインよりも24%高い平均成功率を達成します。
さらに、加重模倣学習アルゴリズム内のポリシーアクションの監督シグナルとして中レベルの表現を活用すると、ポリシーがこれらの表現に従う精度が改善され、10%の追加のパフォーマンスが得られます。
私たちの調査結果は、幅広い知覚タスクだけでなく、より粒状で実用的な表現でロボットポリシーを接地することの重要性を強調しています。
詳細とビデオについては、https://mid-level-moe.github.ioをご覧ください。

要約(オリジナル)

In this work, we investigate how spatially grounded auxiliary representations can provide both broad, high-level grounding as well as direct, actionable information to improve policy learning performance and generalization for dexterous tasks. We study these mid-level representations across three critical dimensions: object-centricity, pose-awareness, and depth-awareness. We use these interpretable mid-level representations to train specialist encoders via supervised learning, then feed them as inputs to a diffusion policy to solve dexterous bimanual manipulation tasks in the real world. We propose a novel mixture-of-experts policy architecture that combines multiple specialized expert models, each trained on a distinct mid-level representation, to improve policy generalization. This method achieves an average success rate that is 11% higher than a language-grounded baseline and 24 percent higher than a standard diffusion policy baseline on our evaluation tasks. Furthermore, we find that leveraging mid-level representations as supervision signals for policy actions within a weighted imitation learning algorithm improves the precision with which the policy follows these representations, yielding an additional performance increase of 10%. Our findings highlight the importance of grounding robot policies not only with broad perceptual tasks but also with more granular, actionable representations. For further information and videos, please visit https://mid-level-moe.github.io.

arxiv情報

著者 Jonathan Yang,Chuyuan Kelly Fu,Dhruv Shah,Dorsa Sadigh,Fei Xia,Tingnan Zhang
発行日 2025-06-06 15:57:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T40, cs.RO | Bridging Perception and Action: Spatially-Grounded Mid-Level Representations for Robot Generalization はコメントを受け付けていません

Distributed Expectation Propagation for Multi-Object Tracking over Sensor Networks

要約

このホワイトペーパーでは、複数のセンサーの新しい分散期待伝播アルゴリズム、散らかった環境で複数のオブジェクトを追跡することを提示します。
提案されたフレームワークにより、各センサーは他のセンサーとモーメントの推定値を共同で交換しながら、局所的に動作することができるため、すべてのデータを中央処理ノードに送信する必要がなくなります。
具体的には、高速で並列化可能なRao-BlackWellised Gibbsサンプリングスキームを導入して、傾斜した分布を近似します。これにより、期待伝播の更新の精度と効率が向上します。
結果は、提案されたアルゴリズムが、動的センサーの接続性とさまざまなクラッターレベルを備えたマルチオブジェクト追跡タスクの通信効率と推論効率の両方を改善することを示しています。

要約(オリジナル)

In this paper, we present a novel distributed expectation propagation algorithm for multiple sensors, multiple objects tracking in cluttered environments. The proposed framework enables each sensor to operate locally while collaboratively exchanging moment estimates with other sensors, thus eliminating the need to transmit all data to a central processing node. Specifically, we introduce a fast and parallelisable Rao-Blackwellised Gibbs sampling scheme to approximate the tilted distributions, which enhances the accuracy and efficiency of expectation propagation updates. Results demonstrate that the proposed algorithm improves both communication and inference efficiency for multi-object tracking tasks with dynamic sensor connectivity and varying clutter levels.

arxiv情報

著者 Qing Li,Runze Gan,James R. Hopgood,Michael E. Davies,Simon J. Godsill
発行日 2025-06-06 16:51:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, eess.SP | Distributed Expectation Propagation for Multi-Object Tracking over Sensor Networks はコメントを受け付けていません

From NLVO to NAO: Reactive Robot Navigation using Velocity and Acceleration Obstacles

要約

このペーパーでは、挑戦的な動的環境でのロボットナビゲーションの新しいアプローチを紹介します。
提案された方法は、非線形軌道に沿って移動する障害を説明するために、非線形速度障害物(NLVO)に拡張された速度障害(VO)の概念に基づいています。
NLVOは、この論文では、速度と加速制約を説明する加速障害(AO)および非線形加速障害(NAO)に拡張されています。
マルチロボットナビゲーションは、すべてのロボットで同じ回避アルゴリズムを使用することにより実現されます。
各時間ステップで、すべてのロボットの軌跡は、現在の速度と加速度に基づいて予測され、それぞれのNLVO、AO、およびNAOの計算が可能になります。
AOとNAOの導入により、NLVOのみで実行できるよりも優れたロボットの動的制約を説明する安全な回避策の生成が可能になります。
このペーパーでは、挑戦的な環境でのロボットナビゲーションにAOとNAOの使用を示しています。
AOとNAOを使用すると、ロボットの運動学とその動的制約を直接考慮しながら、同時リアルタイムの衝突回避を可能にすることが示されています。
提示されたアプローチにより、リアクティブで効率的なナビゲーションが可能になり、複雑な動的環境で動作する自律車両の潜在的なアプリケーションが可能になります。

要約(オリジナル)

This paper introduces a novel approach for robot navigation in challenging dynamic environments. The proposed method builds upon the concept of Velocity Obstacles (VO) that was later extended to Nonlinear Velocity Obstacles (NLVO) to account for obstacles moving along nonlinear trajectories. The NLVO is extended in this paper to Acceleration Obstacles (AO) and Nonlinear Acceleration Obstacles (NAO) that account for velocity and acceleration constraints. Multi-robot navigation is achieved by using the same avoidance algorithm by all robots. At each time step, the trajectories of all robots are predicted based on their current velocity and acceleration to allow the computation of their respective NLVO, AO and NAO. The introduction of AO and NAO allows the generation of safe avoidance maneuvers that account for the robot dynamic constraints better than could be done with the NLVO alone. This paper demonstrates the use of AO and NAO for robot navigation in challenging environments. It is shown that using AO and NAO enables simultaneous real-time collision avoidance while accounting for robot kinematics and a direct consideration of its dynamic constraints. The presented approach enables reactive and efficient navigation, with potential application for autonomous vehicles operating in complex dynamic environments.

arxiv情報

著者 Asher Stern,Zvi Shiller
発行日 2025-06-06 17:35:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | From NLVO to NAO: Reactive Robot Navigation using Velocity and Acceleration Obstacles はコメントを受け付けていません

PyGemini: Unified Software Development towards Maritime Autonomy Systems

要約

自律型表面容器(ASV)の安全性と証明性を確保するには、広範なシミュレーション、テスト、検証によってサポートされる堅牢な意思決定システムが必要です。
ただし、現在の海上自治開発の景観は断片化されています – コミュニケーション、シミュレーション、監視、およびシステム統合のための異なるツールに依存しています。これは、学際的な協力を妨げ、保険会社と規制団体によって要求される説得力のある保証ケースの作成を阻害します。
さらに、これらのばらばらのツールは、パフォーマンスのボトルネック、ベンダーのロックイン、および継続的な統合ワークフローに対する限られたサポートに悩まされることがよくあります。
これらの課題に対処するために、海上自治開発を統合するためにオートフェリージェミニの遺産に基づいた、許可された認可されたPython-NativeフレームワークであるPygeminiを紹介します。
Pygeminiは、動作主導型開発(BDD)、データ指向設計、およびコンテナ化を融合させる新しい構成駆動型開発(CDD)プロセスを導入し、モジュール式、保守可能、およびスケーラブルなソフトウェアアーキテクチャをサポートします。
フレームワークは、スタンドアロンアプリケーション、クラウドベースのサービス、または組み込みライブラリとして機能します。これは、研究および運用コンテキスト全体の柔軟性を確保します。
シミュレーションと監視のための3Dコンテンツ生成、自律検証とトレーニングのためのシナリオ生成、画像を増強するための生成人工知能パイプラインなど、一連の海事ツールを通じてその汎用性を実証し、それによって、将来のマリタイムロボティックスと自治の研究のためのスケーラブルで維持可能なパフォーマンス指向の基礎を提供します。

要約(オリジナル)

Ensuring the safety and certifiability of autonomous surface vessels (ASVs) requires robust decision-making systems, supported by extensive simulation, testing, and validation across a broad range of scenarios. However, the current landscape of maritime autonomy development is fragmented — relying on disparate tools for communication, simulation, monitoring, and system integration — which hampers interdisciplinary collaboration and inhibits the creation of compelling assurance cases, demanded by insurers and regulatory bodies. Furthermore, these disjointed tools often suffer from performance bottlenecks, vendor lock-in, and limited support for continuous integration workflows. To address these challenges, we introduce PyGemini, a permissively licensed, Python-native framework that builds on the legacy of Autoferry Gemini to unify maritime autonomy development. PyGemini introduces a novel Configuration-Driven Development (CDD) process that fuses Behavior-Driven Development (BDD), data-oriented design, and containerization to support modular, maintainable, and scalable software architectures. The framework functions as a stand-alone application, cloud-based service, or embedded library — ensuring flexibility across research and operational contexts. We demonstrate its versatility through a suite of maritime tools — including 3D content generation for simulation and monitoring, scenario generation for autonomy validation and training, and generative artificial intelligence pipelines for augmenting imagery — thereby offering a scalable, maintainable, and performance-oriented foundation for future maritime robotics and autonomy research.

arxiv情報

著者 Kjetil Vasstein,Christian Le,Simon Lervåg Breivik,Trygve Maukon Myhr,Annette Stahl,Edmund Førland Brekke
発行日 2025-06-06 17:43:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SE, cs.SY, eess.SY, I.2.9 | PyGemini: Unified Software Development towards Maritime Autonomy Systems はコメントを受け付けていません

Laplace Transform Based Low-Complexity Learning of Continuous Markov Semigroups

要約

マルコフプロセスは、多くの実際のランダムプロセスの普遍的なモデルとして機能します。
このホワイトペーパーでは、マルコフセミグループの無限発生器(IG)のスペクトル分解を通じて、これらのモデルを学習するためのデータ駆動型アプローチを紹介します。
IGの固定されていない性質は、ベクトル値の回帰やヒルベルトシュミットオペレーター分析などの従来の方法を複雑にします。
物理学に基づいたカーネル回帰を含む既存の手法は、計算高価で範囲が制限されており、タイムラグが小さい場合は転送演算子方法の回復保証はありません。
トランスファー演算子のラプラス変換を特徴とするIGのレゾルベントを活用する新しい方法を提案します。
このアプローチは、タイムラグのバリエーションに対して堅牢であり、小さなタイムラグでも正確な固有値学習を保証します。
当社の統計分析は、現在の方法よりも広範なクラスのマルコフプロセスに適用され、状態の次元で2次から線形に計算の複雑さを減らします。
最後に、2つの実験で方法の挙動を説明します。

要約(オリジナル)

Markov processes serve as a universal model for many real-world random processes. This paper presents a data-driven approach for learning these models through the spectral decomposition of the infinitesimal generator (IG) of the Markov semigroup. The unbounded nature of IGs complicates traditional methods such as vector-valued regression and Hilbert-Schmidt operator analysis. Existing techniques, including physics-informed kernel regression, are computationally expensive and limited in scope, with no recovery guarantees for transfer operator methods when the time-lag is small. We propose a novel method that leverages the IG’s resolvent, characterized by the Laplace transform of transfer operators. This approach is robust to time-lag variations, ensuring accurate eigenvalue learning even for small time-lags. Our statistical analysis applies to a broader class of Markov processes than current methods while reducing computational complexity from quadratic to linear in the state dimension. Finally, we illustrate the behaviour of our method in two experiments.

arxiv情報

著者 Vladimir R. Kostic,Karim Lounici,Hélène Halconruy,Timothée Devergne,Pietro Novelli,Massimiliano Pontil
発行日 2025-06-06 15:06:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.TH | Laplace Transform Based Low-Complexity Learning of Continuous Markov Semigroups はコメントを受け付けていません

ELEVATE-GenAI: Reporting Guidelines for the Use of Large Language Models in Health Economics and Outcomes Research: an ISPOR Working Group on Generative AI Report

要約

はじめに:生成人工知能(AI)、特に大規模な言語モデル(LLM)は、健康経済学と結果研究(HEOR)に大きな約束を抱いています。
ただし、LLM支援研究の標準化された報告ガイダンスは不​​足しています。
この記事では、LLMSを含むHEOR研究用に特別に設計された、Elevate Genaiフレームワークとチェックリスト – レポートガイドラインを紹介します。
方法:フレームワークは、既存のレポートガイドライン、AI評価フレームワーク、および生成AIのISPORワーキンググループからの専門家の入力に関するターゲット文献レビューを通じて開発されました。
モデルの特性、精度、再現性、公平性とバイアスを含む10のドメインで構成されています。
添付のチェックリストは、フレームワークを実用的なレポート項目に変換します。
その使用を説明するために、フレームワークは、系統的文献レビュータスクに焦点を当てた2つの公開されたHEOR研究に適用されました。もう1つは経済モデリングに焦点を当てています。
結果:Elevate Genaiフレームワークは、LLM支援HEOR研究を報告するための包括的な構造を提供しますが、チェックリストは実用的な実装を容易にします。
2つのケーススタディへの適用は、異なるHEORコンテキストにわたるその関連性と使いやすさを示しています。
制限:フレームワークは堅牢な報告ガイダンスを提供しますが、その有効性、完全性、使いやすさ、および多様なHEORユースケース全体の一般化可能性を評価するには、さらなる経験的テストが必要です。
結論:Elevate Genaiフレームワークとチェックリストは、LLM支援HEOR研究の透明で正確で再現可能な報告のための構造化されたガイダンスを提供することにより、重大なギャップに対処します。
将来の作業は、より広範な採用と改良をサポートするための広範なテストと検証に焦点を当てます。

要約(オリジナル)

Introduction: Generative artificial intelligence (AI), particularly large language models (LLMs), holds significant promise for Health Economics and Outcomes Research (HEOR). However, standardized reporting guidance for LLM-assisted research is lacking. This article introduces the ELEVATE GenAI framework and checklist – reporting guidelines specifically designed for HEOR studies involving LLMs. Methods: The framework was developed through a targeted literature review of existing reporting guidelines, AI evaluation frameworks, and expert input from the ISPOR Working Group on Generative AI. It comprises ten domains, including model characteristics, accuracy, reproducibility, and fairness and bias. The accompanying checklist translates the framework into actionable reporting items. To illustrate its use, the framework was applied to two published HEOR studies: one focused on systematic literature review tasks and the other on economic modeling. Results: The ELEVATE GenAI framework offers a comprehensive structure for reporting LLM-assisted HEOR research, while the checklist facilitates practical implementation. Its application to the two case studies demonstrates its relevance and usability across different HEOR contexts. Limitations: Although the framework provides robust reporting guidance, further empirical testing is needed to assess its validity, completeness, usability, as well as its generalizability across diverse HEOR use cases. Conclusion: The ELEVATE GenAI framework and checklist address a critical gap by offering structured guidance for transparent, accurate, and reproducible reporting of LLM-assisted HEOR research. Future work will focus on extensive testing and validation to support broader adoption and refinement.

arxiv情報

著者 Rachael L. Fleurence,Dalia Dawoud,Jiang Bian,Mitchell K. Higashi,Xiaoyan Wang,Hua Xu,Jagpreet Chhatwal,Turgay Ayer
発行日 2025-06-06 15:10:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.LG | ELEVATE-GenAI: Reporting Guidelines for the Use of Large Language Models in Health Economics and Outcomes Research: an ISPOR Working Group on Generative AI Report はコメントを受け付けていません

Graph Neural Network Generalization with Gaussian Mixture Model Based Augmentation

要約

グラフニューラルネットワーク(GNNS)は、ノードやグラフ分類などのタスクで大きな期待を示していますが、特に目に見えないまたは分散不足(OOD)データに一般化するのに苦労します。
これらの課題は、トレーニングデータのサイズまたは多様性が制限されている場合、悪化します。
これらの問題に対処するために、Rademacherの複雑さを使用して理論的フレームワークを導入して、一般化エラーの後悔を計算し、データ増強の効果を特徴付けます。
このフレームワークは、Gaussian混合モデル(GMMS)の機能を活用する効率的なグラフデータ増強アルゴリズムであるGratinの設計を通知し、分布を近似します。
私たちのアプローチは、一般化の観点から既存の増強技術を上回るだけでなく、時間の複雑さの改善を提供し、実際のアプリケーションに非常に適しています。

要約(オリジナル)

Graph Neural Networks (GNNs) have shown great promise in tasks like node and graph classification, but they often struggle to generalize, particularly to unseen or out-of-distribution (OOD) data. These challenges are exacerbated when training data is limited in size or diversity. To address these issues, we introduce a theoretical framework using Rademacher complexity to compute a regret bound on the generalization error and then characterize the effect of data augmentation. This framework informs the design of GRATIN, an efficient graph data augmentation algorithm leveraging the capability of Gaussian Mixture Models (GMMs) to approximate any distribution. Our approach not only outperforms existing augmentation techniques in terms of generalization but also offers improved time complexity, making it highly suitable for real-world applications.

arxiv情報

著者 Yassine Abbahaddou,Fragkiskos D. Malliaros,Johannes F. Lutzeyer,Amine Mohamed Aboussalah,Michalis Vazirgiannis
発行日 2025-06-06 15:10:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SI, stat.AP, stat.ML | Graph Neural Network Generalization with Gaussian Mixture Model Based Augmentation はコメントを受け付けていません

ENMA: Tokenwise Autoregression for Generative Neural PDE Operators

要約

時間依存のパラメトリックな部分微分方程式(PDE)を解くことは、特に広範囲の物理的パラメーターとダイナミクスに一般化する場合、神経解決者にとって根本的な課題のままです。
データが不確実または不完全な場合、多くの場合、ケースです。自然なアプローチは生成モデルに変えることです。
物理現象から生じる時空間ダイナミクスをモデル化するように設計された生成的神経演算子であるEnmaを紹介します。
エンマは、流れの一致損失で訓練された生成されたマスクされた自己回帰トランスを使用して、トークンワイズ生成を可能にする、圧縮された潜在空間での将来のダイナミクスを予測します。
不規則にサンプリングされた空間観測は、注意メカニズムを介して均一な潜在表現にエンコードされ、時空間畳み込みエンコーダーを介してさらに圧縮されます。
これにより、エンマは、ターゲットの軌跡または同様のダイナミクスを備えた過去の状態または補助コンテキストの軌跡のいずれかを条件付けすることにより、推論時にコンファレンス内学習を実行できます。
その結果、新しいPDEレジームに一般化され、時間依存パラメトリックPDEのワンショットサロゲートモデリングをサポートする堅牢で適応性のあるフレームワークができました。

要約(オリジナル)

Solving time-dependent parametric partial differential equations (PDEs) remains a fundamental challenge for neural solvers, particularly when generalizing across a wide range of physical parameters and dynamics. When data is uncertain or incomplete-as is often the case-a natural approach is to turn to generative models. We introduce ENMA, a generative neural operator designed to model spatio-temporal dynamics arising from physical phenomena. ENMA predicts future dynamics in a compressed latent space using a generative masked autoregressive transformer trained with flow matching loss, enabling tokenwise generation. Irregularly sampled spatial observations are encoded into uniform latent representations via attention mechanisms and further compressed through a spatio-temporal convolutional encoder. This allows ENMA to perform in-context learning at inference time by conditioning on either past states of the target trajectory or auxiliary context trajectories with similar dynamics. The result is a robust and adaptable framework that generalizes to new PDE regimes and supports one-shot surrogate modeling of time-dependent parametric PDEs.

arxiv情報

著者 Armand Kassaï Koupaï,Lise Le Boudec,Louis Serrano,Patrick Gallinari
発行日 2025-06-06 15:25:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | ENMA: Tokenwise Autoregression for Generative Neural PDE Operators はコメントを受け付けていません

Reusing Trajectories in Policy Gradients Enables Fast Convergence

要約

ポリシーグラジエント(PG)メソッドは、特に継続的な制御問題を扱う場合、効果的な強化学習アルゴリズムのクラスです。
これらのメソッドは、通常、ポリシー勾配データを使用してポリシー勾配を推定するために、確率的勾配上昇を介してパラメトリックポリシーのパラメーターを学習します。
ただし、このような新鮮なデータに依存すると、サンプルが効率的になります。
実際、バニラPGメソッドは、$ o(\ epsilon^{-2})$軌道を必要とし、$ \ epsilon $ approximateの定常点に到達します。
効率を改善するための一般的な戦略は、以前の勾配や軌跡など、過去の反復からオフポリシー情報を再利用することです。
勾配の再利用はかなりの理論的注目を集めており、$ o(\ epsilon^{-3/2})$のレートの改善につながりますが、過去の軌跡の再利用は理論的な観点からはほとんど未踏のままです。
この作業では、過去のオフポリシーの軌跡の広範な再利用がPGメソッドの収束を大幅に加速できるという最初の厳密な理論的証拠を提供します。
複数の重要な重み付け推定器に電力平均補正を導入し、ポリシー更新の古い軌跡と新しい軌跡を組み合わせたPGアルゴリズムであるRPG(レトロスペクティブポリシーグラデーション)を提案します。
新しい分析を通じて、確立された仮定の下で、RPGは、文献で最も既知のレートである$ \ widetilde {o}(\ epsilon^{-1})$のサンプルの複雑さを達成することを示します。
さらに、最先端のレートでPGメソッドに対するアプローチを経験的に検証します。

要約(オリジナル)

Policy gradient (PG) methods are a class of effective reinforcement learning algorithms, particularly when dealing with continuous control problems. These methods learn the parameters of parametric policies via stochastic gradient ascent, typically using on-policy trajectory data to estimate the policy gradient. However, such reliance on fresh data makes them sample-inefficient. Indeed, vanilla PG methods require $O(\epsilon^{-2})$ trajectories to reach an $\epsilon$-approximate stationary point. A common strategy to improve efficiency is to reuse off-policy information from past iterations, such as previous gradients or trajectories. While gradient reuse has received substantial theoretical attention, leading to improved rates of $O(\epsilon^{-3/2})$, the reuse of past trajectories remains largely unexplored from a theoretical perspective. In this work, we provide the first rigorous theoretical evidence that extensive reuse of past off-policy trajectories can significantly accelerate convergence in PG methods. We introduce a power mean correction to the multiple importance weighting estimator and propose RPG (Retrospective Policy Gradient), a PG algorithm that combines old and new trajectories for policy updates. Through a novel analysis, we show that, under established assumptions, RPG achieves a sample complexity of $\widetilde{O}(\epsilon^{-1})$, the best known rate in the literature. We further validate empirically our approach against PG methods with state-of-the-art rates.

arxiv情報

著者 Alessandro Montenegro,Federico Mansutti,Marco Mussi,Matteo Papini,Alberto Maria Metelli
発行日 2025-06-06 15:42:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Reusing Trajectories in Policy Gradients Enables Fast Convergence はコメントを受け付けていません

A Theoretical Study of (Hyper) Self-Attention through the Lens of Interactions: Representation, Training, Generalization

要約

自己関節は現代の神経アーキテクチャの中核要素として浮上していますが、その理論的基盤はとらえどころのないままです。
このホワイトペーパーでは、マルチエージェント強化学習のエージェントから遺伝的配列の対立遺伝子に至るまで、相互作用するエンティティのレンズを通して自己触たちを研究し、単一層の線形自己触たちが、分散シナリオを含むペアワイズ相互作用をキャプチャする機能を効率的に表現、学習、および一般化できることを示します。
我々の分析は、自己触たちは、トレーニング中に観察された相互作用パターンの多様性に関する最小限の仮定の下で相互の相互作用学習者として機能し、それによって多種多様な現実世界ドメインを含むことを明らかにしています。
さらに、自己関節が相互作用機能を学習し、人口分布と分散不足シナリオの両方で一般化することを実証する実験を通じて、理論的洞察を検証します。
当社の理論に基づいて、エンティティ間のさまざまな機能レベルの相互作用のカップリングを学習するために設計された新しいニューラルネットワークモジュールであるHyperfeatureattentionを紹介します。
さらに、ペアワイズ相互作用を超えて拡張して、三方、四方、または一般的なNウェイの相互作用などの多entity依存関係をキャプチャする新しいモジュールであるハイパーアテンションを提案します。

要約(オリジナル)

Self-attention has emerged as a core component of modern neural architectures, yet its theoretical underpinnings remain elusive. In this paper, we study self-attention through the lens of interacting entities, ranging from agents in multi-agent reinforcement learning to alleles in genetic sequences, and show that a single layer linear self-attention can efficiently represent, learn, and generalize functions capturing pairwise interactions, including out-of-distribution scenarios. Our analysis reveals that self-attention acts as a mutual interaction learner under minimal assumptions on the diversity of interaction patterns observed during training, thereby encompassing a wide variety of real-world domains. In addition, we validate our theoretical insights through experiments demonstrating that self-attention learns interaction functions and generalizes across both population distributions and out-of-distribution scenarios. Building on our theories, we introduce HyperFeatureAttention, a novel neural network module designed to learn couplings of different feature-level interactions between entities. Furthermore, we propose HyperAttention, a new module that extends beyond pairwise interactions to capture multi-entity dependencies, such as three-way, four-way, or general n-way interactions.

arxiv情報

著者 Muhammed Ustaomeroglu,Guannan Qu
発行日 2025-06-06 15:44:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68Q32, 68T07, 90C26, cs.LG, stat.ML | A Theoretical Study of (Hyper) Self-Attention through the Lens of Interactions: Representation, Training, Generalization はコメントを受け付けていません