GravMAD: Grounded Spatial Value Maps Guided Action Diffusion for Generalized 3D Manipulation

要約

言語の指示に従い、さまざまな 3D タスクを実行するロボットの能力は、ロボットの学習において不可欠です。
従来の模倣学習ベースの方法は、目に見えるタスクではうまく機能しますが、変動性のために新しい目に見えないタスクでは困難を伴います。
最近のアプローチでは、大規模な基礎モデルを利用して新しいタスクの理解を支援し、それによってこの問題を軽減しています。
ただし、これらの方法には、3D 環境を正確に理解するために不可欠なタスク固有の学習プロセスが欠けており、実行の失敗につながることがよくあります。
この論文では、模倣学習と基礎モデルの長所を組み合わせた、サブ目標駆動型の言語条件付きアクション拡散フレームワークである GravMAD を紹介します。
私たちのアプローチは、言語指示に基づいてタスクをサブ目標に分割し、トレーニングと推論の両方で補助的なガイダンスを可能にします。
トレーニング中に、デモンストレーションから主要なサブ目標を特定するために、サブ目標キーポーズ検出を導入します。
推論はトレーニングとは異なり、デモンストレーションが利用できないため、事前トレーニングされた基礎モデルを使用してギャップを埋め、現在のタスクのサブ目標を特定します。
どちらのフェーズでも、GravMap はサブゴールから生成され、固定された 3D 位置と比較して柔軟な 3D 空間ガイドを提供します。
RLBench の経験的評価では、GravMAD が最先端の手法を大幅に上回っており、新しいタスクでは 28.63% の改善があり、トレーニング中に遭遇したタスクでは 13.36% の向上が見られます。
これらの結果は、GravMAD の 3D 操作における強力なマルチタスク学習と一般化を示しています。
ビデオデモは https://gravmad.github.io でご覧いただけます。

要約(オリジナル)

Robots’ ability to follow language instructions and execute diverse 3D tasks is vital in robot learning. Traditional imitation learning-based methods perform well on seen tasks but struggle with novel, unseen ones due to variability. Recent approaches leverage large foundation models to assist in understanding novel tasks, thereby mitigating this issue. However, these methods lack a task-specific learning process, which is essential for an accurate understanding of 3D environments, often leading to execution failures. In this paper, we introduce GravMAD, a sub-goal-driven, language-conditioned action diffusion framework that combines the strengths of imitation learning and foundation models. Our approach breaks tasks into sub-goals based on language instructions, allowing auxiliary guidance during both training and inference. During training, we introduce Sub-goal Keypose Discovery to identify key sub-goals from demonstrations. Inference differs from training, as there are no demonstrations available, so we use pre-trained foundation models to bridge the gap and identify sub-goals for the current task. In both phases, GravMaps are generated from sub-goals, providing flexible 3D spatial guidance compared to fixed 3D positions. Empirical evaluations on RLBench show that GravMAD significantly outperforms state-of-the-art methods, with a 28.63% improvement on novel tasks and a 13.36% gain on tasks encountered during training. These results demonstrate GravMAD’s strong multi-task learning and generalization in 3D manipulation. Video demonstrations are available at: https://gravmad.github.io.

arxiv情報

著者 Yangtao Chen,Zixuan Chen,Junhui Yin,Jing Huo,Pinzhuo Tian,Jieqi Shi,Yang Gao
発行日 2024-10-02 15:25:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

$\mathcal{D(R,O)}$ Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping

要約

器用な把握は、ロボット操作における基本的かつ困難なスキルであり、ロボットの手と物体との間の正確な相互作用が必要です。
この論文では、$\mathcal{D(R,O)}$ Grasp を紹介します。$\mathcal{D(R,O)}$ Grasp は、掴むポーズのロボット ハンドとオブジェクトの間の相互作用をモデル化し、さまざまなロボット ハンドやオブジェクトの幾何学形状にわたって広範な一般化を可能にする新しいフレームワークです。
私たちのモデルは、ロボットハンドの説明と物体の点群を入力として受け取り、運動学的に有効で安定した把握を効率的に予測し、多様なロボットの実施形態と物体の幾何学形状に対する強力な適応性を実証します。
シミュレーション環境と現実世界の両方で行われた広範な実験により、複数のロボットハンドにわたる成功率、把握の多様性、推論速度が大幅に向上し、私たちのアプローチの有効性が検証されました。
私たちの方法は、3 つの異なる器用なロボット ハンドでテストした結果、1 秒未満のシミュレーションで平均 87.53% の成功率を達成しました。
LeapHand を使用した実際の実験でも、このメソッドは平均 89% の成功率を示しています。
$\mathcal{D(R,O)}$ Grasp は、複雑で多様な環境で器用に把握するための堅牢なソリューションを提供します。
コード、付録、ビデオは、プロジェクト Web サイト (https://nus-lins-lab.github.io/drograspweb/) で入手できます。

要約(オリジナル)

Dexterous grasping is a fundamental yet challenging skill in robotic manipulation, requiring precise interaction between robotic hands and objects. In this paper, we present $\mathcal{D(R,O)}$ Grasp, a novel framework that models the interaction between the robotic hand in its grasping pose and the object, enabling broad generalization across various robot hands and object geometries. Our model takes the robot hand’s description and object point cloud as inputs and efficiently predicts kinematically valid and stable grasps, demonstrating strong adaptability to diverse robot embodiments and object geometries. Extensive experiments conducted in both simulated and real-world environments validate the effectiveness of our approach, with significant improvements in success rate, grasp diversity, and inference speed across multiple robotic hands. Our method achieves an average success rate of 87.53% in simulation in less than one second, tested across three different dexterous robotic hands. In real-world experiments using the LeapHand, the method also demonstrates an average success rate of 89%. $\mathcal{D(R,O)}$ Grasp provides a robust solution for dexterous grasping in complex and varied environments. The code, appendix, and videos are available on our project website at https://nus-lins-lab.github.io/drograspweb/.

arxiv情報

著者 Zhenyu Wei,Zhixuan Xu,Jingxiang Guo,Yiwen Hou,Chongkai Gao,Zhehao Cai,Jiayu Luo,Lin Shao
発行日 2024-10-02 16:12:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Multi-Robot Trajectory Generation via Consensus ADMM: Convex vs. Non-Convex

要約

C-ADMM は、凸最適化問題の収束が保証されているため、よく知られた分散最適化フレームワークです。
最近、C-ADMM は、複数車両のターゲット追跡や共同操作タスクなどのロボット工学アプリケーションで研究されています。
しかし、理論的な保証が不足しているため、ロボット工学アプリケーションの非凸問題に適用される C-ADMM のパフォーマンスを調査した研究はほとんどありません。
このプロジェクトでは、分散型マルチロボット軌道計画の範囲を通じて、非凸 C-ADMM の収束挙動を定量的に探索および検証することを目的としています。
我々は、C-ADMM とバッファリング ボロノイ セル (BVC) を利用して非凸衝突回避制約を回避することにより凸軌道計画問題を提案し、この凸 C-ADMM アルゴリズムを非凸 C-ADMM ベースラインと比較します。
衝突回避の制約。
凸 C-ADMM アルゴリズムでは、マルチロボット ウェイポイント ナビゲーション シナリオで収束を達成するために必要な反復回数が 1000 回少ないことを示します。
また、非凸 C-ADMM ベースラインが次善の解と軌道生成における安全制約の違反につながることも確認します。

要約(オリジナル)

C-ADMM is a well-known distributed optimization framework due to its guaranteed convergence in convex optimization problems. Recently, C-ADMM has been studied in robotics applications such as multi-vehicle target tracking and collaborative manipulation tasks. However, few works have investigated the performance of C-ADMM applied to non-convex problems in robotics applications due to a lack of theoretical guarantees. For this project, we aim to quantitatively explore and examine the convergence behavior of non-convex C-ADMM through the scope of distributed multi-robot trajectory planning. We propose a convex trajectory planning problem by leveraging C-ADMM and Buffered Voronoi Cells (BVCs) to get around the non-convex collision avoidance constraint and compare this convex C-ADMM algorithm to a non-convex C-ADMM baseline with non-convex collision avoidance constraints. We show that the convex C-ADMM algorithm requires 1000 fewer iterations to achieve convergence in a multi-robot waypoint navigation scenario. We also confirm that the non-convex C-ADMM baseline leads to sub-optimal solutions and violation of safety constraints in trajectory generation.

arxiv情報

著者 Jushan Chen
発行日 2024-10-02 16:38:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

Open Human-Robot Collaboration using Decentralized Inverse Reinforcement Learning

要約

人間とロボットが共通の目標に向かって協力するヒューマン・ロボット・コラボレーション(HRC)への関心が高まっており、過去 10 年間で大きな進歩が見られました。
これまでの研究ではさまざまな課題が解決されてきましたが、いくつかの重要な問題は未解決のままです。
HRC 内の多くのドメインには、タスク全体を通じて必ずしも人間の存在を必要としないアクティビティが含まれます。
既存の文献では通常、HRC を閉じたシステムとしてモデル化しており、タスクの全期間中すべてのエージェントが存在します。
対照的に、オープン モデルでは、エージェントが必要に応じてコラボレーションに参加したり終了したりできるため、柔軟性が提供され、他のタスクを同時に管理できるようになります。
このペーパーでは、oDec-MDP と呼ばれる新しいマルチエージェント フレームワークを紹介します。これは、エージェントが実行中に柔軟にタスクに参加または離脱できるオープン HRC シナリオをモデル化するために特別に設計されました。
最近のマルチエージェント逆強化学習法である Dec-AIRL を一般化し、oDec-MDP を使用してモデル化されたオープン システムから学習します。
私たちの方法は、簡略化されたおもちゃの消防ドメインと現実的な人間とロボットの二者連携アセンブリの両方で行われた実験を通じて検証されています。
結果は、私たちのフレームワークと学習方法が、対応するクローズドシステムよりも改善されていることを示しています。

要約(オリジナル)

The growing interest in human-robot collaboration (HRC), where humans and robots cooperate towards shared goals, has seen significant advancements over the past decade. While previous research has addressed various challenges, several key issues remain unresolved. Many domains within HRC involve activities that do not necessarily require human presence throughout the entire task. Existing literature typically models HRC as a closed system, where all agents are present for the entire duration of the task. In contrast, an open model offers flexibility by allowing an agent to enter and exit the collaboration as needed, enabling them to concurrently manage other tasks. In this paper, we introduce a novel multiagent framework called oDec-MDP, designed specifically to model open HRC scenarios where agents can join or leave tasks flexibly during execution. We generalize a recent multiagent inverse reinforcement learning method – Dec-AIRL to learn from open systems modeled using the oDec-MDP. Our method is validated through experiments conducted in both a simplified toy firefighting domain and a realistic dyadic human-robot collaborative assembly. Results show that our framework and learning method improves upon its closed system counterpart.

arxiv情報

著者 Prasanth Sengadu Suresh,Siddarth Jain,Prashant Doshi,Diego Romeres
発行日 2024-10-02 17:47:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Meta-TTT: A Meta-learning Minimax Framework For Test-Time Training

要約

テスト時のドメイン適応は、推論中に限定されたラベルのないターゲット データに事前トレーニングされたモデルを適応させることを目的とした困難なタスクです。
自己教師あり学習 (SSL) タスクが主な目的とうまく整合していない場合、自己教師とエントロピーの最小化に依存する現在の手法はパフォーマンスが低下します。
さらに、ミニバッチ内の多様性が限られている場合、エントロピーを最小限に抑えると次善の解決策が得られる可能性があります。
このペーパーでは、バッチ正規化 (BN) 層でのテスト時トレーニング用のメタ学習ミニマックス フレームワークを紹介し、ミニバッチの過学習に対処しながら、SSL タスクが主要なタスクと一致するようにします。
現在のテスト バッチ統計をソース ドメインからの統計で補間する混合 BN アプローチを採用し、モデルの一般化とドメイン シフトに対するロバスト性を向上させる確率的ドメイン合成手法を提案します。
広範な実験により、私たちの手法がさまざまなドメイン適応および一般化ベンチマークにわたって最先端の手法を上回り、目に見えないドメインに対する事前トレーニング済みモデルの堅牢性が大幅に向上することが実証されました。

要約(オリジナル)

Test-time domain adaptation is a challenging task that aims to adapt a pre-trained model to limited, unlabeled target data during inference. Current methods that rely on self-supervision and entropy minimization underperform when the self-supervised learning (SSL) task does not align well with the primary objective. Additionally, minimizing entropy can lead to suboptimal solutions when there is limited diversity within minibatches. This paper introduces a meta-learning minimax framework for test-time training on batch normalization (BN) layers, ensuring that the SSL task aligns with the primary task while addressing minibatch overfitting. We adopt a mixed-BN approach that interpolates current test batch statistics with the statistics from source domains and propose a stochastic domain synthesizing method to improve model generalization and robustness to domain shifts. Extensive experiments demonstrate that our method surpasses state-of-the-art techniques across various domain adaptation and generalization benchmarks, significantly enhancing the pre-trained model’s robustness on unseen domains.

arxiv情報

著者 Chen Tao,Li Shen,Soumik Mondal
発行日 2024-10-02 16:16:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Strategies for Pretraining Neural Operators

要約

偏微分方程式 (PDE) モデリングの事前トレーニングは、一般化性とパフォーマンスを向上させるためにデータセット全体でニューラル演算子をスケーリングするのに有望であることが最近示されました。
これらの進歩にもかかわらず、事前トレーニングがニューラル オペレーターにどのような影響を与えるかについての理解はまだ限られています。
研究では一般に、カスタマイズされたアーキテクチャとデータセットが提案されているため、さまざまな事前トレーニング フレームワークを比較または検討することが困難になります。
これに対処するために、アーキテクチャの選択を最適化することなくさまざまな事前トレーニング方法を比較し、さまざまなモデルやデータセットでの事前トレーニングのダイナミクスを特徴付け、そのスケーリングと一般化の動作を理解します。
事前トレーニングはモデルとデータセットの選択に大きく依存しますが、一般に転移学習または物理ベースの事前トレーニング戦略が最も効果的であることがわかりました。
さらに、データ拡張を使用することで、事前トレーニングのパフォーマンスをさらに向上させることができます。
最後に、事前トレーニングは、希少なデータ領域で微調整する場合、または事前トレーニング分布と同様の下流データに一般化する場合にさらに有益です。
物理予測のためのニューラル オペレーターの事前トレーニングに関する洞察を提供することで、偏微分方程式の事前トレーニング方法の開発と評価における将来の作業の動機付けになればと考えています。

要約(オリジナル)

Pretraining for partial differential equation (PDE) modeling has recently shown promise in scaling neural operators across datasets to improve generalizability and performance. Despite these advances, our understanding of how pretraining affects neural operators is still limited; studies generally propose tailored architectures and datasets that make it challenging to compare or examine different pretraining frameworks. To address this, we compare various pretraining methods without optimizing architecture choices to characterize pretraining dynamics on different models and datasets as well as to understand its scaling and generalization behavior. We find that pretraining is highly dependent on model and dataset choices, but in general transfer learning or physics-based pretraining strategies work best. In addition, pretraining performance can be further improved by using data augmentations. Lastly, pretraining can be additionally beneficial when fine-tuning in scarce data regimes or when generalizing to downstream data similar to the pretraining distribution. Through providing insights into pretraining neural operators for physics prediction, we hope to motivate future work in developing and evaluating pretraining methods for PDEs.

arxiv情報

著者 Anthony Zhou,Cooper Lorsung,AmirPouya Hemmasian,Amir Barati Farimani
発行日 2024-10-02 16:37:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Deep Separable Spatiotemporal Learning for Fast Dynamic Cardiac MRI

要約

動的磁気共鳴画像法 (MRI) は心臓診断において不可欠な役割を果たします。
高速イメージングを可能にするために、k 空間データをアンダーサンプリングすることができますが、画像再構成には高次元処理という大きな課題が生じます。
この課題には、深層学習再構成手法における広範なトレーニング データが必要です。
この研究では、非常に限られたトレーニング データでも非常に優れたパフォーマンスを発揮できる、次元削減された分離可能な学習スキームを活用した、斬新で効率的なアプローチを提案します。
私たちは、時空間事前分布を深層分離可能時空間学習ネットワーク (DeepSSL) の開発に組み込むことによってこの新しいアプローチを設計します。これにより、時間的低順位性と空間的疎性の両方を備えた 2D 時空間再構成モデ​​ルの反復プロセスが展開されます。
中間出力を視覚化して、ネットワークの動作についての洞察を提供し、解釈可能性を高めることもできます。
心臓シネデータセットに関する広範な結果は、提案された DeepSSL が視覚的にも定量的にも最先端の方法を上回り、トレーニング ケースの需要を最大 75% 削減することを示しています。
さらに、目に見えない心臓病患者に対するその予備的な適応性は、経験豊富な放射線科医と心臓専門医によって実施されたブラインドリーダー研究を通じて検証されています。
さらに、DeepSSL は心臓セグメンテーションの下流タスクの精度を向上させ、将来的にアンダーサンプリングされたリアルタイム心臓 MRI で堅牢性を示します。

要約(オリジナル)

Dynamic magnetic resonance imaging (MRI) plays an indispensable role in cardiac diagnosis. To enable fast imaging, the k-space data can be undersampled but the image reconstruction poses a great challenge of high-dimensional processing. This challenge necessitates extensive training data in deep learning reconstruction methods. In this work, we propose a novel and efficient approach, leveraging a dimension-reduced separable learning scheme that can perform exceptionally well even with highly limited training data. We design this new approach by incorporating spatiotemporal priors into the development of a Deep Separable Spatiotemporal Learning network (DeepSSL), which unrolls an iteration process of a 2D spatiotemporal reconstruction model with both temporal low-rankness and spatial sparsity. Intermediate outputs can also be visualized to provide insights into the network behavior and enhance interpretability. Extensive results on cardiac cine datasets demonstrate that the proposed DeepSSL surpasses state-of-the-art methods both visually and quantitatively, while reducing the demand for training cases by up to 75%. Additionally, its preliminary adaptability to unseen cardiac patients has been verified through a blind reader study conducted by experienced radiologists and cardiologists. Furthermore, DeepSSL enhances the accuracy of the downstream task of cardiac segmentation and exhibits robustness in prospectively undersampled real-time cardiac MRI.

arxiv情報

著者 Zi Wang,Min Xiao,Yirong Zhou,Chengyan Wang,Naiming Wu,Yi Li,Yiwen Gong,Shufu Chang,Yinyin Chen,Liuhong Zhu,Jianjun Zhou,Congbo Cai,He Wang,Di Guo,Guang Yang,Xiaobo Qu
発行日 2024-10-02 16:42:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.IV | コメントする

PreND: Enhancing Intrinsic Motivation in Reinforcement Learning through Pre-trained Network Distillation

要約

幼児の発達学習の心理学に触発された内発的動機付けは、まばらな外部報酬だけに依存することなく、エージェントの探求を刺激します。
ランダム ネットワーク蒸留 (RND) などの強化学習の既存の手法は、(1) 生の視覚入力に依存するため、意味のある表現が欠如する、(2) 堅牢な潜在空間を構築できない、(3) 不十分ななどの重大な制限に直面しています。
ターゲットネットワークの初期化、および (4) 固有の報酬の急速な低下。
この論文では、広く使用されている予測ベースの手法である RND を改良することで、強化学習 (RL) における内発的動機づけを強化する新しいアプローチである事前トレーニング済みネットワーク蒸留 (PreND) を紹介します。
PreND は、事前トレーニングされた表現モデルをターゲット ネットワークと予測ネットワークの両方に組み込むことでこれらの課題に対処し、モデルによって学習された表現を強化しながら、より有意義で安定した固有の報酬をもたらします。
また、学習率を制御することによる、予測子ネットワーク最適化の単純だが効果的な変形も試しました。
Atari ドメインでの実験を通じて、PreND が RND よりも大幅に優れたパフォーマンスを示し、より強力な内発的動機づけシグナルを提供し、より良い探索につながり、全体的なパフォーマンスとサンプル効率が向上することを実証しました。
この研究は、予測に基づく内発的動機づけにおけるターゲットと予測子のネットワーク表現の重要性を強調し、報酬が少ない環境におけるRLエージェントの学習効率を向上させるための新たな方向性を設定します。

要約(オリジナル)

Intrinsic motivation, inspired by the psychology of developmental learning in infants, stimulates exploration in agents without relying solely on sparse external rewards. Existing methods in reinforcement learning like Random Network Distillation (RND) face significant limitations, including (1) relying on raw visual inputs, leading to a lack of meaningful representations, (2) the inability to build a robust latent space, (3) poor target network initialization and (4) rapid degradation of intrinsic rewards. In this paper, we introduce Pre-trained Network Distillation (PreND), a novel approach to enhance intrinsic motivation in reinforcement learning (RL) by improving upon the widely used prediction-based method, RND. PreND addresses these challenges by incorporating pre-trained representation models into both the target and predictor networks, resulting in more meaningful and stable intrinsic rewards, while enhancing the representation learned by the model. We also tried simple but effective variants of the predictor network optimization by controlling the learning rate. Through experiments on the Atari domain, we demonstrate that PreND significantly outperforms RND, offering a more robust intrinsic motivation signal that leads to better exploration, improving overall performance and sample efficiency. This research highlights the importance of target and predictor networks representation in prediction-based intrinsic motivation, setting a new direction for improving RL agents’ learning efficiency in sparse reward environments.

arxiv情報

著者 Mohammadamin Davoodabadi,Negin Hashemi Dijujin,Mahdieh Soleymani Baghshah
発行日 2024-10-02 16:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

HOPE for a Robust Parameterization of Long-memory State Space Models

要約

線形時不変 (LTI) システムを利用する状態空間モデル (SSM) は、長いシーケンスの学習に効果があることで知られています。
最先端のパフォーマンスを達成するために、SSM は多くの場合、特別に設計された初期化を必要とし、状態行列のトレーニングは非常に小さい学習率で対数スケールで行われます。
これらの選択を統一的な観点から理解するために、ハンケル演算子理論のレンズを通して SSM を考察します。
これに基づいて、ハンケル演算子内でマルコフ パラメーターを利用する LTI システム用の HOPE と呼ばれる新しいパラメーター化スキームを開発します。
私たちのアプローチは、初期化とトレーニングの安定性を向上させるのに役立ち、より堅牢なパラメーター化につながります。
LTI システムの伝達関数を不均一にサンプリングすることでこれらのイノベーションを効率的に実装しており、標準 SSM と比較して必要なパラメータが少なくなります。
S4 や S4D などの HiPPO で初期化されたモデルに対してベンチマークを実行すると、Hankel オペレーターによってパラメータ化された SSM は、Long-Range Arena (LRA) タスクのパフォーマンスの向上を示します。
さらに、新しいパラメータ化により、固定時間ウィンドウ内で非減衰メモリが SSM に与えられます。これは、パッドされたノイズを含むシーケンシャル CIFAR-10 タスクによって経験的に裏付けられています。

要約(オリジナル)

State-space models (SSMs) that utilize linear, time-invariant (LTI) systems are known for their effectiveness in learning long sequences. To achieve state-of-the-art performance, an SSM often needs a specifically designed initialization, and the training of state matrices is on a logarithmic scale with a very small learning rate. To understand these choices from a unified perspective, we view SSMs through the lens of Hankel operator theory. Building upon it, we develop a new parameterization scheme, called HOPE, for LTI systems that utilizes Markov parameters within Hankel operators. Our approach helps improve the initialization and training stability, leading to a more robust parameterization. We efficiently implement these innovations by nonuniformly sampling the transfer functions of LTI systems, and they require fewer parameters compared to canonical SSMs. When benchmarked against HiPPO-initialized models such as S4 and S4D, an SSM parameterized by Hankel operators demonstrates improved performance on Long-Range Arena (LRA) tasks. Moreover, our new parameterization endows the SSM with non-decaying memory within a fixed time window, which is empirically corroborated by a sequential CIFAR-10 task with padded noise.

arxiv情報

著者 Annan Yu,Michael W. Mahoney,N. Benjamin Erichson
発行日 2024-10-02 16:56:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | コメントする

Transformers are Minimax Optimal Nonparametric In-Context Learners

要約

大規模な言語モデルのインコンテキスト学習 (ICL) は、わずか数個の実証例から新しいタスクを学習する驚くほど効果的な方法であることが証明されています。
本稿では統計学習理論の観点からICLの有効性を検討する。
ディープ ニューラル ネットワークと 1 つの線形アテンション層で構成される変換器の近似および汎化誤差境界を開発します。この変換は、Besov 空間や区分的 $\gamma$-smooth クラスを含む一般関数空間からサンプリングされたノンパラメトリック回帰タスクで事前学習されています。
十分にトレーニングされた変換器は、事前トレーニング中に最も関連性の高い基底表現をエンコードすることで、コンテキスト内のミニマックス最適推定リスクを達成し、さらには改善できることを示します。
私たちの分析は高次元データまたは逐次データにまで及び、\emph{事前学習} と \emph{インコンテキスト} の汎化ギャップを区別します。
さらに、メタ学習者に対する情報理論的な下限を確立します。
タスクの数とコンテキスト内の例の両方。
これらの発見は、ICL におけるタスクの多様性と表現学習の役割に​​光を当てます。

要約(オリジナル)

In-context learning (ICL) of large language models has proven to be a surprisingly effective method of learning a new task from only a few demonstrative examples. In this paper, we study the efficacy of ICL from the viewpoint of statistical learning theory. We develop approximation and generalization error bounds for a transformer composed of a deep neural network and one linear attention layer, pretrained on nonparametric regression tasks sampled from general function spaces including the Besov space and piecewise $\gamma$-smooth class. We show that sufficiently trained transformers can achieve — and even improve upon — the minimax optimal estimation risk in context by encoding the most relevant basis representations during pretraining. Our analysis extends to high-dimensional or sequential data and distinguishes the \emph{pretraining} and \emph{in-context} generalization gaps. Furthermore, we establish information-theoretic lower bounds for meta-learners w.r.t. both the number of tasks and in-context examples. These findings shed light on the roles of task diversity and representation learning for ICL.

arxiv情報

著者 Juno Kim,Tai Nakamaki,Taiji Suzuki
発行日 2024-10-02 16:58:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | コメントする