Encoding architecture algebra

要約

機械学習の入力タイプは多種多様であるにもかかわらず、この多様性は表現やモデル アーキテクチャに完全には反映されないことが多く、モデルのライフサイクル全体で非効率につながります。
この論文では、データの構造を適切に考慮した入力エンコーディング アーキテクチャを構築するための代数的アプローチを紹介し、より型に富んだ機械学習を実現するための一歩を提供します。

要約(オリジナル)

Despite the wide variety of input types in machine learning, this diversity is often not fully reflected in their representations or model architectures, leading to inefficiencies throughout a model’s lifecycle. This paper introduces an algebraic approach to constructing input-encoding architectures that properly account for the data’s structure, providing a step toward achieving more typeful machine learning.

arxiv情報

著者 Stephane Bersier,Xinyi Chen-Lin
発行日 2024-10-15 16:56:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.PL, cs.SE | Encoding architecture algebra はコメントを受け付けていません

Selection-p: Self-Supervised Task-Agnostic Prompt Compression for Faithfulness and Transferability

要約

大規模言語モデル (LLM) は、コンテキスト内学習を活用する場合、幅広い自然言語処理タスクにおいて優れた機能を実証してきました。
インコンテキスト学習に関連する追加の計算コストと財務コストを軽減するために、インコンテキスト学習プロンプトを圧縮するためのいくつかのプロンプト圧縮方法が提案されています。
これらの手法は成功したにもかかわらず、モデル固有の圧縮や GPT-4 などの外部トレーニング データに依存するため、転送性の課題に直面しています。
この論文では、自己教師あり事前トレーニング手法を利用して、有益でないトークンを離散化する統合圧縮方法を開発する LLM の能力を調査します。
継続的な事前トレーニング中に少数のパラメーターを導入することにより、提案された Selection-p は各入力トークンの確率を生成し、それを保存するか破棄するかを示します。
実験では、Selection-p が多数の分類タスクにわたって最先端のパフォーマンスを達成し、パフォーマンスのわずか 0.8% の低下のみで最大 10 倍の圧縮率を達成することが示されています。
また、従来品に比べ、異機種への移植性にも優れています。
さらに、長いコンテキストでのインコンテキスト学習のパフォーマンスを維持するために、Selection-p がどのように役立つかをさらに分析します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated impressive capabilities in a wide range of natural language processing tasks when leveraging in-context learning. To mitigate the additional computational and financial costs associated with in-context learning, several prompt compression methods have been proposed to compress the in-context learning prompts. Despite their success, these methods face challenges with transferability due to model-specific compression, or rely on external training data, such as GPT-4. In this paper, we investigate the ability of LLMs to develop a unified compression method that discretizes uninformative tokens, utilizing a self-supervised pre-training technique. By introducing a small number of parameters during the continual pre-training, the proposed Selection-p produces a probability for each input token, indicating whether to preserve or discard it. Experiments show Selection-p achieves state-of-the-art performance across numerous classification tasks, achieving compression rates of up to 10 times while experiencing only a marginal 0.8% decrease in performance. Moreover, it exhibits superior transferability to different models compared to prior work. Additionally, we further analyze how Selection-p helps maintain performance on in-context learning with long contexts.

arxiv情報

著者 Tsz Ting Chung,Leyang Cui,Lemao Liu,Xinting Huang,Shuming Shi,Dit-Yan Yeung
発行日 2024-10-15 17:05:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Selection-p: Self-Supervised Task-Agnostic Prompt Compression for Faithfulness and Transferability はコメントを受け付けていません

Divide And Conquer: Learning Chaotic Dynamical Systems With Multistep Penalty Neural Ordinary Differential Equations

要約

高次元の力学システムの予測は、地球科学や工学などのさまざまな分野における基本的な課題です。
ニューラル ネットワークと数値ソルバーの力を組み合わせたニューラル常微分方程式 (NODE) は、複雑な非線形力学システムを予測するための有望なアルゴリズムとして浮上しています。
ただし、NODE トレーニングに使用される古典的な手法は、カオス動的システムの学習には効果的ではありません。
この研究では、カオス動的システムの堅牢な学習を可能にする新しい NODE トレーニング アプローチを提案します。
私たちの方法は、根底にあるカオスダイナミクスに関連する非凸性と爆発的な勾配の課題に対処します。
このようなシステムからのトレーニング データの軌跡は、重複しない複数の時間ウィンドウに分割されます。
トレーニング データからの偏差に加えて、最適化損失項により、時間ウィンドウ間の予測軌跡の不連続性がさらにペナルティを受けます。
ウィンドウ サイズは、システムの最速のリアプノフ タイム スケールに基づいて選択されます。
マルチステップペナルティ(MP)法がローレンツ方程式で最初に実証され、損失状況がどのように改善され、それによって最適化の収束が加速されるかを示します。
MP 法は、最小二乗シャドウイングと同様の方法で、大幅に低い計算コストでカオス システムを最適化できます。
私たちが提案したアルゴリズムは、マルチステップ ペナルティ NODE と呼ばれ、倉本・シヴァシンスキー方程式、二次元コルモゴロフ流、大気の ERA5 再解析データなどのカオス系に適用されます。
MP-NODE は、短期軌道予測だけでなく、これらのダイナミクスのカオス的な性質の特徴である不変統計に対しても、このようなカオス システムに対して実行可能なパフォーマンスを提供することが観察されています。

要約(オリジナル)

Forecasting high-dimensional dynamical systems is a fundamental challenge in various fields, such as geosciences and engineering. Neural Ordinary Differential Equations (NODEs), which combine the power of neural networks and numerical solvers, have emerged as a promising algorithm for forecasting complex nonlinear dynamical systems. However, classical techniques used for NODE training are ineffective for learning chaotic dynamical systems. In this work, we propose a novel NODE-training approach that allows for robust learning of chaotic dynamical systems. Our method addresses the challenges of non-convexity and exploding gradients associated with underlying chaotic dynamics. Training data trajectories from such systems are split into multiple, non-overlapping time windows. In addition to the deviation from the training data, the optimization loss term further penalizes the discontinuities of the predicted trajectory between the time windows. The window size is selected based on the fastest Lyapunov time scale of the system. Multi-step penalty(MP) method is first demonstrated on Lorenz equation, to illustrate how it improves the loss landscape and thereby accelerates the optimization convergence. MP method can optimize chaotic systems in a manner similar to least-squares shadowing with significantly lower computational costs. Our proposed algorithm, denoted the Multistep Penalty NODE, is applied to chaotic systems such as the Kuramoto-Sivashinsky equation, the two-dimensional Kolmogorov flow, and ERA5 reanalysis data for the atmosphere. It is observed that MP-NODE provide viable performance for such chaotic systems, not only for short-term trajectory predictions but also for invariant statistics that are hallmarks of the chaotic nature of these dynamics.

arxiv情報

著者 Dibyajyoti Chakraborty,Seung Whan Chung,Troy Arcomano,Romit Maulik
発行日 2024-10-15 17:07:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Divide And Conquer: Learning Chaotic Dynamical Systems With Multistep Penalty Neural Ordinary Differential Equations はコメントを受け付けていません

Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs

要約

欧州連合の 24 の公用語すべてをサポートすることで、ヨーロッパの言語の多様性を受け入れるように設計された 2 つの多言語 LLM を紹介します。
約 60% の英語以外のデータで構成されるデータセットでトレーニングされ、カスタムの多言語トークナイザーを利用した当社のモデルは、主に英語またはいくつかの高リソース言語に焦点を当てた既存の LLM の制限に対処します。
モデルの開発原則、つまりデータ構成、トークナイザーの最適化、トレーニング方法について詳しく説明します。
これらのモデルは、ARC、HellaSwag、MMLU、TruthfulQA の欧州バージョンでのパフォーマンスから明らかなように、多言語ベンチマーク全体で競争力のあるパフォーマンスを示しています。

要約(オリジナル)

We present two multilingual LLMs designed to embrace Europe’s linguistic diversity by supporting all 24 official languages of the European Union. Trained on a dataset comprising around 60% non-English data and utilizing a custom multilingual tokenizer, our models address the limitations of existing LLMs that predominantly focus on English or a few high-resource languages. We detail the models’ development principles, i.e., data composition, tokenizer optimization, and training methodologies. The models demonstrate competitive performance across multilingual benchmarks, as evidenced by their performance on European versions of ARC, HellaSwag, MMLU, and TruthfulQA.

arxiv情報

著者 Mehdi Ali,Michael Fromm,Klaudia Thellmann,Jan Ebert,Alexander Arno Weber,Richard Rutmann,Charvi Jain,Max Lübbering,Daniel Steinigen,Johannes Leveling,Katrin Klug,Jasper Schulze Buschhoff,Lena Jurkschat,Hammam Abdelwahab,Benny Jörg Stein,Karl-Heinz Sylla,Pavel Denisov,Nicolo’ Brandizzi,Qasid Saleem,Anirban Bhowmick,Lennard Helmer,Chelsea John,Pedro Ortiz Suarez,Malte Ostendorff,Alex Jude,Lalith Manjunath,Samuel Weinbach,Carolin Penke,Oleg Filatov,Shima Asaadi,Fabio Barth,Rafet Sifa,Fabian Küch,Andreas Herten,René Jäkel,Georg Rehm,Stefan Kesselheim,Joachim Köhler,Nicolas Flores-Herr
発行日 2024-10-15 17:09:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs はコメントを受け付けていません

AGaLiTe: Approximate Gated Linear Transformers for Online Reinforcement Learning

要約

この論文では、部分的に観察可能なオンライン強化学習用に設計されたトランスフォーマー アーキテクチャを調査します。
トランスフォーマー アーキテクチャのセルフ アテンション メカニズムは、長距離の依存関係を捕捉することができ、これがシーケンシャル データの処理における有効性の背後にある主な理由です。
それにも関わらず、成功にもかかわらず、トランスフォーマーにはオンライン強化学習への適用性を依然として制限する 2 つの重大な欠点があります。(1) 過去の情報をすべて記憶するために、自己注意メカニズムはコンテキストとして提供される履歴全体にアクセスする必要があります。
(2) 変圧器の推論コストは高価です。
この論文では、コンテキストに依存しない推論コストを提供し、長距離の依存関係を効果的に活用し、オンライン強化学習タスクで適切に実行する、トランスフォーマー セルフ アテンション メカニズムの反復的な代替手段を紹介します。
当社は、診断環境におけるアーキテクチャのさまざまなコンポーネントの影響を定量化し、2D および 3D ピクセルベースの部分的に観察可能な環境 (T-Maze、Mystery Path、Craftax、Memory Maze など) でのパフォーマンスの向上を評価します。
最先端のアーキテクチャである GTrXL と比較して、私たちのアプローチの推論は少なくとも 40% 安価であり、メモリ使用量は 50% 以上削減されます。
私たちのアプローチは GTrXL と同等かそれ以上のパフォーマンスを発揮し、より困難なタスクにおいて GTrXL のパフォーマンスを 37% 以上向上させます。

要約(オリジナル)

In this paper we investigate transformer architectures designed for partially observable online reinforcement learning. The self-attention mechanism in the transformer architecture is capable of capturing long-range dependencies and it is the main reason behind its effectiveness in processing sequential data. Nevertheless, despite their success, transformers have two significant drawbacks that still limit their applicability in online reinforcement learning: (1) in order to remember all past information, the self-attention mechanism requires access to the whole history to be provided as context. (2) The inference cost in transformers is expensive. In this paper, we introduce recurrent alternatives to the transformer self-attention mechanism that offer context-independent inference cost, leverage long-range dependencies effectively, and performs well in online reinforcement learning task. We quantify the impact of the different components of our architecture in a diagnostic environment and assess performance gains in 2D and 3D pixel-based partially-observable environments (e.g. T-Maze, Mystery Path, Craftax, and Memory Maze). Compared with a state-of-the-art architecture, GTrXL, inference in our approach is at least 40% cheaper while reducing memory use more than 50%. Our approach either performs similarly or better than GTrXL, improving more than 37% upon GTrXL performance in harder tasks.

arxiv情報

著者 Subhojeet Pramanik,Esraa Elelimy,Marlos C. Machado,Adam White
発行日 2024-10-15 17:14:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | AGaLiTe: Approximate Gated Linear Transformers for Online Reinforcement Learning はコメントを受け付けていません

Need of AI in Modern Education: in the Eyes of Explainable AI (xAI)

要約

現代教育は AI なしでは \textit{現代} ではありません。
ただし、AI の複雑な性質により、問題を理解して解決することが困難になります。
世界中の調査によると、親の収入が子供の教育に大きな影響を与えることがわかっています。
これにより、AI、特に複雑なモデルが、Explainable AI ツールを使用してどのように重要な意思決定を行うかを調査することができました。
私たちの調査により、親の収入に関連する多くの複雑さが明らかになり、これらの決定について合理的な説明が得られました。
しかし、教育において AI に求めるもの、つまり明確な透明性とすべての人への平等なアクセスに反する AI のバイアスも見つかりました。
これらの偏見は家族や子供の学校教育に影響を与える可能性があり、すべての人に公平な機会を提供する、より優れた AI ソリューションの必要性を浮き彫りにしています。
この章では、特にバイアスに関して、AI の複雑な動作方法に光を当てようとします。
これらは、より信頼性が高く、説明責任があり、関係者全員にとって有益な方法で AI を使用することを含む、より良い教育政策に向けた基礎的なステップです。

要約(オリジナル)

Modern Education is not \textit{Modern} without AI. However, AI’s complex nature makes understanding and fixing problems challenging. Research worldwide shows that a parent’s income greatly influences a child’s education. This led us to explore how AI, especially complex models, makes important decisions using Explainable AI tools. Our research uncovered many complexities linked to parental income and offered reasonable explanations for these decisions. However, we also found biases in AI that go against what we want from AI in education: clear transparency and equal access for everyone. These biases can impact families and children’s schooling, highlighting the need for better AI solutions that offer fair opportunities to all. This chapter tries to shed light on the complex ways AI operates, especially concerning biases. These are the foundational steps towards better educational policies, which include using AI in ways that are more reliable, accountable, and beneficial for everyone involved.

arxiv情報

著者 Supriya Manna,Niladri Sett
発行日 2024-10-15 17:15:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Need of AI in Modern Education: in the Eyes of Explainable AI (xAI) はコメントを受け付けていません

Predicting from Strings: Language Model Embeddings for Bayesian Optimization

要約

ベイジアン最適化は、検索効率を向上させるための実験計画やブラックボックス最適化の分野で広く普及していますが、従来は固定検索スペースと表形式の入力特徴にのみ適用できる回帰モデルに限定されてきました。
私たちは、事前トレーニングされた言語モデルの文字列埋め込み機能を使用して、文字列入力に対してコンテキスト内回帰を適用するパラダイムである Embed-then-Regress を提案します。
すべての入力を文字列として表現することで、合成最適化、組み合わせ最適化、ハイパーパラメーター最適化などのさまざまな領域でベイジアン最適化の汎用回帰を実行し、最先端のガウス プロセス ベースのアルゴリズムと同等の結果を得ることができます。
コードは https://github.com/google-research/optformer/tree/main/optformer/embed_then_regress にあります。

要約(オリジナル)

Bayesian Optimization is ubiquitous in the field of experimental design and blackbox optimization for improving search efficiency, but has been traditionally restricted to regression models which are only applicable to fixed search spaces and tabular input features. We propose Embed-then-Regress, a paradigm for applying in-context regression over string inputs, through the use of string embedding capabilities of pretrained language models. By expressing all inputs as strings, we are able to perform general-purpose regression for Bayesian Optimization over various domains including synthetic, combinatorial, and hyperparameter optimization, obtaining comparable results to state-of-the-art Gaussian Process-based algorithms. Code can be found at https://github.com/google-research/optformer/tree/main/optformer/embed_then_regress.

arxiv情報

著者 Tung Nguyen,Qiuyi Zhang,Bangding Yang,Chansoo Lee,Jorg Bornschein,Yingjie Miao,Sagi Perel,Yutian Chen,Xingyou Song
発行日 2024-10-15 17:23:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Predicting from Strings: Language Model Embeddings for Bayesian Optimization はコメントを受け付けていません

What We Talk About When We Talk About LMs: Implicit Paradigm Shifts and the Ship of Language Models

要約

言語モデル (LM) という用語は、対象となるモデルの時間固有のコレクションとして、$\textit{テセウスの船}$ が部品を置き換えても本質的には同じ船であるのと同じように、その参照対象が更新され、常に再発明されます。
この論文では、この $\textit{言語モデルのシップ}$ 問題を調査します。この問題では、科学の進化は主要な既存用語の継続的かつ暗黙的な改良の形をとっています。
私たちは、よりよく研究された新しい用語の出現に加えて、科学の進歩に対する新しい視点を開始することを目指しています。
この目的のために、私たちは最近の NLP 出版物に基づいてデータ インフラストラクチャを構築します。
次に、専門用語としての言語モデルの使用を詳細かつ定量的に理解するために、一連のテキストベースの分析を実行します。
私たちの研究は、科学的議論においてシステムと理論がどのように相互に影響を与えるかを強調しており、私たち全員が貢献しているこの船の変革に注目するよう呼びかけています。

要約(オリジナル)

The term Language Models (LMs), as a time-specific collection of models of interest, is constantly reinvented, with its referents updated much like the $\textit{Ship of Theseus}$ replaces its parts but remains the same ship in essence. In this paper, we investigate this $\textit{Ship of Language Models}$ problem, wherein scientific evolution takes the form of continuous, implicit retrofits of key existing terms. We seek to initiate a novel perspective of scientific progress, in addition to the more well-studied emergence of new terms. To this end, we construct the data infrastructure based on recent NLP publications. Then, we perform a series of text-based analyses toward a detailed, quantitative understanding of the use of Language Models as a term of art. Our work highlights how systems and theories influence each other in scientific discourse, and we call for attention to the transformation of this Ship that we all are contributing to.

arxiv情報

著者 Shengqi Zhu,Jeffrey M. Rzeszotarski
発行日 2024-10-15 17:36:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | What We Talk About When We Talk About LMs: Implicit Paradigm Shifts and the Ship of Language Models はコメントを受け付けていません

LoRD: Adapting Differentiable Driving Policies to Distribution Shifts

要約

運用ドメイン間の分布の変化は、自動運転車 (SDV) の学習モデルのパフォーマンスに重大な影響を与える可能性があります。
これは十分に確立された問題ですが、これまでの研究では主に、動き予測タスクに焦点を当てた微調整などの素朴な解決策が検討されてきました。
この研究では、予測、計画、制御から構成される微分可能な自律性スタックの新しい適応戦略を探索し、閉ループで評価を実行し、見落とされがちな壊滅的な忘却の問題を調査します。
具体的には、低ランク残差デコーダ (LoRD) とマルチタスク微調整という 2 つのシンプルかつ効果的な手法を紹介します。
2 つの実際の自動運転データセット (nuPlan、exiD) で実行された 3 つのモデルにわたる実験を通じて、私たちは手法の有効性を実証し、従来のアプローチにおける開ループ評価と閉ループ評価の間の大きなパフォーマンスのギャップを強調しました。
私たちのアプローチは、標準の微調整と比較して、忘却を最大 23.33% 改善し、閉ループ OOD 駆動スコアを 8.83% 改善します。

要約(オリジナル)

Distribution shifts between operational domains can severely affect the performance of learned models in self-driving vehicles (SDVs). While this is a well-established problem, prior work has mostly explored naive solutions such as fine-tuning, focusing on the motion prediction task. In this work, we explore novel adaptation strategies for differentiable autonomy stacks consisting of prediction, planning, and control, perform evaluation in closed-loop, and investigate the often-overlooked issue of catastrophic forgetting. Specifically, we introduce two simple yet effective techniques: a low-rank residual decoder (LoRD) and multi-task fine-tuning. Through experiments across three models conducted on two real-world autonomous driving datasets (nuPlan, exiD), we demonstrate the effectiveness of our methods and highlight a significant performance gap between open-loop and closed-loop evaluation in prior approaches. Our approach improves forgetting by up to 23.33% and the closed-loop OOD driving score by 8.83% in comparison to standard fine-tuning.

arxiv情報

著者 Christopher Diehl,Peter Karkus,Sushant Veer,Marco Pavone,Torsten Bertram
発行日 2024-10-15 17:38:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | LoRD: Adapting Differentiable Driving Policies to Distribution Shifts はコメントを受け付けていません

Learning Smooth Humanoid Locomotion through Lipschitz-Constrained Policies

要約

強化学習とシミュレーションからリアルへの変換を組み合わせることで、脚式ロボットの移動コントローラーを開発するための一般的なフレームワークが提供されます。
現実世界での展開を成功させるために、ローパス フィルターや平滑化報酬などの平滑化手法がよく使用され、スムーズな動作を備えたポリシーが開発されます。
ただし、これらの手法は微分不可能であり、通常、大規模なハイパーパラメータのセットの面倒な調整が必要なため、ロボット プラットフォームごとに大規模な手動調整が必要になる傾向があります。
この課題に対処し、スムーズな動作を強制するための一般的な手法を確立するために、学習したポリシーにリプシッツ制約を課すシンプルで効果的な方法を提案します。これをリプシッツ制約ポリシー (LCP) と呼びます。
我々は、リプシッツ制約が勾配ペナルティの形で実装できることを示します。これにより、自動微分フレームワークに簡単に組み込むことができる微分可能な目的が提供されます。
私たちは、LCP が報酬の平滑化やローパス フィルターの必要性を効果的に置き換え、多くの異なるヒューマノイド ロボットのトレーニング フレームワークに簡単に統合できることを実証します。
当社はシミュレーションと現実世界の人型ロボットの両方で LCP を広範囲に評価し、スムーズで堅牢な移動コントローラーを作成します。
すべてのシミュレーションおよびデプロイメント コードと完全なチェックポイントは、プロジェクト ページ https://lipschitz-constrained-policy.github.io で入手できます。

要約(オリジナル)

Reinforcement learning combined with sim-to-real transfer offers a general framework for developing locomotion controllers for legged robots. To facilitate successful deployment in the real world, smoothing techniques, such as low-pass filters and smoothness rewards, are often employed to develop policies with smooth behaviors. However, because these techniques are non-differentiable and usually require tedious tuning of a large set of hyperparameters, they tend to require extensive manual tuning for each robotic platform. To address this challenge and establish a general technique for enforcing smooth behaviors, we propose a simple and effective method that imposes a Lipschitz constraint on a learned policy, which we refer to as Lipschitz-Constrained Policies (LCP). We show that the Lipschitz constraint can be implemented in the form of a gradient penalty, which provides a differentiable objective that can be easily incorporated with automatic differentiation frameworks. We demonstrate that LCP effectively replaces the need for smoothing rewards or low-pass filters and can be easily integrated into training frameworks for many distinct humanoid robots. We extensively evaluate LCP in both simulation and real-world humanoid robots, producing smooth and robust locomotion controllers. All simulation and deployment code, along with complete checkpoints, is available on our project page: https://lipschitz-constrained-policy.github.io.

arxiv情報

著者 Zixuan Chen,Xialin He,Yen-Jen Wang,Qiayuan Liao,Yanjie Ze,Zhongyu Li,S. Shankar Sastry,Jiajun Wu,Koushil Sreenath,Saurabh Gupta,Xue Bin Peng
発行日 2024-10-15 17:52:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Learning Smooth Humanoid Locomotion through Lipschitz-Constrained Policies はコメントを受け付けていません