Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks

要約

逐次的な意思決定タスクのための大規模言語モデル(Large Language Model: LLM)エージェントを改善するための多くの方法は、プロンプトのチューニング、文脈内の事例のキュレーション、あるいはカスタマイズされた観察・行動空間など、タスクに特化した知識工学に依存している。これらのアプローチを用いると、知識工学の質や投資量に応じてエージェントの性能が向上する。その代わりに、我々は、LLMエージェントが、同様のタスクで成功した自身の経験から文脈内で学習することにより、そのパフォーマンスを自動的に向上させる方法を研究する。タスクに特化した知識工学に依存するのではなく、自己生成例のデータベースの構築と改良に焦点を当てる。その結果、3つのベンチマークにおいて、訓練タスクの成功軌跡を素朴に蓄積するだけでも、テストの成績が向上することが実証された:ALFWorld(73%から89%)、Wordcraft(55%から64%)、InterCode-SQL(75%から79%)である。(2)文脈内の例としての経験的有用性に基づいて個々の軌跡を保持する模範レベルの選択。これらの拡張により、性能がさらに向上し、ALFWorldで91%を達成した–タスク固有のコンポーネントやプロンプトを採用した、より複雑なアプローチに匹敵する。我々の結果は、軌跡データベースの自動構築が、労働集約的な知識工学に代わる説得力のある選択肢を提供することを示している。

要約(オリジナル)

Many methods for improving Large Language Model (LLM) agents for sequential decision-making tasks depend on task-specific knowledge engineering–such as prompt tuning, curated in-context examples, or customized observation and action spaces. Using these approaches, agent performance improves with the quality or amount of knowledge engineering invested. Instead, we investigate how LLM agents can automatically improve their performance by learning in-context from their own successful experiences on similar tasks. Rather than relying on task-specific knowledge engineering, we focus on constructing and refining a database of self-generated examples. We demonstrate that even a naive accumulation of successful trajectories across training tasks boosts test performance on three benchmarks: ALFWorld (73% to 89%), Wordcraft (55% to 64%), and InterCode-SQL (75% to 79%)–matching the performance the initial agent achieves if allowed two to three attempts per task. We then introduce two extensions: (1) database-level selection through population-based training to identify high-performing example collections, and (2) exemplar-level selection that retains individual trajectories based on their empirical utility as in-context examples. These extensions further enhance performance, achieving 91% on ALFWorld–matching more complex approaches that employ task-specific components and prompts. Our results demonstrate that automatic trajectory database construction offers a compelling alternative to labor-intensive knowledge engineering.

arxiv情報

著者 Vishnu Sarukkai,Zhiqiang Xie,Kayvon Fatahalian
発行日 2025-05-02 16:44:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks はコメントを受け付けていません

SA-GAT-SR: Self-Adaptable Graph Attention Networks with Symbolic Regression for high-fidelity material property prediction

要約

機械学習における最近の進歩は、ディープラーニングアプローチ、特にグラフニューラルネットワーク(GNN)が材料科学において非常に有用であることを示している。これらの手法は、材料特性のハイスループット予測のための強力なツールとして登場し、従来の第一原理計算に代わる説得力のある強化策を提供している。この分野では、予測精度を向上させるために、より複雑で普遍的なモデルを開発することに重点が置かれているが、このようなアプローチは、物理的な解釈可能性や材料挙動に関する洞察に欠けることが多い。ここでは、GNNの予測能力と記号的回帰の解釈力を相乗的に組み合わせた新しい計算パラダイム、自己適応型グラフアテンションネットワークと記号的回帰の統合(SA-GAT-SR)を紹介する。我々のフレームワークは、O(n)の計算スケーリングを維持しながら、180次元の特徴空間から重要な特徴を選別するように、注意の重みを自動的に識別し調整する自己適応可能な符号化アルゴリズムを採用している。その後、統合されたSRモジュールは、これらの特徴をコンパクトな解析式に抽出し、量子力学的に意味のある関係を明示的に明らかにすることで、入力として第一原理計算由来の特徴に大きく依存する従来のSR実装と比較して、23倍の高速化を達成した。この研究は、予測精度と物理的解釈可能性のギャップを埋め、材料挙動に対する貴重な物理的洞察を提供する、計算材料科学の新しい枠組みを示唆している。

要約(オリジナル)

Recent advances in machine learning have demonstrated an enormous utility of deep learning approaches, particularly Graph Neural Networks (GNNs) for materials science. These methods have emerged as powerful tools for high-throughput prediction of material properties, offering a compelling enhancement and alternative to traditional first-principles calculations. While the community has predominantly focused on developing increasingly complex and universal models to enhance predictive accuracy, such approaches often lack physical interpretability and insights into materials behavior. Here, we introduce a novel computational paradigm, Self-Adaptable Graph Attention Networks integrated with Symbolic Regression (SA-GAT-SR), that synergistically combines the predictive capability of GNNs with the interpretative power of symbolic regression. Our framework employs a self-adaptable encoding algorithm that automatically identifies and adjust attention weights so as to screen critical features from an expansive 180-dimensional feature space while maintaining O(n) computational scaling. The integrated SR module subsequently distills these features into compact analytical expressions that explicitly reveal quantum-mechanically meaningful relationships, achieving 23 times acceleration compared to conventional SR implementations that heavily rely on first principle calculations-derived features as input. This work suggests a new framework in computational materials science, bridging the gap between predictive accuracy and physical interpretability, offering valuable physical insights into material behavior.

arxiv情報

著者 Liu Junchi,Tang Ying,Tretiak Sergei,Duan Wenhui,Zhou Liujiang
発行日 2025-05-02 03:34:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cond-mat.mtrl-sci, cs.LG, physics.comp-ph | SA-GAT-SR: Self-Adaptable Graph Attention Networks with Symbolic Regression for high-fidelity material property prediction はコメントを受け付けていません

Kernel Ridge Regression for Efficient Learning of High-Capacity Hopfield Networks

要約

ヘッブ学習を用いたホップフィールドネットワークは、記憶容量の制限に悩まされている。線形ロジスティック回帰(LLR)のような教師あり手法はある程度の改善をもたらすが、カーネル・ロジスティック回帰(KLR)のようなカーネル手法は、容量とノイズ・ロバスト性を大幅に向上させる。しかし、KLRは計算コストの高い反復学習を必要とする。我々は、高容量のホップフィールドネットワークを学習するための効率的なカーネルベースの代替法として、カーネルリッジ回帰(KRR)を提案する。KRRはカーネルトリックを利用し、回帰によって双極状態を予測し、デュアル変数の学習のための非反復的な閉形式解を提供することが重要である。我々はKRRを評価し、その性能をHebbian、LLR、KLRと比較する。我々の結果は、KRRがKLRに匹敵する最先端の記憶容量($beta$=1.5に達する)とノイズ頑健性を達成することを示す。特に重要なことは、KRRは学習時間を劇的に短縮し、LLRより桁違いに速く、特に記憶負荷が高い場合にはKLRより有意に速いことである。これにより、KRRは高性能連想メモリを構築するための強力で高効率な手法として確立され、KLRに匹敵する性能と大幅なトレーニング速度の利点を提供します。本研究は、ホップフィールドネットワーク学習の文脈におけるKRRとKLRの最初の実証的比較を提供する。

要約(オリジナル)

Hopfield networks using Hebbian learning suffer from limited storage capacity. While supervised methods like Linear Logistic Regression (LLR) offer some improvement, kernel methods like Kernel Logistic Regression (KLR) significantly enhance capacity and noise robustness. However, KLR requires computationally expensive iterative learning. We propose Kernel Ridge Regression (KRR) as an efficient kernel-based alternative for learning high-capacity Hopfield networks. KRR utilizes the kernel trick and predicts bipolar states via regression, crucially offering a non-iterative, closed-form solution for learning dual variables. We evaluate KRR and compare its performance against Hebbian, LLR, and KLR. Our results demonstrate that KRR achieves state-of-the-art storage capacity (reaching $\beta$=1.5) and noise robustness, comparable to KLR. Crucially, KRR drastically reduces training time, being orders of magnitude faster than LLR and significantly faster than KLR, especially at higher storage loads. This establishes KRR as a potent and highly efficient method for building high-performance associative memories, providing comparable performance to KLR with substantial training speed advantages. This work provides the first empirical comparison between KRR and KLR in the context of Hopfield network learning.

arxiv情報

著者 Akira Tamamori
発行日 2025-05-02 05:06:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.NE | Kernel Ridge Regression for Efficient Learning of High-Capacity Hopfield Networks はコメントを受け付けていません

100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models

要約

最近の推論言語モデル(RLM)の開発は、大規模言語モデルの新しい進化を表している。特に、最近リリースされたDeepSeek-R1は、広く社会的なインパクトを生み出し、言語モデルの明示的な推論パラダイムの探求に対する研究コミュニティの熱意に火をつけました。しかし、リリースされたモデルの実装の詳細は、DeepSeek-R1-Zero、DeepSeek-R1、および抽出された小さなモデルを含め、DeepSeekによって完全にオープンソース化されていません。その結果、DeepSeek-R1 によって達成された強力なパフォーマンスを再現することを目的とした多くの再現研究が出現し、同様のトレーニング手順と完全にオープンソース化されたデータリソースによって同等のパフォーマンスに達しました。これらの研究は、教師あり微調整(SFT)と検証可能な報酬からの強化学習(RLVR)の実現可能な戦略を、データ準備と手法設計に焦点を当てて調査し、様々な貴重な洞察を得ている。本レポートでは、今後の研究の参考となるよう、最近の再現研究の概要を示す。主にSFTとRLVRの2つの方向性に焦点を当て、現在の再現研究のデータ構築、手法設計、学習手順の詳細を紹介する。さらに、これらの研究で報告された実装の詳細と実験結果から得られた重要な知見を結論付け、今後の研究に示唆を与えることを期待する。また、RLMを強化するための追加技術についても議論し、これらのモデルの適用範囲を拡大する可能性を強調するとともに、開発における課題について議論する。この調査によって、RLMの研究者や開発者が最新の進歩を知ることができ、RLMをさらに強化するための新たなアイデアが生まれることを目指す。

要約(オリジナル)

The recent development of reasoning language models (RLMs) represents a novel evolution in large language models. In particular, the recent release of DeepSeek-R1 has generated widespread social impact and sparked enthusiasm in the research community for exploring the explicit reasoning paradigm of language models. However, the implementation details of the released models have not been fully open-sourced by DeepSeek, including DeepSeek-R1-Zero, DeepSeek-R1, and the distilled small models. As a result, many replication studies have emerged aiming to reproduce the strong performance achieved by DeepSeek-R1, reaching comparable performance through similar training procedures and fully open-source data resources. These works have investigated feasible strategies for supervised fine-tuning (SFT) and reinforcement learning from verifiable rewards (RLVR), focusing on data preparation and method design, yielding various valuable insights. In this report, we provide a summary of recent replication studies to inspire future research. We primarily focus on SFT and RLVR as two main directions, introducing the details for data construction, method design and training procedure of current replication studies. Moreover, we conclude key findings from the implementation details and experimental results reported by these studies, anticipating to inspire future research. We also discuss additional techniques of enhancing RLMs, highlighting the potential of expanding the application scope of these models, and discussing the challenges in development. By this survey, we aim to help researchers and developers of RLMs stay updated with the latest advancements, and seek to inspire new ideas to further enhance RLMs.

arxiv情報

著者 Chong Zhang,Yue Deng,Xiang Lin,Bin Wang,Dianwen Ng,Hai Ye,Xingxuan Li,Yao Xiao,Zhanfeng Mo,Qi Zhang,Lidong Bing
発行日 2025-05-02 07:44:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | 100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models はコメントを受け付けていません

Fast and Low-Cost Genomic Foundation Models via Outlier Removal

要約

ゲノムモデリングにおける乏しい計算資源という課題に対処するため、我々は強力な圧縮性能と高速な適応性を持つゲノム基礎モデルGERMを紹介する。GERMはDNABERT-2のようなモデルを改良し、低ランク適応と学習後の量子化の妨げとなる外れ値を排除することで、効率性と頑健性の両方を高めている。我々はバニラアテンションレイヤーを連想記憶モデルにインスパイアされた外れ値のないメカニズムに置き換える。事前学習と微調整の両方で外れ値を除去することで、このアプローチは適応を加速し、計算コストを削減し、許容可能な損失マージンの範囲内で量子化の頑健性を向上させる。さらに、我々はGERM-Tを提案する。GERM-Tは外れ値のないフレームワークの中でスモールステップの継続的学習を採用する戦略であり、ゼロからの再学習を避けるためにオリジナルのチェックポイントを活用する。経験的に、GERMはベースラインモデルと比較して、微調整性能を37.98%向上させ、量子化性能を64.34%向上させる。また平均尖度を92.14%、最大無限大ノルムを82.77%削減する。主要な手法と比較して、GERMは一貫して優れた性能を発揮し、リソースに制約のある環境におけるゲノムモデリングの実用的なソリューションを提供する。コードはhttps://github.com/MAGICS-LAB/GERM。

要約(オリジナル)

To address the challenge of scarce computational resources in genomic modeling, we introduce GERM, a genomic foundation model with strong compression performance and fast adaptability. GERM improves upon models like DNABERT-2 by eliminating outliers that hinder low-rank adaptation and post-training quantization, enhancing both efficiency and robustness. We replace the vanilla attention layer with an outlier-free mechanism inspired by associative memory models. By removing outliers during both pre-training and fine-tuning, this approach accelerates adaptation, reduces computational costs, and enhances quantization robustness within acceptable loss margins. Additionally, we propose GERM-T, a strategy that employs small-step continual learning within the outlier-free framework, leveraging original checkpoints to avoid retraining from scratch. Empirically, GERM improves fine-tuning performance by 37.98% and quantization by 64.34% over the baseline model. It also reduces average kurtosis by 92.14% and maximum infinity norm by 82.77%. Compared to leading methods, GERM consistently delivers superior performance, offering a practical solution for genomic modeling in resource-constrained settings. Code is available at https://github.com/MAGICS-LAB/GERM.

arxiv情報

著者 Haozheng Luo,Chenghao Qiu,Maojiang Su,Zhihan Zhou,Zoe Mehta,Guo Ye,Jerry Yao-Chieh Hu,Han Liu
発行日 2025-05-02 09:34:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | Fast and Low-Cost Genomic Foundation Models via Outlier Removal はコメントを受け付けていません

InterLoc: LiDAR-based Intersection Localization using Road Segmentation with Automated Evaluation Method

要約

道路交差点のオンライン・ローカライゼーションは、自律走行車のローカライゼーション、マッピング、モーションプランニングに有益である。交差点は、GNSS脱落時に車両の姿勢推定を修正し、新しいセンサーデータを最新の地図に固定するための強力なランドマークとなる。交差点はまた、道路ネットワークグラフにおける決定的なルーティングノードでもある。このような重要性にもかかわらず、交差点ローカライゼーションは広く研究されておらず、既存の手法では、すでに車載で計算された豊富な意味情報を無視するか、少ない、手作業でラベル付けされた交差点データセットに依存している。このギャップを埋めるため、本稿ではLiDARをベースとした車両中心のオンライン交差点位置特定手法を紹介する。意味的な道路セグメンテーションと車両のローカルポーズを融合し、鳥瞰図(BEV)表現で交差点候補を検出する。次に、枝のトポロジーを分析し、最小二乗法で交差点を補正することで、交差点候補を絞り込む。本手法を評価するために、正確なGNSS/INSの地上真理ポーズを用いて、ローカライズされた交差点とOpenStreetMap(OSM)の交差点ノードをペアリングする自動ベンチマークパイプラインを導入する。SemanticKITTIを用いた実験では、本手法が最新の学習ベースのベースラインを精度と信頼性において上回ることが示された。さらに、感度テストにより、本手法が困難なセグメンテーションエラーレベルに対してロバストであることが実証され、実世界での適用可能性が強調された。

要約(オリジナル)

Online localization of road intersections is beneficial for autonomous vehicle localization, mapping and motion planning. Intersections offer strong landmarks to correct vehicle pose estimation in GNSS dropouts and anchor new sensor data in up-to-date maps. They are also decisive routing nodes in road network graphs. Despite that importance, intersection localization has not been widely studied, with existing methods either ignore the rich semantic information already computed onboard or depend on scarce, hand-labeled intersection datasets. To close that gap, this paper presents a LiDAR-based method for online vehicle-centric intersection localization. We fuse semantic road segmentation with vehicle local pose to detect intersection candidates in a bird’s eye view (BEV) representation. We then refine those candidates by analyzing branch topology and correcting the intersection point in a least squares formulation. To evaluate our method, we introduce an automated benchmarking pipeline that pairs localized intersection points with OpenStreetMap (OSM) intersection nodes using precise GNSS/INS ground-truth poses. Experiments on SemanticKITTI show that the method outperforms the latest learning-based baseline in accuracy and reliability. Moreover, sensitivity tests demonstrate that our method is robust to challenging segmentation error levels, highlighting its applicability in the real world.

arxiv情報

著者 Nguyen Hoang Khoi Tran,Julie Stephany Berrio,Mao Shan,Zhenxing Ming,Stewart Worrall
発行日 2025-05-02 07:20:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | InterLoc: LiDAR-based Intersection Localization using Road Segmentation with Automated Evaluation Method はコメントを受け付けていません

Multimodal Masked Autoencoder Pre-training for 3D MRI-Based Brain Tumor Analysis with Missing Modalities

要約

マルチモーダル磁気共鳴画像法(MRI)は、脳腫瘍の治療において臨床医が最初に行う検査であり、手術計画、治療モニタリング、バイオマーカー同定に重要な知見を提供する。大規模なデータセットでの事前学習は、モデルが転送可能な表現を学習し、最小限のラベル付きデータで適応するのに役立つことが示されている。この動作は、アノテーションが乏しいことが多い医用画像において特に価値がある。しかし、このパラダイムをマルチモーダルな医療データに適用すると、課題が生じる。既存のアプローチのほとんどは、事前学習と微調整の両方において、すべての画像モダリティが利用可能であると仮定している。実際には、モダリティの欠落は、撮影の問題、専門家の不在、あるいは小規模な自社データセットにおける特定の実験デザインなどのためにしばしば発生する。その結果、一般的なアプローチでは、希望するモダリティの組み合わせごとに別々のモデルをトレーニングすることになり、このプロセスはリソース集約的で、臨床使用には現実的ではない。そこで我々は、マルチモーダルMRIデータ用に調整されたマスク画像モデリング事前トレーニング戦略であるBM-MAEを導入する。同じ事前訓練されたモデルが、利用可能なモダリティのどのような組み合わせにもシームレスに適応し、モダリティ内およびモダリティ間の情報を捉える豊かな表現を抽出する。これにより、アーキテクチャを変更することなく、モダリティのサブセットに対して微調整を行うことができる。広範な実験により、提案する事前学習戦略は、モダリティのサブセットごとに個別の事前学習を必要とするベースラインよりも優れているか、競争力を維持していることが示される。さらに、欠落したモダリティを迅速かつ効率的に再構成することができ、その実用的な価値を強調している。コードと学習済みモデルはhttps://github.com/Lucas-rbnt/BM-MAE。

要約(オリジナル)

Multimodal magnetic resonance imaging (MRI) constitutes the first line of investigation for clinicians in the care of brain tumors, providing crucial insights for surgery planning, treatment monitoring, and biomarker identification. Pre-training on large datasets have been shown to help models learn transferable representations and adapt with minimal labeled data. This behavior is especially valuable in medical imaging, where annotations are often scarce. However, applying this paradigm to multimodal medical data introduces a challenge: most existing approaches assume that all imaging modalities are available during both pre-training and fine-tuning. In practice, missing modalities often occur due to acquisition issues, specialist unavailability, or specific experimental designs on small in-house datasets. Consequently, a common approach involves training a separate model for each desired modality combination, making the process both resource-intensive and impractical for clinical use. Therefore, we introduce BM-MAE, a masked image modeling pre-training strategy tailored for multimodal MRI data. The same pre-trained model seamlessly adapts to any combination of available modalities, extracting rich representations that capture both intra- and inter-modal information. This allows fine-tuning on any subset of modalities without requiring architectural changes, while still benefiting from a model pre-trained on the full set of modalities. Extensive experiments show that the proposed pre-training strategy outperforms or remains competitive with baselines that require separate pre-training for each modality subset, while substantially surpassing training from scratch on several downstream tasks. Additionally, it can quickly and efficiently reconstruct missing modalities, highlighting its practical value. Code and trained models are available at: https://github.com/Lucas-rbnt/BM-MAE

arxiv情報

著者 Lucas Robinet,Ahmad Berjaoui,Elizabeth Cohen-Jonathan Moyal
発行日 2025-05-02 08:02:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | Multimodal Masked Autoencoder Pre-training for 3D MRI-Based Brain Tumor Analysis with Missing Modalities はコメントを受け付けていません

Reward-Augmented Data Enhances Direct Preference Alignment of LLMs

要約

大規模言語モデル(LLM)におけるプリファレンス・アライメントは、人間の指示や意図に従う能力を著しく向上させている。しかし、既存の直接アライメントアルゴリズムは、主に相対的な嗜好に焦点を当てており、AIフィードバック中に判定モデルからの報酬スコアを含む嗜好データにアクセスできるにもかかわらず、応答の質的側面を見落とすことが多い。選ばれた応答とわずかに劣る拒否された応答との間の暗黙の報酬ギャップを最大化しようと努力すると、過剰適合や、質の高い拒否された応答の不必要な未学習を引き起こす可能性がある。また、報酬スコアを意識しないため、LLMは低品質な選択応答を無差別に優先し、データが疎な最適応答への汎化に失敗する。このような欠点を克服するために、本研究では、データセット内の応答品質の全スペクトルを識別して学習し、より最適な領域への外挿を支援する報酬条件付きLLMポリシーを導入する。報酬条件付きデータセットを構築するために、嗜好ペアを品質スコアに条件付ける、効果的かつ単純なデータ再ラベリング法を提案する。様々なベンチマークと多様なモデルを対象とした実験により、我々の手法が一貫してDPOをかなりのマージンで向上させることを実証する。包括的なアブレーション研究を通じて、我々の手法が嗜好データの有用性を最大化するだけでなく、学習不能の問題を緩和することを実証し、単なるデータ拡張にとどまらない幅広い有効性を示す。我々のコードはhttps://github.com/shenao-zhang/reward-augmented-preference。

要約(オリジナル)

Preference alignment in Large Language Models (LLMs) has significantly improved their ability to adhere to human instructions and intentions. However, existing direct alignment algorithms primarily focus on relative preferences and often overlook the qualitative aspects of responses, despite having access to preference data that includes reward scores from judge models during AI feedback. Striving to maximize the implicit reward gap between the chosen and the slightly inferior rejected responses can cause overfitting and unnecessary unlearning of the high-quality rejected responses. The unawareness of the reward scores also drives the LLM to indiscriminately favor the low-quality chosen responses and fail to generalize to optimal responses that are sparse in data. To overcome these shortcomings, our study introduces reward-conditioned LLM policies that discern and learn from the entire spectrum of response quality within the dataset, helping extrapolate to more optimal regions. We propose an effective yet simple data relabeling method that conditions the preference pairs on quality scores to construct a reward-augmented dataset. The experiments across various benchmarks and diverse models demonstrate that our approach consistently boosts DPO by a considerable margin. Through comprehensive ablation studies, we demonstrate that our method not only maximizes the utility of preference data but also mitigates the issue of unlearning, demonstrating its broad effectiveness beyond mere data expansion. Our code is available at https://github.com/shenao-zhang/reward-augmented-preference.

arxiv情報

著者 Shenao Zhang,Zhihan Liu,Boyi Liu,Yufeng Zhang,Yingxiang Yang,Yongfei Liu,Liyu Chen,Tao Sun,Zhaoran Wang
発行日 2025-05-02 01:10:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | Reward-Augmented Data Enhances Direct Preference Alignment of LLMs はコメントを受け付けていません

A Modern Introduction to Online Learning

要約

このモノグラフでは、オンライン凸最適化の現代的な見方を通して、オンライン学習の基本概念を紹介する。ここでいうオンライン学習とは、最悪ケースを仮定した後悔最小化の枠組みを指す。ユークリッドおよび非ユークリッドの設定において、凸損失によるオンライン学習の一次および二次アルゴリズムを紹介する。すべてのアルゴリズムは、オンライン・ミラー降下法、Follow-The-Regularized-Leader法、およびそれらの変形法のインスタンスとして明確に提示される。特に、アルゴリズムのパラメータ調整と、適応的でパラメータフリーのオンライン学習アルゴリズムによる非拘束領域での学習の問題に注意が払われている。非凸損失は凸代理損失とランダム化によって対処する。また、敵対的・確率的マルチアームド・バンディットの問題に触れながら、バンディットの設定についても簡単に議論する。これらのノートは凸解析の予備知識を必要とせず、必要な数学的ツールはすべて厳密に説明されている。さらに、すべての証明は、できるだけ単純で短くなるように注意深く選ばれている。

要約(オリジナル)

In this monograph, I introduce the basic concepts of Online Learning through a modern view of Online Convex Optimization. Here, online learning refers to the framework of regret minimization under worst-case assumptions. I present first-order and second-order algorithms for online learning with convex losses, in Euclidean and non-Euclidean settings. All the algorithms are clearly presented as instantiation of Online Mirror Descent or Follow-The-Regularized-Leader and their variants. Particular attention is given to the issue of tuning the parameters of the algorithms and learning in unbounded domains, through adaptive and parameter-free online learning algorithms. Non-convex losses are dealt through convex surrogate losses and through randomization. The bandit setting is also briefly discussed, touching on the problem of adversarial and stochastic multi-armed bandits. These notes do not require prior knowledge of convex analysis and all the required mathematical tools are rigorously explained. Moreover, all the included proofs have been carefully chosen to be as simple and as short as possible.

arxiv情報

著者 Francesco Orabona
発行日 2025-05-01 16:17:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.OC, stat.ML | A Modern Introduction to Online Learning はコメントを受け付けていません

Generalizing Safety Beyond Collision-Avoidance via Latent-Space Reachability Analysis

要約

Hamilton-Jacobi(HJ)Reachabilityは、ロボットが危険な状態を同時に検出し、将来の障害を防ぐアクションを生成できるようにする厳格な数学的枠組みです。
理論的には、HJの到達可能性は、非線形システムと非コンベックス制約の安全なコントローラーを合成することができますが、実際には、低次元の状態空間表現と第一派のダイナミクスを介してモデル化された手工学の衝突回避制約に限定されています。
この作業では、私たちの目標は、安全なロボットコントローラーを一般化して、不可能ではないにしても、手作業で書き留めるのが難しいが、高次元の観測から直感的に特定できることを防ぐことです。たとえば、バッグの内容をこぼすことです。
生成世界モデルの潜在的な埋め込みスペースで安全分析を実行することにより、明示的な回復デモを行うことなく安全性普及アクションを自動的に計算するために、生の観測データ(たとえば、RGB画像)で直接動作するHJリーチ性の潜在スペースの一般化である潜在的な安全フィルターを提案します。
私たちの方法は、さまざまな品質(成功、ランダム探査、危険なデモンストレーションを含む)の多様なロボット観測アクションデータを活用して、世界モデルを学びます。
制約仕様は、学習された世界モデルの潜在空間の分類問題に変換されます。
シミュレーションおよびハードウェアの実験では、潜在的な安全フィルターの近似を計算して、フランカの研究3マニピュレーターがバッグの内容物をこぼしたり、倒れたオブジェクトをこぼさないように、複雑な安全上の危険からarbitrary意的なポリシー(模造学習ポリシーからテレオ操作まで)を保護します。

要約(オリジナル)

Hamilton-Jacobi (HJ) reachability is a rigorous mathematical framework that enables robots to simultaneously detect unsafe states and generate actions that prevent future failures. While in theory, HJ reachability can synthesize safe controllers for nonlinear systems and nonconvex constraints, in practice, it has been limited to hand-engineered collision-avoidance constraints modeled via low-dimensional state-space representations and first-principles dynamics. In this work, our goal is to generalize safe robot controllers to prevent failures that are hard–if not impossible–to write down by hand, but can be intuitively identified from high-dimensional observations: for example, spilling the contents of a bag. We propose Latent Safety Filters, a latent-space generalization of HJ reachability that tractably operates directly on raw observation data (e.g., RGB images) to automatically compute safety-preserving actions without explicit recovery demonstrations by performing safety analysis in the latent embedding space of a generative world model. Our method leverages diverse robot observation-action data of varying quality (including successes, random exploration, and unsafe demonstrations) to learn a world model. Constraint specification is then transformed into a classification problem in the latent space of the learned world model. In simulation and hardware experiments, we compute an approximation of Latent Safety Filters to safeguard arbitrary policies (from imitation- learned policies to direct teleoperation) from complex safety hazards, like preventing a Franka Research 3 manipulator from spilling the contents of a bag or toppling cluttered objects.

arxiv情報

著者 Kensuke Nakamura,Lasse Peters,Andrea Bajcsy
発行日 2025-04-30 23:43:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Generalizing Safety Beyond Collision-Avoidance via Latent-Space Reachability Analysis はコメントを受け付けていません