T1: A Tool-Oriented Conversational Dataset for Multi-Turn Agentic Planning

要約

大規模な言語モデル(LLM)は、複雑な問題を解決できるインテリジェントなエージェントとして印象的な能力を実証しています。
ただし、APIまたはツールコールの間の依存関係を含むシナリオでの効果的な計画は、特にマルチターン会話において重要な課題です。
これに対処するために、多様なドメイン全体でツール間依存関係をキャプチャおよび管理するために特別に設計された、ツールを得た多型、マルチターンの会話データセットであるT1を紹介します。
T1は、短期および長期メモリの両方の統合されたキャッシュメカニズムの助けを借りて、9つの異なるドメイン(4つの単一ドメインと5つのマルチドメイン)にわたってツールの使用を調整するエージェントの能力を厳密に評価できるようにし、動的リプランシングをサポートしながら、キャッシュされた結果を再計算するか復活させるかを決定します。
T1は、ツールの使用と計画に関する研究を促進するだけでなく、オープンソース言語モデルのパフォーマンスを評価するためのベンチマークとしても機能します。
T1-Agentを搭載した結果を提示し、複雑でツール依存のシナリオで計画と推論する能力を強調しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated impressive capabilities as intelligent agents capable of solving complex problems. However, effective planning in scenarios involving dependencies between API or tool calls-particularly in multi-turn conversations-remains a significant challenge. To address this, we introduce T1, a tool-augmented, multi-domain, multi-turn conversational dataset specifically designed to capture and manage inter-tool dependencies across diverse domains. T1 enables rigorous evaluation of agents’ ability to coordinate tool use across nine distinct domains (4 single domain and 5 multi-domain) with the help of an integrated caching mechanism for both short- and long-term memory, while supporting dynamic replanning-such as deciding whether to recompute or reuse cached results. Beyond facilitating research on tool use and planning, T1 also serves as a benchmark for evaluating the performance of open-source language models. We present results powered by T1-Agent, highlighting their ability to plan and reason in complex, tool-dependent scenarios.

arxiv情報

著者 Amartya Chakraborty,Paresh Dashore,Nadia Bathaee,Anmol Jain,Anirban Das,Shi-Xiong Zhang,Sambit Sahu,Milind Naphade,Genta Indra Winata
発行日 2025-05-22 17:54:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | T1: A Tool-Oriented Conversational Dataset for Multi-Turn Agentic Planning はコメントを受け付けていません

MASLab: A Unified and Comprehensive Codebase for LLM-based Multi-Agent Systems

要約

LLMベースのマルチエージェントシステム(MAS)は、単一のLLMを強化して、実際のアプリケーションで複雑で多様なタスクに対処する重要な可能性を実証しています。
かなりの進歩にもかかわらず、この分野には既存の方法を統合する統一されたコードベースが欠けており、その結果、再実装の取り組み、不当な比較、および研究者の高い入学障壁があります。
これらの課題に対処するために、LLMベースのMAS向けの統一された包括的な、研究に優しいコードベースであるMaslabを紹介します。
(1)MASLABは、複数のドメインにわたって20を超える確立されたメソッドを統合し、それぞれがステップバイステップの出力と公式の実装を比較することにより厳密に検証されます。
(2)MASLABは、メソッド間の公正な比較のためにさまざまなベンチマークを備えた統一環境を提供し、一貫した入力と標準化された評価プロトコルを確保します。
(3)MASLABは、共有された合理化された構造内で方法を実装し、理解と拡張のための障壁を下げます。
MASLABに基づいて、10以上のベンチマークと8つのモデルをカバーする広範な実験を実施し、MASメソッドの現在のランドスケープの明確で包括的な見解を研究者に提供します。
Maslabは進化を続け、この分野の最新の開発を追跡し、より広範なオープンソースコミュニティからの貢献を招きます。

要約(オリジナル)

LLM-based multi-agent systems (MAS) have demonstrated significant potential in enhancing single LLMs to address complex and diverse tasks in practical applications. Despite considerable advancements, the field lacks a unified codebase that consolidates existing methods, resulting in redundant re-implementation efforts, unfair comparisons, and high entry barriers for researchers. To address these challenges, we introduce MASLab, a unified, comprehensive, and research-friendly codebase for LLM-based MAS. (1) MASLab integrates over 20 established methods across multiple domains, each rigorously validated by comparing step-by-step outputs with its official implementation. (2) MASLab provides a unified environment with various benchmarks for fair comparisons among methods, ensuring consistent inputs and standardized evaluation protocols. (3) MASLab implements methods within a shared streamlined structure, lowering the barriers for understanding and extension. Building on MASLab, we conduct extensive experiments covering 10+ benchmarks and 8 models, offering researchers a clear and comprehensive view of the current landscape of MAS methods. MASLab will continue to evolve, tracking the latest developments in the field, and invite contributions from the broader open-source community.

arxiv情報

著者 Rui Ye,Keduan Huang,Qimin Wu,Yuzhu Cai,Tian Jin,Xianghe Pang,Xiangrui Liu,Jiaqi Su,Chen Qian,Bohan Tang,Kaiqu Liang,Jiaao Chen,Yue Hu,Zhenfei Yin,Rongye Shi,Bo An,Yang Gao,Wenjun Wu,Lei Bai,Siheng Chen
発行日 2025-05-22 17:54:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MA | MASLab: A Unified and Comprehensive Codebase for LLM-based Multi-Agent Systems はコメントを受け付けていません

$\text{R}^2\text{ec}$: Towards Large Recommender Models with Reasoning

要約

大規模な推奨モデルは、LLMをエンコードまたはアイテムの生成により強力な推奨者として拡張し、LLMの最近のブレークスルーは、推奨の推奨事項の調査を同期的に動機付けています。
現在の研究では、通常、LLMSを外部推論モジュールとして配置して、従来の推奨パイプラインを強化するための補助思想を生み出しています。
ただし、このような分離された設計は、大幅なリソースコストと最適ではない共同最適化が制限されています。
これらの問題に対処するために、本質的な推論機能を備えた統一された大規模な推奨モデルである\ nameを提案します。
最初に、モデルアーキテクチャを再概念化して、自己回帰プロセスでのインターリーブの推論と推奨を促進します。
その後、単一のポリシーアップデートで同時に推論と推奨機能の両方を最適化する対応する強化学習フレームワークであるRECPOを提案します。
RECPOは、推奨ラベルを活用して推論能力をシミュレートし、専門的な推論アノテーションへの依存を排除​​する融合報酬スキームを導入します。
さまざまなベースラインを使用した3つのデータセットでの実験\名の有効性が検証され、NDCG@20のHIT@5および45.21 \%の68.67 \%の相対的な改善が示されています。
https://github.com/yryangang/rrecで利用可能なコード。

要約(オリジナル)

Large recommender models have extended LLMs as powerful recommenders via encoding or item generation, and recent breakthroughs in LLM reasoning synchronously motivate the exploration of reasoning in recommendation. Current studies usually position LLMs as external reasoning modules to yield auxiliary thought for augmenting conventional recommendation pipelines. However, such decoupled designs are limited in significant resource cost and suboptimal joint optimization. To address these issues, we propose \name, a unified large recommender model with intrinsic reasoning capabilities. Initially, we reconceptualize the model architecture to facilitate interleaved reasoning and recommendation in the autoregressive process. Subsequently, we propose RecPO, a corresponding reinforcement learning framework that optimizes \name\ both the reasoning and recommendation capabilities simultaneously in a single policy update; RecPO introduces a fused reward scheme that solely leverages recommendation labels to simulate the reasoning capability, eliminating dependency on specialized reasoning annotations. Experiments on three datasets with various baselines verify the effectiveness of \name, showing relative improvements of 68.67\% in Hit@5 and 45.21\% in NDCG@20. Code available at https://github.com/YRYangang/RRec.

arxiv情報

著者 Runyang You,Yongqi Li,Xinyu Lin,Xin Zhang,Wenjie Wang,Wenjie Li,Liqiang Nie
発行日 2025-05-22 17:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | $\text{R}^2\text{ec}$: Towards Large Recommender Models with Reasoning はコメントを受け付けていません

Capacity-Aware Inference: Mitigating the Straggler Effect in Mixture of Experts

要約

専門家(MOE)の混合は、まばらな専門家の活性化を活用し、パフォーマンスと効率のトレードオフを最適化することにより、大規模な言語モデルをスケーリングするための効果的なアーキテクチャです。
しかし、専門家の並列性の下では、MOEは、トークンから専門家への格付けの不均衡による推論の非効率性に苦しんでおり、一部の専門家は過負荷になり、他の専門家は十分に活用されていないままです。
この不均衡は、リソースの利用率が低下し、レイテンシの増加につながります。最も負担のない専門家が全体的な遅延を決定するため、\ textbf {\ textit {straggler効果}}として定義する現象です。
これを緩和するために、2つの重要な手法を含む容量認定を提案します:(1)\ textBf {\ textIT {容量とアウェアトークンドロップ}}。
十分に活用されていない専門家、トークン分布のバランス。
これらの手法は、高負荷と低負荷の専門家の両方の利用を集合的に最適化し、より効率的なMOE推論パイプラインにつながります。
広範な実験は、当社の方法の有効性を示しており、例えば0.2 \%の平均パフォーマンスの増加と、Mixtral-8 $ 8 $ \ Times $ 7b-Intructの1.94 $ \ Times $ Inference Speepupの大幅な改善を示しています。

要約(オリジナル)

The Mixture of Experts (MoE) is an effective architecture for scaling large language models by leveraging sparse expert activation, optimizing the trade-off between performance and efficiency. However, under expert parallelism, MoE suffers from inference inefficiencies due to imbalanced token-to-expert assignment, where some experts are overloaded while others remain underutilized. This imbalance leads to poor resource utilization and increased latency, as the most burdened expert dictates the overall delay, a phenomenon we define as the \textbf{\textit{Straggler Effect}}. To mitigate this, we propose Capacity-Aware Inference, including two key techniques: (1) \textbf{\textit{Capacity-Aware Token Drop}}, which discards overloaded tokens to regulate the maximum latency of MoE, and (2) \textbf{\textit{Capacity-Aware Token Reroute}}, which reallocates overflowed tokens to underutilized experts, balancing the token distribution. These techniques collectively optimize both high-load and low-load expert utilization, leading to a more efficient MoE inference pipeline. Extensive experiments demonstrate the effectiveness of our methods, showing significant improvements in inference efficiency, e.g., 0.2\% average performance increase and a 1.94$\times$ inference speedup on Mixtral-8$\times$7B-Instruct.

arxiv情報

著者 Shwai He,Weilin Cai,Jiayi Huang,Ang Li
発行日 2025-05-22 17:55:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Capacity-Aware Inference: Mitigating the Straggler Effect in Mixture of Experts はコメントを受け付けていません

X-MAS: Towards Building Multi-Agent Systems with Heterogeneous LLMs

要約

LLMベースのマルチエージェントシステム(MAS)は、複数の専門エージェント間の協力を可能にすることにより、単一LLMの機能を拡張します。
ただし、ほとんどの既存のMASフレームワークは、すべてのエージェントを駆動するために単一のLLMに依存しており、システムのインテリジェンスをそのモデルの限界まで制約しています。
このペーパーでは、エージェントが多様なLLMによって駆動され、システムの可能性を多様なLLMの集合的な知性に向けて、不均一なLLM駆動型MAS(X-MAS)のパラダイムを探ります。
さまざまなドメインとMAS関連機能にわたるさまざまなLLMのパフォーマンスを評価するために設計された包括的なテストベンチであるX-Mas-Benchを紹介します。
広範な経験的研究として、5つのドメイン(21のテストセットを含む)と5つの機能にわたって27のLLMを評価し、各ドメイン機能の組み合わせの最適なモデル選択を特定するために170万以上の評価を実施します。
これらの調査結果に基づいて、均質から不均一なLLM駆動型MASに移行すると、構造的な再設計を必要とせずにシステムのパフォーマンスを大幅に向上させることができることを実証します。
具体的には、チャットボットのみのMASシナリオでは、不均一な構成により、数学データセットで最大8.4 \%のパフォーマンス改善が得られます。
混合チャットボットリーズンシナリオでは、不均一なMASがAIMEデータセットで顕著な47 \%パフォーマンスブーストを達成することができます。
私たちの結果は、MASにおける不均一なLLMの変革の可能性を強調しており、スケーラブルで共同AIシステムを進めるための有望な手段を強調しています。

要約(オリジナル)

LLM-based multi-agent systems (MAS) extend the capabilities of single LLMs by enabling cooperation among multiple specialized agents. However, most existing MAS frameworks rely on a single LLM to drive all agents, constraining the system’s intelligence to the limit of that model. This paper explores the paradigm of heterogeneous LLM-driven MAS (X-MAS), where agents are powered by diverse LLMs, elevating the system’s potential to the collective intelligence of diverse LLMs. We introduce X-MAS-Bench, a comprehensive testbed designed to evaluate the performance of various LLMs across different domains and MAS-related functions. As an extensive empirical study, we assess 27 LLMs across 5 domains (encompassing 21 test sets) and 5 functions, conducting over 1.7 million evaluations to identify optimal model selections for each domain-function combination. Building on these findings, we demonstrate that transitioning from homogeneous to heterogeneous LLM-driven MAS can significantly enhance system performance without requiring structural redesign. Specifically, in a chatbot-only MAS scenario, the heterogeneous configuration yields up to 8.4\% performance improvement on the MATH dataset. In a mixed chatbot-reasoner scenario, the heterogeneous MAS could achieve a remarkable 47\% performance boost on the AIME dataset. Our results underscore the transformative potential of heterogeneous LLMs in MAS, highlighting a promising avenue for advancing scalable, collaborative AI systems.

arxiv情報

著者 Rui Ye,Xiangrui Liu,Qimin Wu,Xianghe Pang,Zhenfei Yin,Lei Bai,Siheng Chen
発行日 2025-05-22 17:56:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MA | X-MAS: Towards Building Multi-Agent Systems with Heterogeneous LLMs はコメントを受け付けていません

Do Large Language Models Excel in Complex Logical Reasoning with Formal Language?

要約

大規模な言語モデル(LLM)は、複雑な論理推論タスクで画期的なパフォーマンスを達成することが示されています。
それにもかかわらず、ほとんどの既存の研究は、正式な言語を使用してLLMを導き、信頼できる推論パスを導き出すことに焦点を当てていますが、これらの機能の体系的な評価はまだ限られています。
この論文では、正式な言語を利用するさまざまな論理的推論問題にわたってLLMの包括的な評価を実施することを目指しています。
3次元、つまりLLMSのスペクトル、タスクの分類、および軌跡の形式の観点から、私たちの重要な調査結果は次のとおりです。
2)すべてのLLMは、正式な言語を使用するかどうかに関係なく、帰納的推論能力に制限を示します。
3)ポット形式のデータは、他の言語で最高の一般化パフォーマンスを実現します。
さらに、正式な関連するトレーニングデータをキュレートして小言語モデルをさらに強化します。実験結果は、単純な拒否された微調整方法により、LLMが正式な言語全体で一般化し、最高の全体的なパフォーマンスを達成できるようにすることができることを示しています。
私たちのコードとレポートは、https://github.com/jiangjin1999/formalevalで入手できます。

要約(オリジナル)

Large Language Models (LLMs) have been shown to achieve breakthrough performance on complex logical reasoning tasks. Nevertheless, most existing research focuses on employing formal language to guide LLMs to derive reliable reasoning paths, while systematic evaluations of these capabilities are still limited. In this paper, we aim to conduct a comprehensive evaluation of LLMs across various logical reasoning problems utilizing formal languages. From the perspective of three dimensions, i.e., spectrum of LLMs, taxonomy of tasks, and format of trajectories, our key findings are: 1) Thinking models significantly outperform Instruct models, especially when formal language is employed; 2) All LLMs exhibit limitations in inductive reasoning capability, irrespective of whether they use a formal language; 3) Data with PoT format achieves the best generalization performance across other languages. Additionally, we also curate the formal-relative training data to further enhance the small language models, and the experimental results indicate that a simple rejected fine-tuning method can better enable LLMs to generalize across formal languages and achieve the best overall performance. Our codes and reports are available at https://github.com/jiangjin1999/FormalEval.

arxiv情報

著者 Jin Jiang,Jianing Wang,Yuchen Yan,Yang Liu,Jianhua Zhu,Mengdi Zhang,Xunliang Cai,Liangcai Gao
発行日 2025-05-22 17:57:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Do Large Language Models Excel in Complex Logical Reasoning with Formal Language? はコメントを受け付けていません

Guided Diffusion Sampling on Function Spaces with Applications to PDEs

要約

PDEベースの逆問題における条件付きサンプリングのための一般的なフレームワークを提案し、非常にまばらまたはうるさい測定からの解決策全体の回復を対象としています。
これは、関数空間拡散モデルと条件付けのためのプラグアンドプレイガイダンスによって達成されます。
私たちの方法は、最初に、神経演算子アーキテクチャを使用して、無条件の離散化と存在する除去モデルを訓練します。
推論では、勾配ベースのガイダンスメカニズムを介して、まばらな観察データを満たすためにサンプルを改良します。
厳密な数学的分析を通じて、Tweedieの式を無限の次元ヒルベルト空間に拡張し、後部サンプリングアプローチの理論的基盤を提供します。
私たちの方法(FUNDPS)は、最小限の監督と深刻なデータ不足の下で、関数空間の後部分布を正確にキャプチャします。
わずか3%の観測で5つのPDEタスクにわたって、この方法は、サンプリングステップを4倍削減しながら、最先端の固定解像度拡散ベースラインよりも平均32%の精度改善を達成します。
さらに、多解像度の微調整により、強力な分解の一般化が保証されます。
私たちの知る限り、これは離散化とは独立して動作する最初の拡散ベースのフレームワークであり、PDEのコンテキストで前方および逆の問題のための実用的で柔軟なソリューションを提供します。
コードはhttps://github.com/neuraloperator/fundpsで入手できます

要約(オリジナル)

We propose a general framework for conditional sampling in PDE-based inverse problems, targeting the recovery of whole solutions from extremely sparse or noisy measurements. This is accomplished by a function-space diffusion model and plug-and-play guidance for conditioning. Our method first trains an unconditional discretization-agnostic denoising model using neural operator architectures. At inference, we refine the samples to satisfy sparse observation data via a gradient-based guidance mechanism. Through rigorous mathematical analysis, we extend Tweedie’s formula to infinite-dimensional Hilbert spaces, providing the theoretical foundation for our posterior sampling approach. Our method (FunDPS) accurately captures posterior distributions in function spaces under minimal supervision and severe data scarcity. Across five PDE tasks with only 3% observation, our method achieves an average 32% accuracy improvement over state-of-the-art fixed-resolution diffusion baselines while reducing sampling steps by 4x. Furthermore, multi-resolution fine-tuning ensures strong cross-resolution generalizability. To the best of our knowledge, this is the first diffusion-based framework to operate independently of discretization, offering a practical and flexible solution for forward and inverse problems in the context of PDEs. Code is available at https://github.com/neuraloperator/FunDPS

arxiv情報

著者 Jiachen Yao,Abbas Mammadov,Julius Berner,Gavin Kerrigan,Jong Chul Ye,Kamyar Azizzadenesheli,Anima Anandkumar
発行日 2025-05-22 17:58:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NA, math.NA, stat.ML | Guided Diffusion Sampling on Function Spaces with Applications to PDEs はコメントを受け付けていません

R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning

要約

大規模な言語モデル(LLM)は強力ですが、静的な知識のために幻覚を起こしやすいです。
検索された生成(RAG)は、外部情報を注入することで役立ちますが、現在の方法は、多くの場合、コストがかかるか、一般化されていない、またはモデルの内部知識を無視します。
この論文では、LLMSをトレーニングするように設計された新しいフレームワークであるR1-Searcher ++を紹介します。
R1-Searcher ++は、2段階のトレーニング戦略を採用しています。予備形式学習のための初期SFTコールドスタートフェーズ、次に動的知識習得のためにRLが続きます。
RL段階では、アウトカムスーパービジョンを使用して探索を促進し、内部知識の利用に対する報酬メカニズムを組み込み、記憶型メカニズムを統合して検索された情報を継続的に同化させ、モデルの内部知識を豊かにします。
内部の知識と外部検索エンジンを活用することにより、モデルはその機能を継続的に改善し、効率的な検索された推論を可能にします。
私たちの実験は、R1-Searcher ++が以前のRAGおよび推論方法を上回り、効率的な検索を達成することを示しています。
このコードは、https://github.com/rucaibox/r1-searcher-plusで入手できます。

要約(オリジナル)

Large Language Models (LLMs) are powerful but prone to hallucinations due to static knowledge. Retrieval-Augmented Generation (RAG) helps by injecting external information, but current methods often are costly, generalize poorly, or ignore the internal knowledge of the model. In this paper, we introduce R1-Searcher++, a novel framework designed to train LLMs to adaptively leverage both internal and external knowledge sources. R1-Searcher++ employs a two-stage training strategy: an initial SFT Cold-start phase for preliminary format learning, followed by RL for Dynamic Knowledge Acquisition. The RL stage uses outcome-supervision to encourage exploration, incorporates a reward mechanism for internal knowledge utilization, and integrates a memorization mechanism to continuously assimilate retrieved information, thereby enriching the model’s internal knowledge. By leveraging internal knowledge and external search engine, the model continuously improves its capabilities, enabling efficient retrieval-augmented reasoning. Our experiments demonstrate that R1-Searcher++ outperforms previous RAG and reasoning methods and achieves efficient retrieval. The code is available at https://github.com/RUCAIBox/R1-Searcher-plus.

arxiv情報

著者 Huatong Song,Jinhao Jiang,Wenqing Tian,Zhipeng Chen,Yuhuan Wu,Jiahao Zhao,Yingqian Min,Wayne Xin Zhao,Lei Fang,Ji-Rong Wen
発行日 2025-05-22 17:58:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning はコメントを受け付けていません

Understanding Prompt Tuning and In-Context Learning via Meta-Learning

要約

プロンプトは、タスクをターゲットにするために優先モデルを適応させる主な方法の1つです。
プロンプトの手動での構築に加えて、多くの迅速な最適化方法が文献で提案されています。
メソッド開発は主に経験的に駆動され、プロンプトの概念的な理解に重点が置かれていません。
このペーパーでは、ベイジアンビューを通して最適なプロンプトをどのように理解できるかについて説明します。これは、重みを調整することによってのみ克服できるプロンプトの基本的な制限を暗示しています。
このペーパーでは、メタトレーニングされたニューラルネットワークが、事前トレーニング分布よりもベイジアン予測因子としてどのように振る舞うかを詳細に説明しています。
最適なプロンプトは、これらのベイジアン予測因子の条件付けとして正式に研究でき、最適なプロンプトが不可能なターゲットタスクの基準を生み出します。
LSTMSとトランスに関する教育実験で理論をサポートし、プレフィックス調整とさまざまな重量調整方法の異なるバージョンを比較します。
また、トークンアルファベットの外側の実質値のベクトルのシーケンスであるソフトプレフィックスが、ハードトークンが達成できない方法でアクティベーションを操作することにより、訓練されていないネットワークの非常に効果的なプロンプトにつながる可能性があることを確認します。
これは、概念的なベイジアン理論を超えて重要な機構的側面を追加します。

要約(オリジナル)

Prompting is one of the main ways to adapt a pretrained model to target tasks. Besides manually constructing prompts, many prompt optimization methods have been proposed in the literature. Method development is mainly empirically driven, with less emphasis on a conceptual understanding of prompting. In this paper we discuss how optimal prompting can be understood through a Bayesian view, which also implies some fundamental limitations of prompting that can only be overcome by tuning weights. The paper explains in detail how meta-trained neural networks behave as Bayesian predictors over the pretraining distribution, whose hallmark feature is rapid in-context adaptation. Optimal prompting can be studied formally as conditioning these Bayesian predictors, yielding criteria for target tasks where optimal prompting is and is not possible. We support the theory with educational experiments on LSTMs and Transformers, where we compare different versions of prefix-tuning and different weight-tuning methods. We also confirm that soft prefixes, which are sequences of real-valued vectors outside the token alphabet, can lead to very effective prompts for trained and even untrained networks by manipulating activations in ways that are not achievable by hard tokens. This adds an important mechanistic aspect beyond the conceptual Bayesian theory.

arxiv情報

著者 Tim Genewein,Kevin Wenliang Li,Jordi Grau-Moya,Anian Ruoss,Laurent Orseau,Marcus Hutter
発行日 2025-05-22 17:58:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Understanding Prompt Tuning and In-Context Learning via Meta-Learning はコメントを受け付けていません

InSTA: Towards Internet-Scale Training For Agents

要約

Webナビゲーションエージェントをトレーニングするための主なアプローチは、人気のあるWebサイトや手書きのタスクのセットのために人間のデモを収集することですが、人間のデータが非効率的なリソースであることが明らかになっています。
面倒な人間の注釈なしでエージェントのインターネットスケールトレーニングを容易にするために、パイプラインを開発します。
最初の段階では、LLMにエージェントタスクを備えた150Kサイトに注釈を付けます。
次の段階では、LLMエージェントはタスクを完了し、軌跡を生成します。
最終段階では、LLMが成功を判断することにより軌跡をフィルタリングします。
言語モデルは強力なデータキュレーションツールであり、97%の精度で有害なコンテンツを特定し、82.6%の精度で成功した軌跡を判断し、効果的なデータを生成します。
WebエージェントとしてFrontier LLMSと競合するQwen 3 1.7bに基づいてエージェントをトレーニングしますが、より小さく速くなります。
私たちのトップエージェントは56.9%の成功率に達し、データ収集ポリシーQwen 3 235b、235倍のLlama 4 Maverickを上回り、Gemini 2.5 Flashのパフォーマンスの94.7%に達します。
https://data-for-agents.github.ioでコード、モデル、データをリリースしています。

要約(オリジナル)

The predominant approach for training web navigation agents is to gather human demonstrations for a set of popular websites and hand-written tasks, but it is becoming clear that human data is an inefficient resource. We develop a pipeline to facilitate internet-scale training for agents without laborious human annotations. In the first stage, an LLM annotates 150k sites with agentic tasks. In the next stage, LLM agents complete tasks and produce trajectories. In the final stage, an LLM filters trajectories by judging their success. Language models are powerful data curation tools, identifying harmful content with an accuracy of 97%, judging successful trajectories with an accuracy of 82.6%, and producing effective data. We train agents based on Qwen 3 1.7B that are competitive with frontier LLMs as web agents, while being smaller and faster. Our top agent reaches a success rate of 56.9%, outperforming the data collection policy Qwen 3 235B, a 235 times larger Llama 4 Maverick, and reaching 94.7% of the performance of Gemini 2.5 Flash. We are releasing code, models and data at: https://data-for-agents.github.io.

arxiv情報

著者 Brandon Trabucco,Gunnar Sigurdsson,Robinson Piramuthu,Ruslan Salakhutdinov
発行日 2025-05-22 17:59:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | InSTA: Towards Internet-Scale Training For Agents はコメントを受け付けていません