Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks

要約

大規模な言語モデル(LLM)は、言語エージェントが簡単なタスクに取り組むことを可能にする顕著な進歩を示しています。
ただし、複雑でマルチステップの長距離タスクにそれらを適用することは依然として課題です。
最近の作業では、高レベルの計画を低レベルの実行から分離することで成功を収めています。これにより、モデルは高レベルの計画目標と低レベルの実行の詳細のバランスをとることができます。
ただし、LLMSは本質的にこのタスクの訓練を受けていないため、正確な計画を生成することは依然として困難です。
これに対処するために、LLMベースのエージェントに明示的な計画を組み込んだ新しいフレームワークであり、新しい合成データ生成法を通じて計画生成を強化するスケーラブルな方法を導入する計画と行動を提案します。
プランとアクトは、ユーザーの目標を達成するための構造化された高レベルの計画を生成するプランナーモデルと、これらの計画を環境固有のアクションに変換するエグゼクティアモデルで構成されています。
プランナーを効果的にトレーニングするために、一般化を強化するために多様で広範な例で拡張された、実現可能な計画を備えた地上の真実の軌跡に注釈を付ける合成データ生成方法を紹介します。
Webナビゲーションを代表的な長老計画環境として使用して計画と幕を評価し、Webarena-Liteベンチマークで最先端の57.58%の成功率と、WebVoyagerでの最先端の81.36%の成功率を実証します。

要約(オリジナル)

Large language models (LLMs) have shown remarkable advancements in enabling language agents to tackle simple tasks. However, applying them for complex, multi-step, long-horizon tasks remains a challenge. Recent work have found success by separating high-level planning from low-level execution, which enables the model to effectively balance high-level planning objectives and low-level execution details. However, generating accurate plans remains difficult since LLMs are not inherently trained for this task. To address this, we propose Plan-and-Act, a novel framework that incorporates explicit planning into LLM-based agents and introduces a scalable method to enhance plan generation through a novel synthetic data generation method. Plan-and-Act consists of a Planner model which generates structured, high-level plans to achieve user goals, and an Executor model that translates these plans into environment-specific actions. To train the Planner effectively, we introduce a synthetic data generation method that annotates ground-truth trajectories with feasible plans, augmented with diverse and extensive examples to enhance generalization. We evaluate Plan-and-Act using web navigation as a representative long-horizon planning environment, demonstrating a state-of-the-art 57.58% success rate on the WebArena-Lite benchmark as well as a text-only state-of-the-art 81.36% success rate on WebVoyager.

arxiv情報

著者 Lutfi Eren Erdogan,Nicholas Lee,Sehoon Kim,Suhong Moon,Hiroki Furuta,Gopala Anumanchipalli,Kurt Keutzer,Amir Gholami
発行日 2025-04-22 17:56:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks はコメントを受け付けていません

TTRL: Test-Time Reinforcement Learning

要約

このホワイトペーパーでは、大規模な言語モデル(LLM)のタスクを推論するための明示的なラベルなしで、データの補強学習(RL)を調査します。
問題の中心的な課題は、グラウンドトゥルース情報にアクセスしていない間、推論中の報酬の推定です。
この設定はとらえどころのないように見えますが、多数票などのテスト時間スケーリング(TTS)の一般的なプラクティスは、RLトレーニングの運転に適した驚くほど効果的な報酬をもたらすことがわかります。
この作業では、ラベルのないデータでRLを使用してLLMをトレーニングするための新しい方法であるテスト時間強化学習(TTRL)を導入します。
TTRLは、事前に訓練されたモデルで事前に使用することにより、LLMの自己進化を可能にします。
私たちの実験は、TTRLがさまざまなタスクやモデルのパフォーマンスを一貫して改善することを示しています。
特に、TTRLは、QWEN-2.5-MATH-7Bのパス@1パフォーマンスを、AIME 2024で約159%増加させます。
さらに、TTRLはMAJ@Nメトリックによってのみ監督されていますが、TTRLは初期モデルの上限を一貫して上回るパフォーマンスを実証し、グラウンドトゥルースラベルを使用してテストデータで直接トレーニングされたモデルのパフォーマンスにアプローチします。
実験的な調査結果は、さまざまなタスクにわたるTTRLの一般的な有効性を検証し、より広範なタスクとドメインのTTRLの可能性を強調しています。
Github:https://github.com/prime-rl/ttrl

要約(オリジナル)

This paper investigates Reinforcement Learning (RL) on data without explicit labels for reasoning tasks in Large Language Models (LLMs). The core challenge of the problem is reward estimation during inference while not having access to ground-truth information. While this setting appears elusive, we find that common practices in Test-Time Scaling (TTS), such as majority voting, yield surprisingly effective rewards suitable for driving RL training. In this work, we introduce Test-Time Reinforcement Learning (TTRL), a novel method for training LLMs using RL on unlabeled data. TTRL enables self-evolution of LLMs by utilizing the priors in the pre-trained models. Our experiments demonstrate that TTRL consistently improves performance across a variety of tasks and models. Notably, TTRL boosts the pass@1 performance of Qwen-2.5-Math-7B by approximately 159% on the AIME 2024 with only unlabeled test data. Furthermore, although TTRL is only supervised by the Maj@N metric, TTRL has demonstrated performance to consistently surpass the upper limit of the initial model, and approach the performance of models trained directly on test data with ground-truth labels. Our experimental findings validate the general effectiveness of TTRL across various tasks, and highlight TTRL’s potential for broader tasks and domains. GitHub: https://github.com/PRIME-RL/TTRL

arxiv情報

著者 Yuxin Zuo,Kaiyan Zhang,Shang Qu,Li Sheng,Xuekai Zhu,Biqing Qi,Youbang Sun,Ganqu Cui,Ning Ding,Bowen Zhou
発行日 2025-04-22 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | TTRL: Test-Time Reinforcement Learning はコメントを受け付けていません

Facilitating Reinforcement Learning for Process Control Using Transfer Learning: Overview and Perspectives

要約

Industry 4.0とSmart Manufacturingのコンテキストでは、プロセス業界の最適化と制御の分野もデジタル変換を受けています。
Deep Refurtion Learning(DRL)の台頭により、プロセス制御への適用は広範囲にわたる注目を集めています。
ただし、DRLの探査によって引き起こされる非常に低いサンプル効率と安全性の懸念は、産業環境での実際の実装を妨げています。
Transfer Learningは、DRLに効果的なソリューションを提供し、マルチモード制御シナリオでの一般化と適応性を高めます。
このペーパーでは、転送学習の観点からプロセス制御にDRLを使用することに関する洞察を提供します。
プロセス業界にDRLを適用するという課題と、転送学習を導入する必要性を分析します。
さらに、プロセス制御を強化するために、転送学習をDRLと統合する方法に関する将来の研究の方向性については、推奨事項と見通しが提供されています。
このペーパーは、プロセス業界の学者やエンジニアのために、人工知能が促進した産業規制に、有望でユーザーフレンドリーで、実装しやすく、スケーラブルなアプローチを提供することを目的としています。

要約(オリジナル)

In the context of Industry 4.0 and smart manufacturing, the field of process industry optimization and control is also undergoing a digital transformation. With the rise of Deep Reinforcement Learning (DRL), its application in process control has attracted widespread attention. However, the extremely low sample efficiency and the safety concerns caused by exploration in DRL hinder its practical implementation in industrial settings. Transfer learning offers an effective solution for DRL, enhancing its generalization and adaptability in multi-mode control scenarios. This paper provides insights into the use of DRL for process control from the perspective of transfer learning. We analyze the challenges of applying DRL in the process industry and the necessity of introducing transfer learning. Furthermore, recommendations and prospects are provided for future research directions on how transfer learning can be integrated with DRL to enhance process control. This paper aims to offer a set of promising, user-friendly, easy-to-implement, and scalable approaches to artificial intelligence-facilitated industrial control for scholars and engineers in the process industry.

arxiv情報

著者 Runze Lin,Junghui Chen,Lei Xie,Hongye Su
発行日 2025-04-22 13:05:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY | Facilitating Reinforcement Learning for Process Control Using Transfer Learning: Overview and Perspectives はコメントを受け付けていません

Bidirectional Task-Motion Planning Based on Hierarchical Reinforcement Learning for Strategic Confrontation

要約

Swarm Roboticsでは、戦略的対立を含む対立シナリオには、個別のコマンドと継続的なアクションを統合する効率的な意思決定が必要です。
従来のタスクとモーションの計画方法は、意思決定を2つのレイヤーに分離しますが、それらの単方向構造はこれらの層間の相互依存性をキャプチャできず、動的環境での適応性が制限されます。
ここでは、階層強化学習に基づいた新しい双方向アプローチを提案し、層間の動的な相互作用を可能にします。
この方法は、タスクの割り当てとパス計画へのアクションを効果的にマップし、階層的なフレームワーク全体で学習を強化するためのクロストレーニング手法を活用します。
さらに、実行可能な計画目標を備えた抽象的なタスク表現を橋渡しする軌跡予測モデルを導入します。
私たちの実験では、対立獲得率で80 \%を超え、決定時間で0.01秒以内に達成され、既存のアプローチを上回ります。
大規模なテストと現実世界のロボット実験を通じてデモンストレーションは、私たちの方法の一般化能力と実用的な適用性をさらに強調しています。

要約(オリジナル)

In swarm robotics, confrontation scenarios, including strategic confrontations, require efficient decision-making that integrates discrete commands and continuous actions. Traditional task and motion planning methods separate decision-making into two layers, but their unidirectional structure fails to capture the interdependence between these layers, limiting adaptability in dynamic environments. Here, we propose a novel bidirectional approach based on hierarchical reinforcement learning, enabling dynamic interaction between the layers. This method effectively maps commands to task allocation and actions to path planning, while leveraging cross-training techniques to enhance learning across the hierarchical framework. Furthermore, we introduce a trajectory prediction model that bridges abstract task representations with actionable planning goals. In our experiments, it achieves over 80\% in confrontation win rate and under 0.01 seconds in decision time, outperforming existing approaches. Demonstrations through large-scale tests and real-world robot experiments further emphasize the generalization capabilities and practical applicability of our method.

arxiv情報

著者 Qizhen Wu Lei Chen,Kexin Liu,Jinhu Lü
発行日 2025-04-22 13:22:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Bidirectional Task-Motion Planning Based on Hierarchical Reinforcement Learning for Strategic Confrontation はコメントを受け付けていません

Time’s Up! An Empirical Study of LLM Reasoning Ability Under Output Length Constraint

要約

最近の研究により、テスト時間スケーリングにおける大規模な言語モデル(LLM)の顕著な可能性が実証されています。
回答する前にモデルに考えることにより、追加の推論計算ではるかに高い精度を達成することができます。
ただし、多くの現実世界のシナリオでは、モデルは時間の制約の下で使用され、特定の出力長以内にユーザーに回答を提供する必要があります。
LLMの推論能力がそのような制約の下で効果的であるかどうか、どのようにしても不明です。
詳細な経験的研究を実施することにより、この問題を最初に見ていきます。
具体的には、広範囲の出力長予算の下で一般的な推論データセットで25 LLMをテストし、推論の精度とモデルタイプ、モデルサイズ、プロンプトスタイルなどを含むさまざまなプロパティとの相関関係を分析します。
結果は、制約のない状況とは異なる予算認識LLMの推論に関するいくつかの興味深い調査結果を示しています。
モデルサイズとプロンプトの最適な選択は、さまざまな予算の下で変更されます。
これらの調査結果は、ユーザーが実際のレイテンシの制約の下でLLMを展開するための実用的なガイダンスを提供します。

要約(オリジナル)

Recent work has demonstrated the remarkable potential of Large Language Models (LLMs) in test-time scaling. By making the models think before answering, they are able to achieve much higher accuracy with extra inference computation. However, in many real-world scenarios, models are used under time constraints, where an answer should be given to the user within a certain output length. It is unclear whether and how the reasoning abilities of LLMs remain effective under such constraints. We take a first look at this problem by conducting an in-depth empirical study. Specifically, we test more than 25 LLMs on common reasoning datasets under a wide range of output length budgets, and we analyze the correlation between the inference accuracy and various properties including model type, model size, prompt style, etc. We also consider the mappings between the token budgets and the actual on-device latency budgets. The results have demonstrated several interesting findings regarding the budget-aware LLM reasoning that differ from the unconstrained situation, e.g. the optimal choices of model sizes and prompts change under different budgets. These findings offer practical guidance for users to deploy LLMs under real-world latency constraints.

arxiv情報

著者 Yi Sun,Han Wang,Jiaqiang Li,Jiacheng Liu,Xiangyu Li,Hao Wen,Huiwen Zheng,Yan Liang,Yuanchun Li,Yunxin Liu
発行日 2025-04-22 13:31:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Time’s Up! An Empirical Study of LLM Reasoning Ability Under Output Length Constraint はコメントを受け付けていません

Supporting Data-Frame Dynamics in AI-assisted Decision Making

要約

ハイステークスの意思決定には、進化する証拠とシフト仮説との間の継続的な相互作用が必要になることがよくあります。これは、現在のAI意思決定支援システムによって十分にサポートされていないダイナミクスです。
この論文では、センスメイキングのデータフレーム理論と評価AIパラダイムに基づいたAI支援意思決定のための混合開始フレームワークを紹介します。
私たちのアプローチにより、人間とAIの両方が仮説を協力して構築し、検証し、適応させることができます。
コンセプトボトルネックモデルを活用して、解釈可能な相互作用と診断仮説への動的な更新を促進するAIアシスト皮膚がん診断プロトタイプで私たちのフレームワークを実証します。

要約(オリジナル)

High stakes decision-making often requires a continuous interplay between evolving evidence and shifting hypotheses, a dynamic that is not well supported by current AI decision support systems. In this paper, we introduce a mixed-initiative framework for AI assisted decision making that is grounded in the data-frame theory of sensemaking and the evaluative AI paradigm. Our approach enables both humans and AI to collaboratively construct, validate, and adapt hypotheses. We demonstrate our framework with an AI-assisted skin cancer diagnosis prototype that leverages a concept bottleneck model to facilitate interpretable interactions and dynamic updates to diagnostic hypotheses.

arxiv情報

著者 Chengbo Zheng,Tim Miller,Alina Bialkowski,H Peter Soyer,Monika Janda
発行日 2025-04-22 13:36:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | Supporting Data-Frame Dynamics in AI-assisted Decision Making はコメントを受け付けていません

Dynamic Early Exit in Reasoning Models

要約

大規模な推論言語モデル(LRLMS)の最近の進歩は、テスト時間スケーリングに依存しており、複雑なタスクを解決するために長い考え方(COT)生成を拡張します。
ただし、長いCOTでの考え方は、問題解決の効率を遅くするだけでなく、非常に詳細または冗長な推論ステップにより、精度の損失をリスクリスクします。
LLMSが発電中の早期出口でCOTシーケンスを自己切断できるようにするシンプルでありながら効果的な方法を提案します。
固定ヒューリスティックに依存する代わりに、提案された方法は、潜在的な推論遷移ポイント(例えば、「待機」トークン)でモデルの動作を監視し、モデルが試行回答に高い信頼性を示すときに次の推論チェーンの生成を動的に終了します。
私たちの方法は追加のトレーニングを必要とせず、既存のO1様推論LLMにシームレスに統合できます。
複数の推論ベンチマークMath-500、AMC 2023、GPQAダイヤモンド、およびAIME 2024での実験は、提案された方法がLLMSを推論するDeepSeekシリーズの推論で一貫して有効であり、COTシーケンスの長さを平均31%から43%減らしながら、精度を1.7%から5.7%減らすことを示しています。

要約(オリジナル)

Recent advances in large reasoning language models (LRLMs) rely on test-time scaling, which extends long chain-of-thought (CoT) generation to solve complex tasks. However, overthinking in long CoT not only slows down the efficiency of problem solving, but also risks accuracy loss due to the extremely detailed or redundant reasoning steps. We propose a simple yet effective method that allows LLMs to self-truncate CoT sequences by early exit during generation. Instead of relying on fixed heuristics, the proposed method monitors model behavior at potential reasoning transition points (e.g.,’Wait’ tokens) and dynamically terminates the next reasoning chain’s generation when the model exhibits high confidence in a trial answer. Our method requires no additional training and can be seamlessly integrated into existing o1-like reasoning LLMs. Experiments on multiple reasoning benchmarks MATH-500, AMC 2023, GPQA Diamond and AIME 2024 show that the proposed method is consistently effective on deepseek-series reasoning LLMs, reducing the length of CoT sequences by an average of 31% to 43% while improving accuracy by 1.7% to 5.7%.

arxiv情報

著者 Chenxu Yang,Qingyi Si,Yongjie Duan,Zheliang Zhu,Chenyu Zhu,Zheng Lin,Li Cao,Weiping Wang
発行日 2025-04-22 13:36:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Dynamic Early Exit in Reasoning Models はコメントを受け付けていません

Impact of Noise on LLM-Models Performance in Abstraction and Reasoning Corpus (ARC) Tasks with Model Temperature Considerations

要約

大規模な言語モデル(LLMS)の最近の進歩により、特に抽象化とパターン認識を含むタスクに、構造化された推論能力に関心が高まっています。
抽象化と推論コーパス(ARC)ベンチマークは、AIモデルが新しい問題にどの程度一般化するかをテストすることにより、これらの機能を評価する上で重要な役割を果たします。
GPT-4oは、ゼロノイズ条件下ですべてのアークタスクを解決することで強力なパフォーマンスを示しますが、Deepseek R1やLlama 3.2などの他のモデルは解決に失敗し、単純なパターンマッチングを超えて推論する能力の制限を示唆しています。
このギャップを調査するために、さまざまなノイズレベルと温度設定でこれらのモデルを体系的に評価します。
我々の結果は、ノイズの導入がアーキテクチャに関係なく、モデルのパフォーマンスを一貫して損なうことを明らかにしています。
この減少は、共有された脆弱性を強調しています。現在のLLMは、抽象的な推論の兆候を示しているにもかかわらず、入力摂動に非常に敏感なままです。
このような脆弱性は、騒音と不確実性が一般的である現実世界の適用性について懸念を引き起こします。
さまざまなモデルアーキテクチャがこれらの課題にどのように対応するかを比較することにより、推論タスクにおける現代LLMの構造的な弱点に関する洞察を提供します。
この作業は、実際のシナリオに固有の曖昧さと変動性を処理できる、より堅牢で適応性のあるAIシステムを開発する必要性を強調しています。
私たちの調査結果は、モデルの一般化、堅牢性、および人間のような認知的柔軟性との連携を強化するための将来の研究を導くことを目的としています。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have generated growing interest in their structured reasoning capabilities, particularly in tasks involving abstraction and pattern recognition. The Abstraction and Reasoning Corpus (ARC) benchmark plays a crucial role in evaluating these capabilities by testing how well AI models generalize to novel problems. While GPT-4o demonstrates strong performance by solving all ARC tasks under zero-noise conditions, other models like DeepSeek R1 and LLaMA 3.2 fail to solve any, suggesting limitations in their ability to reason beyond simple pattern matching. To explore this gap, we systematically evaluate these models across different noise levels and temperature settings. Our results reveal that the introduction of noise consistently impairs model performance, regardless of architecture. This decline highlights a shared vulnerability: current LLMs, despite showing signs of abstract reasoning, remain highly sensitive to input perturbations. Such fragility raises concerns about their real-world applicability, where noise and uncertainty are common. By comparing how different model architectures respond to these challenges, we offer insights into the structural weaknesses of modern LLMs in reasoning tasks. This work underscores the need for developing more robust and adaptable AI systems capable of handling the ambiguity and variability inherent in real-world scenarios. Our findings aim to guide future research toward enhancing model generalization, robustness, and alignment with human-like cognitive flexibility.

arxiv情報

著者 Nikhil Khandalkar,Pavan Yadav,Krishna Shinde,Lokesh B. Ramegowda,Rajarshi Das
発行日 2025-04-22 13:43:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Impact of Noise on LLM-Models Performance in Abstraction and Reasoning Corpus (ARC) Tasks with Model Temperature Considerations はコメントを受け付けていません

GraphEdge: Dynamic Graph Partition and Task Scheduling for GNNs Computing in Edge Network

要約

モノのインターネット(IoT)デバイスの指数関数的な成長により、Edge Computing(EC)は、費用対効果の高いサービスを提供する上で徐々に重要な役割を果たしています。
ただし、既存のアプローチは、トラフィックフローの予測や社会関係の推奨システムなど、ユーザーデータが相関するグラフ構造のシナリオでうまく機能するのに苦労しています。
特に、グラフニューラルネットワーク(GNN)ベースのアプローチは、高価なサーバー通信コストにつながります。
この問題に対処するために、GNNベースのECアーキテクチャであるGraphEdgeを提案します。
GNNタスクのECシステムを考慮します。ここでは、ユーザーの間に関連性があり、ユーザーのタスクを処理する際に近隣のタスクデータを考慮する必要があります。
具体的には、アーキテクチャは最初にユーザートポロジを認識し、各タイムステップでのデータ関連をグラフレイアウトとして表します。
次に、グラフレイアウトは、提案された階層トラバーサルグラフカットアルゴリズム(HICUT)を呼び出すことにより最適化され、グラフレイアウトをGNNの集約特性に基づいて複数の弱い関連サブグラフにカットし、GNNの推論中の異なるサブグラフ間の通信コストが最小化されます。
最後に、最適化されたグラフレイアウトに基づいて、提案されたディープ補強学習(DRL)ベースのグラフオフロードオフロードアルゴリズム(DRLGO)が実行され、ユーザーのタスクの最適なオフロード戦略を取得すると、オフロード戦略はサブグラフベースです。
実験結果は、提案されたアーキテクチャの優れた効果と動的な適応を示しており、動的なシナリオでもうまく機能します。

要約(オリジナル)

With the exponential growth of Internet of Things (IoT) devices, edge computing (EC) is gradually playing an important role in providing cost-effective services. However, existing approaches struggle to perform well in graph-structured scenarios where user data is correlated, such as traffic flow prediction and social relationship recommender systems. In particular, graph neural network (GNN)-based approaches lead to expensive server communication cost. To address this problem, we propose GraphEdge, an efficient GNN-based EC architecture. It considers the EC system of GNN tasks, where there are associations between users and it needs to take into account the task data of its neighbors when processing the tasks of a user. Specifically, the architecture first perceives the user topology and represents their data associations as a graph layout at each time step. Then the graph layout is optimized by calling our proposed hierarchical traversal graph cut algorithm (HiCut), which cuts the graph layout into multiple weakly associated subgraphs based on the aggregation characteristics of GNN, and the communication cost between different subgraphs during GNN inference is minimized. Finally, based on the optimized graph layout, our proposed deep reinforcement learning (DRL) based graph offloading algorithm (DRLGO) is executed to obtain the optimal offloading strategy for the tasks of users, the offloading strategy is subgraph-based, it tries to offload user tasks in a subgraph to the same edge server as possible while minimizing the task processing time and energy consumption of the EC system. Experimental results show the good effectiveness and dynamic adaptation of our proposed architecture and it also performs well even in dynamic scenarios.

arxiv情報

著者 Wenjing Xiao,Chenglong Shi,Miaojiang Chen,Zhiquan Liu,Min Chen,H. Herbert Song
発行日 2025-04-22 13:45:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | GraphEdge: Dynamic Graph Partition and Task Scheduling for GNNs Computing in Edge Network はコメントを受け付けていません

Planet as a Brain: Towards Internet of AgentSites based on AIOS Server

要約

インターネットは、「ウェブサイトのインターネット」から「エージェントサイトのインターネット」への歴史的な変革を行っています。
従来のウェブサイトは情報のホスティングと普及の基盤として機能しましたが、エージェントサイトがインターネットのハブとして機能する新しいフロンティアが出現しています。各エージェントサイトは、タスクを受け取る1つ以上のAIエージェントをホストし、それらに対処し、実用的なソリューションを提供し、デジタル景観の大幅な変化をマークし、次世代のオンラインエコシステムを表しています。
このビジョンの下で、AIエージェントオペレーティングシステムであるAIOSは、AIエージェントの開発、展開、実行のサーバーとして機能します。これは、インターネットのインターネットサイトの基本的なインフラストラクチャです。
このホワイトペーパーでは、エージェントをホストし、分散エージェント間のグローバルスケールコラボレーションを可能にするランタイムフレームワークであるAIOSサーバーを紹介します。
AIOSサーバーは、モデルコンテキストプロトコル(MCP)とJSON-RPCを活用する通信プロトコルを提供して、エージェントエージェントまたはヒューマンエージェントの相互作用を有効にします。
各AIOSノードは、集中オーケストレーションに依存せずにピアツーピア調整をサポートしながら、エージェントをホストおよび実行するためのサーバーとして動作します。
AIOSサーバーに基づいて、https://planet.aios.foundationで、エージェント登録とディスカバリーおよびインタラクティブコミュニケーションのエージェントチャットのエージェントハブを含む、世界初の実質的に展開されたエージェントサイト(AIOS-IOA)をさらに紹介します。
分散ハッシュテーブル(DHT)とゴシッププロトコルに基づくエージェント発見メカニズムは、エージェントサイトのインターネットの検索エンジンとして機能します。
この作品は、自律エージェントがWebの一流の市民になる新しいパラダイムであるエージェントサイトのインターネットを構築するための実用的な基盤を提供します。
実装はhttps://github.com/agiresearch/aios.serverで入手でき、https://github.com/agiresearch/aiosのAIOSメインブランチに統合されます。

要約(オリジナル)

The internet is undergoing a historical transformation from the ‘Internet of Websites’ to the ‘Internet of AgentSites.’ While traditional Websites served as the foundation for information hosting and dissemination, a new frontier is emerging where AgentSites serve as the hubs of the internet, where each AgentSite hosts one or more AI agents that receive tasks, address them, and deliver actionable solutions, marking a significant shift in the digital landscape and representing the next generation of online ecosystems. Under this vision, AIOS, the AI Agent Operating System, serves as the server for the development, deployment and execution of AI agents, which is a fundamental infrastructure for the Internet of Agentsites. In this paper, we introduce AIOS Server, a runtime framework to host agents and enable global-scale collaboration among decentralized agents. AIOS Server provides a communication protocol leveraging the Model Context Protocol (MCP) and JSON-RPC to enable agent-agent or human-agent interactions. Each AIOS node operates as a server to host and execute agents, while supporting peer-to-peer coordination without reliance on centralized orchestration. Based on AIOS Server, we further present the world’s first practically deployed Internet of Agentsites (AIOS-IoA), including AgentHub for agent registration and discovery and AgentChat for interactive communication, at https://planet.aios.foundation. The agent discovery mechanism based on Distributed Hash Tables (DHT) and a Gossip protocol serves as the search engine for the internet of agentsites. This work provides a practical foundation for building the Internet of Agentsites-a new paradigm where autonomous agents become first-class citizens of the web. The implementation is available at https://github.com/agiresearch/AIOS.Server and will be integrated into the AIOS main branch at https://github.com/agiresearch/AIOS.

arxiv情報

著者 Xiang Zhang,Yongfeng Zhang
発行日 2025-04-22 13:52:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NI | Planet as a Brain: Towards Internet of AgentSites based on AIOS Server はコメントを受け付けていません