A Rollout-Based Algorithm and Reward Function for Efficient Resource Allocation in Business Processes

要約

リソースの割り当ては、サイクル時間を最小限に抑え、ビジネスプロセスの効率を改善する上で重要な役割を果たします。
最近、Deep Renection Learning(DRL)は、ビジネスプロセスにおけるリソース割り当てポリシーを最適化するための強力なツールとして登場しました。
DRLフレームワークでは、エージェントは、環境との相互作用を通じてポリシーを学習します。これは、その決定の質を示す報酬信号のみによって導かれます。
ただし、既存のアルゴリズムは、ビジネスプロセスなどの動的環境には適していません。
さらに、既存のDRLベースの方法は、望ましい目的を近似する設計された報酬関数に依存していますが、報酬と目的の間の不整合は、望ましくない決定または最適ではないポリシーにつながる可能性があります。
これらの問題に対処するために、ロールアウトベースのDRLアルゴリズムと、目標を直接最適化する報酬関数を提案します。
アルゴリズムは、異なるアクションに従って実行軌跡を評価することにより、ポリシーを繰り返し改善します。
報酬関数は、平均サイクル時間を最小化するという目的関数を直接分解します。
報酬関数を最大化すると、広範な報酬エンジニアリングを必要とせずに目的関数が最小化されることが保証されます。
結果は、私たちの方法が、評価された6つのビジネスプロセスすべてで最適なポリシーを一貫して学習し、評価された2つのプロセスで最適なポリシーのみを学習できる最先端のアルゴリズムを上回ることを示しています。

要約(オリジナル)

Resource allocation plays a critical role in minimizing cycle time and improving the efficiency of business processes. Recently, Deep Reinforcement Learning (DRL) has emerged as a powerful tool to optimize resource allocation policies in business processes. In the DRL framework, an agent learns a policy through interaction with the environment, guided solely by reward signals that indicate the quality of its decisions. However, existing algorithms are not suitable for dynamic environments such as business processes. Furthermore, existing DRL-based methods rely on engineered reward functions that approximate the desired objective, but a misalignment between reward and objective can lead to undesired decisions or suboptimal policies. To address these issues, we propose a rollout-based DRL algorithm and a reward function to optimize the objective directly. Our algorithm iteratively improves the policy by evaluating execution trajectories following different actions. Our reward function directly decomposes the objective function of minimizing the mean cycle time. Maximizing our reward function guarantees that the objective function is minimized without requiring extensive reward engineering. The results show that our method consistently learns the optimal policy in all six evaluated business processes, outperforming the state-of-the-art algorithm that can only learn the optimal policy in two of the evaluated processes.

arxiv情報

著者 Jeroen Middelhuis,Zaharah Bukhsh,Ivo Adan,Remco Dijkman
発行日 2025-04-15 14:46:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | A Rollout-Based Algorithm and Reward Function for Efficient Resource Allocation in Business Processes はコメントを受け付けていません

DeepSelective: Feature Gating and Representation Matching for Interpretable Clinical Prediction

要約

電子健康記録(EHRS)の急速な蓄積は、臨床的予測と診断を強化する貴重なデータを提供することにより、医療を変革しました。
従来の機械学習モデルは効果的であることが証明されていますが、多くの場合、堅牢な表現学習が欠けており、専門家が作成した機能に大きく依存しています。
ディープラーニングは強力なソリューションを提供しますが、解釈可能性の欠如について批判されていることがよくあります。
これらの課題に対処するために、EHRデータを使用して患者の予後を予測するための新しい終わりから末端学習フレームワークであるDeepSeectiveを提案します。
DeepSeectiveは、データ圧縮技術と革新的な機能選択アプローチを組み合わせて、正確性と解釈性の両方を向上させるために連携するカスタム設計モジュールを統合します。
私たちの実験は、深い選択が予測精度を高めるだけでなく、解釈性を大幅に改善し、臨床的意思決定のための貴重なツールになることを示しています。
ソースコードは、http://www.healthinformaticslab.org/supp/resources.phpで無料で入手できます。

要約(オリジナル)

The rapid accumulation of Electronic Health Records (EHRs) has transformed healthcare by providing valuable data that enhance clinical predictions and diagnoses. While conventional machine learning models have proven effective, they often lack robust representation learning and depend heavily on expert-crafted features. Although deep learning offers powerful solutions, it is often criticized for its lack of interpretability. To address these challenges, we propose DeepSelective, a novel end to end deep learning framework for predicting patient prognosis using EHR data, with a strong emphasis on enhancing model interpretability. DeepSelective combines data compression techniques with an innovative feature selection approach, integrating custom-designed modules that work together to improve both accuracy and interpretability. Our experiments demonstrate that DeepSelective not only enhances predictive accuracy but also significantly improves interpretability, making it a valuable tool for clinical decision-making. The source code is freely available at http://www.healthinformaticslab.org/supp/resources.php .

arxiv情報

著者 Ruochi Zhang,Qian Yang,Xiaoyang Wang,Haoran Wu,Qiong Zhou,Yu Wang,Kewei Li,Yueying Wang,Yusi Fan,Jiale Zhang,Lan Huang,Chang Liu,Fengfeng Zhou
発行日 2025-04-15 15:04:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | DeepSelective: Feature Gating and Representation Matching for Interpretable Clinical Prediction はコメントを受け付けていません

Transforming Future Data Center Operations and Management via Physical AI

要約

ミッションクリティカルなインフラストラクチャとしてのデータセンター(DCS)は、人工知能(AI)とデジタル経済の成長を促進する上で極めて重要です。
インターネットDCからAI DCへの進化により、ビジネスレジリエンスの改善と所有権の総コストの削減のために、データセンターの運営と管理に新しい課題が導入されました。
その結果、ベストプラクティスに基づいた従来のアプローチを超えて、将来のデータセンターのためには、新しいパラダイムが必要です。
この研究では、DCの運用と管理を進めるための新しい物理AI(Phyai)フレームワークを提案および開発します。
当社のシステムは、最先端の工業製品と社内の研究開発の新たな能力を活用しています。
具体的には、3つのコアモジュール、すなわち:1)非常に正確な方法でDC操作をシミュレートするための業界グレードの社内シミュレーションエンジンを提供します。
このシステムは、将来のデータセンターにリアルタイムのデジタルツインを有効にすることにより、将来のデータセンターの運用と管理をデジタル化、最適化、および自動化するためのスケーラブルで適応性のあるソリューションを提供します。
その有効性を説明するために、リアルタイムで大規模なDCの熱および空気流プロファイルを予測するための代理モデルの構築に関する説得力のあるケーススタディを提示します。
私たちの結果は、0.18 {\ deg}の絶対温度予測誤差の中央値で、従来の時間のかかる計算流体ダイナミクス/熱伝達(CFD/HT)シミュレーションよりも優れた性能を示しています。
この新たなアプローチは、将来のDC操作で物理的AIを進めるためのいくつかの潜在的な研究方向への扉を開くでしょう。

要約(オリジナル)

Data centers (DCs) as mission-critical infrastructures are pivotal in powering the growth of artificial intelligence (AI) and the digital economy. The evolution from Internet DC to AI DC has introduced new challenges in operating and managing data centers for improved business resilience and reduced total cost of ownership. As a result, new paradigms, beyond the traditional approaches based on best practices, must be in order for future data centers. In this research, we propose and develop a novel Physical AI (PhyAI) framework for advancing DC operations and management. Our system leverages the emerging capabilities of state-of-the-art industrial products and our in-house research and development. Specifically, it presents three core modules, namely: 1) an industry-grade in-house simulation engine to simulate DC operations in a highly accurate manner, 2) an AI engine built upon NVIDIA PhysicsNemo for the training and evaluation of physics-informed machine learning (PIML) models, and 3) a digital twin platform built upon NVIDIA Omniverse for our proposed 5-tier digital twin framework. This system presents a scalable and adaptable solution to digitalize, optimize, and automate future data center operations and management, by enabling real-time digital twins for future data centers. To illustrate its effectiveness, we present a compelling case study on building a surrogate model for predicting the thermal and airflow profiles of a large-scale DC in a real-time manner. Our results demonstrate its superior performance over traditional time-consuming Computational Fluid Dynamics/Heat Transfer (CFD/HT) simulation, with a median absolute temperature prediction error of 0.18 {\deg}C. This emerging approach would open doors to several potential research directions for advancing Physical AI in future DC operations.

arxiv情報

著者 Zhiwei Cao,Minghao Li,Feng Lin,Jimin Jia,Yonggang Wen,Jianxiong Yin,Simon See
発行日 2025-04-15 15:06:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC | Transforming Future Data Center Operations and Management via Physical AI はコメントを受け付けていません

Can Learned Optimization Make Reinforcement Learning Less Difficult?

要約

Rehnection Learning(RL)は、現実の世界で意思決定の大きな可能性を秘めていますが、具体的な考慮が必要な多くのユニークな困難に苦しんでいます。
特に:それは非常に非定常です。
高度の可塑性の損失が苦しんでいます。
また、ローカルオプティマへの早期収束を防ぎ、リターンを最大化するために探索が必要です。
この論文では、学習した最適化がこれらの問題を克服するのに役立つかどうかを検討します。
私たちの方法は、可塑性、探索、および非定常性(オープン)の最適化を学び、メタラーンを使用して、これらの困難に対する以前に提案されたソリューションによって入力機能と出力構造が通知される更新ルールを学習します。
パラメーター化は、探索に確率性を使用する能力など、多様な学習コンテキストでメタ学習を可能にするほど柔軟であることを示します。
私たちの実験は、単一および小さな環境でメタトレーニングを行うと、オープンアウトパフォームまたは従来のオプティマイザーに等しいことを示しています。
さらに、Openは、さまざまな環境とエージェントアーキテクチャにわたって強力な一般化特性を示しています。

要約(オリジナル)

While reinforcement learning (RL) holds great potential for decision making in the real world, it suffers from a number of unique difficulties which often need specific consideration. In particular: it is highly non-stationary; suffers from high degrees of plasticity loss; and requires exploration to prevent premature convergence to local optima and maximize return. In this paper, we consider whether learned optimization can help overcome these problems. Our method, Learned Optimization for Plasticity, Exploration and Non-stationarity (OPEN), meta-learns an update rule whose input features and output structure are informed by previously proposed solutions to these difficulties. We show that our parameterization is flexible enough to enable meta-learning in diverse learning contexts, including the ability to use stochasticity for exploration. Our experiments demonstrate that when meta-trained on single and small sets of environments, OPEN outperforms or equals traditionally used optimizers. Furthermore, OPEN shows strong generalization characteristics across a range of environments and agent architectures.

arxiv情報

著者 Alexander David Goldie,Chris Lu,Matthew Thomas Jackson,Shimon Whiteson,Jakob Nicolaus Foerster
発行日 2025-04-15 15:07:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Can Learned Optimization Make Reinforcement Learning Less Difficult? はコメントを受け付けていません

Bridging Technology and Humanities: Evaluating the Impact of Large Language Models on Social Sciences Research with DeepSeek-R1

要約

近年、大規模な言語モデル(LLMS)の開発は、自然言語処理の分野で大きなブレークスルーを行っており、徐々に人文科学と社会科学の研究の分野に適用されています。
LLMは、その強いテキスト理解、生成、推論能力のために、人文科学および社会科学の分野で幅広いアプリケーション価値を持っています。
人文科学と社会科学の研究では、LLMSは大規模なテキストデータを分析し、推論を行うことができます。
この記事では、低リソースの言語翻訳、教育的質問、高等教育の改善、論理的推論、教育測定と心理測定、公衆衛生政策分析、芸術教育など、7つの側面からの大規模な言語モデルDeepSeek-R1を分析します。
次に、7つの側面でDeepseek-R1によって与えられた回答を、O1-Previewによって与えられた答えを比較します。
Deepseek-R1は人文科学と社会科学でうまく機能し、ほとんどの質問に正しくかつ論理的に答え、合理的な分析プロセスと説明を提供できます。
O1-Previewと比較して、推論プロセスを自動的に生成し、より詳細な説明を提供できます。これは、この知識を詳細に理解する必要がある初心者や人に適していますが、O1-Previewは迅速な読みに適しています。
分析を通じて、LLMは人文科学と社会科学の分野で幅広い応用の可能性を持ち、テキスト分析の効率、言語コミュニケーション、その他の分野を改善する上で大きな利点を示していることがわかります。
LLMの強力な言語理解と生成能力により、人文科学と社会科学の分野で複雑な問題を深く探求し、学術研究と実用的なアプリケーションのための革新的なツールを提供できます。

要約(オリジナル)

In recent years, the development of Large Language Models (LLMs) has made significant breakthroughs in the field of natural language processing and has gradually been applied to the field of humanities and social sciences research. LLMs have a wide range of application value in the field of humanities and social sciences because of its strong text understanding, generation and reasoning capabilities. In humanities and social sciences research, LLMs can analyze large-scale text data and make inferences. This article analyzes the large language model DeepSeek-R1 from seven aspects: low-resource language translation, educational question-answering, student writing improvement in higher education, logical reasoning, educational measurement and psychometrics, public health policy analysis, and art education . Then we compare the answers given by DeepSeek-R1 in the seven aspects with the answers given by o1-preview. DeepSeek-R1 performs well in the humanities and social sciences, answering most questions correctly and logically, and can give reasonable analysis processes and explanations. Compared with o1-preview, it can automatically generate reasoning processes and provide more detailed explanations, which is suitable for beginners or people who need to have a detailed understanding of this knowledge, while o1-preview is more suitable for quick reading. Through analysis, it is found that LLM has broad application potential in the field of humanities and social sciences, and shows great advantages in improving text analysis efficiency, language communication and other fields. LLM’s powerful language understanding and generation capabilities enable it to deeply explore complex problems in the field of humanities and social sciences, and provide innovative tools for academic research and practical applications.

arxiv情報

著者 Peiran Gu,Fuhao Duan,Wenhao Li,Bochen Xu,Ying Cai,Teng Yao,Chenxun Zhuo,Tianming Liu,Bao Ge
発行日 2025-04-15 15:09:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Bridging Technology and Humanities: Evaluating the Impact of Large Language Models on Social Sciences Research with DeepSeek-R1 はコメントを受け付けていません

Balancing Forecast Accuracy and Switching Costs in Online Optimization of Energy Management Systems

要約

この研究では、エネルギー管理システムにおける予測と最適化の統合を調査し、スイッチングコストの役割 – 頻繁な運用調整から生じる罰則に焦点を当てています。
理論的および経験的フレームワークを開発して、オンラインの意思決定設定でのスイッチングコストとの予測の精度と安定性がどのように相互作用するかを調べます。
私たちの分析は、点と確率的予測を使用して、決定論的最適化と確率論的最適化アプローチの両方に及びます。
確率的予測の時間的一貫性を測定するための新しいメトリックが導入され、FrameworkはCityLearn 2022チャレンジに基づく実際のバッテリースケジューリングケースで検証されます。
結果は、スイッチングコストが予測の精度と安定性の間のトレードオフを大幅に変えること、およびより安定した予測により、切り替えによるパフォーマンスの損失が減少する可能性があることを示しています。
一般的な慣行とは反対に、調査結果は、交渉不可能な切り替えコストの下で、コミットメント期間が長くなると全体的な結果が向上する可能性があることを示唆しています。
これらの洞察は、インテリジェントで予測に対応するエネルギー管理システムの設計に実際的な意味を持っています。

要約(オリジナル)

This study investigates the integration of forecasting and optimization in energy management systems, with a focus on the role of switching costs — penalties incurred from frequent operational adjustments. We develop a theoretical and empirical framework to examine how forecast accuracy and stability interact with switching costs in online decision-making settings. Our analysis spans both deterministic and stochastic optimization approaches, using point and probabilistic forecasts. A novel metric for measuring temporal consistency in probabilistic forecasts is introduced, and the framework is validated in a real-world battery scheduling case based on the CityLearn 2022 challenge. Results show that switching costs significantly alter the trade-off between forecast accuracy and stability, and that more stable forecasts can reduce the performance loss due to switching. Contrary to common practice, the findings suggest that, under non-negligible switching costs, longer commitment periods may lead to better overall outcomes. These insights have practical implications for the design of intelligent, forecast-aware energy management systems.

arxiv情報

著者 Evgenii Genov,Julian Ruddick,Christoph Bergmeir,Majid Vafaeipour,Thierry Coosemans,Salvador Garcia,Maarten Messagie
発行日 2025-04-15 15:12:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SY, eess.SY | Balancing Forecast Accuracy and Switching Costs in Online Optimization of Energy Management Systems はコメントを受け付けていません

Advanced Architectures Integrated with Agentic AI for Next-Generation Wireless Networks

要約

このペーパーでは、ネットワーク運用の簡素化、運用支出の削減(OPEX)、および新しいサービスモデルの展開を可能にすることを目的とした、さまざまな最先端のテクノロジーと建築革新を調査します。
焦点は、(i)長期の6Gネットワ​​ークの進化に対処しながら、サービスのシームレスな拡張を可能にするコントロールプレーンとユーザープレーンの両方を使用して、より効率的な6Gアーキテクチャを提案しています。
(ii)制約された人工知能(AI)操作の高度な手法、特にリアルタイム学習、エネルギー消費の最適化、計算リソースの割り当てのためのAIエージェントの設計の詳細な手法の調査。
(iii)特に垂直産業向けに、複数のドメインにわたってサーバーレスコンピューティングモデルを使用してバックエンドサービスのオーケストレーションをサポートするテクノロジーとアーキテクチャの識別。
(iv)高速光学スイッチングとリアルタイム制御を備えた光学ベースの超高速ネットワークアーキテクチャを導入し、従来の電子スイッチングを交換して電力消費を数桁削減します。

要約(オリジナル)

This paper investigates a range of cutting-edge technologies and architectural innovations aimed at simplifying network operations, reducing operational expenditure (OpEx), and enabling the deployment of new service models. The focus is on (i) Proposing novel, more efficient 6G architectures, with both Control and User planes enabling the seamless expansion of services, while addressing long-term 6G network evolution. (ii) Exploring advanced techniques for constrained artificial intelligence (AI) operations, particularly the design of AI agents for real-time learning, optimizing energy consumption, and the allocation of computational resources. (iii) Identifying technologies and architectures that support the orchestration of backend services using serverless computing models across multiple domains, particularly for vertical industries. (iv) Introducing optically-based, ultra-high-speed, low-latency network architectures, with fast optical switching and real-time control, replacing conventional electronic switching to reduce power consumption by an order of magnitude.

arxiv情報

著者 Kapal Dev,Sunder Ali Khowaja,Keshav Singh,Engin Zeydan,Merouane Debbah
発行日 2025-04-15 15:24:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NI | Advanced Architectures Integrated with Agentic AI for Next-Generation Wireless Networks はコメントを受け付けていません

Bipartite Ranking From Multiple Labels: On Loss Versus Label Aggregation

要約

Bipartiteランキングは、単一のバイナリターゲットラベルに対してROC曲線(AUC)の下の最大領域(AUC)のインスタンスにランキングを学習することを目標に、基本的な監視された学習問題です。
ただし、明確なヒトアノテーターから、複数のバイナリターゲットラベル、たとえば複数のバイナリターゲットラベルが観察される場合があります。
このようなラベルを単一のコヒーレントランキングにどのように合成できますか?
この作業では、ベイズ最適なソリューションを特徴付けることにより、この問題に対する2つのアプローチ(損失集約とラベル集計)に対する2つのアプローチを正式に分析します。
これに基づいて、両方の方法がパレート最適ソリューションを生成できるが、損失集約はラベル独裁を示すことができることを示しています。
これは、ラベルの集約が損失集約よりも好ましいことを示唆しており、これを経験的に検証します。

要約(オリジナル)

Bipartite ranking is a fundamental supervised learning problem, with the goal of learning a ranking over instances with maximal area under the ROC curve (AUC) against a single binary target label. However, one may often observe multiple binary target labels, e.g., from distinct human annotators. How can one synthesize such labels into a single coherent ranking? In this work, we formally analyze two approaches to this problem — loss aggregation and label aggregation — by characterizing their Bayes-optimal solutions. Based on this, we show that while both methods can yield Pareto-optimal solutions, loss aggregation can exhibit label dictatorship: one can inadvertently (and undesirably) favor one label over others. This suggests that label aggregation can be preferable to loss aggregation, which we empirically verify.

arxiv情報

著者 Michal Lukasik,Lin Chen,Harikrishna Narasimhan,Aditya Krishna Menon,Wittawat Jitkrittum,Felix X. Yu,Sashank J. Reddi,Gang Fu,Mohammadhossein Bateni,Sanjiv Kumar
発行日 2025-04-15 15:25:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG, stat.ML | Bipartite Ranking From Multiple Labels: On Loss Versus Label Aggregation はコメントを受け付けていません

Enhancing Commentary Strategies for Imperfect Information Card Games: A Study of Large Language Models in Guandan Commentary

要約

大規模な言語モデル(LLMS)の最近の進歩により、高品質のゲームコメントを生成する可能性が解き放たれました。
ただし、不完全な情報を持つ複雑なゲームの洞察に富んだ魅力的な解説を作成することは、依然として大きな課題です。
このホワイトペーパーでは、補強学習(RL)とLLMSを組み合わせた新しい解説方法を紹介します。
私たちのシステムはRLを活用して複雑なカードプレイシナリオを生成し、LLMを採用して対応する解説テキストを生成し、プロのコメンテーターの戦略的分析と物語の才能を効果的にエミュレートします。
このフレームワークは、州の解説ガイド、Mindの理論(TOM)ベースの戦略分析装置、およびスタイル検索モジュールで構成されており、中国語環境で詳細かつコンテキスト関連のゲーム解説を提供するためにシームレスに協力しています。
LLMSにTOM機能を強化し、検索と情報のフィルタリングメカニズムの両方を改良します。
これにより、パーソナライズされた解説コンテンツの生成が容易になります。
実験結果は、オープンソースLLMSに適用されたときに提案された解説フレームワークによって達成されたパフォーマンスの大幅な向上を示し、複数の評価メトリックにわたってGPT-4のパフォーマンスを上回ります。

要約(オリジナル)

Recent advancements in large language models (LLMs) have unlocked the potential for generating high-quality game commentary. However, producing insightful and engaging commentary for complex games with incomplete information remains a significant challenge. In this paper, we introduce a novel commentary method that combine Reinforcement Learning (RL) and LLMs, tailored specifically for the Chinese card game \textit{Guandan}. Our system leverages RL to generate intricate card-playing scenarios and employs LLMs to generate corresponding commentary text, effectively emulating the strategic analysis and narrative prowess of professional commentators. The framework comprises a state commentary guide, a Theory of Mind (ToM)-based strategy analyzer, and a style retrieval module, which seamlessly collaborate to deliver detailed and context-relevant game commentary in the Chinese language environment. We empower LLMs with ToM capabilities and refine both retrieval and information filtering mechanisms. This facilitates the generation of personalized commentary content. Our experimental results showcase the substantial enhancement in performance achieved by the proposed commentary framework when applied to open-source LLMs, surpassing the performance of GPT-4 across multiple evaluation metrics.

arxiv情報

著者 Meiling Tao,Xuechen Liang,Xinyuan Song,Yangfan He,Yiling Tao,Jianhui Wang,Sun Li Tianyu Shi
発行日 2025-04-15 15:28:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Enhancing Commentary Strategies for Imperfect Information Card Games: A Study of Large Language Models in Guandan Commentary はコメントを受け付けていません

CMAT: A Multi-Agent Collaboration Tuning Framework for Enhancing Small Language Models

要約

大規模な言語モデル(LLMS)を開くことで、自然言語処理の分野が大幅に進歩し、さまざまなタスクにわたって印象的なパフォーマンスを紹介しています。LLMSの大幅な進歩にもかかわらず、それらの効果的な動作は、対話フローを正確にガイドするために人間の入力に大きく依存しています。
モデルは、細心の注意を払ってキュレーションされた高品質のデータセットで訓練されています。
また、環境フィードバックに基づいて適応性のある体重更新を通じて言語エージェント機能を増強するために設計された革新的なシステムである共同マルチエージェントチューニング(CMAT)フレームワークも紹介します。
このフレームワークは、複数のインテリジェントなエージェント間の共同学習とリアルタイムの適応を促進し、コンテキストの認識と長期的な記憶を高めます。
この研究では、マルチエージェントシステムを環境フィードバックメカニズムと統合する新しい通信エージェントフレームワークを提案し、協力的な行動を探るためのスケーラブルな方法を提供します。
特に、当社のTinyAgent-7Bモデルは、パラメーターが少ないにもかかわらず、GPT-3.5とPARでパフォーマンスを示し、LLMSの効率と有効性の大幅な改善を示しています。

要約(オリジナル)

Open large language models (LLMs) have significantly advanced the field of natural language processing, showcasing impressive performance across various tasks.Despite the significant advancements in LLMs, their effective operation still relies heavily on human input to accurately guide the dialogue flow, with agent tuning being a crucial optimization technique that involves human adjustments to the model for better response to such guidance.Addressing this dependency, our work introduces the TinyAgent model, trained on a meticulously curated high-quality dataset. We also present the Collaborative Multi-Agent Tuning (CMAT) framework, an innovative system designed to augment language agent capabilities through adaptive weight updates based on environmental feedback. This framework fosters collaborative learning and real-time adaptation among multiple intelligent agents, enhancing their context-awareness and long-term memory. In this research, we propose a new communication agent framework that integrates multi-agent systems with environmental feedback mechanisms, offering a scalable method to explore cooperative behaviors. Notably, our TinyAgent-7B model exhibits performance on par with GPT-3.5, despite having fewer parameters, signifying a substantial improvement in the efficiency and effectiveness of LLMs.

arxiv情報

著者 Xuechen Liang,Yangfan He,Meiling Tao,Yinghui Xia,Jianhui Wang,Tianyu Shi,Jun Wang,JingSong Yang
発行日 2025-04-15 15:28:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CC, cs.CL | CMAT: A Multi-Agent Collaboration Tuning Framework for Enhancing Small Language Models はコメントを受け付けていません