PharmAgents: Building a Virtual Pharma with Large Language Model Agents

要約

新規の小分子薬の発見は、疾患の治療と人間の健康の進歩に広範囲に及ぶ意味を持つ重要な科学的課題のままです。
従来の医薬品開発、特に小分子治療の場合、学際的なコラボレーションを必要とする非常に複雑で、リソース集約的で時間のかかるプロセスです。
人工知能(AI)の最近のブレークスルー、特に大規模な言語モデル(LLMS)の台頭は、このプロセスを合理化および加速する変革的な機会を提示します。
このホワイトペーパーでは、LLMベースのマルチエージェントコラボレーションによって駆動される仮想医薬品の生態系であるPharmagentsを紹介します。
Pharmagentsは、ターゲット発見から前臨床評価までの完全な創薬ワークフローをシミュレートします。特殊な機械学習モデルと計算ツールを備えた説明可能なLLM駆動型エージェントを統合することにより。
構造化された知識交換と自動化された最適化を通じて、薬剤は潜在的な治療標的を特定し、有望なリード化合物を発見し、結合親和性と主要な分子特性を強化し、毒性と合成の実現可能性のsilico分析を実行します。
さらに、システムは解釈可能性、エージェントの相互作用、および自己進化をサポートし、以前の経験に基づいて将来の薬物設計を改良できるようにします。
薬物発見におけるLLM駆動のマルチエージェントシステムの可能性を紹介することにより、この研究は、包括的な薬物ライフサイクル管理に向けた将来の拡張を伴う、自律的で説明可能な、スケーラブルな医薬品研究のための新しいパラダイムを確立します。

要約(オリジナル)

The discovery of novel small molecule drugs remains a critical scientific challenge with far-reaching implications for treating diseases and advancing human health. Traditional drug development–especially for small molecule therapeutics–is a highly complex, resource-intensive, and time-consuming process that requires multidisciplinary collaboration. Recent breakthroughs in artificial intelligence (AI), particularly the rise of large language models (LLMs), present a transformative opportunity to streamline and accelerate this process. In this paper, we introduce PharmAgents, a virtual pharmaceutical ecosystem driven by LLM-based multi-agent collaboration. PharmAgents simulates the full drug discovery workflow–from target discovery to preclinical evaluation–by integrating explainable, LLM-driven agents equipped with specialized machine learning models and computational tools. Through structured knowledge exchange and automated optimization, PharmAgents identifies potential therapeutic targets, discovers promising lead compounds, enhances binding affinity and key molecular properties, and performs in silico analyses of toxicity and synthetic feasibility. Additionally, the system supports interpretability, agent interaction, and self-evolvement, enabling it to refine future drug designs based on prior experience. By showcasing the potential of LLM-powered multi-agent systems in drug discovery, this work establishes a new paradigm for autonomous, explainable, and scalable pharmaceutical research, with future extensions toward comprehensive drug lifecycle management.

arxiv情報

著者 Bowen Gao,Yanwen Huang,Yiqiao Liu,Wenxuan Xie,Wei-Ying Ma,Ya-Qin Zhang,Yanyan Lan
発行日 2025-03-31 16:26:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-bio.BM | PharmAgents: Building a Virtual Pharma with Large Language Model Agents はコメントを受け付けていません

Value of Information-based Deceptive Path Planning Under Adversarial Interventions

要約

欺ceptiveなパス計画(DPP)の既存の方法に対処します。パスをパスを設計する問題に対処します。
このような方法は、観察者が経路計画エージェントを妨げるために敵対的な介入を実行する能力を持っている問題には適用されません。
この論文では、DPPポリシーの設計を導くために、敵対的介入の下でDPP問題の新しいマルコフ決定プロセス(MDP)ベースのモデルを提案し、情報の新しい価値(VOI)目的を開発します。
私たちが提案するVOIの目的を使用して、パス計画エージェントは、観察者にとって情報価値が低い軌跡を選択することにより、敵対的なオブザーバーを欺き、最適でない介入を選択します。
MDPの線形プログラミング理論への接続を活用すると、敵対的介入の下でDPPを実行するためのポリシーを合成するための計算効率的なソリューション方法を導き出します。
私たちの実験では、敵対的な介入の下で欺ceptiveningを達成する上で提案されたソリューション法の有効性を説明し、既存のDPPメソッドと実例のあるグリッドワールドの問題に関する保守的な経路計画アプローチの両方に対するアプローチの優れたパフォーマンスを実証します。

要約(オリジナル)

Existing methods for deceptive path planning (DPP) address the problem of designing paths that conceal their true goal from a passive, external observer. Such methods do not apply to problems where the observer has the ability to perform adversarial interventions to impede the path planning agent. In this paper, we propose a novel Markov decision process (MDP)-based model for the DPP problem under adversarial interventions and develop new value of information (VoI) objectives to guide the design of DPP policies. Using the VoI objectives we propose, path planning agents deceive the adversarial observer into choosing suboptimal interventions by selecting trajectories that are of low informational value to the observer. Leveraging connections to the linear programming theory for MDPs, we derive computationally efficient solution methods for synthesizing policies for performing DPP under adversarial interventions. In our experiments, we illustrate the effectiveness of the proposed solution method in achieving deceptiveness under adversarial interventions and demonstrate the superior performance of our approach to both existing DPP methods and conservative path planning approaches on illustrative gridworld problems.

arxiv情報

著者 Wesley A. Suttle,Jesse Milzman,Mustafa O. Karabag,Brian M. Sadler,Ufuk Topcu
発行日 2025-03-31 16:31:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC | Value of Information-based Deceptive Path Planning Under Adversarial Interventions はコメントを受け付けていません

Shape Expressions with Inheritance

要約

形状式言語(SHEX)の継承メカニズムを正式に紹介します。
オブジェクト指向のプログラミング言語の継承に触発され、再利用、モジュール性、より柔軟なデータモデリングなどの同様の利点を提供します。
例を使用して、継承メカニズムの主な特徴を説明します。
その構文と正式なセマンティクスを提示します。
セマンティクスは、Shex 2.1のセマンティクスの拡張です。
また、同じアルゴリズムの複雑さを維持しながら、以前のSHEX検証アルゴリズムの拡張として検証アルゴリズムを直接生成します。

要約(オリジナル)

We formally introduce an inheritance mechanism for the Shape Expressions language (ShEx). It is inspired by inheritance in object-oriented programming languages, and provides similar advantages such as reuse, modularity, and more flexible data modelling. Using an example, we explain the main features of the inheritance mechanism. We present its syntax and formal semantics. The semantics is an extension of the semantics of ShEx 2.1. It also directly yields a validation algorithm as an extension of the previous ShEx validation algorithms, while maintaining the same algorithmic complexity.

arxiv情報

著者 Iovka Boneva,Jose Emilio Labra Gayo,Eric Prud’hommeaux,Katherine Thornton,Andra Waagmeester
発行日 2025-03-31 16:42:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB | Shape Expressions with Inheritance はコメントを受け付けていません

Evaluating machine learning models for predicting pesticides toxicity to honey bees

要約

小分子は、生物医学、環境、および農薬のドメインで重要な役割を果たし、それぞれに異なる物理化学的要件と成功基準を備えています。
生物医学的研究は、広範なデータセットと確立されたベンチマークから利益を得ていますが、特に種固有の毒性に関しては、農薬データが依然として不足しています。
この研究は、生態学的に重要な花粉媒介者であるミツバチ(\ textit {apis mellifera})に対する実験的に検証された化学毒性の最も包括的なデータセットであるアピストックスに焦点を当てています。
分子指紋、グラフカーネル、グラフニューラルネットワーク、および前提条件モデルなど、多様な機械学習アプローチを使用してApistoxを評価します。
Moleculenetベンチマークからの薬用データセットとの比較分析は、Apistoxが異なる化学空間を表していることを明らかにしています。
Apistoxなどの非医学的データセットのパフォーマンス劣化は、生物医学データのみで訓練されている現在の最先端のアルゴリズムの一般化が限られていることを示しています。
私たちの研究は、より多様なデータセットと農薬の領域に向けられたターゲットモデル開発の必要性を強調しています。

要約(オリジナル)

Small molecules play a critical role in the biomedical, environmental, and agrochemical domains, each with distinct physicochemical requirements and success criteria. Although biomedical research benefits from extensive datasets and established benchmarks, agrochemical data remain scarce, particularly with respect to species-specific toxicity. This work focuses on ApisTox, the most comprehensive dataset of experimentally validated chemical toxicity to the honey bee (\textit{Apis mellifera}), an ecologically vital pollinator. We evaluate ApisTox using a diverse suite of machine learning approaches, including molecular fingerprints, graph kernels, and graph neural networks, as well as pretrained models. Comparative analysis with medicinal datasets from the MoleculeNet benchmark reveals that ApisTox represents a distinct chemical space. Performance degradation on non-medicinal datasets, such as ApisTox, demonstrates their limited generalizability of current state-of-the-art algorithms trained solely on biomedical data. Our study highlights the need for more diverse datasets and for targeted model development geared toward the agrochemical domain.

arxiv情報

著者 Jakub Adamczyk,Jakub Poziemski,Pawel Siedlecki
発行日 2025-03-31 16:51:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Evaluating machine learning models for predicting pesticides toxicity to honey bees はコメントを受け付けていません

A Systematic Evaluation of LLM Strategies for Mental Health Text Analysis: Fine-tuning vs. Prompt Engineering vs. RAG

要約

この研究では、大規模な言語モデル(LLMS)を使用したメンタルヘルステキストの分析のための3つのアプローチの体系的な比較を示しています:迅速なエンジニアリング、検索拡張生成(RAG)、および微調整。
Llama 3を使用して、2つのデータセットにわたる感情分類とメンタルヘルスの検出タスクに関するこれらのアプローチを評価します。
微調整は最高の精度(感情分類で91%、メンタルヘルスの状態で80%)を達成しますが、かなりの計算リソースと大規模なトレーニングセットが必要です。一方、迅速なエンジニアリングとRAGは、パフォーマンスが適度なパフォーマンス(40〜68%の精度)でより柔軟な展開を提供します。
私たちの調査結果は、精度、計算要件、展開の柔軟性のトレードオフを強調し、メンタルヘルスアプリケーションにLLMベースのソリューションを実装するための実用的な洞察を提供します。

要約(オリジナル)

This study presents a systematic comparison of three approaches for the analysis of mental health text using large language models (LLMs): prompt engineering, retrieval augmented generation (RAG), and fine-tuning. Using LLaMA 3, we evaluate these approaches on emotion classification and mental health condition detection tasks across two datasets. Fine-tuning achieves the highest accuracy (91% for emotion classification, 80% for mental health conditions) but requires substantial computational resources and large training sets, while prompt engineering and RAG offer more flexible deployment with moderate performance (40-68% accuracy). Our findings provide practical insights for implementing LLM-based solutions in mental health applications, highlighting the trade-offs between accuracy, computational requirements, and deployment flexibility.

arxiv情報

著者 Arshia Kermani,Veronica Perez-Rosas,Vangelis Metsis
発行日 2025-03-31 16:54:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG | A Systematic Evaluation of LLM Strategies for Mental Health Text Analysis: Fine-tuning vs. Prompt Engineering vs. RAG はコメントを受け付けていません

BEATS: Bias Evaluation and Assessment Test Suite for Large Language Models

要約

この研究では、大規模な言語モデル(LLMS)におけるバイアス、倫理、公平性、および事実性を評価するための新しいフレームワークであるBeatsを紹介します。
Beatsフレームワークに基づいて、29の異なるメトリックにわたってパフォーマンスを測定するLLMのバイアスベンチマークを紹介します。
これらのメトリックは、倫理的推論、グループの公平性、および事実関連の誤った情報リスクの測定だけでなく、人口統計、認知、社会のバイアスなど、幅広い特性に及びます。
これらのメトリックにより、LLMが生成した応答が、体系的な不平等を強化または拡大する社会的偏見を永続させる可能性のある程度の定量的評価を可能にします。
このベンチマークで高いスコアを達成するには、LLMが応答に非常に公平な動作を示す必要があり、責任あるAI評価の厳密な基準となっています。
実験結果の実験結果は、業界をリードするモデルによって生成された出力の37.65%に何らかの形のバイアスが含まれており、重要な意思決定システムでこれらのモデルを使用するという大きなリスクを強調していることを示しています。
Beatsフレームワークとベンチマークは、ベンチマークLLMSのスケーラブルで統計的に厳密な方法論を提供し、バイアスを促進する要因を診断し、緩和戦略を開発します。
Beatsフレームワークを使用すると、私たちの目標は、より社会的に責任があり、倫理的に整合したAIモデルの開発を支援することです。

要約(オリジナル)

In this research, we introduce BEATS, a novel framework for evaluating Bias, Ethics, Fairness, and Factuality in Large Language Models (LLMs). Building upon the BEATS framework, we present a bias benchmark for LLMs that measure performance across 29 distinct metrics. These metrics span a broad range of characteristics, including demographic, cognitive, and social biases, as well as measures of ethical reasoning, group fairness, and factuality related misinformation risk. These metrics enable a quantitative assessment of the extent to which LLM generated responses may perpetuate societal prejudices that reinforce or expand systemic inequities. To achieve a high score on this benchmark a LLM must show very equitable behavior in their responses, making it a rigorous standard for responsible AI evaluation. Empirical results based on data from our experiment show that, 37.65\% of outputs generated by industry leading models contained some form of bias, highlighting a substantial risk of using these models in critical decision making systems. BEATS framework and benchmark offer a scalable and statistically rigorous methodology to benchmark LLMs, diagnose factors driving biases, and develop mitigation strategies. With the BEATS framework, our goal is to help the development of more socially responsible and ethically aligned AI models.

arxiv情報

著者 Alok Abhishek,Lisa Erickson,Tushar Bandopadhyay
発行日 2025-03-31 16:56:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68T50, cs.AI, cs.CL, I.2.0 | BEATS: Bias Evaluation and Assessment Test Suite for Large Language Models はコメントを受け付けていません

Pro-Routing: Proactive Routing of Autonomous Multi-Capacity Robots for Pickup-and-Delivery Tasks

要約

マルチロボット設定を検討します。ここでは、固定最大待機時間で空間的に分散したピックアップと配信要求をサービスしなければならない多能力の自律ロボットのフリートがあります。
リクエストは、事前にスケジュールされるか、リアルタイムでシステムに入ることができます。
この設定では、ルーティングポリシーの安定性は、ポリシーのコストが時間とともに均一に制限されるかと定義されます。
以前のほとんどの作業は、理論的に安定性を維持するためにオフラインで問題を解決するか、安定性に関する理論的保証を犠牲にしてリクエストを動的に到着することを検討します。
この論文では、学習ルーティングポリシーの安定性を証明しながら、リアルタイムの需要に適応する新しいプロアクティブロールアウトベースのルーティングフレームワークを提案することにより、このギャップを埋めることを目指しています。
私たちは、建設による安定性を保証する十分に大きな艦隊を取得するフリートサイジングアルゴリズムを提案することにより、当社の方法の証明可能な安定性保証を導き出します。
理論的な結果を検証するために、ハーバード大学のイブニングバンシステムの実際のライドリクエストに関するケーススタディを検討します。
また、現在展開されているより小さなフリートサイズを使用して、フレームワークのパフォーマンスを評価します。
この小さなセットアップでは、現在展開されているルーティングアルゴリズム、貪欲なヒューリスティック、およびモンテカルロツリー検索ベースのアルゴリズムと比較します。
私たちの経験的結果は、理論的結果に見られる十分に大きな艦隊サイズを使用すると、フレームワークが安定性を維持することを示しています。
現在展開されている艦隊サイズが小さいため、メソッドサービスは、乗客の待機時間の中央値を33%削減しながら、最も近いベースラインよりも6%多くのリクエストをサービスします。

要約(オリジナル)

We consider a multi-robot setting, where we have a fleet of multi-capacity autonomous robots that must service spatially distributed pickup-and-delivery requests with fixed maximum wait times. Requests can be either scheduled ahead of time or they can enter the system in real-time. In this setting, stability for a routing policy is defined as the cost of the policy being uniformly bounded over time. Most previous work either solve the problem offline to theoretically maintain stability or they consider dynamically arriving requests at the expense of the theoretical guarantees on stability. In this paper, we aim to bridge this gap by proposing a novel proactive rollout-based routing framework that adapts to real-time demand while still provably maintaining the stability of the learned routing policy. We derive provable stability guarantees for our method by proposing a fleet sizing algorithm that obtains a sufficiently large fleet that ensures stability by construction. To validate our theoretical results, we consider a case study on real ride requests for Harvard’s evening Van System. We also evaluate the performance of our framework using the currently deployed smaller fleet size. In this smaller setup, we compare against the currently deployed routing algorithm, greedy heuristics, and Monte-Carlo-Tree-Search-based algorithms. Our empirical results show that our framework maintains stability when we use the sufficiently large fleet size found in our theoretical results. For the smaller currently deployed fleet size, our method services 6% more requests than the closest baseline while reducing median passenger wait times by 33%.

arxiv情報

著者 Daniel Garces,Stephanie Gil
発行日 2025-03-31 17:14:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO | Pro-Routing: Proactive Routing of Autonomous Multi-Capacity Robots for Pickup-and-Delivery Tasks はコメントを受け付けていません

Contextual Preference Collaborative Measure Framework Based on Belief System

要約

優先測定測定プロセスへの人間の介入を減らすために、この記事では、更新された信念システムに基づいた優先コラボレーション測定フレームワークを提案します。これはまた、最新の信念システムに基づいて優先協力測定フレームワークを提案します。これはまた、好みの測定アルゴリズムアルゴリズムの精度と効率を改善することもできます。まず、ルールの距離とルールの平均的な距離とルールセットの平均内部距離と、ルールセットの間に関係を明確に指定するためにルールセットの平均距離が提案されています。
ルールセットの平均内部距離、PRAアルゴリズムに基づくアルゴリズムが提案されています。これは、最小情報損失率で発見プロセスを完了することを目的としています。Furthermore、共通の信念の概念は信念体系を更新するために提案されています。
2種類(一般化またはパーソナライズされた)、そして最終的には、信念の学位と偏差の程度に依存してTop-Kの興味深いルールをフィルタリングします。
信念度としての相関係数。実験では、提案されたアルゴリズムは2つの最先端のアルゴリズムと比較され、結果はほとんどの側面でIMCOSとIMCOVが他の2つよりも優れていることを示しています。

要約(オリジナル)

To reduce the human intervention in the preference measure process,this article proposes a preference collaborative measure framework based on an updated belief system,which is also capable of improving the accuracy and efficiency of preferen-ce measure algorithms.Firstly,the distance of rules and the average internal distance of rulesets are proposed for specifying the relationship between the rules.For discovering the most representative preferences that are common in all users,namely common preference,a algorithm based on average internal distance of ruleset,PRA algorithm,is proposed,which aims to finish the discoveryprocess with minimum information loss rate.Furthermore,the concept of Common belief is proposed to update the belief system,and the common preferences are the evidences of updated belief system.Then,under the belief system,the proposed belief degree and deviation degree are used to determine whether a rule confirms the belief system or not and classify the preference rules into two kinds(generalized or personalized),and eventually filters out Top-K interesting rules relying on belief degree and deviation degree.Based on above,a scalable interestingness calculation framework that can apply various formulas is proposed for accurately calculating interestingness in different conditions.At last,IMCos algorithm and IMCov algorithm are proposed as exemplars to verify the accuracy and efficiency of the framework by using weighted cosine similarity and correlation coefficients as belief degree.In experiments,the proposed algorithms are compared to two state-of-the-art algorithms and the results show that IMCos and IMCov outperform than the other two in most aspects.

arxiv情報

著者 Hang Yu,Wei Wei,Zheng Tan,Jing-lei Liu
発行日 2025-03-31 17:17:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Contextual Preference Collaborative Measure Framework Based on Belief System はコメントを受け付けていません

SQuat: Subspace-orthogonal KV Cache Quantization

要約

キー価値(KV)キャッシュは、以前に生成されたトークンからKVテンソルを保存することにより、LLMSデコードを加速します。
メモリ使用量の増加のコストで冗長計算を削減します。
このオーバーヘッドを軽減するために、既存のアプローチはKVテンソルを低ビット表現に圧縮します。
ただし、量子化エラーは、より多くのトークンが生成されると蓄積する可能性があり、潜在的に望ましくない出力が生成されます。
この論文では、Squat(サブスペース整中KVキャッシュの量子化)を紹介します。
最初に、クエリテンソルに及ぶ部分空間を構築して、最も重要なタスク関連情報をキャプチャします。
主要なテンソル量子化中、(de)量子化されたキーと元のキーの違いがこの部分空間に直交するままであることを強制し、注意メカニズムの出力に対する量子化エラーの影響を最小限に抑えます。
Squatには、モデルの微調整、オフライン学習のための追加のキャリブレーションデータセットは必要ありません。また、私たちが開発する理論的フレームワークに基づいています。
数値実験を通じて、私たちの方法がピークメモリを2.17から2.82に減らし、スループットを2.45から3.60に改善し、既存のKVキャッシュ量子化アルゴリズムよりも優れたベンチマークスコアを達成することを示します。

要約(オリジナル)

The key-value (KV) cache accelerates LLMs decoding by storing KV tensors from previously generated tokens. It reduces redundant computation at the cost of increased memory usage. To mitigate this overhead, existing approaches compress KV tensors into lower-bit representations; however, quantization errors can accumulate as more tokens are generated, potentially resulting in undesired outputs. In this paper, we introduce SQuat (Subspace-orthogonal KV cache quantization). It first constructs a subspace spanned by query tensors to capture the most critical task-related information. During key tensor quantization, it enforces that the difference between the (de)quantized and original keys remains orthogonal to this subspace, minimizing the impact of quantization errors on the attention mechanism’s outputs. SQuat requires no model fine-tuning, no additional calibration dataset for offline learning, and is grounded in a theoretical framework we develop. Through numerical experiments, we show that our method reduces peak memory by 2.17 to 2.82, improves throughput by 2.45 to 3.60, and achieves more favorable benchmark scores than existing KV cache quantization algorithms.

arxiv情報

著者 Hao Wang,Ligong Han,Kai Xu,Akash Srivastava
発行日 2025-03-31 17:37:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IT, cs.LG, math.IT | SQuat: Subspace-orthogonal KV Cache Quantization はコメントを受け付けていません

Sim-and-Real Co-Training: A Simple Recipe for Vision-Based Robotic Manipulation

要約

大規模な現実世界のロボットデータセットは、ジェネラリストのロボットモデルをトレーニングする大きな可能性を秘めていますが、実世界の人間のデータ収集のスケーリングは時間がかかり、リソース集約的です。
シミュレーションは、特にロボット動作データセットのスケーラブルな作成を可能にする生成AIおよび自動化されたデータ生成ツールの最近の進歩により、大規模なデータを補足することに大きな可能性があります。
ただし、シミュレーションのみでポリシーをトレーニングし、現実の世界に転送するには、現実のギャップを埋めるためにかなりの人間の努力が必要になることがよくあります。
説得力のある代替手段は、シミュレーションと実際のデータセットの混合に関するポリシーを共同訓練することです。
予備研究により、この戦略は、限られた量の現実世界データでトレーニングされた1つよりもポリシーのパフォーマンスを大幅に改善することを示しています。
それにもかかわらず、コミュニティには、シムアンドリアルの共同トレーニングと、実際のロボット学習のためのシミュレーションデータの利点を享受するために必要なことの体系的な理解がありません。
この作業は、シミュレーションデータを利用してビジョンベースのロボット操作タスクを解決するためのシンプルで効果的なレシピを提示します。
このレシピは、さまざまなシミュレーションおよび実際のデータセットで共同トレーニング戦略を検証する包括的な実験から導き出します。
ロボットアームとヒューマノイドの2つのドメインを使用して、シミュレーションデータがシミュレーションと実際のデータの顕著な違いがある場合でも、シミュレーションデータが実際のタスクのパフォーマンスを平均38%強化できることを実証します。
ビデオと追加の結果は、https://co-training.github.io/にあります。

要約(オリジナル)

Large real-world robot datasets hold great potential to train generalist robot models, but scaling real-world human data collection is time-consuming and resource-intensive. Simulation has great potential in supplementing large-scale data, especially with recent advances in generative AI and automated data generation tools that enable scalable creation of robot behavior datasets. However, training a policy solely in simulation and transferring it to the real world often demands substantial human effort to bridge the reality gap. A compelling alternative is to co-train the policy on a mixture of simulation and real-world datasets. Preliminary studies have recently shown this strategy to substantially improve the performance of a policy over one trained on a limited amount of real-world data. Nonetheless, the community lacks a systematic understanding of sim-and-real co-training and what it takes to reap the benefits of simulation data for real-robot learning. This work presents a simple yet effective recipe for utilizing simulation data to solve vision-based robotic manipulation tasks. We derive this recipe from comprehensive experiments that validate the co-training strategy on various simulation and real-world datasets. Using two domains–a robot arm and a humanoid–across diverse tasks, we demonstrate that simulation data can enhance real-world task performance by an average of 38%, even with notable differences between the simulation and real-world data. Videos and additional results can be found at https://co-training.github.io/

arxiv情報

著者 Abhiram Maddukuri,Zhenyu Jiang,Lawrence Yunliang Chen,Soroush Nasiriany,Yuqi Xie,Yu Fang,Wenqi Huang,Zu Wang,Zhenjia Xu,Nikita Chernyadev,Scott Reed,Ken Goldberg,Ajay Mandlekar,Linxi Fan,Yuke Zhu
発行日 2025-03-31 17:39:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Sim-and-Real Co-Training: A Simple Recipe for Vision-Based Robotic Manipulation はコメントを受け付けていません