RAG-Enhanced Collaborative LLM Agents for Drug Discovery

要約

大規模な言語モデル(LLM)の最近の進歩は、創薬を加速する大きな可能性を示しています。
ただし、生化学データの特殊な性質は、多くの場合、費用のかかるドメイン固有の微調整を必要とし、重要な課題を提起します。
まず、最先端の創薬タスクにおけるより柔軟な汎用LLMの適用を妨げます。
さらに重要なことは、実験と研究を通じて継続的に生成される膨大な量の科学データの迅速な統合を妨げることです。
これらの課題を調査するために、Drig Discovery Tasksに合わせて調整された検索された発電(RAG)容量のエージェントシステムであるCladdを提案します。
複数のLLMエージェントのコラボレーションを通じて、CLADDは生物医学的知識ベースから情報を動的に取得し、クエリ分子をコンテキスト化し、関連する証拠を統合して応答を生成します – すべてドメイン固有の微調整を必要とせずに。
重要なことに、データの不均一性、あいまいさ、マルチソースの統合など、生化学データにRAGワークフローを適用する際の重要な障害に取り組んでいます。
さまざまな創薬タスクにわたるこのフレームワークの柔軟性と有効性を実証し、汎用とドメイン固有のLLMS、および従来の深い学習アプローチよりも優れていることを示しています。

要約(オリジナル)

Recent advances in large language models (LLMs) have shown great potential to accelerate drug discovery. However, the specialized nature of biochemical data often necessitates costly domain-specific fine-tuning, posing critical challenges. First, it hinders the application of more flexible general-purpose LLMs in cutting-edge drug discovery tasks. More importantly, it impedes the rapid integration of the vast amounts of scientific data continuously generated through experiments and research. To investigate these challenges, we propose CLADD, a retrieval-augmented generation (RAG)-empowered agentic system tailored to drug discovery tasks. Through the collaboration of multiple LLM agents, CLADD dynamically retrieves information from biomedical knowledge bases, contextualizes query molecules, and integrates relevant evidence to generate responses — all without the need for domain-specific fine-tuning. Crucially, we tackle key obstacles in applying RAG workflows to biochemical data, including data heterogeneity, ambiguity, and multi-source integration. We demonstrate the flexibility and effectiveness of this framework across a variety of drug discovery tasks, showing that it outperforms general-purpose and domain-specific LLMs as well as traditional deep learning approaches.

arxiv情報

著者 Namkyeong Lee,Edward De Brouwer,Ehsan Hajiramezanali,Tommaso Biancalani,Chanyoung Park,Gabriele Scalia
発行日 2025-03-10 12:11:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | RAG-Enhanced Collaborative LLM Agents for Drug Discovery はコメントを受け付けていません

SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents

要約

大規模な言語モデル(LLM)の統合により、具体化されたエージェントは、複雑な自然言語の指示を理解して計画するための強力な能力を持っています。
しかし、予見可能な問題は、これらの具体化されたエージェントがいくつかの危険なタスクを完璧に実行し、現実世界で損害を引き起こす可能性があることです。
既存のベンチマークは、主に重大な安全リスクを見落とし、計画パフォーマンスのみに焦点を当てており、LLMSの安全認識を非対話的画像テキストデータのみで評価します。
このギャップに対処するために、SafeAgentbenchを提示します。これは、インタラクティブシミュレーション環境で具体化されたLLMエージェントの安全性を認識するタスク計画のための最初のベンチマークです。
SafeAgentBenchには、次のものが含まれます。(1)750のタスクの実行可能ファイル、多様な、および高品質のデータセットが含まれ、10の潜在的なハザードと3つのタスクタイプをカバーするために厳密にキュレーションされています。
(2)SafeAntenVは、低レベルのコントローラーを備えた普遍的な具体化された環境であり、8つの最先端のベースラインに対して17の高レベルアクションでマルチエージェント実行をサポートします。
(3)実行とセマンティックの両方の視点からの信頼できる評価方法。
実験結果は、異なる設計フレームワークに基づくエージェントがタスクの成功率に大きな違いを示すが、全体的な安全性の認識は弱いままであることを示しています。
最も安全に配慮したベースラインは、詳細な危険タスクに対して10 \%の拒否率のみを達成します。
さらに、エージェントを駆動するLLMを単純に交換しても、安全性の認識の顕著な改善につながることはありません。
詳細とコードは、https://github.com/shengyin1224/safeagentbenchで入手できます。

要約(オリジナル)

With the integration of large language models (LLMs), embodied agents have strong capabilities to understand and plan complicated natural language instructions. However, a foreseeable issue is that those embodied agents can also flawlessly execute some hazardous tasks, potentially causing damages in the real world. Existing benchmarks predominantly overlook critical safety risks, focusing solely on planning performance, while a few evaluate LLMs’ safety awareness only on non-interactive image-text data. To address this gap, we present SafeAgentBench-the first benchmark for safety-aware task planning of embodied LLM agents in interactive simulation environments. SafeAgentBench includes: (1) an executable, diverse, and high-quality dataset of 750 tasks, rigorously curated to cover 10 potential hazards and 3 task types; (2) SafeAgentEnv, a universal embodied environment with a low-level controller, supporting multi-agent execution with 17 high-level actions for 8 state-of-the-art baselines; and (3) reliable evaluation methods from both execution and semantic perspectives. Experimental results show that, although agents based on different design frameworks exhibit substantial differences in task success rates, their overall safety awareness remains weak. The most safety-conscious baseline achieves only a 10\% rejection rate for detailed hazardous tasks. Moreover, simply replacing the LLM driving the agent does not lead to notable improvements in safety awareness. More details and code are available at https://github.com/shengyin1224/SafeAgentBench.

arxiv情報

著者 Sheng Yin,Xianghe Pang,Yuanzhuo Ding,Menglan Chen,Yutong Bi,Yichen Xiong,Wenhao Huang,Zhen Xiang,Jing Shao,Siheng Chen
発行日 2025-03-10 12:13:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.RO | SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents はコメントを受け付けていません

CoT-Drive: Efficient Motion Forecasting for Autonomous Driving with LLMs and Chain-of-Thought Prompting

要約

安全な自律運転(AD)には、正確なモーション予測が重要です。
この研究では、大規模な言語モデル(LLMS)を活用することによりモーション予測を強化する新しいアプローチと、考え方(COT)プロンプトの方法を提案します。
教師の学生の知識蒸留戦略を導入して、LLMSの高度なシーン理解機能を軽量言語モデル(LMS)に効果的に転送し、COTドライブが包括的なシーンの理解と一般化機能を維持しながら、エッジデバイスでリアルタイムで動作するようにします。
追加のトレーニングなしでLLMSのコットプロンプトテクニックを活用することにより、COT-driveは、複雑な交通環境の理解を大幅に改善するセマンティックな注釈を生成し、それにより予測の精度と堅牢性を高めます。
さらに、コンテキスト固有のセマンティックアノテーションを生成するために微調整する軽量LMS用に設計された、高速道路テキストと都市テキストの2つの新しいシーン説明データセットを提示します。
5つの実際のデータセットの包括的な評価は、COTドライブが既存のモデルを上回ることを示しており、複雑なトラフィックシナリオの処理におけるその有効性と効率性を強調しています。
全体として、この研究は、この分野でのLLMの実用化を考慮した最初の研究です。
モーション予測のための軽量LLM代理のトレーニングと使用を先駆けて、新しいベンチマークの設定、LLMSをADシステムに統合する可能性を紹介します。

要約(オリジナル)

Accurate motion forecasting is crucial for safe autonomous driving (AD). This study proposes CoT-Drive, a novel approach that enhances motion forecasting by leveraging large language models (LLMs) and a chain-of-thought (CoT) prompting method. We introduce a teacher-student knowledge distillation strategy to effectively transfer LLMs’ advanced scene understanding capabilities to lightweight language models (LMs), ensuring that CoT-Drive operates in real-time on edge devices while maintaining comprehensive scene understanding and generalization capabilities. By leveraging CoT prompting techniques for LLMs without additional training, CoT-Drive generates semantic annotations that significantly improve the understanding of complex traffic environments, thereby boosting the accuracy and robustness of predictions. Additionally, we present two new scene description datasets, Highway-Text and Urban-Text, designed for fine-tuning lightweight LMs to generate context-specific semantic annotations. Comprehensive evaluations of five real-world datasets demonstrate that CoT-Drive outperforms existing models, highlighting its effectiveness and efficiency in handling complex traffic scenarios. Overall, this study is the first to consider the practical application of LLMs in this field. It pioneers the training and use of a lightweight LLM surrogate for motion forecasting, setting a new benchmark and showcasing the potential of integrating LLMs into AD systems.

arxiv情報

著者 Haicheng Liao,Hanlin Kong,Bonan Wang,Chengyue Wang,Wang Ye,Zhengbing He,Chengzhong Xu,Zhenning Li
発行日 2025-03-10 12:17:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | CoT-Drive: Efficient Motion Forecasting for Autonomous Driving with LLMs and Chain-of-Thought Prompting はコメントを受け付けていません

LLM-C3MOD: A Human-LLM Collaborative System for Cross-Cultural Hate Speech Moderation

要約

コンテンツモデレーションはグローバルな課題ですが、主要なハイテクプラットフォームは高リソース言語を優先し、低リソース言語にネイティブのモデレーターが不足しています。
効果的な節度はコンテキストキューの理解に依存するため、この不均衡は、非ネイティブモデレーターの限られた文化的理解により、不適切な節度のリスクを高めます。
ユーザー調査を通じて、非ネイティブのモデレーターは、ヘイトスピーチの節度における文化的特有の知識、感情、インターネット文化の解釈に苦労していることを特定します。
彼らを支援するために、3つのステップを持つ人間のllm共同パイプラインであるLLM-C3MODを提示します。
(2)初期LLMベースのモデレート。
(3)LLMコンセンサスを欠いている症例の人間の標的をターゲットにした。
インドネシアおよびドイツの参加者と韓国のヘイトスピーチデータセットで評価されたこのシステムは、78%の精度(GPT-4oの71%のベースラインを上回る)を達成し、人間のワークロードを83.6%削減します。
特に、人間のモデレーターは、LLMSが苦労している微妙なコンテンツで優れています。
私たちの調査結果は、LLMSによって適切にサポートされている場合、非ネイティブモデレーターが異文化間のヘイトスピーチモデレートに効果的に貢献できることを示唆しています。

要約(オリジナル)

Content moderation is a global challenge, yet major tech platforms prioritize high-resource languages, leaving low-resource languages with scarce native moderators. Since effective moderation depends on understanding contextual cues, this imbalance increases the risk of improper moderation due to non-native moderators’ limited cultural understanding. Through a user study, we identify that non-native moderators struggle with interpreting culturally-specific knowledge, sentiment, and internet culture in the hate speech moderation. To assist them, we present LLM-C3MOD, a human-LLM collaborative pipeline with three steps: (1) RAG-enhanced cultural context annotations; (2) initial LLM-based moderation; and (3) targeted human moderation for cases lacking LLM consensus. Evaluated on a Korean hate speech dataset with Indonesian and German participants, our system achieves 78% accuracy (surpassing GPT-4o’s 71% baseline), while reducing human workload by 83.6%. Notably, human moderators excel at nuanced contents where LLMs struggle. Our findings suggest that non-native moderators, when properly supported by LLMs, can effectively contribute to cross-cultural hate speech moderation.

arxiv情報

著者 Junyeong Park,Seogyeong Jeong,Seyoung Song,Yohan Lee,Alice Oh
発行日 2025-03-10 12:20:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LLM-C3MOD: A Human-LLM Collaborative System for Cross-Cultural Hate Speech Moderation はコメントを受け付けていません

MonoSOWA: Scalable monocular 3D Object detector Without human Annotations

要約

単一のRGBカメラからのオブジェクト3Dの位置と方向を推測することは、多くの重要なアプリケーションを備えたコンピュータービジョンの基本的なタスクです。
伝統的に、3Dオブジェクト検出方法は完全に監視されたセットアップでトレーニングされており、Lidarと膨大な量の人間の注釈が必要であり、面倒で費用がかかり、キャプチャされている量のデータとは十分にスケーリングしません。
ドメイン固有の人間の注釈なしで、単一のRGBカメラから3Dオブジェクト検出器をトレーニングする新しい方法を提示し、トレーニングに利用可能なより多くのデータを提供します。
このメソッドは、新たに提案されたローカルオブジェクトモーションモデルを使用して、後続のフレーム間でオブジェクトの移動ソースを解き放ち、以前の作業よりも約700倍高速であり、カメラの焦点距離の違いを複数のデータセットを集約するために補正します。
この方法は3つのパブリックデータセットで評価され、人間のラベルを使用していないにもかかわらず、事前の作業を大幅に上回ることができます。
また、完全に監視されたトレーニングのためのトレーニング前のツールとしての汎用性を示しており、複数のデータセットからの擬似ラベルを組み合わせることで、単一のデータセットからの人間のラベルを使用することに匹敵する精度が得られることを示しています。
ソースコードとモデルはまもなく公開されます。

要約(オリジナル)

Inferring object 3D position and orientation from a single RGB camera is a foundational task in computer vision with many important applications. Traditionally, 3D object detection methods are trained in a fully-supervised setup, requiring LiDAR and vast amounts of human annotations, which are laborious, costly, and do not scale well with the ever-increasing amounts of data being captured. We present a novel method to train a 3D object detector from a single RGB camera without domain-specific human annotations, making orders of magnitude more data available for training. The method uses newly proposed Local Object Motion Model to disentangle object movement source between subsequent frames, is approximately 700 times faster than previous work and compensates camera focal length differences to aggregate multiple datasets. The method is evaluated on three public datasets, where despite using no human labels, it outperforms prior work by a significant margin. It also shows its versatility as a pre-training tool for fully-supervised training and shows that combining pseudo-labels from multiple datasets can achieve comparable accuracy to using human labels from a single dataset. The source code and model will be published soon.

arxiv情報

著者 Jan Skvrna,Lukas Neumann
発行日 2025-03-10 12:27:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | MonoSOWA: Scalable monocular 3D Object detector Without human Annotations はコメントを受け付けていません

AI-Driven Automated Tool for Abdominal CT Body Composition Analysis in Gastrointestinal Cancer Management

要約

胃腸がんの発生率は、特に中国では、正確な予後評価と効果的な治療戦略の重要性を強調しています。
研究では、腹部筋肉と脂肪組織の組成と患者の転帰との強い相関関係が示されています。
ただし、腹部組織組成を分析するための既存の手動方法は、時間がかかり、費用がかかるため、臨床研究のスケーラビリティが制限されています。
これらの課題に対処するために、腹部CTスキャンの自動分析のためのAI駆動型ツールを開発し、筋肉、皮下脂肪、および内臓脂肪を効果的に識別およびセグメント化しました。
当社のツールは、マルチビューローカリゼーションモデルと高精度2D NNUNETベースのセグメンテーションモデルを統合し、90%のローカリゼーション精度とセグメンテーションのために0.967のDICEスコア係数を示します。
さらに、臨床医がセグメンテーションの結果を改良できるようにするインタラクティブなインターフェイスを備えており、高品質の結果を効果的に保証します。
当社のツールは、臨界腹部組織を効果的に抽出するための標準化された方法を提供し、胃腸がんの管理と治療を潜在的に強化する可能性があります。
このコードは、https://github.com/nanxinyu/ai-tool4abdominal-seg.git} {https://github.com/nanxininyu/ai-tool4abdominal-seg.gitで入手できます。

要約(オリジナル)

The incidence of gastrointestinal cancers remains significantly high, particularly in China, emphasizing the importance of accurate prognostic assessments and effective treatment strategies. Research shows a strong correlation between abdominal muscle and fat tissue composition and patient outcomes. However, existing manual methods for analyzing abdominal tissue composition are time-consuming and costly, limiting clinical research scalability. To address these challenges, we developed an AI-driven tool for automated analysis of abdominal CT scans to effectively identify and segment muscle, subcutaneous fat, and visceral fat. Our tool integrates a multi-view localization model and a high-precision 2D nnUNet-based segmentation model, demonstrating a localization accuracy of 90% and a Dice Score Coefficient of 0.967 for segmentation. Furthermore, it features an interactive interface that allows clinicians to refine the segmentation results, ensuring high-quality outcomes effectively. Our tool offers a standardized method for effectively extracting critical abdominal tissues, potentially enhancing the management and treatment for gastrointestinal cancers. The code is available at https://github.com/NanXinyu/AI-Tool4Abdominal-Seg.git}{https://github.com/NanXinyu/AI-Tool4Abdominal-Seg.git.

arxiv情報

著者 Xinyu Nan,Meng He,Zifan Chen,Bin Dong,Lei Tang,Li Zhang
発行日 2025-03-10 12:32:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | AI-Driven Automated Tool for Abdominal CT Body Composition Analysis in Gastrointestinal Cancer Management はコメントを受け付けていません

COMODO: Cross-Modal Video-to-IMU Distillation for Efficient Egocentric Human Activity Recognition

要約

エゴセントリックビデオベースのモデルは、豊富なセマンティック情報をキャプチャし、人間の活動認識(HAR)で強力なパフォーマンスを実証しています。
ただし、高出力消費、プライバシーの懸念、照明条件への依存により、継続的なオンデバイス認識の実現可能性が制限されます。
対照的に、慣性測定ユニット(IMU)センサーは、エネルギー効率が高くプライバシーに基づいた代替品を提供しますが、それらは限られた大規模な注釈付きデータセットに苦しんでおり、下流タスクの一般化が弱くなっています。
このギャップを埋めるために、ラベル付きの注釈を必要とせずにビデオモダリティからIMUモダリティに豊富なセマンティック知識を転送するクロスモーダルの自己監視された蒸留フレームワークであるComodoを提案します。
Comodoは、動的なインスタンスキューを構築して、ビデオとIMUの埋め込みの機能分布を整列させて、動的なインスタンスキューを構築するために、前処理された凍結ビデオエンコーダーを活用します。
ビデオ表現から知識を蒸留することにより、私たちのアプローチにより、IMUエンコーダーは、実際のアプリケーションの効率を維持しながら、ビデオから豊富なセマンティック情報を継承することができます。
複数のエゴセントリックHARデータセットの実験は、COMODOが一貫してダウンストリーム分類パフォーマンスを改善し、完全に監視された微調整モデルに匹敵する、またはそれを超える結果を達成することを示しています。
さらに、Comodoは強力なクロスダタセットの一般化を示しています。
そのシンプルさの恩恵を受けて、私たちの方法は一般に、さまざまなビデオおよびタイムシリーズの事前訓練モデルにも適用でき、将来の研究でより強力な教師と学生の基礎モデルを活用する可能性を提供します。
このコードは、https://github.com/breezelled/comodoで入手できます。

要約(オリジナル)

Egocentric video-based models capture rich semantic information and have demonstrated strong performance in human activity recognition (HAR). However, their high power consumption, privacy concerns, and dependence on lighting conditions limit their feasibility for continuous on-device recognition. In contrast, inertial measurement unit (IMU) sensors offer an energy-efficient and privacy-preserving alternative, yet they suffer from limited large-scale annotated datasets, leading to weaker generalization in downstream tasks. To bridge this gap, we propose COMODO, a cross-modal self-supervised distillation framework that transfers rich semantic knowledge from the video modality to the IMU modality without requiring labeled annotations. COMODO leverages a pretrained and frozen video encoder to construct a dynamic instance queue, aligning the feature distributions of video and IMU embeddings. By distilling knowledge from video representations, our approach enables the IMU encoder to inherit rich semantic information from video while preserving its efficiency for real-world applications. Experiments on multiple egocentric HAR datasets demonstrate that COMODO consistently improves downstream classification performance, achieving results comparable to or exceeding fully supervised fine-tuned models. Moreover, COMODO exhibits strong cross-dataset generalization. Benefiting from its simplicity, our method is also generally applicable to various video and time-series pre-trained models, offering the potential to leverage more powerful teacher and student foundation models in future research. The code is available at https://github.com/Breezelled/COMODO .

arxiv情報

著者 Baiyu Chen,Wilson Wongso,Zechen Li,Yonchanok Khaokaew,Hao Xue,Flora Salim
発行日 2025-03-10 12:43:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | COMODO: Cross-Modal Video-to-IMU Distillation for Efficient Egocentric Human Activity Recognition はコメントを受け付けていません

WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation

要約

テキストツーイメージ(T2I)モデルは、高品質の芸術作品と視覚的なコンテンツを生成することができます。
ただし、既存の研究と評価の基準は、主にイメージのリアリズムと浅いテキストイメージの調整に焦点を当てており、テキストから画像生成への複雑なセマンティック理解と世界知識の統合の包括的な評価が欠けています。
この課題に対処するために、$ \ textbf {w} $ orld knowledge-$ \ textbf {i} $ nformed $ \ textbf {s} $ emantic $ \ textbf {e} $ $ valuation用に特別に設計された最初のベンチマークである$ \ textbf {wise} $を提案します。
ワイズは、文化的常識、空間的推論、自然科学の25のサブドメインにわたって1000の綿密に作成されたプロンプトを備えた挑戦的なモデルで、単純なワードピクセルマッピングを超えて移動します。
従来のクリップメトリックの制限を克服するために、知識イメージアライメントを評価するための新しい定量的メトリックである$ \ textBf {wiscore} $を導入します。
25のサブドメインにまたがる1,000の構造化プロンプトを使用して、20のモデル(10の専用T2Iモデルと10の統一マルチモードモデル)の包括的なテストを通じて、我々の調査結果は、画像生成中に世界知識を効果的に統合および適用する能力に大きな制限を明らかにし、次世代T2Iモデルにおける知識の組み込みと応用を強化するための重要な経路を強調します。
コードとデータはhttps://github.com/pku-yuangroup/wiseで入手できます。

要約(オリジナル)

Text-to-Image (T2I) models are capable of generating high-quality artistic creations and visual content. However, existing research and evaluation standards predominantly focus on image realism and shallow text-image alignment, lacking a comprehensive assessment of complex semantic understanding and world knowledge integration in text to image generation. To address this challenge, we propose $\textbf{WISE}$, the first benchmark specifically designed for $\textbf{W}$orld Knowledge-$\textbf{I}$nformed $\textbf{S}$emantic $\textbf{E}$valuation. WISE moves beyond simple word-pixel mapping by challenging models with 1000 meticulously crafted prompts across 25 sub-domains in cultural common sense, spatio-temporal reasoning, and natural science. To overcome the limitations of traditional CLIP metric, we introduce $\textbf{WiScore}$, a novel quantitative metric for assessing knowledge-image alignment. Through comprehensive testing of 20 models (10 dedicated T2I models and 10 unified multimodal models) using 1,000 structured prompts spanning 25 subdomains, our findings reveal significant limitations in their ability to effectively integrate and apply world knowledge during image generation, highlighting critical pathways for enhancing knowledge incorporation and application in next-generation T2I models. Code and data are available at https://github.com/PKU-YuanGroup/WISE.

arxiv情報

著者 Yuwei Niu,Munan Ning,Mengren Zheng,Bin Lin,Peng Jin,Jiaqi Liao,Kunpeng Ning,Bin Zhu,Li Yuan
発行日 2025-03-10 12:47:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation はコメントを受け付けていません

Federated Learning in NTNs: Design, Architecture and Challenges

要約

非地球ネットワーク(NTN)は、将来の6G通信システムのコアコンポーネントとして浮上しており、グローバルな接続性とデータ集約型アプリケーションをサポートしています。
このホワイトペーパーでは、NTNアーキテクチャ内の分散階層フェデレーション学習(HFL)フレームワークを提案し、中間分布のFLサーバーとして高高度プラットフォームステーション(HAPS)星座を活用します。
当社のフレームワークは、Geostationary Orbit(GEO)および中地球軌道(MEO)衛星を利用しながら、FLトレーニングプロセスの低地球軌道(LEO)衛星と地上クライアントの両方を統合し、世界中の他のHAPS星座を交換し、シームレスでグローバルな学習を可能にします。
提案されたフレームワークは、いくつかの重要な利点を提供します。(i)HAPS星座を活用することによりFLメカニズムの分散化を通じてプライバシーを強化し、(ii)レイテンシのバランスをとりながらモデルの精度を改善し、トレーニング損失を減らし、MEOおよびGEO衛星を利用することでユビキタス接続を通じてFLシステムのスケーラビリティを増加させ、FLを最適化することにより、普遍的な接続性を高め、(IV)。
ネットワーク管理の観点からのNTNアーキテクチャ。
数値研究は、モデルの精度が向上し、トレーニング損失の減少、効率的な潜時管理を伴う、提案されたフレームワークの有効性を実証しています。
この記事には、NTNSのFLの簡単なレビューも含まれており、重要な課題と将来の研究の方向性を強調しています。

要約(オリジナル)

Non-terrestrial networks (NTNs) are emerging as a core component of future 6G communication systems, providing global connectivity and supporting data-intensive applications. In this paper, we propose a distributed hierarchical federated learning (HFL) framework within the NTN architecture, leveraging a high altitude platform station (HAPS) constellation as intermediate distributed FL servers. Our framework integrates both low-Earth orbit (LEO) satellites and ground clients in the FL training process while utilizing geostationary orbit (GEO) and medium-Earth orbit (MEO) satellites as relays to exchange FL global models across other HAPS constellations worldwide, enabling seamless, global-scale learning. The proposed framework offers several key benefits: (i) enhanced privacy through the decentralization of the FL mechanism by leveraging the HAPS constellation, (ii) improved model accuracy and reduced training loss while balancing latency, (iii) increased scalability of FL systems through ubiquitous connectivity by utilizing MEO and GEO satellites, and (iv) the ability to use FL data, such as resource utilization metrics, to further optimize the NTN architecture from a network management perspective. A numerical study demonstrates the proposed framework’s effectiveness, with improved model accuracy, reduced training loss, and efficient latency management. The article also includes a brief review of FL in NTNs and highlights key challenges and future research directions.

arxiv情報

著者 Amin Farajzadeh,Animesh Yadav,Halim Yanikomeroglu
発行日 2025-03-10 12:53:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NI, eess.SP | Federated Learning in NTNs: Design, Architecture and Challenges はコメントを受け付けていません

Automatic Curriculum Design for Zero-Shot Human-AI Coordination

要約

ゼロショットヒューマンアイ調整は、人間のデータを使用せずに人間と調整するためのエゴエージェントのトレーニングです。
ゼロショットのヒューマンアイ調整に関するほとんどの研究は、目に見えない環境への一般化の問題を考慮せずに、特定の環境でのエゴエージェントの調整能力を高めることに焦点を合わせています。
ゼロショットの人間と調整の現実世界のアプリケーションは、環境に応じて、予測不可能な環境の変化と共同プレイヤーのさまざまな調整能力を考慮する必要があります。
以前は、マルチエージェントUED(監視されていない環境設計)アプローチは、競争力のある2プレイヤーAI-AIシナリオで環境の変化と共同プレイヤーポリシーを共同で検討することにより、これらの課題を調査しています。
この論文では、我々の研究では、ゼロショットの人間の調整にマルチエージェントUEDアプローチを拡張しています。
私たちは、以前のマルチエージェントUEDアプローチよりも効果的に人間と調整するためにエゴエージェントを訓練するのに役立つ、ゼロショットの人間とAIの調整設定のためのユーティリティ機能と共同プレイヤーサンプリングを提案します。
ゼロショットのヒューマンアイ調整パフォーマンスは、人間のプロキシエージェントと本物の人間を使用して、過剰調理済みの環境で評価されました。
私たちの方法は、他のベースラインモデルよりも優れており、目に見えない環境での人間とAIの調整パフォーマンスを達成します。

要約(オリジナル)

Zero-shot human-AI coordination is the training of an ego-agent to coordinate with humans without using human data. Most studies on zero-shot human-AI coordination have focused on enhancing the ego-agent’s coordination ability in a given environment without considering the issue of generalization to unseen environments. Real-world applications of zero-shot human-AI coordination should consider unpredictable environmental changes and the varying coordination ability of co-players depending on the environment. Previously, the multi-agent UED (Unsupervised Environment Design) approach has investigated these challenges by jointly considering environmental changes and co-player policy in competitive two-player AI-AI scenarios. In this paper, our study extends the multi-agent UED approach to a zero-shot human-AI coordination. We propose a utility function and co-player sampling for a zero-shot human-AI coordination setting that helps train the ego-agent to coordinate with humans more effectively than the previous multi-agent UED approach. The zero-shot human-AI coordination performance was evaluated in the Overcooked-AI environment, using human proxy agents and real humans. Our method outperforms other baseline models and achieves a high human-AI coordination performance in unseen environments.

arxiv情報

著者 Won-Sang You,Tae-Gwan Ha,Seo-Young Lee,Kyung-Joong Kim
発行日 2025-03-10 12:55:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Automatic Curriculum Design for Zero-Shot Human-AI Coordination はコメントを受け付けていません