BeamLLM: Vision-Empowered mmWave Beam Prediction with Large Language Models

要約

この論文では、MMWAVE通信システムの高トレーニングオーバーヘッドとレイテンシの課題に対処するために、大きな言語モデル(LLMS)を活用する視力支援ミリ波(MMWAVE)ビーム予測フレームワークであるBeam​​llMを提案します。
コンピュータービジョン(CV)とLLMSのクロスモーダル推論機能を組み合わせることにより、フレームワークはRGB画像からユーザー機器(UE)の位置機能を抽出し、再プログラミング技術を通じてLLMSのセマンティックスペースを視覚的に対応する機能を整列させます。
現実的な車両からインフラストラクチャ(V2I)シナリオで評価された提案方法は、標準予測タスクで61.01%のTOP-1精度と97.39%のTOP-3精度を達成し、従来の深い学習モデルを大幅に上回っています。
少ないショット予測シナリオでは、パフォーマンスの劣化は、サンプル1から10から12.56%(TOP-1)と5.55%(TOP-3)に制限されており、優れた予測能力を示しています。

要約(オリジナル)

In this paper, we propose BeamLLM, a vision-aided millimeter-wave (mmWave) beam prediction framework leveraging large language models (LLMs) to address the challenges of high training overhead and latency in mmWave communication systems. By combining computer vision (CV) with LLMs’ cross-modal reasoning capabilities, the framework extracts user equipment (UE) positional features from RGB images and aligns visual-temporal features with LLMs’ semantic space through reprogramming techniques. Evaluated on a realistic vehicle-to-infrastructure (V2I) scenario, the proposed method achieves 61.01% top-1 accuracy and 97.39% top-3 accuracy in standard prediction tasks, significantly outperforming traditional deep learning models. In few-shot prediction scenarios, the performance degradation is limited to 12.56% (top-1) and 5.55% (top-3) from time sample 1 to 10, demonstrating superior prediction capability.

arxiv情報

著者 Can Zheng,Jiguang He,Guofa Cai,Zitong Yu,Chung G. Kang
発行日 2025-03-13 14:55:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | BeamLLM: Vision-Empowered mmWave Beam Prediction with Large Language Models はコメントを受け付けていません

Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond

要約

このペーパーでは、モデル、データ、コードがすべてリリースされたLight-R1シリーズに関する作業を紹介します。
まず、長いCOTモデルをゼロからトレーニングすることに焦点を当てています。特に、最初は長いCOT機能を欠いているモデルから始まります。
2段階のSFTとセミポリティDPOで構成されるカリキュラムトレーニングレシピを使用して、QWEN2.5-32B-instructからモデルLight-R1-32Bをトレーニングし、DeepSeek-R1-Distill-QWen-32Bと比較して優れた数学のパフォーマンスをもたらします。
数学データのみで訓練されているにもかかわらず、Light-R1-32Bは他のドメイン全体で強い一般化を示しています。
この作業の後続のフェーズでは、他のモデルを強化するために2番目のSFTステージに構築された3Kデータセットの大きな利点を強調します。
このデータセットを使用してDeepSeek-R1-DISTILLモデルを微調整することにより、7Bおよび14Bで新しいSOTAモデルを取得し、32BモデルであるLight-R1-32B-DSはQWQ-32BおよびDeepSeek-R1と同等に実行されました。
さらに、推論のパフォーマンスをさらに向上させるために、補強学習、特にGRPOをロングコットモデルに適用することにより、作業を拡張します。
RLで最終的なLight-R1-14B-DSを正常にトレーニングし、数学の14BパラメーターモデルでSOTAパフォーマンスを達成しました。
それぞれ74.0と60.2のAIME24と25のスコアを使用すると、Light-R1-14B-DSは多くの32BモデルとDeepSeek-R1-Distill-llama-70Bを超えています。
また、RLトレーニングは予想される行動を示し、応答長と報酬スコアの同時増加を示します。
Light-R1シリーズの作業は、トレーニングのロングコットモデルをゼロから検証し、SFTデータのアートを紹介し、RLからSOTAモデルをリリースします。

要約(オリジナル)

This paper presents our work on the Light-R1 series, with models, data, and code all released. We first focus on training long COT models from scratch, specifically starting from models initially lacking long COT capabilities. Using a curriculum training recipe consisting of two-stage SFT and semi-on-policy DPO, we train our model Light-R1-32B from Qwen2.5-32B-Instruct, resulting in superior math performance compared to DeepSeek-R1-Distill-Qwen-32B. Despite being trained exclusively on math data, Light-R1-32B shows strong generalization across other domains. In the subsequent phase of this work, we highlight the significant benefit of the 3k dataset constructed for the second SFT stage on enhancing other models. By fine-tuning DeepSeek-R1-Distilled models using this dataset, we obtain new SOTA models in 7B and 14B, while the 32B model, Light-R1-32B-DS performed comparably to QwQ-32B and DeepSeek-R1. Furthermore, we extend our work by applying reinforcement learning, specifically GRPO, on long-COT models to further improve reasoning performance. We successfully train our final Light-R1-14B-DS with RL, achieving SOTA performance among 14B parameter models in math. With AIME24 & 25 scores of 74.0 and 60.2 respectively, Light-R1-14B-DS surpasses even many 32B models and DeepSeek-R1-Distill-Llama-70B. Its RL training also exhibits well expected behavior, showing simultaneous increase in response length and reward score. The Light-R1 series of work validates training long-COT models from scratch, showcases the art in SFT data and releases SOTA models from RL.

arxiv情報

著者 Liang Wen,Yunke Cai,Fenrui Xiao,Xin He,Qi An,Zhenyu Duan,Yimin Du,Junchen Liu,Lifu Tang,Xiaowei Lv,Haosheng Zou,Yongchao Deng,Shousheng Jia,Xiangzheng Zhang
発行日 2025-03-13 15:29:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond はコメントを受け付けていません

Statistical Analysis of Sentence Structures through ASCII, Lexical Alignment and PCA

要約

音声パーツ(POS)タグ付けなどの構文ツールを使用することで、文の構造とその分布を多様なコーパス全体に理解するのに役立ちましたが、それは非常に複雑であり、自然言語処理(NLP)の課題をもたらします。
この研究は、そのようなツールに頼らずに調和して、名詞、動詞、決定因子などの使用方法(名詞、動詞、決定者などの使用)を理解することに焦点を当てています。
情報交換(ASCII)コードにAmerican Standard Codeを使用して、PCAを介して圧縮バージョンを使用した後、さまざまなソースからの11のテキストコーパスのテキストとその語彙カテゴリアライメントを表す新しい統計的方法を提案し、Shapiro-WilkやAnderson-Darling Testsなどのヒストグラムと正常テストを介して結果を分析します。
ASCIIコードに焦点を当てることにより、このアプローチはテキスト処理を簡素化しますが、構文ツールを置き換えるのではなく、テキストバランスを評価するためのリソース効率の高いツールとして提供することでそれらを補完します。
Grokによって生成されたストーリーは、LLM出力のバランスの取れた文構造を示す正常性に近いことを示していますが、残りの10のうち4つは正常性テストに合格します。
さらなる研究では、より広範なタスクのための構文統合により、テキスト品質評価とスタイル分析における潜在的なアプリケーションを探求することができます。

要約(オリジナル)

While utilizing syntactic tools such as parts-of-speech (POS) tagging has helped us understand sentence structures and their distribution across diverse corpora, it is quite complex and poses a challenge in natural language processing (NLP). This study focuses on understanding sentence structure balance – usages of nouns, verbs, determiners, etc – harmoniously without relying on such tools. It proposes a novel statistical method that uses American Standard Code for Information Interchange (ASCII) codes to represent text of 11 text corpora from various sources and their lexical category alignment after using their compressed versions through PCA, and analyzes the results through histograms and normality tests such as Shapiro-Wilk and Anderson-Darling Tests. By focusing on ASCII codes, this approach simplifies text processing, although not replacing any syntactic tools but complementing them by offering it as a resource-efficient tool for assessing text balance. The story generated by Grok shows near normality indicating balanced sentence structures in LLM outputs, whereas 4 out of the remaining 10 pass the normality tests. Further research could explore potential applications in text quality evaluation and style analysis with syntactic integration for more broader tasks.

arxiv情報

著者 Abhijeet Sahdev
発行日 2025-03-13 15:42:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Statistical Analysis of Sentence Structures through ASCII, Lexical Alignment and PCA はコメントを受け付けていません

World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning

要約

大規模な視覚言語モデル(LVLMS)の最近の進歩は、具体化されたタスク計画の可能性を示していますが、依存関係の制約や効率などの基本的な課題に苦労しています。
既存のアプローチは、アクション選択を最適化するか、推論中に世界モデルを活用して、計画機能を強化する方法として世界をモデル化することの利点を見落としています。
二重優先最適化(D $^2 $ PO)を提案します。これは、優先学習を通じて状態予測とアクションの選択を共同で最適化し、LVLMがより良い計画のために環境ダイナミクスを理解できるようにする新しい学習フレームワークです。
人間の注釈なしで軌道と段階的優先データを自動的に収集するために、試行錯誤を介して広範な探索のためのツリー検索メカニズムを導入します。
vota-benchでの広範な実験は、d $^2 $ POベースの方法が既存の方法を大幅に上回ることを示しています。QWEN2-VL(7b)、Llava-1.6(7b)、およびLlama-3.2(11b)に適用すると、GPT-4oはより効率的な実行パスで優れたタスクの成功率を達成します。

要約(オリジナル)

Recent advances in large vision-language models (LVLMs) have shown promise for embodied task planning, yet they struggle with fundamental challenges like dependency constraints and efficiency. Existing approaches either solely optimize action selection or leverage world models during inference, overlooking the benefits of learning to model the world as a way to enhance planning capabilities. We propose Dual Preference Optimization (D$^2$PO), a new learning framework that jointly optimizes state prediction and action selection through preference learning, enabling LVLMs to understand environment dynamics for better planning. To automatically collect trajectories and stepwise preference data without human annotation, we introduce a tree search mechanism for extensive exploration via trial-and-error. Extensive experiments on VoTa-Bench demonstrate that our D$^2$PO-based method significantly outperforms existing methods and GPT-4o when applied to Qwen2-VL (7B), LLaVA-1.6 (7B), and LLaMA-3.2 (11B), achieving superior task success rates with more efficient execution paths.

arxiv情報

著者 Siyin Wang,Zhaoye Fei,Qinyuan Cheng,Shiduo Zhang,Panpan Cai,Jinlan Fu,Xipeng Qiu
発行日 2025-03-13 15:49:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.RO | World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning はコメントを受け付けていません

Source-primed Multi-turn Conversation Helps Large Language Models Translate Documents

要約

LLMは、本当にシンプルなドキュメントレベルの機械翻訳の道を開いていますが、省略エラーなどの課題は残っています。
このホワイトペーパーでは、以前のコンテキストをマルチターンの会話方法で活用することにより、ドキュメントレベルの機械翻訳を処理するための簡単な方法を研究します。
具体的には、ドキュメントをセグメントに分解し、以前のターンを維持しながら繰り返し翻訳することにより、この方法は追加のトレーニングなしでコヒーレントな翻訳を保証し、以前のターンのKVキャッシュを完全に再利用できるため、計算オーバーヘッドを最小限に抑えることができます。
さらに、マルチターン翻訳の前に最初にソースドキュメント全体を提供する「ソースプライミング」メソッドを提案します。
このマルチターンメソッドは、1回のターンでドキュメント全体を翻訳し、代表的なLLMSの複数の自動メトリックに従って各セグメントを個別に翻訳し、LLMSを使用したドキュメントレベルの翻訳の強力なベースラインを確立することを経験的に示しています。

要約(オリジナル)

LLMs have paved the way for truly simple document-level machine translation, but challenges such as omission errors remain. In this paper, we study a simple method for handling document-level machine translation, by leveraging previous contexts in a multi-turn conversational manner. Specifically, by decomposing documents into segments and iteratively translating them while maintaining previous turns, this method ensures coherent translations without additional training, and can fully re-use the KV cache of previous turns thus minimizing computational overhead. We further propose a `source-primed’ method that first provides the whole source document before multi-turn translation. We empirically show this multi-turn method outperforms both translating entire documents in a single turn and translating each segment independently according to multiple automatic metrics in representative LLMs, establishing a strong baseline for document-level translation using LLMs.

arxiv情報

著者 Hanxu Hu,Jannis Vamvas,Rico Sennrich
発行日 2025-03-13 15:57:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Source-primed Multi-turn Conversation Helps Large Language Models Translate Documents はコメントを受け付けていません

MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation

要約

従来のベンチマークは、多言語や文化的に多様な文脈でますます洗練された言語モデルを評価するのに苦労しています。
このギャップに対処するために、言語ごとに約11,829の質問を伴う13の類型的に多様な言語をカバーする包括的な多言語ベンチマークであるMMLU-Proxを紹介します。
MMLU-Proの挑戦的な推論に焦点を当てた設計に基づいて、私たちのフレームワークは半自動翻訳プロセスを採用しています。最先端の大規模な言語モデル(LLM)によって生成される翻訳は、概念的な精度、用語の一貫性、および文化的関連性を確保するために、専門家のアノテーターによって厳密に評価されます。
5ショットのチェーン(COT)およびゼロショットプロンプト戦略を使用して、25の最先端のLLMを包括的に評価し、言語的および文化的境界全体でパフォーマンスを分析します。
私たちの実験は、高リソース言語から低リソースの言語への一貫した性能劣化を明らかにしています。最高のモデルは英語で70%以上の精度を達成しますが、スワヒリ語のような言語では約40%に低下し、最近の進歩にもかかわらず多言語機能の永続的なギャップを強調しています。
MMLU-Proxは進行中のプロジェクトです。
追加の言語を組み込み、より多くの言語モデルを評価して、多言語機能のより包括的な評価を提供することにより、ベンチマークを拡大しています。

要約(オリジナル)

Traditional benchmarks struggle to evaluate increasingly sophisticated language models in multilingual and culturally diverse contexts. To address this gap, we introduce MMLU-ProX, a comprehensive multilingual benchmark covering 13 typologically diverse languages with approximately 11,829 questions per language. Building on the challenging reasoning-focused design of MMLU-Pro, our framework employs a semi-automatic translation process: translations generated by state-of-the-art large language models (LLMs) are rigorously evaluated by expert annotators to ensure conceptual accuracy, terminological consistency, and cultural relevance. We comprehensively evaluate 25 state-of-the-art LLMs using 5-shot chain-of-thought (CoT) and zero-shot prompting strategies, analyzing their performance across linguistic and cultural boundaries. Our experiments reveal consistent performance degradation from high-resource languages to lower-resource ones, with the best models achieving over 70% accuracy on English but dropping to around 40% for languages like Swahili, highlighting persistent gaps in multilingual capabilities despite recent advances. MMLU-ProX is an ongoing project; we are expanding our benchmark by incorporating additional languages and evaluating more language models to provide a more comprehensive assessment of multilingual capabilities.

arxiv情報

著者 Weihao Xuan,Rui Yang,Heli Qi,Qingcheng Zeng,Yunze Xiao,Yun Xing,Junjue Wang,Huitao Li,Xin Li,Kunyu Yu,Nan Liu,Qingyu Chen,Douglas Teodoro,Edison Marrese-Taylor,Shijian Lu,Yusuke Iwasawa,Yutaka Matsuo,Irene Li
発行日 2025-03-13 15:59:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation はコメントを受け付けていません

Probing LLMs for Multilingual Discourse Generalization Through a Unified Label Set

要約

談話の理解は多くのNLPタスクに不可欠ですが、ほとんどの既存の作業は、フレームワーク依存の談話表現によって制約されたままです。
この作業では、大規模な言語モデル(LLM)が言語とフレームワーク全体に一般化する談話の知識をキャプチャするかどうかを調査します。
この質問に2つの側面に沿って対処します。(1)統一性およびクロスフレームワークの談話分析を促進するための統一された談話関係ラベルセットを開発し、(2)LLMSを調査して、一般化可能な談話の抽象化をエンコードするかどうかを評価します。
多言語の談話関係分類をテストベッドとして使用して、さまざまなサイズと多言語機能の23 LLMの包括的なセットを調べます。
私たちの結果は、LLM、特に多言語トレーニングコーパスを持つLLMは、言語とフレームワークを介して談話情報を一般化できることを示しています。
さらに層ごとの分析により、談話レベルでの言語の一般化が中間層で最も顕著であることが明らかになりました。
最後に、エラー分析は、挑戦的な関係クラスのアカウントを提供します。

要約(オリジナル)

Discourse understanding is essential for many NLP tasks, yet most existing work remains constrained by framework-dependent discourse representations. This work investigates whether large language models (LLMs) capture discourse knowledge that generalizes across languages and frameworks. We address this question along two dimensions: (1) developing a unified discourse relation label set to facilitate cross-lingual and cross-framework discourse analysis, and (2) probing LLMs to assess whether they encode generalizable discourse abstractions. Using multilingual discourse relation classification as a testbed, we examine a comprehensive set of 23 LLMs of varying sizes and multilingual capabilities. Our results show that LLMs, especially those with multilingual training corpora, can generalize discourse information across languages and frameworks. Further layer-wise analyses reveal that language generalization at the discourse level is most salient in the intermediate layers. Lastly, our error analysis provides an account of challenging relation classes.

arxiv情報

著者 Florian Eichin,Yang Janet Liu,Barbara Plank,Michael A. Hedderich
発行日 2025-03-13 16:20:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Probing LLMs for Multilingual Discourse Generalization Through a Unified Label Set はコメントを受け付けていません

From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM

要約

大規模な言語モデル(LLM)は、複数の言語とタスクにわたって顕著なパフォーマンスと一般化機能を示しており、マルチモダリティ統合(画像や音声など)の非常に魅力的なターゲットになっています。
この作業では、既存のLLMを音声離散化と継続前のトレーニングを介して音声モダリティに拡張します。
特に、Towerなどの多言語LLMに関心があります。トレーニング前の設定により、離散化された音声入力を追加の翻訳言語として扱うことができます。
結果として得られるオープンソースモデルであるSpireは、翻訳関連のタスクでタワーの元のパフォーマンスを維持しながら、英語の音声入力を転写および翻訳することができ、LLM適応中に追加の言語として離散した音声入力統合が実行可能であることを示します。
コードとモデルをコミュニティが利用できるようにします。

要約(オリジナル)

Large language models (LLMs) have shown remarkable performance and generalization capabilities across multiple languages and tasks, making them very attractive targets for multi-modality integration (e.g., images or speech). In this work, we extend an existing LLM to the speech modality via speech discretization and continued pre-training. In particular, we are interested in multilingual LLMs, such as TOWER, as their pre-training setting allows us to treat discretized speech input as an additional translation language. The resulting open-source model, SPIRE, is able to transcribe and translate English speech input while maintaining TOWER’s original performance on translation-related tasks, showcasing that discretized speech input integration as an additional language is feasible during LLM adaptation. We make our code and models available to the community.

arxiv情報

著者 Kshitij Ambilduke,Ben Peters,Sonal Sannigrahi,Anil Keshwani,Tsz Kin Lam,Bruno Martins,Marcely Zanon Boito,André F. T. Martins
発行日 2025-03-13 17:57:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM はコメントを受け付けていません

Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention

要約

半監視学習は、労働集約的なピクセルレベルのラベル付けの負担を軽減するために、リモートセンシング(RS)画像セグメンテーションの魅力的なソリューションを提供します。
ただし、RS画像は、豊富なマルチスケール機能やクラス間の類似性が高いなど、独自の課題をもたらします。
これらの問題に対処するために、このペーパーでは、RS画像セマンティックセグメンテーションタスクの新しいセミスケールのマルチスケールの不確実性とクロスチーチャーと学生の注意(MUCA)モデルを提案します。
具体的には、MUCAは、マルチスケールの不確実性の一貫性の正則化を導入することにより、ネットワークの異なるレイヤーでの機能マップ間の一貫性を制約します。
ラベル付けされていないデータ上の半監視アルゴリズムのマルチスケール学習能力を改善します。
さらに、MUCAは、教師ネットワークを導くために、クロス教師と学生の注意メカニズムを利用して学生ネットワークを導き、教師ネットワークからの補完的な機能を通じてより差別的な機能表現を構築するように導きます。
この設計は、弱くて強い増強(WAおよびSA)を効果的に統合して、セグメンテーションのパフォーマンスをさらに高めます。
モデルの有効性を検証するために、ISPRS-PotsDamおよびLovedaデータセットで広範な実験を実施します。
実験結果は、最先端の半監視方法に対する私たちの方法の優位性を示しています。
特に、私たちのモデルは、非常に類似したオブジェクトを区別することに優れており、半監視されたRS画像セグメンテーションタスクを進める可能性を示しています。

要約(オリジナル)

Semi-supervised learning offers an appealing solution for remote sensing (RS) image segmentation to relieve the burden of labor-intensive pixel-level labeling. However, RS images pose unique challenges, including rich multi-scale features and high inter-class similarity. To address these problems, this paper proposes a novel semi-supervised Multi-Scale Uncertainty and Cross-Teacher-Student Attention (MUCA) model for RS image semantic segmentation tasks. Specifically, MUCA constrains the consistency among feature maps at different layers of the network by introducing a multi-scale uncertainty consistency regularization. It improves the multi-scale learning capability of semi-supervised algorithms on unlabeled data. Additionally, MUCA utilizes a Cross-Teacher-Student attention mechanism to guide the student network, guiding the student network to construct more discriminative feature representations through complementary features from the teacher network. This design effectively integrates weak and strong augmentations (WA and SA) to further boost segmentation performance. To verify the effectiveness of our model, we conduct extensive experiments on ISPRS-Potsdam and LoveDA datasets. The experimental results show the superiority of our method over state-of-the-art semi-supervised methods. Notably, our model excels in distinguishing highly similar objects, showcasing its potential for advancing semi-supervised RS image segmentation tasks.

arxiv情報

著者 Shanwen Wang,Xin Sun,Changrui Chen,Danfeng Hong,Jungong Han
発行日 2025-03-13 14:18:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention はコメントを受け付けていません

The Society of HiveMind: Multi-Agent Optimization of Foundation Model Swarms to Unlock the Potential of Collective Intelligence

要約

マルチエージェントシステムは、人工知能(AI)ファンデーションモデルのアクセシビリティとスケーラビリティの問題に対処します。これは、多くの場合、大規模な言語モデルで表されます。
私たちは、複数のAI基礎モデル間の相互作用を調整し、現代の進化理論に従うことによって自然界で観察された動物の群れの行動を模倣するフレームワーク – 「Hivemindの社会」(SOHM) – を開発します。
一方で、SOHMは、主に実際の知識を必要とするタスクに無視できる利益を提供することがわかります。
一方、集中的な論理的推論を必要とするタスクの大幅な改善に注意して、マルチエージェントシステムが個々のエージェントと比較して集団の推論能力を高めることができることを示しています。
私たちの調査結果は、多数の多様なAIファンデーションモデルを組み合わせて、特定の環境との相互作用を通じて自己改善が可能な人工的な群れインテリジェンスを形成する可能性を示しています。

要約(オリジナル)

Multi-agent systems address issues of accessibility and scalability of artificial intelligence (AI) foundation models, which are often represented by large language models. We develop a framework – the ‘Society of HiveMind’ (SOHM) – that orchestrates the interaction between multiple AI foundation models, imitating the observed behavior of animal swarms in nature by following modern evolutionary theories. On the one hand, we find that the SOHM provides a negligible benefit on tasks that mainly require real-world knowledge. On the other hand, we remark a significant improvement on tasks that require intensive logical reasoning, indicating that multi-agent systems are capable of increasing the reasoning capabilities of the collective compared to the individual agents. Our findings demonstrate the potential of combining a multitude of diverse AI foundation models to form an artificial swarm intelligence capable of self-improvement through interactions with a given environment.

arxiv情報

著者 Noah Mamie,Susie Xi Rao
発行日 2025-03-13 14:20:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE | The Society of HiveMind: Multi-Agent Optimization of Foundation Model Swarms to Unlock the Potential of Collective Intelligence はコメントを受け付けていません