Demystifying Misconceptions in Social Bots Research

要約

ソーシャルボットに関する研究は、知識を前進させ、最も議論された形式のオンライン操作の1つに対する解決策を提供することを目的としています。
しかし、社会ボットの研究は、曖昧さ、非現実的な期待、一見矛盾しない発見の段階を設定する広範な偏見、誇大宣伝の結果、誤解に悩まされています。
このような問題を克服することは、信頼できる解決策を確保し、科学的方法の妥当性を再確認することに貢献しています。
この貢献では、ソーシャルボットの研究で最近の結果をレビューし、事実上の誤りと方法論的および概念的なバイアスを強調し、改訂します。
さらに重要なことは、一般的な誤解を分かりやすく、社会的ボットの研究がどのように議論されているかについての基本的な点に取り組んでいることです。
私たちの分析は、厳密で公平で責任ある方法で、オンラインの偽情報と操作に関する研究を議論する必要性を表面化します。
この記事は、ソーシャルボット研究の支持者と反対者の両方が使用する一般的な誤った議論を特定し、反論することにより、そのような努力を強化し、この分野での将来の研究のための健全な方法論への方向性を提供します。

要約(オリジナル)

Research on social bots aims at advancing knowledge and providing solutions to one of the most debated forms of online manipulation. Yet, social bot research is plagued by widespread biases, hyped results, and misconceptions that set the stage for ambiguities, unrealistic expectations, and seemingly irreconcilable findings. Overcoming such issues is instrumental towards ensuring reliable solutions and reaffirming the validity of the scientific method. In this contribution, we review some recent results in social bots research, highlighting and revising factual errors as well as methodological and conceptual biases. More importantly, we demystify common misconceptions, addressing fundamental points on how social bots research is discussed. Our analysis surfaces the need to discuss research about online disinformation and manipulation in a rigorous, unbiased, and responsible way. This article bolsters such effort by identifying and refuting common fallacious arguments used by both proponents and opponents of social bots research, as well as providing directions toward sound methodologies for future research in the field.

arxiv情報

著者 Stefano Cresci,Kai-Cheng Yang,Angelo Spognardi,Roberto Di Pietro,Filippo Menczer,Marinella Petrocchi
発行日 2025-03-07 17:23:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG, cs.SI | Demystifying Misconceptions in Social Bots Research はコメントを受け付けていません

Efficient Evolutionary Search Over Chemical Space with Large Language Models

要約

最適化の問題として定式化された場合、最適化目標は非拡張不可能である可能性があるため、重要な計算上の課題を提示します。
分子発見におけるブラックボックスの目標を最適化するためによく使用される進化アルゴリズム(EAS)は、ランダムな突然変異とクロスオーバーを実行することにより化学空間を横断し、多数の高価な目的評価につながります。
この作業では、化学に対応する大手言語モデル(LLM)をEASに組み込むことにより、この欠点を改善します。
つまり、大規模な化学情報でトレーニングされたLLMSを使用して、EASのクロスオーバーおよび突然変異操作を再設計します。
私たちは、プロパティの最適化、分子再発見、および構造ベースの薬物設計を含む複数のタスクで、商用モデルとオープンソースモデルの両方で広範な経験的研究を実施し、EASのLLMSの共同使用が単一および多目的設定にわたってすべてのベースラインモデルで優れたパフォーマンスをもたらすことを示しています。
アルゴリズムが最終的なソリューションの品質と収束速度の両方を改善し、それにより必要な客観的評価の数を減らすことを実証します。
私たちのコードは、http://github.com/zoom-wang112358/molleoで入手できます

要約(オリジナル)

Molecular discovery, when formulated as an optimization problem, presents significant computational challenges because optimization objectives can be non-differentiable. Evolutionary Algorithms (EAs), often used to optimize black-box objectives in molecular discovery, traverse chemical space by performing random mutations and crossovers, leading to a large number of expensive objective evaluations. In this work, we ameliorate this shortcoming by incorporating chemistry-aware Large Language Models (LLMs) into EAs. Namely, we redesign crossover and mutation operations in EAs using LLMs trained on large corpora of chemical information. We perform extensive empirical studies on both commercial and open-source models on multiple tasks involving property optimization, molecular rediscovery, and structure-based drug design, demonstrating that the joint usage of LLMs with EAs yields superior performance over all baseline models across single- and multi-objective settings. We demonstrate that our algorithm improves both the quality of the final solution and convergence speed, thereby reducing the number of required objective evaluations. Our code is available at http://github.com/zoom-wang112358/MOLLEO

arxiv情報

著者 Haorui Wang,Marta Skreta,Cher-Tian Ser,Wenhao Gao,Lingkai Kong,Felix Strieth-Kalthoff,Chenru Duan,Yuchen Zhuang,Yue Yu,Yanqiao Zhu,Yuanqi Du,Alán Aspuru-Guzik,Kirill Neklyudov,Chao Zhang
発行日 2025-03-07 17:24:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE, physics.chem-ph | Efficient Evolutionary Search Over Chemical Space with Large Language Models はコメントを受け付けていません

A Survey on Sparse Autoencoders: Interpreting the Internal Mechanisms of Large Language Models

要約

大規模な言語モデル(LLM)は自然言語処理に革命をもたらしましたが、その内部メカニズムはほとんど不透明です。
最近、機械的解釈は、LLMの内部の仕組みを理解する手段として、研究コミュニティから大きな注目を集めています。
さまざまなメカニズムの解釈可能性アプローチの中で、LLM内の複雑で重ね合わせた機能をより解釈可能なコンポーネントに解く能力により、スパース自動エンコーダー(SAE)が特に有望な方法として浮上しています。
このペーパーでは、LLMを解釈および理解するための有望なアプローチとしてのSAEの包括的な調査を提示します。
LLM分析に合わせて特別に調整されたSAE原則、アーキテクチャ、およびアプリケーションの体系的な概要を提供し、理論的基礎、実装戦略、およびスパーシティメカニズムの最近の開発をカバーします。
また、LLMの内部作業を説明し、モデルの動作を望ましい方向に操縦し、将来のモデルのためのより透明なトレーニング方法を開発するために、SAEを活用する方法を探ります。
SAEの実装とスケーリングに残っている課題にもかかわらず、大規模な言語モデルの内部メカニズムを理解するための貴重なツールを提供し続けています。

要約(オリジナル)

Large Language Models (LLMs) have revolutionized natural language processing, yet their internal mechanisms remain largely opaque. Recently, mechanistic interpretability has attracted significant attention from the research community as a means to understand the inner workings of LLMs. Among various mechanistic interpretability approaches, Sparse Autoencoders (SAEs) have emerged as a particularly promising method due to their ability to disentangle the complex, superimposed features within LLMs into more interpretable components. This paper presents a comprehensive examination of SAEs as a promising approach to interpreting and understanding LLMs. We provide a systematic overview of SAE principles, architectures, and applications specifically tailored for LLM analysis, covering theoretical foundations, implementation strategies, and recent developments in sparsity mechanisms. We also explore how SAEs can be leveraged to explain the internal workings of LLMs, steer model behaviors in desired directions, and develop more transparent training methodologies for future models. Despite the challenges that remain around SAE implementation and scaling, they continue to provide valuable tools for understanding the internal mechanisms of large language models.

arxiv情報

著者 Dong Shu,Xuansheng Wu,Haiyan Zhao,Daking Rai,Ziyu Yao,Ninghao Liu,Mengnan Du
発行日 2025-03-07 17:38:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | A Survey on Sparse Autoencoders: Interpreting the Internal Mechanisms of Large Language Models はコメントを受け付けていません

Learning LLM Preference over Intra-Dialogue Pairs: A Framework for Utterance-level Understandings

要約

大規模な言語モデル(LLM)は、ユースケース固有の微調整を必要とせずに、複雑なダイアログタスクを処理する際に顕著な能力を実証しています。
ただし、リアルタイムでライブダイアログを分析するには、低遅延処理システムが必要であり、潜時の制約により数十億のパラメーターを展開することは実用的ではありません。
その結果、実務家は、高品質で人間が発射されたデータセットで訓練された数百万のパラメーターを持つ小さなモデルを好むことがよくあります。
しかし、このようなデータセットのキュレーションは時間がかかり、費用がかかります。
その結果、LLM生成ラベルのスケーラビリティを人間の注釈の精度と組み合わせる必要があり、微調整された小さなモデルがより高いモデルに匹敵する高速と精度の両方を実現できるようにします。
この論文では、この課題に対処するためのシンプルで効果的なフレームワークを紹介します。
私たちのアプローチは、意図の検出、対話状態追跡などのタスクを網羅する、発作ごとの分類問題のために特別に設計されています。
学生モデルの不正確さの主な原因であるLLMSからのラベル付けエラーの影響を軽減するために、騒音削減の好み学習損失を提案します。
実験結果は、この方法が、センチメント検出(2ドルを超える)、対話法分類($ 1.5 \%$を超える)など、発話レベルの対話タスク全体で精度を大幅に改善することを示しています。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable capabilities in handling complex dialogue tasks without requiring use case-specific fine-tuning. However, analyzing live dialogues in real-time necessitates low-latency processing systems, making it impractical to deploy models with billions of parameters due to latency constraints. As a result, practitioners often prefer smaller models with millions of parameters, trained on high-quality, human-annotated datasets. Yet, curating such datasets is both time-consuming and costly. Consequently, there is a growing need to combine the scalability of LLM-generated labels with the precision of human annotations, enabling fine-tuned smaller models to achieve both higher speed and accuracy comparable to larger models. In this paper, we introduce a simple yet effective framework to address this challenge. Our approach is specifically designed for per-utterance classification problems, which encompass tasks such as intent detection, dialogue state tracking, and more. To mitigate the impact of labeling errors from LLMs — the primary source of inaccuracies in student models — we propose a noise-reduced preference learning loss. Experimental results demonstrate that our method significantly improves accuracy across utterance-level dialogue tasks, including sentiment detection (over $2\%$), dialogue act classification (over $1.5\%$), etc.

arxiv情報

著者 Xuanqing Liu,Luyang Kong,Wei Niu,Afshin Khashei,Belinda Zeng,Steve Johnson,Jon Jay,Davor Golac,Matt Pope
発行日 2025-03-07 17:46:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Learning LLM Preference over Intra-Dialogue Pairs: A Framework for Utterance-level Understandings はコメントを受け付けていません

DeFT: Decoding with Flash Tree-attention for Efficient Tree-structured LLM Inference

要約

大規模な言語モデル(LLMS)は、少数のショットプロンプト、マルチステップの推論、投機的デコードなどを含む、トークンの共有プレフィックスを使用してツリー構造で複数の生成コールを処理する複雑なタスクにますます採用されています。ただし、ツリーベースの用途向けの既存の推論システムは、注意計算中のクエリーとKVキャッシュの不適切な分配により効果的ではありません。
これにより、2つの主要な問題が発生します。(1)共有プレフィックスのKVキャッシュのメモリアクセスの欠如(IO)再利用、および(2)荷重のバランスの低下。
これらの課題に対処するために、deft(フラッシュツリーアテンションでデコードする)を提案します。これは、接頭辞が認識され、負荷バランスの取れたKVキャッシュパーティションを備えたハードウェア効率の高い注意アルゴリズムです。
DEFTは、注意計算で共有プレフィックスのKVキャッシュを繰り返しロードすることを避ける方法であるKVガイドグループを介した注意計算中に、KVキャッシュの読み取り/書き込み操作の数を減らします。
さらに、平坦化されたツリーKV分割を提案します。これは、計算冗長性がほとんどなく、パーティション全体にKVキャッシュの分布を保証し、注意計算中のGPU使用を強化するメカニズムを提案します。
注意計算中に部分的な結果のために73-99%kVキャッシュIOとほぼ100%IOを減らすことにより、DEFTは、最先端の注意アルゴリズムと比較して、3つの実用的なツリーベースのワークロードにわたってエンドツーエンド/注意レイテンシで最大2.23/3.59xスピードアップを達成します。
私たちのコードは、https://github.com/lins-lab/deftで入手できます。

要約(オリジナル)

Large language models (LLMs) are increasingly employed for complex tasks that process multiple generation calls in a tree structure with shared prefixes of tokens, including few-shot prompting, multi-step reasoning, speculative decoding, etc. However, existing inference systems for tree-based applications are inefficient due to improper partitioning of queries and KV cache during attention calculation. This leads to two main issues: (1) a lack of memory access (IO) reuse for KV cache of shared prefixes, and (2) poor load balancing.As a result, there is redundant KV cache IO between GPU global memory and shared memory, along with low GPU utilization. To address these challenges, we propose DeFT(Decoding with Flash Tree-Attention), a hardware-efficient attention algorithm with prefix-aware and load-balanced KV cache partitions. DeFT reduces the number of read/write operations of KV cache during attention calculation through KV-Guided Grouping, a method that avoids repeatedly loading KV cache of shared prefixes in attention computation. Additionally, we propose Flattened Tree KV Splitting, a mechanism that ensures even distribution of the KV cache across partitions with little computation redundancy, enhancing GPU utilization during attention computations. By reducing 73-99% KV cache IO and nearly 100% IO for partial results during attention calculation, DeFT achieves up to 2.23/3.59x speedup in the end-to-end/attention latency across three practical tree-based workloads compared to state-of-the-art attention algorithms. Our code is available at https://github.com/LINs-lab/DeFT.

arxiv情報

著者 Jinwei Yao,Kaiqi Chen,Kexun Zhang,Jiaxuan You,Binhang Yuan,Zeke Wang,Tao Lin
発行日 2025-03-07 17:47:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | DeFT: Decoding with Flash Tree-attention for Efficient Tree-structured LLM Inference はコメントを受け付けていません

Exoplanet Transit Candidate Identification in TESS Full-Frame Images via a Transformer-Based Algorithm

要約

通過する外惑星調査衛星(TESS)は、空の大部分を調査しており、系統輸送信号を識別するために徹底的な分析を必要とする測光時系列データの広大なデータベースを生成しています。
自動学習アプローチが正常に適用され、トランジットシグナルを特定しています。
ただし、ほとんどの既存の方法は、候補者の分類と検証に焦点を当てていますが、候補者の検索のための新しい手法を調査した努力はほとんどありません。
新しいエクソポンド輸送候補を検索するために、マルチトランジットライトカーブで観察されたものなど、輸送信号の周期性を想定したり、周期性を想定したりすることなく、外惑星輸送信号を特定するアプローチを提案します。
これを実現するために、トランスに触発された新しいニューラルネットワークを実装して、フルフレームイメージ(FFI)のライト曲線を直接処理して、エクスプロネットトランジットを検出します。
もともと自然言語処理のために開発された変圧器は、最近、シーケンシャルデータに焦点を当てた以前のアプローチと比較して、長距離依存関係のキャプチャに大きな成功を示しています。
この能力により、事前の輸送パラメーターを必要とせずに、完全な光曲線と背景と重心の時系列と組み合わせた完全な光線から直接脱惑星トランジット信号を直接特定するために、マルチヘッドの自己関節を採用することができます。
ネットワークは、惑星の輸送が他の変動源と区別するのに役立つ、ディップ形状のように、トランジット信号の特性を学習するようにトレーニングされています。
私たちのモデルは、122のマルチトランジットライト曲線、88の単一輸送、4つのマルチプラネシステムを含む214の新しい惑星システム候補を正常に特定しました。

要約(オリジナル)

The Transiting Exoplanet Survey Satellite (TESS) is surveying a large fraction of the sky, generating a vast database of photometric time series data that requires thorough analysis to identify exoplanetary transit signals. Automated learning approaches have been successfully applied to identify transit signals. However, most existing methods focus on the classification and validation of candidates, while few efforts have explored new techniques for the search of candidates. To search for new exoplanet transit candidates, we propose an approach to identify exoplanet transit signals without the need for phase folding or assuming periodicity in the transit signals, such as those observed in multi-transit light curves. To achieve this, we implement a new neural network inspired by Transformers to directly process Full Frame Image (FFI) light curves to detect exoplanet transits. Transformers, originally developed for natural language processing, have recently demonstrated significant success in capturing long-range dependencies compared to previous approaches focused on sequential data. This ability allows us to employ multi-head self-attention to identify exoplanet transit signals directly from the complete light curves, combined with background and centroid time series, without requiring prior transit parameters. The network is trained to learn characteristics of the transit signal, like the dip shape, which helps distinguish planetary transits from other variability sources. Our model successfully identified 214 new planetary system candidates, including 122 multi-transit light curves, 88 single-transit and 4 multi-planet systems from TESS sectors 1-26 with a radius > 0.27 $R_{\mathrm{Jupiter}}$, demonstrating its ability to detect transits regardless of their periodicity.

arxiv情報

著者 Helem Salinas,Rafael Brahm,Greg Olmschenk,Richard K. Barry,Karim Pichara,Stela Ishitani Silva,Vladimir Araujo
発行日 2025-03-07 17:49:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.EP, astro-ph.GA, astro-ph.IM, cs.AI | Exoplanet Transit Candidate Identification in TESS Full-Frame Images via a Transformer-Based Algorithm はコメントを受け付けていません

Superintelligence Strategy: Expert Version

要約

AIの急速な進歩は、国家安全保障を再構築し始めています。
AIの発展を不安定にすると、権力のバランスが破裂し、偉大な紛争の可能性が高まりますが、有能なAIハッカーとウイルス科医の広範な増殖は、不正行為者が災害を引き起こすための障壁を減らすことができます。
Superintelligence- AIは、ほぼすべての認知タスクで人間よりもはるかに優れていますが、AIの研究者は現在予想されています。
国がかつて生存を確保するための核戦略を開発したように、私たちは今、新しい変革的変化の期間をナビゲートするために一貫したスーパーインテリジェンス戦略が必要です。
相互保証されたAI誤動作(MAIM)の概念を紹介します。核となるAIの支配に対する州の積極的な入札がライバルによる予防妨害で満たされる核相互保証破壊(MAD)に似た抑止体制。
不安定なAIプロジェクトを妨害する比較的容易さを考えると、秘密のサイバー攻撃からデータセンターの潜在的な運動ストライキまでの介入を通じて、不安定なAIプロジェクトを妨害することを考えると、Maimは既にAIの超大国が自分自身を見つけます。
彼らの手からの能力。
まとめると、抑止、不拡散、競争力の3部構成の枠組みは、今後数年間の総能力に対する強力な戦略の概要を示しています。

要約(オリジナル)

Rapid advances in AI are beginning to reshape national security. Destabilizing AI developments could rupture the balance of power and raise the odds of great-power conflict, while widespread proliferation of capable AI hackers and virologists would lower barriers for rogue actors to cause catastrophe. Superintelligence — AI vastly better than humans at nearly all cognitive tasks — is now anticipated by AI researchers. Just as nations once developed nuclear strategies to secure their survival, we now need a coherent superintelligence strategy to navigate a new period of transformative change. We introduce the concept of Mutual Assured AI Malfunction (MAIM): a deterrence regime resembling nuclear mutual assured destruction (MAD) where any state’s aggressive bid for unilateral AI dominance is met with preventive sabotage by rivals. Given the relative ease of sabotaging a destabilizing AI project — through interventions ranging from covert cyberattacks to potential kinetic strikes on datacenters — MAIM already describes the strategic picture AI superpowers find themselves in. Alongside this, states can increase their competitiveness by bolstering their economies and militaries through AI, and they can engage in nonproliferation to rogue actors to keep weaponizable AI capabilities out of their hands. Taken together, the three-part framework of deterrence, nonproliferation, and competitiveness outlines a robust strategy to superintelligence in the years ahead.

arxiv情報

著者 Dan Hendrycks,Eric Schmidt,Alexandr Wang
発行日 2025-03-07 17:53:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Superintelligence Strategy: Expert Version はコメントを受け付けていません

Exploring FMCW Radars and Feature Maps for Activity Recognition: A Benchmark Study

要約

人間の活動認識は、周囲の生活支援生活やリモートセンシングなど、多様なアプリケーションのために大きな注目を集めています。
ウェアラブルセンサーベースのソリューションは、多くの場合、ユーザーの不快感と信頼性の問題に悩まされますが、ビデオベースの方法はプライバシーの懸念を引き起こし、低照度条件や長距離範囲でパフォーマンスが低下します。
この研究では、60 GHzレーダーと多次元の特徴マップを活用して、人間の活動認識のための周波数変調連続波レーダーベースのフレームワークを紹介します。
マップとしてマップをプロセスする従来のアプローチとは異なり、この研究では、データベクトルとして、マシン学習(SVM、MLP)およびディープラーニング(CNN、LSTM、CRUBRSTM)モデルへの直接的なデータベクトルとして、多次元特徴マップ(範囲ドップラー、レンジアジム、およびレンジエレベーション)をフィードします。
これらの機能は、7つのアクティビティクラスを備えた新しいデータセットから抽出され、2つの異なる検証アプローチを使用して検証されました。
ConvlSTMモデルは、従来の機械学習とディープラーニングモデルを上回り、90.51%の精度とF1スコアをクロスシーン検証で87.31%、89.56%の精度と休暇1-ペーンクロス検証で87.15%のF1スコアを達成しました。
結果は、実際のシナリオでのスケーラブル、非侵入、プライバシーを提供するアクティビティモニタリングに対するアプローチの可能性を強調しています。

要約(オリジナル)

Human Activity Recognition has gained significant attention due to its diverse applications, including ambient assisted living and remote sensing. Wearable sensor-based solutions often suffer from user discomfort and reliability issues, while video-based methods raise privacy concerns and perform poorly in low-light conditions or long ranges. This study introduces a Frequency-Modulated Continuous Wave radar-based framework for human activity recognition, leveraging a 60 GHz radar and multi-dimensional feature maps. Unlike conventional approaches that process feature maps as images, this study feeds multi-dimensional feature maps — Range-Doppler, Range-Azimuth, and Range-Elevation — as data vectors directly into the machine learning (SVM, MLP) and deep learning (CNN, LSTM, ConvLSTM) models, preserving the spatial and temporal structures of the data. These features were extracted from a novel dataset with seven activity classes and validated using two different validation approaches. The ConvLSTM model outperformed conventional machine learning and deep learning models, achieving an accuracy of 90.51% and an F1-score of 87.31% on cross-scene validation and an accuracy of 89.56% and an F1-score of 87.15% on leave-one-person-out cross-validation. The results highlight the approach’s potential for scalable, non-intrusive, and privacy-preserving activity monitoring in real-world scenarios.

arxiv情報

著者 Ali Samimi Fard,Mohammadreza Mashhadigholamali,Samaneh Zolfaghari,Hajar Abedi,Mainak Chakraborty,Luigi Borzì,Masoud Daneshtalab,George Shaker
発行日 2025-03-07 17:53:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET | Exploring FMCW Radars and Feature Maps for Activity Recognition: A Benchmark Study はコメントを受け付けていません

Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning

要約

既存の事前に訓練された専門家LLMSを組み合わせることは、大規模で多様なタスクに拡大できるように取り組むための有望な手段です。
ただし、異種のタスクが各インスタンスで異なる専門知識を必要とする場合があるため、タスクレベルで専門家を選択することは粗すぎることがよくあります。
事前に訓練されたLLM専門家の適応的なインスタンスレベルの混合を可能にするために、シンボリック、テキストベース、グラデーションフリーのエクスパーの混合フレームワークであるSymbolic-Moeを提案します。
Symbolic-Moeは、たとえば、数学の代数や生物医学的推論における分子生物学の代数を強調することにより、選択に対してきめ細かいアプローチを取ります。
私たちは、その強みに基づいて多様な推論タスクに最も関連性の高い専門家LLMを動的に選択するスキルベースの採用戦略を提案します。
その後、選択された各エキスパートは独自の推論を生成し、Kの専門家からのK出力をもたらし、その後、多様な推論出力を統合する能力に基づいて選択されたアグリゲーターによって最終的な高品質の応答に合成されます。
Symbolic-Moeのインスタンスレベルのエキスパート選択により、パフォーマンスが大幅に向上するが、単純に実装されると、モデルの積み込みとオフロードが必要なため、高い計算オーバーヘッドを導入できることを示しています。
これに対処するために、割り当てられた専門家に基づいてインスタンスをグループ化するバッチ推論戦略を実装し、各モデルに1回のみロードします。
これにより、1つのGPUの16のエキスパートモデルを、4つのGPUを使用して以前のマルチエージェントベースラインに匹敵する時間以上の時間コストを統合できます。
多様なベンチマーク(MMLU-PRO、GPQA、AIME、およびMEDMCQA)に関する広範な評価を通じて、象徴的なMoEがGPT4O-MINIのような強力なLLMを上回ることを実証し、マルチエージェントアプローチでは、ベストマルチエージェントベースラインよりも8.15%の絶対平均改善があります。
さらに、Symbolic-Moeは、高価なマルチラウンドディスカッションの必要性を削除し、計算を少なくしてディスカッションベースラインを上回ります。

要約(オリジナル)

Combining existing pre-trained expert LLMs is a promising avenue for scalably tackling large-scale and diverse tasks. However, selecting experts at the task level is often too coarse-grained, as heterogeneous tasks may require different expertise for each instance. To enable adaptive instance-level mixing of pre-trained LLM experts, we propose Symbolic-MoE, a symbolic, text-based, and gradient-free Mixture-of-Experts framework. Symbolic-MoE takes a fine-grained approach to selection by emphasizing skills, e.g., algebra in math or molecular biology in biomedical reasoning. We propose a skill-based recruiting strategy that dynamically selects the most relevant set of expert LLMs for diverse reasoning tasks based on their strengths. Each selected expert then generates its own reasoning, resulting in k outputs from k experts, which are then synthesized into a final high-quality response by an aggregator chosen based on its ability to integrate diverse reasoning outputs. We show that Symbolic-MoE’s instance-level expert selection improves performance by a large margin but — when implemented naively — can introduce a high computational overhead due to the need for constant model loading and offloading. To address this, we implement a batch inference strategy that groups instances based on their assigned experts, loading each model only once. This allows us to integrate 16 expert models on 1 GPU with a time cost comparable to or better than prior multi-agent baselines using 4 GPUs. Through extensive evaluations on diverse benchmarks (MMLU-Pro, GPQA, AIME, and MedMCQA), we demonstrate that Symbolic-MoE outperforms strong LLMs like GPT4o-mini, as well as multi-agent approaches, with an absolute average improvement of 8.15% over the best multi-agent baseline. Moreover, Symbolic-MoE removes the need for expensive multi-round discussions, outperforming discussion baselines with less computation.

arxiv情報

著者 Justin Chih-Yao Chen,Sukwon Yun,Elias Stengel-Eskin,Tianlong Chen,Mohit Bansal
発行日 2025-03-07 18:03:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning はコメントを受け付けていません

dARt Vinci: Egocentric Data Collection for Surgical Robot Learning at Scale

要約

データ不足は、ロボット学習コミュニティで長い間問題でした。
特に、手術用途などの安全性の高いドメインでは、高品質のデータを取得することは特に難しい場合があります。
これは、補強学習と模倣学習の最近の進歩を活用しようとする研究者に課題をもたらし、一般化性を大幅に改善し、ロボットがタスクを自律的に実行できるようにしました。
手術環境でのロボット学習のためのスケーラブルなデータ収集プラットフォームであるDart Vinciを紹介します。
このシステムは、拡張現実(AR)ハンドトラッキングと高忠実度の物理エンジンを使用して、原始的な外科的タスクのサブトル操作をキャプチャします。物理的ロボットのセットアップの必要性を排除し、時間、スペース、ハードウェアリソース、マルチビューセンサー、アクチュエーター特性化されたシミュレーションなどの柔軟性を提供することにより、実証的なシミュレーションです。
同時に、ARはロボットデータ収集をより自己中心的にし、そのボディトラッキングとコンテンツのオーバーレイ機能によってサポートされます。
ユーザー調査では、提案されたシステムの効率と使いやすさが確認されています。ここでは、Da Vinciの手術ロボットでの操作をトレーニングするために広く使用されている原始的なタスクを使用しています。
データスループットは、実際のロボット設定と比較して、平均して41%のすべてのタスクで改善されます。
合計実験時間は平均10%短縮されます。
タスク負荷調査の時間的需要が改善されました。
これらの利益は統計的に有意です。
さらに、収集されたデータのサイズは400倍以上小さく、頻度の2倍を達成しながらはるかに少ないストレージが必要です。

要約(オリジナル)

Data scarcity has long been an issue in the robot learning community. Particularly, in safety-critical domains like surgical applications, obtaining high-quality data can be especially difficult. It poses challenges to researchers seeking to exploit recent advancements in reinforcement learning and imitation learning, which have greatly improved generalizability and enabled robots to conduct tasks autonomously. We introduce dARt Vinci, a scalable data collection platform for robot learning in surgical settings. The system uses Augmented Reality (AR) hand tracking and a high-fidelity physics engine to capture subtle maneuvers in primitive surgical tasks: By eliminating the need for a physical robot setup and providing flexibility in terms of time, space, and hardware resources-such as multiview sensors and actuators-specialized simulation is a viable alternative. At the same time, AR allows the robot data collection to be more egocentric, supported by its body tracking and content overlaying capabilities. Our user study confirms the proposed system’s efficiency and usability, where we use widely-used primitive tasks for training teleoperation with da Vinci surgical robots. Data throughput improves across all tasks compared to real robot settings by 41% on average. The total experiment time is reduced by an average of 10%. The temporal demand in the task load survey is improved. These gains are statistically significant. Additionally, the collected data is over 400 times smaller in size, requiring far less storage while achieving double the frequency.

arxiv情報

著者 Yihao Liu,Yu-Chun Ku,Jiaming Zhang,Hao Ding,Peter Kazanzides,Mehran Armand
発行日 2025-03-07 18:07:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | dARt Vinci: Egocentric Data Collection for Surgical Robot Learning at Scale はコメントを受け付けていません