dFLMoE: Decentralized Federated Learning via Mixture of Experts for Medical Data Analysis

要約

Federated Learningは、医療分野で幅広い用途を持っています。
これにより、患者のプライバシーを保護しながら、さまざまな医療機関間で知識共有を可能にします。
ただし、既存のフェデレーション学習システムは通常集中化されており、クライアントが集約のためにクライアント固有の知識を中央サーバーにアップロードする必要があります。
この集中化されたアプローチは、各クライアントの知識を集中サーバーに統合し、各クライアントに戻る前に集中統合中に知識がすでに損なわれています。
また、集中化されたアプローチは、セントラルサーバーへの依存性も生成します。これは、サーバーの誤動作または接続が不安定な場合のトレーニングの安定性に影響を与える可能性があります。
これらの問題に対処するために、DFLMOEという名前の分散化された連邦学習フレームワークを提案します。
私たちのフレームワークでは、クライアントは軽量のヘッドモデルを互いに直接交換します。
交換後、各クライアントはローカルモデルと受信したヘッドモデルの両方を個々の専門家として扱い、クライアント固有の専門家(MOE)アプローチの混合物を利用して、集合的な決定を下します。
この設計により、クライアント固有の集約による知識のダメージが軽減されるだけでなく、フレームワークの堅牢性を高めるために中央サーバーへの依存性を削除します。
複数の医療タスクに関するフレームワークを検証し、モデルの均一性と不均一性の両方の設定の下で、この方法が最先端のアプローチを明らかに上回ることを実証します。

要約(オリジナル)

Federated learning has wide applications in the medical field. It enables knowledge sharing among different healthcare institutes while protecting patients’ privacy. However, existing federated learning systems are typically centralized, requiring clients to upload client-specific knowledge to a central server for aggregation. This centralized approach would integrate the knowledge from each client into a centralized server, and the knowledge would be already undermined during the centralized integration before it reaches back to each client. Besides, the centralized approach also creates a dependency on the central server, which may affect training stability if the server malfunctions or connections are unstable. To address these issues, we propose a decentralized federated learning framework named dFLMoE. In our framework, clients directly exchange lightweight head models with each other. After exchanging, each client treats both local and received head models as individual experts, and utilizes a client-specific Mixture of Experts (MoE) approach to make collective decisions. This design not only reduces the knowledge damage with client-specific aggregations but also removes the dependency on the central server to enhance the robustness of the framework. We validate our framework on multiple medical tasks, demonstrating that our method evidently outperforms state-of-the-art approaches under both model homogeneity and heterogeneity settings.

arxiv情報

著者 Luyuan Xie,Tianyu Luan,Wenyuan Cai,Guochen Yan,Zhaoyu Chen,Nan Xi,Yuejian Fang,Qingni Shen,Zhonghai Wu,Junsong Yuan
発行日 2025-03-19 16:39:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | dFLMoE: Decentralized Federated Learning via Mixture of Experts for Medical Data Analysis はコメントを受け付けていません

Subversion Strategy Eval: Can language models statelessly strategize to subvert control protocols?

要約

AIコントロールプロトコルは、AIが意図的に何らかの容認できない結果を引き起こすことを防ぐAIシステムを有効に展開するための計画です。
以前の研究では、人間が作成した戦略に従ってAIを使用してプロトコルを破壊することにより、プロトコルを評価しました。
このホワイトペーパーでは、AIシステムがステートレスに動作しながら、コントロールプロトコルを破壊するための独自の戦略をどの程度生成し、行動できるかを調査します(コンテキスト間でメモリ間で共有されていません)。
これを行うには、AIシステムが各コンテキストで最適な計画を確実に生成し、適切に調整された確率でアクションを実行し、コミュニケーションせずに他のインスタンスと調整する必要がある場合があります。
幅広い環境のスイートであるSubversion Strategy Evalを開発し、さまざまなプロトコルと戦略的能力をカバーし、個々の能力を分離するのに役立つ6セットのアフォーダンスをカバーしています。
検査に評価を実装し、オープンソースをリリースします。
有用なみのバージョンやOpenAI推論モデルを含むClaude 3.5モデルを評価します。
いずれのモデルでも、制御プロトコルをステートルに破壊するための戦略化における実質的な能力を示していません。
ただし、コンテキスト間で計画を共有する能力など、モデルを追加のアフォーダンスを提供すると、パフォーマンスが大幅に向上する可能性があります。
私たちの評価は、モデルが制御プロトコルを破壊することができる時期の主要な指標として機能し、AI制御評価における完全な戦略能力の最悪の仮定を緩和できることを願っています。

要約(オリジナル)

An AI control protocol is a plan for usefully deploying AI systems that prevents an AI from intentionally causing some unacceptable outcome. Previous work evaluated protocols by subverting them using an AI following a human-written strategy. This paper investigates how well AI systems can generate and act on their own strategies for subverting control protocols whilst operating statelessly (without shared memory between contexts). To do this, an AI system may need to reliably generate optimal plans in each context, take actions with well-calibrated probabilities, and coordinate plans with other instances of itself without communicating. We develop Subversion Strategy Eval, a suite of eight environments, covering a range of protocols and strategic capabilities, and six sets of affordances that help isolate individual capabilities. We implement the evaluation in Inspect-AI and release it open-source. We evaluate Claude 3.5 models, including helpful-only versions, as well as OpenAI reasoning models. None of the models demonstrate substantial capability in strategizing to subvert control protocols statelessly. However, providing models with additional affordances, such as the ability to share a plan between contexts, can substantially improve performance. We hope our evaluations can act as a leading indicator for when models are capable of subverting control protocols and also relax the worst-case assumption of perfect strategic ability in AI control evaluations.

arxiv情報

著者 Alex Mallen,Charlie Griffin,Misha Wagner,Alessandro Abate,Buck Shlegeris
発行日 2025-03-19 16:48:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Subversion Strategy Eval: Can language models statelessly strategize to subvert control protocols? はコメントを受け付けていません

Probabilities of Chat LLMs Are Miscalibrated but Still Predict Correctness on Multiple-Choice Q&A

要約

チャット用に微調整された15の大手言語モデル(LLM)を研究し、最大のソフトマックス確率(MSP)が複数選択Q&Aで一貫して誤りがあることがわかります。
ただし、これらのMSPは依然として有用な不確実性情報をエンコードする可能性があります。
具体的には、正しい答えと比較して、間違った答えがより小さなMSPに関連付けられると仮定しました。
厳密な統計テストを介して、この仮説は、基礎となるQ&Aタスクでうまく機能するモデルにも当てはまることを示します。
また、Q&Aの精度とMSPの正確性予測との間に強い方向相関があり、Q&Aの精度とキャリブレーションエラーの間に相関関係がないこともあります。
これは、現在の微調整パラダイム内では、LLM機能が進行するにつれてキャリブレーションが改善されることを期待できないことを示唆しています。
正確性予測の有用性を実証するために、モデルが棄権するオプションを持っている場合、初期モデル応答のMSPに基づいて選択的に棄権することでパフォーマンスを改善できることを示します。

要約(オリジナル)

We study 15 large language models (LLMs) fine-tuned for chat and find that their maximum softmax probabilities (MSPs) are consistently miscalibrated on multiple-choice Q&A. However, those MSPs might still encode useful uncertainty information. Specifically, we hypothesized that wrong answers would be associated with smaller MSPs compared to correct answers. Via rigorous statistical testing, we show that this hypothesis holds for models which perform well on the underlying Q&A task. We also find a strong direction correlation between Q&A accuracy and MSP correctness prediction, while finding no correlation between Q&A accuracy and calibration error. This suggests that within the current fine-tuning paradigm, we can expect correctness prediction but not calibration to improve as LLM capabilities progress. To demonstrate the utility of correctness prediction, we show that when models have the option to abstain, performance can be improved by selectively abstaining based on the MSP of the initial model response, using only a small amount of labeled data to choose the MSP threshold.

arxiv情報

著者 Benjamin Plaut,Nguyen X. Khanh,Tu Trinh
発行日 2025-03-19 16:57:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Probabilities of Chat LLMs Are Miscalibrated but Still Predict Correctness on Multiple-Choice Q&A はコメントを受け付けていません

Smooth InfoMax — Towards easier Post-Hoc interpretability

要約

Smooth Infomax(SIM)を紹介します。これは、ニューラルネットワークのさまざまな深さで学習された表現に解釈可能性の制約を組み込んだ自己監視表現学習の新しい方法です。
Simのアーキテクチャは、Infonceバウンドを使用してローカルに最適化された確率的モジュールに分割されます。
VAESに触発されたこれらのモジュールの表現は、ガウス分布のサンプルとして設計されており、標準的な正規分布に近いようにさらに制約されています。
これにより、滑らかで予測可能な空間が生じ、学習した表現の事後分析を容易にするために、デコーダーを通って潜在スペースを横断することができます。
SIMのパフォーマンスを連続した音声データで評価し、解釈の低いカウンターパートである貪欲なインフォマックス(GIM)と競合することを示しています。
さらに、SIMの内部表現に関する洞察を提供し、含まれている情報が表現全体であまり絡み合っておらず、寸法の小さなサブセットに集中していることを示しています。
これは、SIMの解釈の改善可能性をさらに強調しています。

要約(オリジナル)

We introduce Smooth InfoMax (SIM), a novel method for self-supervised representation learning that incorporates an interpretability constraint into the learned representations at various depths of the neural network. SIM’s architecture is split up into probabilistic modules, each locally optimized using the InfoNCE bound. Inspired by VAEs, the representations from these modules are designed to be samples from Gaussian distributions and are further constrained to be close to the standard normal distribution. This results in a smooth and predictable space, enabling traversal of the latent space through a decoder for easier post-hoc analysis of the learned representations. We evaluate SIM’s performance on sequential speech data, showing that it performs competitively with its less interpretable counterpart, Greedy InfoMax (GIM). Moreover, we provide insights into SIM’s internal representations, demonstrating that the contained information is less entangled throughout the representation and more concentrated in a smaller subset of the dimensions. This further highlights the improved interpretability of SIM.

arxiv情報

著者 Fabian Denoodt,Bart de Boer,José Oramas
発行日 2025-03-19 16:58:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Smooth InfoMax — Towards easier Post-Hoc interpretability はコメントを受け付けていません

Probing the topology of the space of tokens with structured prompts

要約

この記事では、大規模な言語モデル(LLM)に(隠された)トークン入力が同質性に埋め込まれていることを明らかにするように促すための一般的かつ柔軟な方法を紹介します。
さらに、この記事は、この方法が機能すると予想される理由について、一般的なLLMの数学的証拠である強力な理論的正当化を提供します。
この方法を手に入れると、LLEMMA-7Bのトークン部分空間を回復することにより、その有効性を実証します。
この論文の結果は、LLMSだけでなく、一般的な非線形自己回帰プロセスにも適用されます。

要約(オリジナル)

This article presents a general and flexible method for prompting a large language model (LLM) to reveal its (hidden) token input embedding up to homeomorphism. Moreover, this article provides strong theoretical justification — a mathematical proof for generic LLMs — for why this method should be expected to work. With this method in hand, we demonstrate its effectiveness by recovering the token subspace of Llemma-7B. The results of this paper apply not only to LLMs but also to general nonlinear autoregressive processes.

arxiv情報

著者 Michael Robinson,Sourya Dey,Taisa Kushner
発行日 2025-03-19 17:01:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 53Z50, 58Z05, cs.AI, I.2.7, math.DG | Probing the topology of the space of tokens with structured prompts はコメントを受け付けていません

An extensive simulation study evaluating the interaction of resampling techniques across multiple causal discovery contexts

要約

現代の科学と医学における探索的因果分析の存在が加速しているにもかかわらず、因果モデルを検証するための利用可能な非実験的方法は十分に特徴付けられていません。
最も人気のある方法の1つは、統計の信頼区間を推定するための再サンプリング方法と同様に、データを再サンプリングした後のモデル機能の安定性を評価することです。
ただし、このアプローチの多くの側面は、再サンプリング方法の選択がサンプルサイズ、使用されているアルゴリズム、またはアルゴリズムの調整パラメーターに依存するかどうかなど、ほとんど注意を払っていません。
特定の再サンプリング方法がアルゴリズム調整パラメーターへの特定の値の割り当てを密接にエミュレートすることを証明する理論的結果を提示します。
また、広範なシミュレーション実験の結果を報告します。これは、理論的結果を検証し、因果発見分析のコンテキストでの研究者がさらに特徴付けられるように研究者を支援する実質的なデータを提供します。
合わせて、理論的な作業とシミュレーションの結果は、実際に再サンプリング方法とチューニングパラメーターを選択する方法に関する特定のガイダンスを提供します。

要約(オリジナル)

Despite the accelerating presence of exploratory causal analysis in modern science and medicine, the available non-experimental methods for validating causal models are not well characterized. One of the most popular methods is to evaluate the stability of model features after resampling the data, similar to resampling methods for estimating confidence intervals in statistics. Many aspects of this approach have received little to no attention, however, such as whether the choice of resampling method should depend on the sample size, algorithms being used, or algorithm tuning parameters. We present theoretical results proving that certain resampling methods closely emulate the assignment of specific values to algorithm tuning parameters. We also report the results of extensive simulation experiments, which verify the theoretical result and provide substantial data to aid researchers in further characterizing resampling in the context of causal discovery analysis. Together, the theoretical work and simulation results provide specific guidance on how resampling methods and tuning parameters should be selected in practice.

arxiv情報

著者 Ritwick Banerjee,Bryan Andrews,Erich Kummerfeld
発行日 2025-03-19 17:18:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, stat.ME | An extensive simulation study evaluating the interaction of resampling techniques across multiple causal discovery contexts はコメントを受け付けていません

VenusFactory: A Unified Platform for Protein Engineering Data Retrieval and Language Model Fine-Tuning

要約

自然言語加工(NLP)は、事前に訓練されたタンパク質言語モデル(PLMS)が顕著な成功を示しているタンパク質工学を含む、人間の言語を超えた科学的領域に大きな影響を与えてきました。
ただし、データ収集、タスクベンチマーク、およびアプリケーションの課題により、学際的な採用は依然として限られています。
この作業では、生物学的データの検索、標準化されたタスクベンチマーク、およびPLMSのモジュラー微調整を統合する汎用性の高いエンジンであるVenusFactoryが提示されます。
VenusFactoryは、コンピューターサイエンスと生物学の両方のコミュニティを、コマンドライン実行とグラデーションベースのノーコードインターフェイスの両方の選択でサポートし、40ドル+$タンパク質関連のデータセットと40ドル+$の人気PLMを統合します。
すべての実装は、https://github.com/tyang816/venusfactoryにオープンソースされています。

要約(オリジナル)

Natural language processing (NLP) has significantly influenced scientific domains beyond human language, including protein engineering, where pre-trained protein language models (PLMs) have demonstrated remarkable success. However, interdisciplinary adoption remains limited due to challenges in data collection, task benchmarking, and application. This work presents VenusFactory, a versatile engine that integrates biological data retrieval, standardized task benchmarking, and modular fine-tuning of PLMs. VenusFactory supports both computer science and biology communities with choices of both a command-line execution and a Gradio-based no-code interface, integrating $40+$ protein-related datasets and $40+$ popular PLMs. All implementations are open-sourced on https://github.com/tyang816/VenusFactory.

arxiv情報

著者 Yang Tan,Chen Liu,Jingyuan Gao,Banghao Wu,Mingchen Li,Ruilin Wang,Lingrong Zhang,Huiqun Yu,Guisheng Fan,Liang Hong,Bingxin Zhou
発行日 2025-03-19 17:19:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, q-bio.QM | VenusFactory: A Unified Platform for Protein Engineering Data Retrieval and Language Model Fine-Tuning はコメントを受け付けていません

From 1,000,000 Users to Every User: Scaling Up Personalized Preference for User-level Alignment

要約

大規模な言語モデル(LLM)は、ユーザーの価値とニーズの多様性を根本的に見落として、均一な人間の好みを想定する1つのサイズのアプローチを通じて伝統的に整合してきました。
このペーパーでは、LLMSのスケーラブルなパーソナライズされたアライメントのための包括的なフレームワークを紹介します。
実際のシナリオで堅牢な優先推論のための多様なペルソナ表現とともに、心理的および行動的側面を特徴付ける体系的な選好空間を確立します。
この基盤の上に構築すると、130万を超えるパーソナライズされた選好例の大規模なデータセットである\ textSc {alignx}を導入し、2つの補完的なアライメントアプローチを開発します。
広範な実験は、既存の方法よりも大幅に改善されており、4つのベンチマークにわたって平均17.06 \%の精度が得られ、新しい好みに対する強力な適応能力、限られたユーザーデータへの堅牢性、および正確な好みの制御可能性を示します。
これらの結果は、私たちのフレームワークの有効性を検証し、真のユーザー適応AIシステムに向けて進歩しています。

要約(オリジナル)

Large language models (LLMs) have traditionally been aligned through one-size-fits-all approaches that assume uniform human preferences, fundamentally overlooking the diversity in user values and needs. This paper introduces a comprehensive framework for scalable personalized alignment of LLMs. We establish a systematic preference space characterizing psychological and behavioral dimensions, alongside diverse persona representations for robust preference inference in real-world scenarios. Building upon this foundation, we introduce \textsc{AlignX}, a large-scale dataset of over 1.3 million personalized preference examples, and develop two complementary alignment approaches: \textit{in-context alignment} directly conditioning on persona representations and \textit{preference-bridged alignment} modeling intermediate preference distributions. Extensive experiments demonstrate substantial improvements over existing methods, with an average 17.06\% accuracy gain across four benchmarks while exhibiting a strong adaptation capability to novel preferences, robustness to limited user data, and precise preference controllability. These results validate our framework’s effectiveness, advancing toward truly user-adaptive AI systems.

arxiv情報

著者 Jia-Nan Li,Jian Guan,Songhao Wu,Wei Wu,Rui Yan
発行日 2025-03-19 17:41:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | From 1,000,000 Users to Every User: Scaling Up Personalized Preference for User-level Alignment はコメントを受け付けていません

Dynamic Bi-Elman Attention Networks (DBEAN): Dual-Directional Context-Aware Representation Learning for Enhanced Text Classification

要約

自然言語処理(NLP)の基本的なタスクであるテキスト分類は、テキストデータを事前定義されたラベルに分類することを目的としています。
従来の方法は、複雑な言語構造とセマンティックな依存関係に苦しんでいました。
深い学習の出現、特に再発性ニューラルネットワーク(RNNS)およびトランスベースのモデルは、微妙な特徴抽出とコンテキスト対応の予測を可能にすることにより、フィールドを大幅に進めました。
改善にもかかわらず、既存のモデルは、解釈可能性、計算効率、長距離のコンテキスト理解のバランスをとることで制限を示します。
このペーパーでは、双方向の時間モデリングを自己関節メカニズムと統合する注意ネットワーク(DBEAN)を備えた動的双方向のエルマンを提案します。
DBeanは、入力の重要なセグメントに重みを動的に割り当て、計算効率を維持しながらコンテキスト表現を改善します。

要約(オリジナル)

Text classification, a fundamental task in natural language processing (NLP), aims to categorize textual data into predefined labels. Traditional methods struggled with complex linguistic structures and semantic dependencies. The advent of deep learning, particularly recurrent neural networks (RNNs) and Transformer-based models, has significantly advanced the field by enabling nuanced feature extraction and context-aware predictions. Despite improvements, existing models exhibit limitations in balancing interpretability, computational efficiency, and long-range contextual understanding. This paper proposes the Dynamic Bidirectional Elman with Attention Network (DBEAN), which integrates bidirectional temporal modelling with self-attention mechanisms. DBEAN dynamically assigns weights to critical segments of input, improving contextual representation while maintaining computational efficiency.

arxiv情報

著者 ZhengLin Lai,MengYao Liao,Dong Xu
発行日 2025-03-19 17:45:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Dynamic Bi-Elman Attention Networks (DBEAN): Dual-Directional Context-Aware Representation Learning for Enhanced Text Classification はコメントを受け付けていません

Developer Perspectives on Licensing and Copyright Issues Arising from Generative AI for Software Development

要約

生成AI(Genai)ツールがコードを書くなどのタスクを提供するユーティリティにもかかわらず、これらのツールを使用すると、重要な法的問題と潜在的なリスク、特に著作権法に関連するリスクが生じます。
議員と規制当局がこれらの質問に関与するため、ユーザーの見解は関連する視点を提供できます。
この論文では、次のように説明します。(1)コーディングのためのGenaiのライセンスおよび著作権の側面に関する574人の開発者の調査、およびフォローアップインタビュー。
(2)Genaiとその認識が急速に進化している時期の開発者の見解のスナップショット。
(3)開発者の見解の分析、この進化する分野での将来の規制上の決定を通知できる洞察と推奨事項を生み出します。
私たちの結果は、開発者がgenaiに由来する利点、他の既存のコードの使用と同様のAI生成コードの使用、そのようなコードを所有または補償すべき人についてのさまざまな意見、gena​​iを介したデータの漏えい、さらにはより多くの洞察を提供する組織と政策立案者に、どのように役立つかを見ることができるようにすることを懸念しているというさまざまな意見を示しています。

要約(オリジナル)

Despite the utility that Generative AI (GenAI) tools provide for tasks such as writing code, the use of these tools raises important legal questions and potential risks, particularly those associated with copyright law. As lawmakers and regulators engage with those questions, the views of users can provide relevant perspectives. In this paper, we provide: (1) a survey of 574 developers on the licensing and copyright aspects of GenAI for coding, as well as follow-up interviews; (2) a snapshot of developers’ views at a time when GenAI and perceptions of it are rapidly evolving; and (3) an analysis of developers’ views, yielding insights and recommendations that can inform future regulatory decisions in this evolving field. Our results show the benefits developers derive from GenAI, how they view the use of AI-generated code as similar to using other existing code, the varied opinions they have on who should own or be compensated for such code, that they are concerned about data leakage via GenAI, and much more, providing organizations and policymakers with valuable insights into how the technology is being used and what concerns stakeholders would like to see addressed.

arxiv情報

著者 Trevor Stalnaker,Nathan Wintersgill,Oscar Chaparro,Laura A. Heymann,Massimiliano Di Penta,Daniel M German,Denys Poshyvanyk
発行日 2025-03-19 17:50:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | Developer Perspectives on Licensing and Copyright Issues Arising from Generative AI for Software Development はコメントを受け付けていません