Incentivizing Truthful Collaboration in Heterogeneous Federated Learning

要約

Federated Learning(FL)は、RAWデータの代わりに勾配更新を共有することにより、複数のクライアントが一緒に学習する分散コラボレーション学習方法です。
ただし、FLがクライアントからの操作された更新に対して脆弱であることはよく知られています。
この作業では、データの不均一性がアップデートを操作するためのクライアントのインセンティブに対する影響の影響を研究します。
まず、クライアントがアップデートを変更してより良くすることができる不均一な共同学習シナリオを提示し、これらの操作がモデルのパフォーマンスの低下につながる可能性があることを示します。
このような変更を防ぐために、サーバーモデルを有利に「操縦」するために、クライアントがグラデーションの更新を誤って報告できるゲームを策定します。
FEDSGDプロトコルに基づいて修正された更新の送信を除去することを証明する支払いルールを開発します。
クライアントの支払いとグローバルモデルの収束率の明示的な範囲を導き出します。これにより、不均一性、支払い、収束のトレードオフを研究できます。
最後に、コンピュータービジョンと自然言語処理の3つのタスクに関するFEDSGD、中央値ベースの集約FedSGD、およびFEDAVGプロトコルにおける支払いルールの有効性の実験的評価を提供します。
すべての場合において、私たちのスキームは修正をうまく解かないことがわかります。

要約(オリジナル)

Federated learning (FL) is a distributed collaborative learning method, where multiple clients learn together by sharing gradient updates instead of raw data. However, it is well-known that FL is vulnerable to manipulated updates from clients. In this work we study the impact of data heterogeneity on clients’ incentives to manipulate their updates. First, we present heterogeneous collaborative learning scenarios where a client can modify their updates to be better off, and show that these manipulations can lead to diminishing model performance. To prevent such modifications, we formulate a game in which clients may misreport their gradient updates in order to ‘steer’ the server model to their advantage. We develop a payment rule that provably disincentivizes sending modified updates under the FedSGD protocol. We derive explicit bounds on the clients’ payments and the convergence rate of the global model, which allows us to study the trade-off between heterogeneity, payments and convergence. Finally, we provide an experimental evaluation of the effectiveness of our payment rule in the FedSGD, median-based aggregation FedSGD and FedAvg protocols on three tasks in computer vision and natural language processing. In all cases we find that our scheme successfully disincentivizes modifications.

arxiv情報

著者 Dimitar Chakarov,Nikita Tsoy,Kristian Minchev,Nikola Konstantinov
発行日 2025-03-05 15:32:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, stat.ML | Incentivizing Truthful Collaboration in Heterogeneous Federated Learning はコメントを受け付けていません

Beyond Canonicalization: How Tensorial Messages Improve Equivariant Message Passing

要約

幾何学的な深い学習の多数のアプリケーションでは、研究されたシステムは空間的対称性を示し、これらを実施することが望ましいです。
グローバルな回転と反射の対称性については、これは、$ \ mathrm o(d)$のグループを形成する変換に関して、モデルが等しくなければならないことを意味します。
Equivariantメッセージの合格の多くのアプローチには、非標準の正規化層や非線形性などの専門的なアーキテクチャが必要ですが、ここでは、制限なしであらゆるアーキテクチャと統合できるローカル参照フレーム(「ローカル標準化」)に基づくフレームワークを提示します。
異なるローカル座標フレーム間で一貫して幾何学的情報を通信するためのテンソリアルメッセージを導入することにより、ローカルの標準化に基づいて等縁系メッセージの合格を強化します。
私たちのフレームワークは、任意の次元のユークリッド空間で幾何学的データを渡すメッセージに適用されます。
私たちのアプローチをどのように適応させて、人気のある既存のポイントクラウドアーキテクチャを等しくするためにどのように適応できるかを明示的に示します。
私たちは、テンサリアルメッセージの優位性を実証し、他の標準の3Dポイントクラウドタスクでの通常のベクトル回帰と競争結果に関する最先端の結果を達成します。

要約(オリジナル)

In numerous applications of geometric deep learning, the studied systems exhibit spatial symmetries and it is desirable to enforce these. For the symmetry of global rotations and reflections, this means that the model should be equivariant with respect to the transformations that form the group of $\mathrm O(d)$. While many approaches for equivariant message passing require specialized architectures, including non-standard normalization layers or non-linearities, we here present a framework based on local reference frames (‘local canonicalization’) which can be integrated with any architecture without restrictions. We enhance equivariant message passing based on local canonicalization by introducing tensorial messages to communicate geometric information consistently between different local coordinate frames. Our framework applies to message passing on geometric data in Euclidean spaces of arbitrary dimension. We explicitly show how our approach can be adapted to make a popular existing point cloud architecture equivariant. We demonstrate the superiority of tensorial messages and achieve state-of-the-art results on normal vector regression and competitive results on other standard 3D point cloud tasks.

arxiv情報

著者 Peter Lippmann,Gerrit Gerhartz,Roman Remme,Fred A. Hamprecht
発行日 2025-03-05 15:35:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Beyond Canonicalization: How Tensorial Messages Improve Equivariant Message Passing はコメントを受け付けていません

Dashing for the Golden Snitch: Multi-Drone Time-Optimal Motion Planning with Multi-Agent Reinforcement Learning

要約

自律的なドローンの最近の革新により、単一ドローン構成での時間最適飛行が促進され、最適な制御および学習ベースの方法を適用することにより、マルチドローンシステムでの操縦性が向上しました。
ただし、特に非常に機敏な操作や動的シナリオ中に、マルチドローンシステムの時間最適なモーション計画を達成した研究はほとんどありません。
このペーパーでは、時間最適なマルチドローン飛行のためのマルチエージェント補強学習を使用して、分散型ポリシーネットワークを提示します。
飛行効率と衝突回避のバランスをとるために、最適化ベースの方法に触発された柔らかい衝突のないメカニズムを導入します。
集中型トレーニング、分散型実行(CTDE)ファッションでPPOをカスタマイズすることにより、軽量の実装を確保しながら、トレーニングの効率と安定性を高めます。
広範なシミュレーションによると、単一ドローンシステムと比較してパフォーマンスのトレードオフがわずかにもかかわらず、マルチドローンアプローチは、衝突率が低いため、近距離のパフォーマンスを維持しています。
実世界の実験は、シミュレーションと同じネットワークを使用して、最大速度13.65 m/sと5.5 m * 5.5 m * 2.0 mスペースで13.4 rad/sの最大体速度を達成するのと同じネットワークを使用して、私たちの方法を検証します。

要約(オリジナル)

Recent innovations in autonomous drones have facilitated time-optimal flight in single-drone configurations, and enhanced maneuverability in multi-drone systems by applying optimal control and learning-based methods. However, few studies have achieved time-optimal motion planning for multi-drone systems, particularly during highly agile maneuvers or in dynamic scenarios. This paper presents a decentralized policy network using multi-agent reinforcement learning for time-optimal multi-drone flight. To strike a balance between flight efficiency and collision avoidance, we introduce a soft collision-free mechanism inspired by optimization-based methods. By customizing PPO in a centralized training, decentralized execution (CTDE) fashion, we unlock higher efficiency and stability in training while ensuring lightweight implementation. Extensive simulations show that, despite slight performance trade-offs compared to single-drone systems, our multi-drone approach maintains near-time-optimal performance with a low collision rate. Real-world experiments validate our method, with two quadrotors using the same network as in simulation achieving a maximum speed of 13.65 m/s and a maximum body rate of 13.4 rad/s in a 5.5 m * 5.5 m * 2.0 m space across various tracks, relying entirely on onboard computation.

arxiv情報

著者 Xian Wang,Jin Zhou,Yuanli Feng,Jiahao Mei,Jiming Chen,Shuo Li
発行日 2025-03-05 15:35:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Dashing for the Golden Snitch: Multi-Drone Time-Optimal Motion Planning with Multi-Agent Reinforcement Learning はコメントを受け付けていません

Capability-Aware Shared Hypernetworks for Flexible Heterogeneous Multi-Robot Coordination

要約

最近の進歩により、異種のマルチロボットチームが複雑で効果的な調整を学ぶことができました。
ただし、異質なチームをサポートする既存の建築設計は、表現力と効率性の間のトレードオフを強制する傾向があります。
各ロボットまたはロボットタイプに固有のIDを使用して入力を追加することにより、単一の共有アーキテクチャ内で多様な動作をエンコードしようとする試みがあります。
これらの設計により、サンプルとパラメーターの効率が向上しますが、行動の多様性を制限する傾向があります。
他の人は各ロボットに個別のポリシーを使用し、効率と一般化を犠牲にして多様性を高めることができます。
これら2つのデザインをスペクトルの終わりと見なし、多様な行動を効率的に学習できる中間地面のアプローチを探ります。
トランスファーラーニングとメタRLの作業、および特性ベースのタスク割り当ての以前の作業に触発された能力対象の共有ハイパーネットワーク(現金)を提案します。これは、ハイパーネットワークを使用して単一のアーキテクチャを使用して各ロボットと現在のコンテキストに動的に適応できる一般的なソフトウェイト共有アーキテクチャです。
直感的に、現金は、ローカルの観測とロボットの個々のおよび集合的能力(速度やペイロードなど)に基づいて、各ロボットに適合できる共有意思決定戦略をエンコードします。
現金は、集団行動に対する能力の影響を明示的に捉えており、目に見えないロボットまたはチームの構成にゼロショットの一般化を可能にします。
SOTAマルチロボットシミュレーション(JaxMarl)およびハードウェア(RoboTarium)プラットフォームを使用して、4つの不均一な調整タスクと3つの学習パラダイム(模倣学習、価値ベース、およびポリシー勾配RL)で実験を実施しました。
すべての条件にわたって、現金は適切に多様な行動を生み出し、トレーニング中のタスクパフォ​​ーマンスとサンプル効率のベースラインアーキテクチャを上回り、学習可能なパラメーターを60%〜80%少なく使用します。

要約(オリジナル)

Recent advances have enabled heterogeneous multi-robot teams to learn complex and effective coordination. However, existing architectural designs that support heterogeneous teams tend to force a trade-off between expressivity and efficiency. Some attempt to encode diverse behaviors within a single shared architecture by appending the input with an ID unique to each robot or robot type. These designs improve sample and parameter efficiency but tend to limit behavioral diversity. Others use a separate policy for each robot, enabling greater diversity at the cost of efficiency and generalization. We view these two designs as ends of a spectrum and explore a middle-ground approach that enables efficient learning of diverse behaviors. Inspired by work in transfer learning and meta RL, and building upon prior work in trait-based task allocation, we propose Capability-Aware Shared Hypernetworks (CASH), a general-purpose soft weight sharing architecture that uses hypernetworks to enable a single architecture to dynamically adapt to each robot and the current context. Intuitively, CASH encodes shared decision making strategies that can be adapted to each robot based on local observations and the robots’ individual and collective capabilities (e.g., speed and payload). CASH explicitly captures the impact of capabilities on collective behavior, enabling zero-shot generalization to unseen robots or team compositions. We conducted experiments across four heterogeneous coordination tasks and three learning paradigms (imitation learning, value-based, and policy-gradient RL) using SOTA multi-robot simulation (JaxMARL) and hardware (Robotarium) platforms. Across all conditions, CASH generates appropriately diverse behaviors and outperforms baseline architectures in task performance and sample efficiency during training and zero-shot generalization while utilizing 60%-80% fewer learnable parameters.

arxiv情報

著者 Kevin Fu,Shalin Jain,Pierce Howell,Harish Ravichandar
発行日 2025-03-05 15:37:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA | Capability-Aware Shared Hypernetworks for Flexible Heterogeneous Multi-Robot Coordination はコメントを受け付けていません

MDP Geometry, Normalization and Reward Balancing Solvers

要約

マルコフ決定プロセス(MDP)の新しい幾何学的解釈を、ポリシーに関するアクションの利点を変更せずに各状態で値関数を調整できる自然な正規化手順を提示します。
MDPのこのアドバンテージを提供する変換は、ほぼ最適なポリシーを簡単に見つけることができるまで、これらの変換を繰り返すことでMDPを解決することにより、MDPを解くバランスをとるアルゴリズムのクラスを動機付けます。
このクラスのいくつかのアルゴリズムの収束分析を提供します。特に、未知の遷移確率のMDPについては、最先端のサンプルの複雑さの結果を改善できることを示しています。

要約(オリジナル)

We present a new geometric interpretation of Markov Decision Processes (MDPs) with a natural normalization procedure that allows us to adjust the value function at each state without altering the advantage of any action with respect to any policy. This advantage-preserving transformation of the MDP motivates a class of algorithms which we call Reward Balancing, which solve MDPs by iterating through these transformations, until an approximately optimal policy can be trivially found. We provide a convergence analysis of several algorithms in this class, in particular showing that for MDPs for unknown transition probabilities we can improve upon state-of-the-art sample complexity results.

arxiv情報

著者 Arsenii Mustafin,Aleksei Pakharev,Alex Olshevsky,Ioannis Ch. Paschalidis
発行日 2025-03-05 15:40:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | MDP Geometry, Normalization and Reward Balancing Solvers はコメントを受け付けていません

It’s My Data Too: Private ML for Datasets with Multi-User Training Examples

要約

ユーザーレベルの差動プライバシー(DP)を使用したモデルトレーニングのアルゴリズムの研究を開始します。各例は、複数のユーザーに起因する可能性があります。
まず、マルチアトリビューションモデルでユーザーレベルのDPの慎重に選択された定義を提供します。
マルチアトリビューションモデルのトレーニングは、貢献境界問題、つまり、各ユーザーが限られた数の例に関連付けられているデータセットのサブセットを選択する問題を解決することにより促進されます。
貢献境界問題のための貪欲なベースラインアルゴリズムを提案します。
次に、このアルゴリズムを合成ロジスティック回帰タスクと、さまざまな手法と基準を使用して選択したサブセットを最適化するこのベースラインアルゴリズムのバリエーションの研究を含む、変圧器トレーニングタスクについて経験的に研究します。
ベースラインアルゴリズムは、ほとんどの設定でそのバリアントと競合し続け、貢献境界問題の解決策に固有のバイアス分散トレードオフの実際的な重要性をよりよく理解することができます。

要約(オリジナル)

We initiate a study of algorithms for model training with user-level differential privacy (DP), where each example may be attributed to multiple users, which we call the multi-attribution model. We first provide a carefully chosen definition of user-level DP under the multi-attribution model. Training in the multi-attribution model is facilitated by solving the contribution bounding problem, i.e. the problem of selecting a subset of the dataset for which each user is associated with a limited number of examples. We propose a greedy baseline algorithm for the contribution bounding problem. We then empirically study this algorithm for a synthetic logistic regression task and a transformer training task, including studying variants of this baseline algorithm that optimize the subset chosen using different techniques and criteria. We find that the baseline algorithm remains competitive with its variants in most settings, and build a better understanding of the practical importance of a bias-variance tradeoff inherent in solutions to the contribution bounding problem.

arxiv情報

著者 Arun Ganesh,Ryan McKenna,Brendan McMahan,Adam Smith,Fan Wu
発行日 2025-03-05 16:02:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | It’s My Data Too: Private ML for Datasets with Multi-User Training Examples はコメントを受け付けていません

Deterministic Global Optimization of the Acquisition Function in Bayesian Optimization: To Do or Not To Do?

要約

ガウスプロセスを使用したベイジアン最適化(BO)は、収集機能の最適化に依存してサンプリングを決定します。
取得関数の最適化のために、従来のローカスおよび確率的グローバルソルバー(それぞれL-BFGS-Bおよびマルチスタート)と比較して、決定論的グローバルソルバー(MAINGO)を使用することの利点と欠点を調査します。
CPUの効率については、Maingoの時間制限を設定し、最適なポイントを最適にします。
繰り返し数値実験を実行し、最初はベンチマーク関数としてMuller-Brownポテンシャルを使用して、低い信頼境界取得関数を利用します。
さらに、3つの代替ベンチマーク関数で調査結果を検証します。
統計分析では、取得機能が(探索とは対照的に)より搾取的である場合、MaingoのBOがローカルソルバーよりも少ない反復で収束することが明らかになります。
ただし、データセットに多様性がない場合、または取得関数が過度に搾取的である場合、ローカルソルバーと比較してMaingoを使用したBOは、ブラックボックス関数のグローバルなly最適なソリューションではなくローカルに収束する可能性が高くなります。
L-BFGS-Bとマルチスタートは、次のサンプリングポイントの選択に確率性を導入することにより、BOのこのリスクを軽減します。
最終的に、選択されていない収集機能の最適下最適化が最適なソリューションよりも好ましい場合があります。
取得関数がより探索的である場合、Maingo、Multi-Start、およびL-BFGS-Bを使用したBOは、世界的に近い最適なソリューションとの収束の同等の確率を実現します(ただし、MaingoとのBOは、これらの条件下で収束するためにより多くの反復が必要になる場合があります)。

要約(オリジナル)

Bayesian Optimization (BO) with Gaussian Processes relies on optimizing an acquisition function to determine sampling. We investigate the advantages and disadvantages of using a deterministic global solver (MAiNGO) compared to conventional local and stochastic global solvers (L-BFGS-B and multi-start, respectively) for the optimization of the acquisition function. For CPU efficiency, we set a time limit for MAiNGO, taking the best point as optimal. We perform repeated numerical experiments, initially using the Muller-Brown potential as a benchmark function, utilizing the lower confidence bound acquisition function; we further validate our findings with three alternative benchmark functions. Statistical analysis reveals that when the acquisition function is more exploitative (as opposed to exploratory), BO with MAiNGO converges in fewer iterations than with the local solvers. However, when the dataset lacks diversity, or when the acquisition function is overly exploitative, BO with MAiNGO, compared to the local solvers, is more likely to converge to a local rather than a global ly near-optimal solution of the black-box function. L-BFGS-B and multi-start mitigate this risk in BO by introducing stochasticity in the selection of the next sampling point, which enhances the exploration of uncharted regions in the search space and reduces dependence on acquisition function hyperparameters. Ultimately, suboptimal optimization of poorly chosen acquisition functions may be preferable to their optimal solution. When the acquisition function is more exploratory, BO with MAiNGO, multi-start, and L-BFGS-B achieve comparable probabilities of convergence to a globally near-optimal solution (although BO with MAiNGO may require more iterations to converge under these conditions).

arxiv情報

著者 Anastasia Georgiou,Daniel Jungen,Luise Kaven,Verena Hunstig,Constantine Frangakis,Ioannis Kevrekidis,Alexander Mitsos
発行日 2025-03-05 16:05:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | Deterministic Global Optimization of the Acquisition Function in Bayesian Optimization: To Do or Not To Do? はコメントを受け付けていません

Exploring Code Language Models for Automated HLS-based Hardware Generation: Benchmark, Infrastructure and Analysis

要約

コード生成の最近の進歩により、PythonやC ++などの汎用プログラミング言語に大規模な言語モデル(LLM)を採用する可能性が明らかになり、ソフトウェア開発を自動化し、プログラマーの生産性を高めるための新しい機会を開きました。
ソフトウェアプログラミングにおけるLLMSの可能性は、自動化されたハードウェアの生成と自動化の調査に大きな関心を集めています。
ハードウェアの説明言語(HDL)の生成にLLMを採用するための予備的な努力がなされていますが、この方向にいくつかの課題が続いています。
まず、利用可能なHDLトレーニングデータのボリュームは、ソフトウェアプログラミング言語のボリュームと比較して大幅に小さくなっています。
第二に、主にソフトウェアコードに合わせた事前に訓練されたLLMSは、エラーが発生しやすいHDLデザインを生成する傾向があります。
第三に、HDLの生成には、ソフトウェアプログラミングと比較してかなり多くのトークンが必要であり、コストとエネルギー消費の非効率性につながります。
これらの課題に取り組むために、このペーパーでは、LLMSを活用して高レベルの合成(HLS)ベースのハードウェア設計を生成することを調査します。
文献では、ドメイン固有のプログラミング言語のコード生成は新しいものではありませんが、LLMアシストハードウェア設計生成の低レベルHDLSを超えるHLSの適合性を調査するために、実験結果、洞察、ベンチマーク、および評価インフラストラクチャを提供することを目指しています。
これを実現するために、最初に、テキストプロンプトと対応する参照HLSデザインを備えた収集されたデータセットを使用して、HLSベースのハードウェア生成の事前訓練モデルをFintuneします。
次に、LLM支援フレームワークが提案され、エンドツーエンドのハードウェアコード生成を自動化します。これは、HLSデザインの生成における技術を促進するチェーンとフィードバックループの影響も調査します。
この研究の時間枠に制限されているため、将来、より高度な推論モデルを評価する予定です。

要約(オリジナル)

Recent advances in code generation have illuminated the potential of employing large language models (LLMs) for general-purpose programming languages such as Python and C++, opening new opportunities for automating software development and enhancing programmer productivity. The potential of LLMs in software programming has sparked significant interest in exploring automated hardware generation and automation. Although preliminary endeavors have been made to adopt LLMs in generating hardware description languages (HDLs), several challenges persist in this direction. First, the volume of available HDL training data is substantially smaller compared to that for software programming languages. Second, the pre-trained LLMs, mainly tailored for software code, tend to produce HDL designs that are more error-prone. Third, the generation of HDL requires a significantly higher number of tokens compared to software programming, leading to inefficiencies in cost and energy consumption. To tackle these challenges, this paper explores leveraging LLMs to generate High-Level Synthesis (HLS)-based hardware design. Although code generation for domain-specific programming languages is not new in the literature, we aim to provide experimental results, insights, benchmarks, and evaluation infrastructure to investigate the suitability of HLS over low-level HDLs for LLM-assisted hardware design generation. To achieve this, we first finetune pre-trained models for HLS-based hardware generation, using a collected dataset with text prompts and corresponding reference HLS designs. An LLM-assisted framework is then proposed to automate end-to-end hardware code generation, which also investigates the impact of chain-of-thought and feedback loops promoting techniques on HLS-design generation. Limited by the timeframe of this research, we plan to evaluate more advanced reasoning models in the future.

arxiv情報

著者 Jiahao Gai,Hao Mark Chen,Zhican Wang,Hongyu Zhou,Wanru Zhao,Nicholas Lane,Hongxiang Fan
発行日 2025-03-05 16:07:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.LG, cs.SE | Exploring Code Language Models for Automated HLS-based Hardware Generation: Benchmark, Infrastructure and Analysis はコメントを受け付けていません

MMBind: Unleashing the Potential of Distributed and Heterogeneous Data for Multimodal Learning in IoT

要約

マルチモーダルセンシングシステムは、さまざまな現実世界のアプリケーションでますます一般的になっています。
ほとんどの既存のマルチモーダル学習アプローチは、大量の同期された完全なマルチモーダルデータを使用して、トレーニングに大きく依存しています。
ただし、このような設定は、データが不均一なデータモダリティを備えた分散ノードによって通常収集される現実世界のIoTセンシングアプリケーションでは非現実的です。また、ラベル付けされていません。
この論文では、分散および異種のIoTデータに関するマルチモーダル学習のための新しいデータ結合アプローチであるMmbindを提案します。
Mmbindの重要なアイデアは、十分に記述された共有モダリティを通じて、異なるソースと不完全なモダリティからデータを結合することにより、モデルトレーニング用の擬似ペアマルチモーダルデータセットを構築することです。
また、異種モダリティの組み合わせでトレーニングモデルをトレーニングできる適応マルチモーダル学習アーキテクチャと相まって、異なるデータ間のドメインシフトを処理するための加重コントラスト学習アプローチを提案します。
10の実際のマルチモーダルデータセットの評価は、Mmbindがさまざまな程度のデータの不完全性とドメインシフトで最先端のベースラインを上回ることを強調しており、IoTアプリケーションでマルチモーダルファンデーションモデルトレーニングを進めることを約束します(ソースコードはhttps:/github.com/nesl/multimal-bind経由で入手できます)。

要約(オリジナル)

Multimodal sensing systems are increasingly prevalent in various real-world applications. Most existing multimodal learning approaches heavily rely on training with a large amount of synchronized, complete multimodal data. However, such a setting is impractical in real-world IoT sensing applications where data is typically collected by distributed nodes with heterogeneous data modalities, and is also rarely labeled. In this paper, we propose MMBind, a new data binding approach for multimodal learning on distributed and heterogeneous IoT data. The key idea of MMBind is to construct a pseudo-paired multimodal dataset for model training by binding data from disparate sources and incomplete modalities through a sufficiently descriptive shared modality. We also propose a weighted contrastive learning approach to handle domain shifts among disparate data, coupled with an adaptive multimodal learning architecture capable of training models with heterogeneous modality combinations. Evaluations on ten real-world multimodal datasets highlight that MMBind outperforms state-of-the-art baselines under varying degrees of data incompleteness and domain shift, and holds promise for advancing multimodal foundation model training in IoT applications\footnote (The source code is available via https://github.com/nesl/multimodal-bind).

arxiv情報

著者 Xiaomin Ouyang,Jason Wu,Tomoyoshi Kimura,Yihan Lin,Gunjan Verma,Tarek Abdelzaher,Mani Srivastava
発行日 2025-03-05 16:08:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | MMBind: Unleashing the Potential of Distributed and Heterogeneous Data for Multimodal Learning in IoT はコメントを受け付けていません

Generative Adversarial Networks for High-Dimensional Item Factor Analysis: A Deep Adversarial Learning Algorithm

要約

深い学習と表現学習の進歩により、より効率的で正確なパラメーター推定を可能にすることにより、アイテム応答理論(IRT)の文献のアイテム因子分析(IFA)が変革されました。
このコンテキストで高次元潜在変数をモデル化する上で、変分自動エンコーダー(VAE)は最も影響力のある手法の1つです。
ただし、従来のVAEに基づく推論モデルの限られた表現力は、推定パフォーマンスを妨げる可能性があります。
柔軟性と精度を向上させて、IFAのVAEの改善として、敵対的な変異ベイズ(AVB)アルゴリズムを導入します。
VAEと生成敵のネットワーク(GANS)の強みを橋渡しすることにより、AVBには、推定プロセスを2人の敵対的ゲームとして再構成するために補助論文ネットワークを組み込み、推論モデルの標準的な正常分布の制限的な仮定を削除します。
理論的には、AVBはVAEと比較して同様またはより高い可能性を達成できます。
さらに強化されたアルゴリズムである重要性加重逆説的な変動ベイズ(IWAVB)が提案され、重要な加重自己エンコーダー(IWAE)と比較されます。
経験的データの探索的分析では、IWAVBは、IWAEと比較してより高い可能性を達成することにより、優れた表現力を実証しました。
シミュレートされたデータを使用した確認分析では、IWAVBはIWAEと同様の平均二乗誤差結果を達成し、一貫してより高い可能性を達成しました。
潜在変数がマルチモーダル分布に続いた場合、IWAVBはiWAEを上回りました。
GANの革新的な使用により、IWAVBはIFAを拡張して大規模なデータを処理する可能性があることが示されており、精神測量とマルチモーダルデータ分析の潜在的な統合を促進します。

要約(オリジナル)

Advances in deep learning and representation learning have transformed item factor analysis (IFA) in the item response theory (IRT) literature by enabling more efficient and accurate parameter estimation. Variational Autoencoders (VAEs) have been one of the most impactful techniques in modeling high-dimensional latent variables in this context. However, the limited expressiveness of the inference model based on traditional VAEs can still hinder the estimation performance. We introduce Adversarial Variational Bayes (AVB) algorithms as an improvement to VAEs for IFA with improved flexibility and accuracy. By bridging the strengths of VAEs and Generative Adversarial Networks (GANs), AVB incorporates an auxiliary discriminator network to reframe the estimation process as a two-player adversarial game and removes the restrictive assumption of standard normal distributions in the inference model. Theoretically, AVB can achieve similar or higher likelihood compared to VAEs. A further enhanced algorithm, Importance-weighted Adversarial Variational Bayes (IWAVB) is proposed and compared with Importance-weighted Autoencoders (IWAE). In an exploratory analysis of empirical data, IWAVB demonstrated superior expressiveness by achieving a higher likelihood compared to IWAE. In confirmatory analysis with simulated data, IWAVB achieved similar mean-square error results to IWAE while consistently achieving higher likelihoods. When latent variables followed a multimodal distribution, IWAVB outperformed IWAE. With its innovative use of GANs, IWAVB is shown to have the potential to extend IFA to handle large-scale data, facilitating the potential integration of psychometrics and multimodal data analysis.

arxiv情報

著者 Nanyu Luo,Feng Ji
発行日 2025-03-05 16:11:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.AP, stat.CO, stat.ME, stat.ML | Generative Adversarial Networks for High-Dimensional Item Factor Analysis: A Deep Adversarial Learning Algorithm はコメントを受け付けていません