MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention

要約

長いコンテキスト機能と視覚的理解の統合は、ビジョン言語モデル(VLM)の前例のない可能性を解き放ちます。
ただし、事前に埋める段階での二次注意の複雑さは、実際の展開に対する大きな障害のままです。
この制限を克服するために、長いコンテキストマルチモーダル入力の充填段階を加速する動的なスパース注意方法であるMminference(マルチモダリティミリオントークン推論)を導入します。
まず、私たちの分析により、ビデオ入力の時間的および空間的な局所性が、グリッドパターンであるユニークなスパースパターンにつながることが明らかになりました。
同時に、VLMは異なるモダリティで著しく異なるまばらな分布を示します。
一意のグリッドパターンを活用し、モダリティの境界の問題を処理するための順列ベースの方法を紹介します。
オフラインで、各ヘッドの最適なスパースパターンを検索することにより、mminferenceは入力に基づいて動的にスパース分布を構築します。
また、効率的なスパース計算のために最適化されたGPUカーネルも提供します。
特に、mminferenceは、モデルの変更や微調整なしに、既存のVLMパイプラインにシームレスに統合されます。
ビデオQA、キャプション、Visionniah、およびミックスモダリティのNiah-With最先端のロングコンテキストVLMS(Longvila、Llavavideo、VideoCchat-Flash、QWEN2.5-VL)を含むマルチモーダルベンチマークでの実験は、その維持ステージを維持するために8.3 xを維持することを示しています。
私たちのコードは、https://aka.ms/mminferenceで入手できます。

要約(オリジナル)

The integration of long-context capabilities with visual understanding unlocks unprecedented potential for Vision Language Models (VLMs). However, the quadratic attention complexity during the pre-filling phase remains a significant obstacle to real-world deployment. To overcome this limitation, we introduce MMInference (Multimodality Million tokens Inference), a dynamic sparse attention method that accelerates the prefilling stage for long-context multi-modal inputs. First, our analysis reveals that the temporal and spatial locality of video input leads to a unique sparse pattern, the Grid pattern. Simultaneously, VLMs exhibit markedly different sparse distributions across different modalities. We introduce a permutation-based method to leverage the unique Grid pattern and handle modality boundary issues. By offline search the optimal sparse patterns for each head, MMInference constructs the sparse distribution dynamically based on the input. We also provide optimized GPU kernels for efficient sparse computations. Notably, MMInference integrates seamlessly into existing VLM pipelines without any model modifications or fine-tuning. Experiments on multi-modal benchmarks-including Video QA, Captioning, VisionNIAH, and Mixed-Modality NIAH-with state-of-the-art long-context VLMs (LongVila, LlavaVideo, VideoChat-Flash, Qwen2.5-VL) show that MMInference accelerates the pre-filling stage by up to 8.3x at 1M tokens while maintaining accuracy. Our code is available at https://aka.ms/MMInference.

arxiv情報

著者 Yucheng Li,Huiqiang Jiang,Chengruidong Zhang,Qianhui Wu,Xufang Luo,Surin Ahn,Amir H. Abdi,Dongsheng Li,Jianfeng Gao,Yuqing Yang,Lili Qiu
発行日 2025-04-22 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention はコメントを受け付けていません

Histogram-based Parameter-efficient Tuning for Passive Sonar Classification

要約

パラメーター効率の高い転送学習(PETL)メソッドは、モデル全体を微調整することなく、大規模な人工ニューラルネットワークをダウンストリームタスクに適応させます。
ただし、アダプターなどの既存の添加剤方法は、中間特徴の埋め込みの分布シフトをキャプチャするのに苦労することがあります。
ターゲットドメインの統計をキャプチャし、埋め込みを調整する新しいヒストグラムベースのパラメーター効率の高いチューニング(HPT)手法を提案します。
3つの下流のパッシブソナーデータセット(Shipsear、Deephip、VTUAD)の実験結果は、HPTが従来のアダプターよりも優れていることを示しています。
特に、HPTはVTUADで91.8%対89.8%の精度を達成しています。
さらに、HPTはより速く訓練し、完全に微調整されたモデルの表現に近い特徴表現を生み出します。
全体として、HPTはパラメーターの節約とパフォーマンスのバランスをとり、既存のアダプターに配布認識の代替品を提供し、リソース制約の環境でスケーラブルな転送学習の有望な方向を示します。
コードは公開されています:https://github.com/advanced-vision-and-learning-lab/hlast_deepship_parameterefficient。

要約(オリジナル)

Parameter-efficient transfer learning (PETL) methods adapt large artificial neural networks to downstream tasks without fine-tuning the entire model. However, existing additive methods, such as adapters, sometimes struggle to capture distributional shifts in intermediate feature embeddings. We propose a novel histogram-based parameter-efficient tuning (HPT) technique that captures the statistics of the target domain and modulates the embeddings. Experimental results on three downstream passive sonar datasets (ShipsEar, DeepShip, VTUAD) demonstrate that HPT outperforms conventional adapters. Notably, HPT achieves 91.8% vs. 89.8% accuracy on VTUAD. Furthermore, HPT trains faster and yields feature representations closer to those of fully fine-tuned models. Overall, HPT balances parameter savings and performance, providing a distribution-aware alternative to existing adapters and shows a promising direction for scalable transfer learning in resource-constrained environments. The code is publicly available: https://github.com/Advanced-Vision-and-Learning-Lab/HLAST_DeepShip_ParameterEfficient.

arxiv情報

著者 Amirmohammad Mohammadi,Davelle Carreiro,Alexandra Van Dine,Joshua Peeples
発行日 2025-04-22 16:24:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD | Histogram-based Parameter-efficient Tuning for Passive Sonar Classification はコメントを受け付けていません

Learning to Reason under Off-Policy Guidance

要約

大規模な推論モデル(LRMS)の最近の進歩は、マルチステップ推論や自己反省などの洗練された行動が、単純なルールベースの報酬を使用して、強化学習(RL)を介して出現する可能性があることを示しています。
ただし、既存のゼロRLアプローチは本質的に「オンポリティ」であり、モデル自身の出力に学習を制限し、初期の機能を超えて推論能力を獲得できません。
Luffy(Policy Off Policyガイダンスの下で推論することを学ぶ)を紹介します。
Luffyは、トレーニング中にポリシーオフポリシーのデモとポリシーのロールアウトを組み合わせることにより、模倣と探索のバランスをとります。
特に、混合ポリシートレーニング中の表面的で厳格な模倣を避けるために、正規化された重要性サンプリングを介してポリシーの形成を提案します。
驚くべきことに、Luffyは、6つの数学ベンチマークにわたって+7.0以上の平均ゲインを達成し、分散除外タスクで+6.2ポイント以上の利点を達成しています。
また、特に一般化において、模倣ベースの監視付き微調整(SFT)を大幅に上回ります。
分析によると、Luffyは効果的に模倣するだけでなく、デモンストレーションを超えて探索し、一般化可能な推論モデルをオフポリシーガイダンスでトレーニングするためのスケーラブルなパスを提供します。

要約(オリジナル)

Recent advances in large reasoning models (LRMs) demonstrate that sophisticated behaviors such as multi-step reasoning and self-reflection can emerge via reinforcement learning (RL) with simple rule-based rewards. However, existing zero-RL approaches are inherently “on-policy”, limiting learning to a model’s own outputs and failing to acquire reasoning abilities beyond its initial capabilities. We introduce LUFFY (Learning to reason Under oFF-policY guidance), a framework that augments zero-RL with off-policy reasoning traces. LUFFY dynamically balances imitation and exploration by combining off-policy demonstrations with on-policy rollouts during training. Notably, we propose policy shaping via regularized importance sampling to avoid superficial and rigid imitation during mixed-policy training. Remarkably, LUFFY achieves an over +7.0 average gain across six math benchmarks and an advantage of over +6.2 points in out-of-distribution tasks. It also substantially surpasses imitation-based supervised fine-tuning (SFT), particularly in generalization. Analysis shows LUFFY not only imitates effectively but also explores beyond demonstrations, offering a scalable path to train generalizable reasoning models with off-policy guidance.

arxiv情報

著者 Jianhao Yan,Yafu Li,Zican Hu,Zhi Wang,Ganqu Cui,Xiaoye Qu,Yu Cheng,Yue Zhang
発行日 2025-04-22 15:37:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Learning to Reason under Off-Policy Guidance はコメントを受け付けていません

Understanding LLM Behaviors via Compression: Data Generation, Knowledge Acquisition and Scaling Laws

要約

大規模な言語モデル(LLMS)は、多数のタスクにわたって顕著な能力を実証していますが、基礎となるメカニズムと、スケーリング法、幻覚、関連行動など、いくつかの現象についての原則的な説明はとらえどころのないままです。
この作業では、Kolmogorovの複雑さとShannon情報理論に基づいた圧縮と予測の古典的な関係を再訪し、LLM行動に関するより深い洞察を提供します。
コルモゴロフ構造関数を活用し、LLM圧縮を2部構成のコーディングプロセスとして解釈することにより、LLMSが、広範な構文パターンから徐々に希少な知識要素まで、増加するモデルとデータスケール全体で情報を取得および保存する方法を詳細に見ています。
HeapとZIPFの法則に触発されたこの理論的な視点と自然な仮定に動機付けられ、Syntax-Knowledgeモデルと呼ばれる単純化された階層データ生成フレームワークを紹介します。
ベイジアンの設定では、このモデル内の予測と圧縮が自然にLLMの多様な学習とスケーリングの行動につながることを示します。
特に、当社の理論分析は、データとモデルのスケーリング法則、トレーニング中の知識獲得のダイナミクスとLLMSの微調整の事実の幻覚の両方について、直感的かつ原則的な説明を提供します。
実験結果は、理論的予測を検証します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable capabilities across numerous tasks, yet principled explanations for their underlying mechanisms and several phenomena, such as scaling laws, hallucinations, and related behaviors, remain elusive. In this work, we revisit the classical relationship between compression and prediction, grounded in Kolmogorov complexity and Shannon information theory, to provide deeper insights into LLM behaviors. By leveraging the Kolmogorov Structure Function and interpreting LLM compression as a two-part coding process, we offer a detailed view of how LLMs acquire and store information across increasing model and data scales — from pervasive syntactic patterns to progressively rarer knowledge elements. Motivated by this theoretical perspective and natural assumptions inspired by Heap’s and Zipf’s laws, we introduce a simplified yet representative hierarchical data-generation framework called the Syntax-Knowledge model. Under the Bayesian setting, we show that prediction and compression within this model naturally lead to diverse learning and scaling behaviors of LLMs. In particular, our theoretical analysis offers intuitive and principled explanations for both data and model scaling laws, the dynamics of knowledge acquisition during training and fine-tuning, factual knowledge hallucinations in LLMs. The experimental results validate our theoretical predictions.

arxiv情報

著者 Zhixuan Pan,Shaowen Wang,Jian Li
発行日 2025-04-22 14:11:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IT, cs.LG, math.IT | Understanding LLM Behaviors via Compression: Data Generation, Knowledge Acquisition and Scaling Laws はコメントを受け付けていません

Distribution-aware Forgetting Compensation for Exemplar-Free Lifelong Person Re-identification

要約

生涯にわたる人の再識別(LREID)は、新しい情報に適応しながら古い知識を維持する上で重要な課題に苦しんでいます。
既存のソリューションには、この課題に対処するためのリハーサルベースとリハーサルのない方法が含まれます。
リハーサルベースのアプローチは、知識の蒸留に依存しており、蒸留プロセス中に忘却を継続的に蓄積します。
リハーサルフリーの方法は、各ドメインの分布を不十分に学習し、時間の経過とともに忘却につながります。
これらの問題を解決するために、古い模範や知識の蒸留を使用せずに、クロスドメイン共有表現学習とドメイン固有の分布統合を調査する新しい配布忘却補償(DAFC)モデルを提案します。
テキスト機能を利用してプロンプト要素を濃縮し、各インスタンスの微細な表現を学習するためにプロンプ​​トモデルを導くテキスト駆動型の迅速な集約(TPA)を提案します。
これにより、ID情報の差別化が強化され、ドメイン分布認識の基盤が確立されます。
次に、分布ベースの認識と統合(DAI)は、専用の専門家ネットワークによって各ドメイン固有の分布をキャプチャし、それらを高次元空間の共有地域に適応的に統合するように設計されています。
このようにして、DAIは、壊滅的な忘却を軽減しながら、クロスドメインの共有表現学習を統合および強化することができます。
さらに、インスタンスレベルの識別とクロスドメインの一貫性アライメント戦略を含む知識統合メカニズム(KCM)を開発し、現在のドメインからの新しい知識のモデル適応学習を促進し、それぞれ獲得したドメイン固有の分布間の知識統合学習を促進します。
実験結果は、DAFCが最先端の方法よりも優れていることを示しています。
私たちのコードは、https://github.com/liushiben/dafcで入手できます。

要約(オリジナル)

Lifelong Person Re-identification (LReID) suffers from a key challenge in preserving old knowledge while adapting to new information. The existing solutions include rehearsal-based and rehearsal-free methods to address this challenge. Rehearsal-based approaches rely on knowledge distillation, continuously accumulating forgetting during the distillation process. Rehearsal-free methods insufficiently learn the distribution of each domain, leading to forgetfulness over time. To solve these issues, we propose a novel Distribution-aware Forgetting Compensation (DAFC) model that explores cross-domain shared representation learning and domain-specific distribution integration without using old exemplars or knowledge distillation. We propose a Text-driven Prompt Aggregation (TPA) that utilizes text features to enrich prompt elements and guide the prompt model to learn fine-grained representations for each instance. This can enhance the differentiation of identity information and establish the foundation for domain distribution awareness. Then, Distribution-based Awareness and Integration (DAI) is designed to capture each domain-specific distribution by a dedicated expert network and adaptively consolidate them into a shared region in high-dimensional space. In this manner, DAI can consolidate and enhance cross-domain shared representation learning while alleviating catastrophic forgetting. Furthermore, we develop a Knowledge Consolidation Mechanism (KCM) that comprises instance-level discrimination and cross-domain consistency alignment strategies to facilitate model adaptive learning of new knowledge from the current domain and promote knowledge consolidation learning between acquired domain-specific distributions, respectively. Experimental results show that our DAFC outperforms state-of-the-art methods. Our code is available at https://github.com/LiuShiBen/DAFC.

arxiv情報

著者 Shiben Liu,Huijie Fan,Qiang Wang,Baojie Fan,Yandong Tang,Liangqiong Qu
発行日 2025-04-22 13:05:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Distribution-aware Forgetting Compensation for Exemplar-Free Lifelong Person Re-identification はコメントを受け付けていません

Synergistic Weak-Strong Collaboration by Aligning Preferences

要約

現在の大規模な言語モデル(LLM)は、一般的な推論で優れていますが、独自またはドメイン固有の知識を必要とする特殊なタスクと格闘しています。
ニッチアプリケーションごとに微調整する大きなモデルは、ブラックボックスの制約と高い計算オーバーヘッドのために、しばしば実行不可能です。
これに対処するために、特殊な弱いモデルと一般的な強力なモデルを組み合わせた共同フレームワークを提案します。
特定のドメインに合わせた弱いモデルは、初期ドラフトと背景情報を生成しますが、強力なモデルはこれらのドラフトを改良するための高度な推論を活用し、LLMSの機能を重要でありながら専門的なタスクに拡張します。
このコラボレーションを最適化するために、弱いモデルを微調整するためのコラボレーションフィードバックを紹介します。これは、コラボレーション手順における弱いモデルの貢献の影響を定量化し、弱いモデルの優先チューニングを導く優先ペアを確立します。
3つのドメインでの実験を通じてフレームワークを検証します。
コラボレーションは、相補的な強さを活用することにより、各モデルのみを大幅に上回ることがわかります。
さらに、弱いモデルを共同設定に合わせると、全体的なパフォーマンスがさらに向上します。

要約(オリジナル)

Current Large Language Models (LLMs) excel in general reasoning yet struggle with specialized tasks requiring proprietary or domain-specific knowledge. Fine-tuning large models for every niche application is often infeasible due to black-box constraints and high computational overhead. To address this, we propose a collaborative framework that pairs a specialized weak model with a general strong model. The weak model, tailored to specific domains, produces initial drafts and background information, while the strong model leverages its advanced reasoning to refine these drafts, extending LLMs’ capabilities to critical yet specialized tasks. To optimize this collaboration, we introduce a collaborative feedback to fine-tunes the weak model, which quantifies the influence of the weak model’s contributions in the collaboration procedure and establishes preference pairs to guide preference tuning of the weak model. We validate our framework through experiments on three domains. We find that the collaboration significantly outperforms each model alone by leveraging complementary strengths. Moreover, aligning the weak model with the collaborative preference further enhances overall performance.

arxiv情報

著者 Yizhu Jiao,Xuchao Zhang,Zhaoyang Wang,Yubo Ma,Zhun Deng,Rujia Wang,Chetan Bansal,Saravan Rajmohan,Jiawei Han,Huaxiu Yao
発行日 2025-04-22 04:22:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Synergistic Weak-Strong Collaboration by Aligning Preferences はコメントを受け付けていません

VistaDepth: Frequency Modulation With Bias Reweighting For Enhanced Long-Range Depth Estimation

要約

単眼深度推定(MDE)は、単一のRGB画像からピクセルあたりの深度値を予測することを目的としています。
最近の進歩により、拡散モデルは、条件付き画像生成タスクとしてチャレンジをフレーミングすることにより、効果的なMDEツールとして位置づけられています。
それらの進歩にもかかわらず、これらの方法は、主に深さ値の不均衡な分布と空間領土機能への過度の依存のために、遠い深さを正確に再構築することに苦労します。
これらの制限を克服するために、適応性のある周波数ドメイン特徴の機能強化を適応型重量バランスメカニズムと拡散プロセスに統合する新しいフレームワークであるVistadepthを紹介します。
私たちのアプローチの中心は、潜在周波数変調(LFM)モジュールであり、潜在的な特徴空間のスペクトル応答を動的に改良し、それにより構造の詳細の保存を改善し、ノイズの多いアーティファクトを減らします。
さらに、拡散損失をリアルタイムで調節する適応重み戦略を実装し、遠い深度再構成に対するモデルの感度を高めます。
これらのイノベーションは、距離と詳細の両方で優れた深さの知覚パフォーマンスを集合的にもたらします。
実験的評価では、Vistadepthが拡散ベースのMDE技術の間で最先端のパフォーマンスを達成し、特に遠い地域の正確な再構築に優れていることが確認されています。

要約(オリジナル)

Monocular depth estimation (MDE) aims to predict per-pixel depth values from a single RGB image. Recent advancements have positioned diffusion models as effective MDE tools by framing the challenge as a conditional image generation task. Despite their progress, these methods often struggle with accurately reconstructing distant depths, due largely to the imbalanced distribution of depth values and an over-reliance on spatial-domain features. To overcome these limitations, we introduce VistaDepth, a novel framework that integrates adaptive frequency-domain feature enhancements with an adaptive weight-balancing mechanism into the diffusion process. Central to our approach is the Latent Frequency Modulation (LFM) module, which dynamically refines spectral responses in the latent feature space, thereby improving the preservation of structural details and reducing noisy artifacts. Furthermore, we implement an adaptive weighting strategy that modulates the diffusion loss in real-time, enhancing the model’s sensitivity towards distant depth reconstruction. These innovations collectively result in superior depth perception performance across both distance and detail. Experimental evaluations confirm that VistaDepth achieves state-of-the-art performance among diffusion-based MDE techniques, particularly excelling in the accurate reconstruction of distant regions.

arxiv情報

著者 Mingxia Zhan,Li Zhang,Xiaomeng Chu,Beibei Wang
発行日 2025-04-22 02:05:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VistaDepth: Frequency Modulation With Bias Reweighting For Enhanced Long-Range Depth Estimation はコメントを受け付けていません

DRAWER: Digital Reconstruction and Articulation With Environment Realism

要約

現実世界のデータから仮想デジタルレプリカを作成すると、ゲームやロボット工学などのドメイン全体で重要な可能性が解除されます。
この論文では、静的な屋内シーンのビデオをフォトリアリスティックでインタラクティブなデジタル環境に変換する新しいフレームワークである引き出しを提示します。
私たちのアプローチは、2つの主要な貢献に焦点を当てています。(i)微調整された幾何学的な詳細でシーンを再構築するデュアルシーン表現に基づく再構成モジュールと、(ii)明確なタイプとヒンジの位置を識別する明確な形状を識別し、シミュレーション可能なシェープと外観を再構築し、シンガーに統合します。
結果として得られる仮想環境は、ゲームエンジンとロボットシミュレーションプラットフォームと互換性があり、リアルタイムでフォトリアリスティックでインタラクティブで実行されます。
引き出しを使用して、非現実的なエンジンでインタラクティブなゲームを自動的に作成し、ロボット工学アプリケーションのリアルからリアルへの転送を可能にすることにより、引き出しの可能性を示します。

要約(オリジナル)

Creating virtual digital replicas from real-world data unlocks significant potential across domains like gaming and robotics. In this paper, we present DRAWER, a novel framework that converts a video of a static indoor scene into a photorealistic and interactive digital environment. Our approach centers on two main contributions: (i) a reconstruction module based on a dual scene representation that reconstructs the scene with fine-grained geometric details, and (ii) an articulation module that identifies articulation types and hinge positions, reconstructs simulatable shapes and appearances and integrates them into the scene. The resulting virtual environment is photorealistic, interactive, and runs in real time, with compatibility for game engines and robotic simulation platforms. We demonstrate the potential of DRAWER by using it to automatically create an interactive game in Unreal Engine and to enable real-to-sim-to-real transfer for robotics applications.

arxiv情報

著者 Hongchi Xia,Entong Su,Marius Memmel,Arhan Jain,Raymond Yu,Numfor Mbiziwo-Tiapo,Ali Farhadi,Abhishek Gupta,Shenlong Wang,Wei-Chiu Ma
発行日 2025-04-22 05:50:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | DRAWER: Digital Reconstruction and Articulation With Environment Realism はコメントを受け付けていません

Enhancing Efficiency in Multidevice Federated Learning through Data Selection

要約

ユビキタスなウェアラブルおよびモバイルデバイスは、多様なデータセットへのアクセスを提供します。
ただし、デバイスのモビリティ需要は、自然に計算機能と通信機能に制約を課します。
解決策は、データを元の形式で保存および送信するのではなく、ユビキタスデバイスによってキャプチャされたデータから知識をローカルに学習することです。
このホワイトペーパーでは、Centaurと呼ばれるフェデレート学習フレームワークを開発し、エッジにデバイス上のデータ選択を組み込むことができます。これにより、同じユーザーのマルチデバイスエコシステム内の制約されたデバイスと機知に富んだデバイス間のコラボレーションを通じて、深いニューラルネットのパーティションベースのトレーニングが可能になります。
5つのニューラルネットアーキテクチャと、画像データとウェアラブルセンサーの時系列を含む6つのデータセットについてベンチマークします。
平均して、Centaurは、ベースラインと比較して、分類精度が約19%高く、連邦トレーニングのレイテンシを約58%達成します。
また、不均衡な非IIDデータ、クライアント参加の不均一性、およびさまざまなモビリティパターンを扱うときにCentaurを評価します。
この分野でのさらなる研究を奨励するために、https://github.com/nokia-bell-labs/data-centric-federated-learningでコードをリリースします

要約(オリジナル)

Ubiquitous wearable and mobile devices provide access to a diverse set of data. However, the mobility demand for our devices naturally imposes constraints on their computational and communication capabilities. A solution is to locally learn knowledge from data captured by ubiquitous devices, rather than to store and transmit the data in its original form. In this paper, we develop a federated learning framework, called Centaur, to incorporate on-device data selection at the edge, which allows partition-based training of a deep neural nets through collaboration between constrained and resourceful devices within the multidevice ecosystem of the same user. We benchmark on five neural net architecture and six datasets that include image data and wearable sensor time series. On average, Centaur achieves ~19% higher classification accuracy and ~58% lower federated training latency, compared to the baseline. We also evaluate Centaur when dealing with imbalanced non-iid data, client participation heterogeneity, and different mobility patterns. To encourage further research in this area, we release our code at https://github.com/nokia-bell-labs/data-centric-federated-learning

arxiv情報

著者 Fan Mo,Mohammad Malekzadeh,Soumyajit Chatterjee,Fahim Kawsar,Akhil Mathur
発行日 2025-04-21 14:43:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Enhancing Efficiency in Multidevice Federated Learning through Data Selection はコメントを受け付けていません

RadarTrack: Enhancing Ego-Vehicle Speed Estimation with Single-chip mmWave Radar

要約

この作業では、モバイルプラットフォームに堅牢な速度推定を実現するために、シングルチップミリ波(MMWave)レーダーを使用した革新的な自我速度推定フレームワークであるRadarTrackを紹介します。
クロスモーダル学習や計算集中的な深い神経ネットワーク(DNNS)に依存する以前の方法とは異なり、RadarTrackは新しい位相ベースの速度推定アプローチを利用しています。
この方法は、ドップラーの測定と静的なサルロンに依存する従来の自我速度推定アプローチの限界を効果的に克服します。
RadarTrackは、埋め込みプラットフォーム上の低遅延操作用に設計されており、速度と効率が重要なリアルタイムアプリケーションに適しています。
私たちの主な貢献には、信号処理のみに基づいて、新しい位相ベースの速度推定手法の導入と、広範な現実世界の評価を通じて検証されたリアルタイムプロトタイプの実装が含まれます。
自我速度の推定に信頼性の高い軽量ソリューションを提供することにより、RadarTrackは、マイクロロバティック、拡張現実、自律ナビゲーションなど、幅広いアプリケーションの重大な可能性を保持します。

要約(オリジナル)

In this work, we introduce RadarTrack, an innovative ego-speed estimation framework utilizing a single-chip millimeter-wave (mmWave) radar to deliver robust speed estimation for mobile platforms. Unlike previous methods that depend on cross-modal learning and computationally intensive Deep Neural Networks (DNNs), RadarTrack utilizes a novel phase-based speed estimation approach. This method effectively overcomes the limitations of conventional ego-speed estimation approaches which rely on doppler measurements and static surrondings. RadarTrack is designed for low-latency operation on embedded platforms, making it suitable for real-time applications where speed and efficiency are critical. Our key contributions include the introduction of a novel phase-based speed estimation technique solely based on signal processing and the implementation of a real-time prototype validated through extensive real-world evaluations. By providing a reliable and lightweight solution for ego-speed estimation, RadarTrack holds significant potential for a wide range of applications, including micro-robotics, augmented reality, and autonomous navigation.

arxiv情報

著者 Argha Sen,Soham Chakraborty,Soham Tripathy,Sandip Chakraborty
発行日 2025-04-20 05:17:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | RadarTrack: Enhancing Ego-Vehicle Speed Estimation with Single-chip mmWave Radar はコメントを受け付けていません