Centaur: Robust End-to-End Autonomous Driving with Test-Time Training

要約

展開中にエンドツーエンドの自動運転車の複雑な意思決定システムにどのように依存できますか?
一般的な解決策の1つは、ルール違反のために計画された軌道をチェックし、必要に応じて事前に定義された安全なアクションに置き換える「フォールバック層」を持つことです。
別のアプローチでは、プランナーの決定を調整して、道路レイアウトや検出された障害などの追加のシステム予測を使用して、事前に定義された「コスト関数」を最小限に抑えることです。
ただし、これらの事前にプログラムされたルールまたはコスト関数は、新しいトレーニングデータで学習して改善することはできず、しばしば過度に保守的な行動をとることができます。
この作業では、手作業のルールやコスト関数に依存することなく、テスト時間トレーニングを介してプランナーの動作を更新するCentaur(不確実性を使用したテスト時間トレーニングのクラスターエントロピー)を提案します。
代わりに、プランナーの決定の不確実性を測定して最小化します。
このために、クラスターエントロピーと呼ばれる新しい不確実性尺度を開発します。これは、シンプルで解釈可能で、最先端の計画アルゴリズムと互換性があります。
以前のテスト時間時間ステップで収集されたデータを使用して、クラスターエントロピーを最小限に抑える勾配を使用してモデルのパラメーターの更新を実行します。
推論の前にこの唯一のグラデーションアップデートのみで、Centaurは大幅な改善を示し、Navtestリーダーボードで最初にランク付けされ、衝突する時間などの安全性の高いメトリックが顕著に利益を得ます。
セナリオごとの詳細な洞察を提供するために、以前は未発見だった運転モデル​​の障害モードを強調する挑戦的な新しいベンチマークであるNavsafeも紹介します。

要約(オリジナル)

How can we rely on an end-to-end autonomous vehicle’s complex decision-making system during deployment? One common solution is to have a “fallback layer” that checks the planned trajectory for rule violations and replaces it with a pre-defined safe action if necessary. Another approach involves adjusting the planner’s decisions to minimize a pre-defined “cost function” using additional system predictions such as road layouts and detected obstacles. However, these pre-programmed rules or cost functions cannot learn and improve with new training data, often resulting in overly conservative behaviors. In this work, we propose Centaur (Cluster Entropy for Test-time trAining using Uncertainty) which updates a planner’s behavior via test-time training, without relying on hand-engineered rules or cost functions. Instead, we measure and minimize the uncertainty in the planner’s decisions. For this, we develop a novel uncertainty measure, called Cluster Entropy, which is simple, interpretable, and compatible with state-of-the-art planning algorithms. Using data collected at prior test-time time-steps, we perform an update to the model’s parameters using a gradient that minimizes the Cluster Entropy. With only this sole gradient update prior to inference, Centaur exhibits significant improvements, ranking first on the navtest leaderboard with notable gains in safety-critical metrics such as time to collision. To provide detailed insights on a per-scenario basis, we also introduce navsafe, a challenging new benchmark, which highlights previously undiscovered failure modes of driving models.

arxiv情報

著者 Chonghao Sima,Kashyap Chitta,Zhiding Yu,Shiyi Lan,Ping Luo,Andreas Geiger,Hongyang Li,Jose M. Alvarez
発行日 2025-03-14 17:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Centaur: Robust End-to-End Autonomous Driving with Test-Time Training はコメントを受け付けていません

VGGT: Visual Geometry Grounded Transformer

要約

VGGTは、カメラパラメーター、ポイントマップ、深度マップ、3Dポイントトラックなど、そのビュー、または数百のビューから、カメラパラメーター、ポイントマップ、深度マップ、3Dポイントトラックなど、シーンのすべての主要な3D属性を直接推進するフィードフォワードニューラルネットワークを提示します。
このアプローチは、3Dコンピュータービジョンでの一歩前進であり、モデルは通常、単一のタスクに制約され、専門化されています。
また、シンプルで効率的で、画像を1秒未満で再構築し、視覚的なジオメトリ最適化技術を使用して後処理を必要とする代替品を引き続き上回っています。
このネットワークは、カメラパラメーターの推定、マルチビュー深度推定、密度の高いポイントクラウド再構成、3Dポイント追跡など、複数の3Dタスクで最先端の結果を達成します。
また、前処理されたVGGTを機能バックボーンとして使用すると、非剛性ポイント追跡やフィードフォワードの新規ビューの合成など、下流のタスクが大幅に向上することも示しています。
コードとモデルは、https://github.com/facebookresearch/vggtで公開されています。

要約(オリジナル)

We present VGGT, a feed-forward neural network that directly infers all key 3D attributes of a scene, including camera parameters, point maps, depth maps, and 3D point tracks, from one, a few, or hundreds of its views. This approach is a step forward in 3D computer vision, where models have typically been constrained to and specialized for single tasks. It is also simple and efficient, reconstructing images in under one second, and still outperforming alternatives that require post-processing with visual geometry optimization techniques. The network achieves state-of-the-art results in multiple 3D tasks, including camera parameter estimation, multi-view depth estimation, dense point cloud reconstruction, and 3D point tracking. We also show that using pretrained VGGT as a feature backbone significantly enhances downstream tasks, such as non-rigid point tracking and feed-forward novel view synthesis. Code and models are publicly available at https://github.com/facebookresearch/vggt.

arxiv情報

著者 Jianyuan Wang,Minghao Chen,Nikita Karaev,Andrea Vedaldi,Christian Rupprecht,David Novotny
発行日 2025-03-14 17:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VGGT: Visual Geometry Grounded Transformer はコメントを受け付けていません

Bring Your Rear Cameras for Egocentric 3D Human Pose Estimation

要約

エゴセントリック3Dヒトポーズ推定は、ヘッドマウントデバイス(HMD)の前に設置されたカメラを使用して積極的に研究されています。
正面配置は最適であり、手の追跡などの一部のタスクの唯一のオプションですが、自己閉鎖と視野のフィールドカバレッジが限られているため、全身追跡についても同じものが保持されるかどうかは不明のままです。
特に、最先端の方法でさえ、HMDユーザーが頭を上に傾けるときなど、多くのシナリオで正確な3Dポーズを推定できないことがよくあります(人間の活動での共通の動き)。
既存のHMDデザインの重要な制限は、重要な3D再構成の手がかりを提供する可能性があるにもかかわらず、身体の背中を無視することです。
したがって、このペーパーでは、全身追跡のためのHMD設計におけるリアカメラの有用性を調査します。
また、正面入力に後部ビューを追加するだけで、効果的なマルチビュー統合なしで個々の2Dジョイント検出器への依存度があるため、既存の方法には最適ではないことも示しています。
この問題に対処するために、マルチビュー情報とヒートマップの不確実性を備えた2Dジョイントヒートマップの推定を改良する新しい変圧器ベースの方法を提案し、それにより3Dポーズ追跡を改善します。
さらに、リアビュー評価のために、2つの新しい大規模なデータセット、ego4view-synとego4view-rwを紹介します。
私たちの実験は、バックビューを備えた新しいカメラ構成が、正面の配置のみと比較して3Dポーズ追跡を優れたサポートを提供することを示しています。
提案された方法は、現在の最新技術よりも大幅に改善されています(MPJPEで10%以上)。
プロジェクトページhttps://4dqv.mpi-inf.mpg.de/egorear/でソースコード、トレーニングモデル、および新しいデータセットをリリースします。

要約(オリジナル)

Egocentric 3D human pose estimation has been actively studied using cameras installed in front of a head-mounted device (HMD). While frontal placement is the optimal and the only option for some tasks, such as hand tracking, it remains unclear if the same holds for full-body tracking due to self-occlusion and limited field-of-view coverage. Notably, even the state-of-the-art methods often fail to estimate accurate 3D poses in many scenarios, such as when HMD users tilt their heads upward (a common motion in human activities). A key limitation of existing HMD designs is their neglect of the back of the body, despite its potential to provide crucial 3D reconstruction cues. Hence, this paper investigates the usefulness of rear cameras in the HMD design for full-body tracking. We also show that simply adding rear views to the frontal inputs is not optimal for existing methods due to their dependence on individual 2D joint detectors without effective multi-view integration. To address this issue, we propose a new transformer-based method that refines 2D joint heatmap estimation with multi-view information and heatmap uncertainty, thereby improving 3D pose tracking. Moreover, we introduce two new large-scale datasets, Ego4View-Syn and Ego4View-RW, for a rear-view evaluation. Our experiments show that the new camera configurations with back views provide superior support for 3D pose tracking compared to only frontal placements. The proposed method achieves significant improvement over the current state of the art (>10% on MPJPE). We will release the source code, trained models, and new datasets on our project page https://4dqv.mpi-inf.mpg.de/EgoRear/.

arxiv情報

著者 Hiroyasu Akada,Jian Wang,Vladislav Golyanik,Christian Theobalt
発行日 2025-03-14 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Bring Your Rear Cameras for Egocentric 3D Human Pose Estimation はコメントを受け付けていません

LEVA: A high-mobility logistic vehicle with legged suspension

要約

挑戦的な地形に対する材料の自律的な輸送は、大きな経済的影響を伴う挑戦であり、未解決のままです。
このペーパーでは、農業、建設、捜索救助活動に典型的なものを含む、さまざまな地形で自律的な物流のために設計された、高給の高度で高モビリティロボットであるLevaを紹介します。
Levaは、並列運動学を使用して高度な脚のサスペンションシステムをユニークに統合します。
RLコントローラーを使用して階段を通過でき、操縦可能なホイールを備えており、自律的なペイロードの荷重と、不均一な表面全体で最大85 kgの正確で信頼できる貨物輸送を可能にする特殊なボックスピックアップメカニズムが含まれています。
LEVAは、広範な実験的検証を通じて、ペイロードの負荷と輸送に関するオフロードの能力と信頼性を実証します。

要約(オリジナル)

The autonomous transportation of materials over challenging terrain is a challenge with major economic implications and remains unsolved. This paper introduces LEVA, a high-payload, high-mobility robot designed for autonomous logistics across varied terrains, including those typical in agriculture, construction, and search and rescue operations. LEVA uniquely integrates an advanced legged suspension system using parallel kinematics. It is capable of traversing stairs using a rl controller, has steerable wheels, and includes a specialized box pickup mechanism that enables autonomous payload loading as well as precise and reliable cargo transportation of up to 85 kg across uneven surfaces, steps and inclines while maintaining a cot of as low as 0.15. Through extensive experimental validation, LEVA demonstrates its off-road capabilities and reliability regarding payload loading and transport.

arxiv情報

著者 Marco Arnold,Lukas Hildebrandt,Kaspar Janssen,Efe Ongan,Pascal Bürge,Ádám Gyula Gábriel,James Kennedy,Rishi Lolla,Quanisha Oppliger,Micha Schaaf,Joseph Church,Michael Fritsche,Victor Klemm,Turcan Tuna,Giorgio Valsecchi,Cedric Weibel,Marco Hutter,Michael Wütrich
発行日 2025-03-14 13:56:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | LEVA: A high-mobility logistic vehicle with legged suspension はコメントを受け付けていません

An Expanded Massive Multilingual Dataset for High-Performance Language Technologies

要約

最先端の大規模な言語モデルのトレーニングには、膨大な量のクリーンで多様なテキストデータが必要です。
ただし、適切な多言語データセットの構築は依然として課題です。
この作業では、高品質の多言語の単一言語および並列コーパスのコレクションであるHPLT V2を紹介します。
データの単一言語部分には、193の言語をカバーする8Tトークンが含まれていますが、並列データには51の言語をカバーする380mの文のペアが含まれています。
データパイプライン全体を文書化し、コードをリリースして再現します。
データの品質と特性の広範な分析を提供します。
最後に、HPLT V2でトレーニングされた言語モデルと機械翻訳システムのパフォーマンスを評価し、その価値を示します。

要約(オリジナル)

Training state-of-the-art large language models requires vast amounts of clean and diverse textual data. However, building suitable multilingual datasets remains a challenge. In this work, we present HPLT v2, a collection of high-quality multilingual monolingual and parallel corpora. The monolingual portion of the data contains 8T tokens covering 193 languages, while the parallel data contains 380M sentence pairs covering 51 languages. We document the entire data pipeline and release the code to reproduce it. We provide extensive analysis of the quality and characteristics of our data. Finally, we evaluate the performance of language models and machine translation systems trained on HPLT v2, demonstrating its value.

arxiv情報

著者 Laurie Burchell,Ona de Gibert,Nikolay Arefyev,Mikko Aulamo,Marta Bañón,Pinzhen Chen,Mariia Fedorova,Liane Guillou,Barry Haddow,Jan Hajič,Jindřich Helcl,Erik Henriksson,Mateusz Klimaszewski,Ville Komulainen,Andrey Kutuzov,Joona Kytöniemi,Veronika Laippala,Petter Mæhlum,Bhavitvya Malik,Farrokh Mehryary,Vladislav Mikhailov,Nikita Moghe,Amanda Myntti,Dayyán O’Brien,Stephan Oepen,Proyag Pal,Jousia Piha,Sampo Pyysalo,Gema Ramírez-Sánchez,David Samuel,Pavel Stepachev,Jörg Tiedemann,Dušan Variš,Tereza Vojtěchová,Jaume Zaragoza-Bernabeu
発行日 2025-03-14 12:48:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | An Expanded Massive Multilingual Dataset for High-Performance Language Technologies はコメントを受け付けていません

New Trends for Modern Machine Translation with Large Reasoning Models

要約

大規模な推論モデル(LRMS)、特にチェーンオブテーマの推論(COT)を活用する最近の進歩は、機械翻訳(MT)の新しい可能性を開きました。
このポジションペーパーでは、LRMSは、コンテキスト、文化、言語の理解と推論を必要とする動的な推論タスクとして翻訳を再構成することにより、LLMSベースのMTパラダイムと同様に、従来のニューラルMTとLLMSベースのMTパラダイムを実質的に変換したと主張しています。
3つの基本的な変化を特定します。1)文脈的一貫性。これにより、LRMは曖昧さを解決し、横断的および複雑な文脈、または文脈の欠如をめぐる明示的な推論を通じて談話構造を維持します。
2)文化的意図、モデルがスピーカーの意図、聴衆の期待、および社会言語的規範を推測することにより、モデルが出力を適応できるようにする。
3)自己反省、LRMSは、推論時間中に自己反省を実行して、翻訳の潜在的なエラーを修正することができます。
翻訳におけるLRMの優位性を示す経験的例を紹介することにより、様式化された翻訳、ドキュメントレベルの翻訳、マルチモーダル翻訳など、翻訳のさまざまなシナリオを探ります。
また、自動ピボット翻訳や、翻訳の過剰局在や推論効率などの重要な課題を含む、MTのLRMSの興味深い現象をいくつか特定します。
結論として、LRMSは、テキストコンバーターだけでなく、テキストを超えた意味について推論できる多言語認知エージェントとして再定義すると考えています。
このパラダイムシフトは、LRMSとはるかに広いコンテキストで、従来の翻訳シナリオを超えて翻訳の問題を考えることを思い出させます – その上で達成できること。

要約(オリジナル)

Recent advances in Large Reasoning Models (LRMs), particularly those leveraging Chain-of-Thought reasoning (CoT), have opened brand new possibility for Machine Translation (MT). This position paper argues that LRMs substantially transformed traditional neural MT as well as LLMs-based MT paradigms by reframing translation as a dynamic reasoning task that requires contextual, cultural, and linguistic understanding and reasoning. We identify three foundational shifts: 1) contextual coherence, where LRMs resolve ambiguities and preserve discourse structure through explicit reasoning over cross-sentence and complex context or even lack of context; 2) cultural intentionality, enabling models to adapt outputs by inferring speaker intent, audience expectations, and socio-linguistic norms; 3) self-reflection, LRMs can perform self-reflection during the inference time to correct the potential errors in translation especially extremely noisy cases, showing better robustness compared to simply mapping X->Y translation. We explore various scenarios in translation including stylized translation, document-level translation and multimodal translation by showcasing empirical examples that demonstrate the superiority of LRMs in translation. We also identify several interesting phenomenons for LRMs for MT including auto-pivot translation as well as the critical challenges such as over-localisation in translation and inference efficiency. In conclusion, we think that LRMs redefine translation systems not merely as text converters but as multilingual cognitive agents capable of reasoning about meaning beyond the text. This paradigm shift reminds us to think of problems in translation beyond traditional translation scenarios in a much broader context with LRMs – what we can achieve on top of it.

arxiv情報

著者 Sinuo Liu,Chenyang Lyu,Minghao Wu,Longyue Wang,Weihua Luo,Kaifu Zhang,Zifu Shang
発行日 2025-03-14 12:09:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | New Trends for Modern Machine Translation with Large Reasoning Models はコメントを受け付けていません

Distilling Diversity and Control in Diffusion Models

要約

蒸留拡散モデルは、重大な制限に悩まされています。サンプルの多様性の低下と比較して、ベースのカウンターパートです。
この作業では、この多様性の損失にもかかわらず、蒸留モデルがベースモデルの基本的な概念表現を保持していることを明らかにします。
コントロール蒸留を示します – ベースモデルでトレーニングされた概念スライダーやLORASなどの制御メカニズムをシームレスに蒸留モデルに転送し、その逆に、再訓練なしで効果的にコントロールを蒸留することができます。
この表現構造の保存により、蒸留中の多様性崩壊のメカニズムに関する調査が促されました。
蒸留が多様性にどのように影響するかを理解するために、モデルが中間ステップで最終出力を予測する方法を明らかにする分析とデバッグツールである拡散ターゲット(DT)の視覚化を導入します。
DT視覚化を通じて、世代のアーティファクト、矛盾を特定し、初期の拡散時のタイムステップが出力の多様性を不釣り合いに決定し、その後のステップが主に詳細を改善することを実証します。
これらの洞察に基づいて、多様性の蒸留を導入します。これは、効率的な蒸留モデルに移行する前に、最初の批判的なタイムステップのみに基本モデルを戦略的に使用するハイブリッド推論アプローチです。
私たちの実験は、この単純な変更により、多様性能力が基本モデルから蒸留モデルへの能力を回復するだけでなく、驚くべきことにそれを超え、蒸留推論のほぼ計算効率を維持し、すべて追加のトレーニングやモデルの変更を必要とせずに維持することを示しています。
私たちのコードとデータは、https://distillation.baulab.infoで入手できます

要約(オリジナル)

Distilled diffusion models suffer from a critical limitation: reduced sample diversity compared to their base counterparts. In this work, we uncover that despite this diversity loss, distilled models retain the fundamental concept representations of base models. We demonstrate control distillation – where control mechanisms like Concept Sliders and LoRAs trained on base models can be seamlessly transferred to distilled models and vice-versa, effectively distilling control without any retraining. This preservation of representational structure prompted our investigation into the mechanisms of diversity collapse during distillation. To understand how distillation affects diversity, we introduce Diffusion Target (DT) Visualization, an analysis and debugging tool that reveals how models predict final outputs at intermediate steps. Through DT-Visualization, we identify generation artifacts, inconsistencies, and demonstrate that initial diffusion timesteps disproportionately determine output diversity, while later steps primarily refine details. Based on these insights, we introduce diversity distillation – a hybrid inference approach that strategically employs the base model for only the first critical timestep before transitioning to the efficient distilled model. Our experiments demonstrate that this simple modification not only restores the diversity capabilities from base to distilled models but surprisingly exceeds it, while maintaining nearly the computational efficiency of distilled inference, all without requiring additional training or model modifications. Our code and data are available at https://distillation.baulab.info

arxiv情報

著者 Rohit Gandikota,David Bau
発行日 2025-03-14 13:11:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Distilling Diversity and Control in Diffusion Models はコメントを受け付けていません

PEMF-VTO: Point-Enhanced Video Virtual Try-on via Mask-free Paradigm

要約

Video Virtual Try-Onは、視覚的な忠実度と時間的一貫性の両方を維持しながら、ビデオのターゲット担当者に参照衣服をシームレスに転送することを目的としています。
既存の方法は、通常、マスクの入力に依存して試行領域を定義し、シンプルなシーンの正確な衣服の転送を可能にします(たとえば、ショップ内のビデオなど)。
ただし、これらのマスクベースのアプローチは、複雑な現実世界のシナリオと格闘しています。これは、過度に大きくて一貫性のないマスクが空間的情報を破壊し、歪んだ結果につながるためです。
マスクフリーの方法はこの問題を軽減しますが、特にダイナミックな体の動きを持つビデオのトライオンエリアを正確に決定する際に課題に直面しています。
これらの制限に対処するために、PEMF-VTOを提案します。PEMF-VTOは、スパースポイントアラインメントを活用して衣服移動を明示的にガイドする新しいポイント強化されたビデオバーチャルトライドオンフレームワークです。
私たちの主要な革新は、ポイント強化ガイダンスの導入です。これは、空間レベルの衣服の転送と時間レベルのビデオコヒーレンスの両方を柔軟で信頼できる制御を提供します。
具体的には、2つのコアコンポーネントを備えたポイント強化変圧器(PET)を設計します。ポイント強度の空間的注意(PSA)は、フレームクロスポイントアラインメントを使用して衣服移動を正確に導き、ポイント強度の時間的注意(PTA)を設計します。
広範な実験は、PEMF-VTOが最先端の方法を上回り、特に挑戦的なワイルドシナリオのために、より自然で一貫した、視覚的に魅力的なトライオンビデオを生成することを示しています。
紙のホームページへのリンクはhttps://pemf-vto.github.io/です。

要約(オリジナル)

Video Virtual Try-on aims to seamlessly transfer a reference garment onto a target person in a video while preserving both visual fidelity and temporal coherence. Existing methods typically rely on inpainting masks to define the try-on area, enabling accurate garment transfer for simple scenes (e.g., in-shop videos). However, these mask-based approaches struggle with complex real-world scenarios, as overly large and inconsistent masks often destroy spatial-temporal information, leading to distorted results. Mask-free methods alleviate this issue but face challenges in accurately determining the try-on area, especially for videos with dynamic body movements. To address these limitations, we propose PEMF-VTO, a novel Point-Enhanced Mask-Free Video Virtual Try-On framework that leverages sparse point alignments to explicitly guide garment transfer. Our key innovation is the introduction of point-enhanced guidance, which provides flexible and reliable control over both spatial-level garment transfer and temporal-level video coherence. Specifically, we design a Point-Enhanced Transformer (PET) with two core components: Point-Enhanced Spatial Attention (PSA), which uses frame-cloth point alignments to precisely guide garment transfer, and Point-Enhanced Temporal Attention (PTA), which leverages frame-frame point correspondences to enhance temporal coherence and ensure smooth transitions across frames. Extensive experiments demonstrate that our PEMF-VTO outperforms state-of-the-art methods, generating more natural, coherent, and visually appealing try-on videos, particularly for challenging in-the-wild scenarios. The link to our paper’s homepage is https://pemf-vto.github.io/.

arxiv情報

著者 Tianyu Chang,Xiaohao Chen,Zhichao Wei,Xuanpu Zhang,Qing-Guo Chen,Weihua Luo,Peipei Song,Xun Yang
発行日 2025-03-14 10:07:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | PEMF-VTO: Point-Enhanced Video Virtual Try-on via Mask-free Paradigm はコメントを受け付けていません

dFLMoE: Decentralized Federated Learning via Mixture of Experts for Medical Data Analysis

要約

Federated Learningは、医療分野で幅広い用途を持っています。
これにより、患者のプライバシーを保護しながら、さまざまな医療機関間で知識共有を可能にします。
ただし、既存のフェデレーション学習システムは通常集中化されており、クライアントが集合のためにクライアント固有の知識を中央サーバーにアップロードする必要があります。
この集中化されたアプローチは、各クライアントの知識を集中サーバーに統合し、各クライアントに戻る前に集中統合中に知識がすでに損なわれています。
また、集中化されたアプローチは、セントラルサーバーへの依存性も生成します。これは、サーバーの誤動作または接続が不安定な場合のトレーニングの安定性に影響を与える可能性があります。
これらの問題に対処するために、DFLMOEという名前の分散化された連邦学習フレームワークを提案します。
私たちのフレームワークでは、クライアントは軽量のヘッドモデルを互いに直接交換します。
交換後、各クライアントはローカルモデルと受信したヘッドモデルの両方を個々の専門家として扱い、クライアント固有の専門家(MOE)アプローチの混合物を利用して、集合的な決定を下します。
この設計により、クライアント固有の集約による知識のダメージが軽減されるだけでなく、フレームワークの堅牢性を高めるために中央サーバーへの依存性を削除します。
複数の医療タスクに関するフレームワークを検証し、モデルの均一性と不均一性の両方の設定の下で、この方法が最先端のアプローチを明らかに上回ることを実証します。

要約(オリジナル)

Federated learning has wide applications in the medical field. It enables knowledge sharing among different healthcare institutes while protecting patients’ privacy. However, existing federated learning systems are typically centralized, requiring clients to upload client-specific knowledge to a central server for aggregation. This centralized approach would integrate the knowledge from each client into a centralized server, and the knowledge would be already undermined during the centralized integration before it reaches back to each client. Besides, the centralized approach also creates a dependency on the central server, which may affect training stability if the server malfunctions or connections are unstable. To address these issues, we propose a decentralized federated learning framework named dFLMoE. In our framework, clients directly exchange lightweight head models with each other. After exchanging, each client treats both local and received head models as individual experts, and utilizes a client-specific Mixture of Experts (MoE) approach to make collective decisions. This design not only reduces the knowledge damage with client-specific aggregations but also removes the dependency on the central server to enhance the robustness of the framework. We validate our framework on multiple medical tasks, demonstrating that our method evidently outperforms state-of-the-art approaches under both model homogeneity and heterogeneity settings.

arxiv情報

著者 Luyuan Xie,Tianyu Luan,Wenyuan Cai,Guochen Yan,Zhaoyu Chen,Nan Xi,Yuejian Fang,Qingni Shen,Zhonghai Wu,Junsong Yuan
発行日 2025-03-14 05:16:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | dFLMoE: Decentralized Federated Learning via Mixture of Experts for Medical Data Analysis はコメントを受け付けていません

Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation

要約

感情的な模倣強度(EMI)推定は、人間の社会的行動を理解し、人間とコンピューターの相互作用体験を強化するための重要な技術として機能します。ここでは、コアチャレンジは動的相関モデリングとマルチモーダル時間信号の堅牢な融合にあります。
モーダルの相乗効果、ノイズ感度、限られた微調整されたアライメント機能の不十分な活用における既存の方法の制限に対処するために、このペーパーでは、デュアルステージクロスモーダルアライメントフレームワークを提案します。
まず、改良されたクリップアーキテクチャに基づいてビジョンテキストとオーディオテキストのコントラスト学習ネットワークを構築し、モダリティ分離前トレーニングを通じて機能空間で予備的な調整を実現します。
その後、一時的な畳み込みネットワーク(TCN)とゲートの双方向LSTMを組み合わせた一時的に認識された動的融合モジュールを設計して、それぞれ表情のマクロ進化パターンと音響特徴の局所的なダイナミクスをキャプチャします。
革新的には、輝く重みの割り当てを通じて、閉塞および騒々しいシナリオの下でモダリティ補正を可能にする品質誘導モダリティ融合戦略を導入します。
Hume-Vidmimic2データセットの実験結果は、私たちの方法が6つの感情次元にわたって0.35の平均ピアソン相関係数を達成し、最高のベースラインを40 \%上に上回ることを示しています。
アブレーション研究は、デュアルステージトレーニング戦略と動的融合メカニズムの有効性をさらに検証し、オープン環境で微調整された感情分析のための新しい技術的経路を提供します。

要約(オリジナル)

Emotional Mimicry Intensity (EMI) estimation serves as a critical technology for understanding human social behavior and enhancing human-computer interaction experiences, where the core challenge lies in dynamic correlation modeling and robust fusion of multimodal temporal signals. To address the limitations of existing methods in insufficient exploitation of modal synergistic effects, noise sensitivity, and limited fine-grained alignment capabilities, this paper proposes a dual-stage cross-modal alignment framework. First, we construct vision-text and audio-text contrastive learning networks based on an improved CLIP architecture, achieving preliminary alignment in the feature space through modality-decoupled pre-training. Subsequently, we design a temporal-aware dynamic fusion module that combines Temporal Convolutional Networks (TCN) and gated bidirectional LSTM to respectively capture the macro-evolution patterns of facial expressions and local dynamics of acoustic features. Innovatively, we introduce a quality-guided modality fusion strategy that enables modality compensation under occlusion and noisy scenarios through differentiable weight allocation. Experimental results on the Hume-Vidmimic2 dataset demonstrate that our method achieves an average Pearson correlation coefficient of 0.35 across six emotion dimensions, outperforming the best baseline by 40\%. Ablation studies further validate the effectiveness of the dual-stage training strategy and dynamic fusion mechanism, providing a novel technical pathway for fine-grained emotion analysis in open environments.

arxiv情報

著者 Jun Yu,Lingsi Zhu,Yanjun Chi,Yunxiang Zhang,Yang Zheng,Yongqi Wang,Xilong Lu
発行日 2025-03-14 09:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation はコメントを受け付けていません