An End-to-End Robust Point Cloud Semantic Segmentation Network with Single-Step Conditional Diffusion Models

要約

ノイズコンディショナルフレームワーク(NCF)を使用した既存の条件除去拡散確率モデル(DDPMS)は、シーンの複雑な幾何学的詳細がセマンティックラベルからのデータ分布(スコア)の勾配(スコア)の適合の難しさを高めるため、3Dシーンを理解するために困難なままです。
これにより、非DDPMSと比較してDDPMのトレーニングと推論時間が長くなります。
別の観点から、条件付きネットワークが支配するモデルパラダイムを深く掘り下げます。
このホワイトペーパーでは、Cdsegnetという名前のDDPMSの条件付きノイズフレームワーク(CNF)に基づいて、エンドツーエンドの堅牢なセマンティックセグメンテーションネットワークを提案します。
具体的には、CdSegnetは、ノイズネットワーク(NN)を学習可能なノイズフィーチャージェネレーターとしてモデル化します。
これにより、条件付きネットワーク(CN)は、マルチレベルの特徴の摂動の下で3Dシーンセマンティクスを理解し、目に見えないシーンの一般化を強化することができます。
一方、DDPMSのノイズシステムの恩恵を受けるCdsegnetは、実験で強いノイズとスパース性の堅牢性を示します。
さらに、CNFのおかげで、CdSegnetは、CdSegnetの支配的なネットワークのセマンティックラベルのスコアを直接適合させることを回避するため、非DDPMSのような単一ステップの推論でセマンティックラベルを生成できます。
公共の屋内および屋外のベンチマークでは、cdsegnetは既存の方法を大幅に上回り、最先端のパフォーマンスを実現します。

要約(オリジナル)

Existing conditional Denoising Diffusion Probabilistic Models (DDPMs) with a Noise-Conditional Framework (NCF) remain challenging for 3D scene understanding tasks, as the complex geometric details in scenes increase the difficulty of fitting the gradients of the data distribution (the scores) from semantic labels. This also results in longer training and inference time for DDPMs compared to non-DDPMs. From a different perspective, we delve deeply into the model paradigm dominated by the Conditional Network. In this paper, we propose an end-to-end robust semantic Segmentation Network based on a Conditional-Noise Framework (CNF) of DDPMs, named CDSegNet. Specifically, CDSegNet models the Noise Network (NN) as a learnable noise-feature generator. This enables the Conditional Network (CN) to understand 3D scene semantics under multi-level feature perturbations, enhancing the generalization in unseen scenes. Meanwhile, benefiting from the noise system of DDPMs, CDSegNet exhibits strong noise and sparsity robustness in experiments. Moreover, thanks to CNF, CDSegNet can generate the semantic labels in a single-step inference like non-DDPMs, due to avoiding directly fitting the scores from semantic labels in the dominant network of CDSegNet. On public indoor and outdoor benchmarks, CDSegNet significantly outperforms existing methods, achieving state-of-the-art performance.

arxiv情報

著者 Wentao Qu,Jing Wang,YongShun Gong,Xiaoshui Huang,Liang Xiao
発行日 2025-04-01 08:48:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | An End-to-End Robust Point Cloud Semantic Segmentation Network with Single-Step Conditional Diffusion Models はコメントを受け付けていません

Lie Detector: Unified Backdoor Detection via Cross-Examination Framework

要約

データおよびコンピューティングリソースが限られている機関は、事前に定義された学習パラダイム(監視済みまたは半監視学習)を備えた規定のトレーニングプロトコルの順守を想定して、半分の環境でサードパーティプロバイダーにモデルトレーニングを外部委託することがよくあります。
ただし、敵がトレーニングデータを毒殺してバックドアを得られたモデルに埋め込む可能性があるため、このプラクティスは深刻なセキュリティリスクを導入する可能性があります。
既存の検出アプローチは、主に統計分析に依存しています。統計分析は、さまざまな学習パラダイム全体で普遍的に正確な検出精度を維持できないことがよくあります。
この課題に対処するために、2つの独立したサービスプロバイダー間でモデルの矛盾の反対尋問を悪用する半正面設定で、統一されたバックドア検出フレームワークを提案します。
具体的には、中央のカーネルアライメントを統合して、さまざまなモデルアーキテクチャと学習パラダイムで堅牢な特徴の類似性測定を可能にし、それにより、バックドアトリガーの正確な回復と識別を促進します。
さらに、バックドアの微調整された感度分析を導入して、バックドアトリガーを敵対的な摂動と区別し、誤検知を大幅に減らします。
広範な実験では、この方法が優れた検出性能を達成し、それぞれ監視、半監視、および自己回帰学習タスク全体でSOTAベースラインで5.4%、1.6%、および11.9%を改善することが示されています。
特に、マルチモーダルの大手言語モデルでバックドアを効果的に検出したのは最初であり、その幅広い適用性と安全な深い学習の進歩をさらに強調しています。

要約(オリジナル)

Institutions with limited data and computing resources often outsource model training to third-party providers in a semi-honest setting, assuming adherence to prescribed training protocols with pre-defined learning paradigm (e.g., supervised or semi-supervised learning). However, this practice can introduce severe security risks, as adversaries may poison the training data to embed backdoors into the resulting model. Existing detection approaches predominantly rely on statistical analyses, which often fail to maintain universally accurate detection accuracy across different learning paradigms. To address this challenge, we propose a unified backdoor detection framework in the semi-honest setting that exploits cross-examination of model inconsistencies between two independent service providers. Specifically, we integrate central kernel alignment to enable robust feature similarity measurements across different model architectures and learning paradigms, thereby facilitating precise recovery and identification of backdoor triggers. We further introduce backdoor fine-tuning sensitivity analysis to distinguish backdoor triggers from adversarial perturbations, substantially reducing false positives. Extensive experiments demonstrate that our method achieves superior detection performance, improving accuracy by 5.4%, 1.6%, and 11.9% over SoTA baselines across supervised, semi-supervised, and autoregressive learning tasks, respectively. Notably, it is the first to effectively detect backdoors in multimodal large language models, further highlighting its broad applicability and advancing secure deep learning.

arxiv情報

著者 Xuan Wang,Siyuan Liang,Dongping Liao,Han Fang,Aishan Liu,Xiaochun Cao,Yu-liang Lu,Ee-Chien Chang,Xitong Gao
発行日 2025-04-01 08:56:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Lie Detector: Unified Backdoor Detection via Cross-Examination Framework はコメントを受け付けていません

FisherTune: Fisher-Guided Robust Tuning of Vision Foundation Models for Domain Generalized Segmentation

要約

Vision Foundation Models(VFMS)は、大規模な事前トレーニングのために一般化されていますが、この能力を維持しながら、ドメイン一般化セマンティックセグメンテーション(DGSS)のためにそれらを微調整することは依然として困難です。
既存のアプローチは、パラメーターを選択的に微調整するか、VFMSをフリーズし、アダプターのみを更新します。どちらもDGSSタスクのVFMSの可能性を完全に活用できない場合があります。
VFMのドメインに敏感なパラメーターは、タスクと配布の違いから生じることで、一般化を妨げる可能性があることがわかります。
これに対処するために、ドメイン関連のフィッシャー情報マトリックス(DR-FIM)によって導かれる堅牢な微調整方法である\ textBf {Fishertune}を提案します。
DR-FIMは、タスクとドメイン全体のパラメーター感度を測定し、一般化を維持し、DGSSの適応性を高める選択的更新を可能にします。
Fishertuneは、DR-FIM推定を安定化するための変動推論を組み込み、パラメーターをガウス分散変数として扱い、事前に訓練されたプライアーを活用しています。
広範な実験では、フィッシュトゥンが一般化、選択的パラメーター、アダプターベースの方法を上回りながら、優れたクロスドメインセグメンテーションを達成することが示されています。

要約(オリジナル)

Vision Foundation Models (VFMs) excel in generalization due to large-scale pretraining, but fine-tuning them for Domain Generalized Semantic Segmentation (DGSS) while maintaining this ability remains challenging. Existing approaches either selectively fine-tune parameters or freeze the VFMs and update only the adapters, both of which may underutilize the VFMs’ full potential in DGSS tasks. We observe that domain-sensitive parameters in VFMs, arising from task and distribution differences, can hinder generalization. To address this, we propose \textbf{FisherTune}, a robust fine-tuning method guided by the Domain-Related Fisher Information Matrix (DR-FIM). DR-FIM measures parameter sensitivity across tasks and domains, enabling selective updates that preserve generalization and enhance DGSS adaptability. FisherTune incorporates variational inference to stabilize DR-FIM estimation, treating parameters as Gaussian-distributed variables and leveraging pre-trained priors. Extensive experiments show that FisherTune achieves superior cross-domain segmentation while maintaining generalization, outperforming selective-parameter and adapter-based methods.

arxiv情報

著者 Dong Zhao,Jinlong Li,Shuang Wang,Mengyao Wu,Qi Zang,Nicu Sebe,Zhun Zhong
発行日 2025-04-01 09:23:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FisherTune: Fisher-Guided Robust Tuning of Vision Foundation Models for Domain Generalized Segmentation はコメントを受け付けていません

PhyT2V: LLM-Guided Iterative Self-Refinement for Physics-Grounded Text-to-Video Generation

要約

テキスト間(T2V)の生成は、変圧器ベースの拡散モデルによって最近有効になっていますが、現在のT2Vモデルは、時間モデリングにおける物理的リアリズムと欠乏の理解が限られているため、現実世界の共通知識と物理的ルールを順守する能力を欠いています。
既存のソリューションはデータ駆動型か、追加のモデル入力を必要としますが、分散型ドメインに一般化できません。
このホワイトペーパーでは、T2Vプロンプトのチェーンとステップバックの推論を可能にすることにより、現在のT2Vモデルのビデオ生成の機能を拡張する新しいデータに依存しないT2V手法であるPHYT2Vを提示します。
私たちの実験は、PHYT2Vが既存のT2Vモデルの実際の物理的ルールへの順守を2.3倍改善し、T2Vプロンプトエンハンサーと比較して35%の改善を達成することを示しています。
ソースコードは、https://github.com/pittisl/phyt2vで入手できます。

要約(オリジナル)

Text-to-video (T2V) generation has been recently enabled by transformer-based diffusion models, but current T2V models lack capabilities in adhering to the real-world common knowledge and physical rules, due to their limited understanding of physical realism and deficiency in temporal modeling. Existing solutions are either data-driven or require extra model inputs, but cannot be generalizable to out-of-distribution domains. In this paper, we present PhyT2V, a new data-independent T2V technique that expands the current T2V model’s capability of video generation to out-of-distribution domains, by enabling chain-of-thought and step-back reasoning in T2V prompting. Our experiments show that PhyT2V improves existing T2V models’ adherence to real-world physical rules by 2.3x, and achieves 35% improvement compared to T2V prompt enhancers. The source codes are available at: https://github.com/pittisl/PhyT2V.

arxiv情報

著者 Qiyao Xue,Xiangyu Yin,Boyuan Yang,Wei Gao
発行日 2025-04-01 09:33:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | PhyT2V: LLM-Guided Iterative Self-Refinement for Physics-Grounded Text-to-Video Generation はコメントを受け付けていません

Think or Not Think: A Study of Explicit Thinking inRule-Based Visual Reinforcement Fine-Tuning

要約

このペーパーでは、マルチモーダル大手言語モデル(MLLM)と思考プロセスの役割を使用した視覚分類のためのルールベースの強化学習(RL)微調整を調査します。
まず、\ textit {cls-rl}を調査することから始めます。これは、分類前にMLLMが「考える」ことを奨励するために検証可能な信号を報酬として活用する方法です。
\ textBf {Eleven}データセットを介した実験は、CLS-RLが基本的な一般化と少ないショット学習シナリオの両方で、監視された微調整(SFT)よりも大幅な改善を達成することを示しています。
特に、あるデータセットで微調整すると他のデータのパフォーマンスが予期せず向上する「フリーランチ」現象を観察し、RLが基本的な分類スキルを効果的に教えていることを示唆しています。
ただし、ルールベースのRLの重要な側面である明示的な思考が常に有益であるか不可欠であるかどうかを疑問視しています。
複雑な推論がパフォーマンスを向上させるという従来の仮定に挑戦し、\ textit {no-thinkink-rl}を導入します。これは、平等精度の報酬を利用することで微調整中のモデルの思考を最小限に抑える新しいアプローチです。
私たちの実験は、CLS-RLと比較して優れたドメイン内のパフォーマンスと一般化機能を達成する一方で、微調整時間が大幅に少ないことを実験していることが明らかになりました。
これは、一般的な仮定に反して、思考プロセスを減らすことで、いくつかの視覚的なタスクに対してより効率的かつ効果的なMLLM微調整につながる可能性があることを強調しています。
さらに、cVbenchの6.4 \%改善など、他の視覚ベンチマークでのパフォーマンスの向上を実証していません。
私たちの調査結果が、RLベースの微調整における思考の影響に関する洞察を提供することを願っています。

要約(オリジナル)

This paper investigates rule-based reinforcement learning (RL) fine-tuning for visual classification using multi-modal large language models (MLLMs) and the role of the thinking process. We begin by exploring \textit{CLS-RL}, a method that leverages verifiable signals as rewards to encourage MLLMs to ‘think’ before classifying. Our experiments across \textbf{eleven} datasets demonstrate that CLS-RL achieves significant improvements over supervised fine-tuning (SFT) in both base-to-new generalization and few-shot learning scenarios. Notably, we observe a ‘free-lunch’ phenomenon where fine-tuning on one dataset unexpectedly enhances performance on others, suggesting that RL effectively teaches fundamental classification skills. However, we question whether the explicit thinking, a critical aspect of rule-based RL, is always beneficial or indispensable. Challenging the conventional assumption that complex reasoning enhances performance, we introduce \textit{No-Thinking-RL}, a novel approach that minimizes the model’s thinking during fine-tuning by utilizing an equality accuracy reward. Our experiments reveal that No-Thinking-RL achieves superior in-domain performance and generalization capabilities compared to CLS-RL, while requiring significantly less fine-tuning time. This underscores that, contrary to prevailing assumptions, reducing the thinking process can lead to more efficient and effective MLLM fine-tuning for some visual tasks. Furthermore, No-Thinking-RL demonstrates enhanced performance on other visual benchmarks, such as a 6.4\% improvement on CVBench. We hope our findings provides insights into the impact of thinking in RL-based fine-tuning.

arxiv情報

著者 Ming Li,Jike Zhong,Shitian Zhao,Yuxiang Lai,Kaipeng Zhang
発行日 2025-04-01 09:52:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Think or Not Think: A Study of Explicit Thinking inRule-Based Visual Reinforcement Fine-Tuning はコメントを受け付けていません

UniGS: Modeling Unitary 3D Gaussians for Novel View Synthesis from Sparse-view Images

要約

この作業では、任意の数のスパースビュー画像からの3Dガウスの高忠実度表現を予測する、新しい3Dガウス再構築と新規ビューの合成モデルであるUnigsを紹介します。
以前の方法は、多くの場合、各ビューのピクセルあたりベースで3Dガウスをローカルに回帰し、それらを世界空間に転送し、ポイント連結を通じてマージします。
対照的に、私たちのアプローチでは、世界空間で単一の3Dガウスのモデルをモデル化し、レイヤーごとにそれらを更新することが含まれます。
単位3Dガウスを更新するためのマルチビュー入力からの情報を活用するために、3Dガウスをクエリとして扱い、複数の入力画像でマルチビューの交差点(MVDFA)を実行することによりパラメーターを実行することによりパラメーターを実行するDETR(検出トランス)のようなフレームワークを開発します。
このアプローチは、「ゴースト」の問題を効果的に回避し、より多くの3Dガウス人を複雑な地域に割り当てます。
さらに、デコーダークエリとして使用される3Dガウスの数は入力ビューの数とは無関係であるため、この方法により、メモリ爆発を引き起こすことも再訓練も必要とせずに、入力として任意の数のマルチビュー画像が許可されます。
広範な実験では、アプローチの利点を検証し、既存の方法よりも優れたパフォーマンスを定量的に紹介します(OBJAVerseで訓練され、GSOベンチマークでテストされた場合、PSNRを4.2 dB改善)および定性的に示します。
コードはhttps://github.com/jwubz123/unigでリリースされます。

要約(オリジナル)

In this work, we introduce UniGS, a novel 3D Gaussian reconstruction and novel view synthesis model that predicts a high-fidelity representation of 3D Gaussians from arbitrary number of posed sparse-view images. Previous methods often regress 3D Gaussians locally on a per-pixel basis for each view and then transfer them to world space and merge them through point concatenation. In contrast, Our approach involves modeling unitary 3D Gaussians in world space and updating them layer by layer. To leverage information from multi-view inputs for updating the unitary 3D Gaussians, we develop a DETR (DEtection TRansformer)-like framework, which treats 3D Gaussians as queries and updates their parameters by performing multi-view cross-attention (MVDFA) across multiple input images, which are treated as keys and values. This approach effectively avoids `ghosting’ issue and allocates more 3D Gaussians to complex regions. Moreover, since the number of 3D Gaussians used as decoder queries is independent of the number of input views, our method allows arbitrary number of multi-view images as input without causing memory explosion or requiring retraining. Extensive experiments validate the advantages of our approach, showcasing superior performance over existing methods quantitatively (improving PSNR by 4.2 dB when trained on Objaverse and tested on the GSO benchmark) and qualitatively. The code will be released at https://github.com/jwubz123/UNIG.

arxiv情報

著者 Jiamin Wu,Kenkun Liu,Yukai Shi,Xiaoke Jiang,Yuan Yao,Lei Zhang
発行日 2025-04-01 10:18:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | UniGS: Modeling Unitary 3D Gaussians for Novel View Synthesis from Sparse-view Images はコメントを受け付けていません

Attention-Guided Multi-scale Interaction Network for Face Super-Resolution

要約

最近、CNNおよびトランスハイブリッドネットワークは、Face Super-Resolution(FSR)タスクで優れたパフォーマンスを実証しました。
ハイブリッドネットワークのさまざまなスケールで多数の機能があるため、これらのマルチスケール機能を融合し、相補性を促進する方法は、FSRを強化するために重要です。
ただし、既存のハイブリッドネットワークベースのFSRメソッドはこれを無視しますが、変圧器とCNNを組み合わせるだけです。
この問題に対処するために、ローカルおよびグローバルな特徴の相互作用とエンコーダーデコーダーフェーズ機能の相互作用を含む、注意ガイド付きマルチスケールインタラクションネットワーク(AMINET)を提案します。
具体的には、残留深度特徴抽出モジュール(RDFE)によって抽出されたグローバルな特徴とさまざまな受容フィールドのローカル機能の融合を促進するために、ローカルおよびグローバルな特徴インタラクションモジュール(LGFI)を提案します。
さらに、LGFIおよびエンコーダーデコーダーフェーズ内のさまざまな機能の融合を適応的に選択するために、選択的カーネル注意融合モジュール(SKAF)を提案します。
上記の設計では、モジュール内とエンコーダーとデコーダー間のマルチスケール機能の自由な流れを可能にし、さまざまなスケール機能の相補性を促進してFSRを強化できます。
包括的な実験では、計算消費量が少なく、推論が速いことで、この方法が一貫してうまく機能することが確認されています。

要約(オリジナル)

Recently, CNN and Transformer hybrid networks demonstrated excellent performance in face super-resolution (FSR) tasks. Since numerous features at different scales in hybrid networks, how to fuse these multi-scale features and promote their complementarity is crucial for enhancing FSR. However, existing hybrid network-based FSR methods ignore this, only simply combining the Transformer and CNN. To address this issue, we propose an attention-guided Multi-scale interaction network (AMINet), which contains local and global feature interactions and encoder-decoder phase feature interactions. Specifically, we propose a Local and Global Feature Interaction Module (LGFI) to promote fusions of global features and different receptive fields’ local features extracted by our Residual Depth Feature Extraction Module (RDFE). Additionally, we propose a Selective Kernel Attention Fusion Module (SKAF) to adaptively select fusions of different features within LGFI and encoder-decoder phases. Our above design allows the free flow of multi-scale features from within modules and between encoder and decoder, which can promote the complementarity of different scale features to enhance FSR. Comprehensive experiments confirm that our method consistently performs well with less computational consumption and faster inference.

arxiv情報

著者 Xujie Wan,Wenjie Li,Guangwei Gao,Huimin Lu,Jian Yang,Chia-Wen Lin
発行日 2025-04-01 10:21:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Attention-Guided Multi-scale Interaction Network for Face Super-Resolution はコメントを受け付けていません

DoubleDiffusion: Combining Heat Diffusion with Denoising Diffusion for Texture Generation on 3D Meshes

要約

このペーパーでは、3Dメッシュ資産のテクスチャを生成する問題に対処します。
既存のアプローチは、多くの場合、画像拡散モデルに依存してマルチビュー画像観測を生成し、メッシュ表面に変換して単一のテクスチャを生成します。
ただし、マルチビュー画像と3Dスペースとの間のギャップにより、このようなプロセスは、幾何学的な矛盾、視認性の閉塞、ベーキングアーティファクトなどの問題のアレンジに影響を受けます。
この問題を克服するために、3Dメッシュにテクスチャを直接生成する新しいアプローチを提案します。
私たちのアプローチは、熱散逸拡散を活用します。これは、メッシュの幾何学的な表面に特徴を伝播する効率的な演算子として機能し、ワイヤーフレームの特定のレイアウトに鈍感なままです。
この手法を生成的拡散パイプラインに統合することにより、既存のテクスチャ生成方法と比較して、テクスチャ生成の効率を大幅に改善します。
3Dメッシュサーフェスでのネイティブ生成学習を可能にするために、熱散逸と拡散を除去する拡散と組み合わせているため、アプローチは2倍の拡散と呼んでいます。

要約(オリジナル)

This paper addresses the problem of generating textures for 3D mesh assets. Existing approaches often rely on image diffusion models to generate multi-view image observations, which are then transformed onto the mesh surface to produce a single texture. However, due to the gap between multi-view images and 3D space, such process is susceptible to arange of issues such as geometric inconsistencies, visibility occlusion, and baking artifacts. To overcome this problem, we propose a novel approach that directly generates texture on 3D meshes. Our approach leverages heat dissipation diffusion, which serves as an efficient operator that propagates features on the geometric surface of a mesh, while remaining insensitive to the specific layout of the wireframe. By integrating this technique into a generative diffusion pipeline, we significantly improve the efficiency of texture generation compared to existing texture generation methods. We term our approach DoubleDiffusion, as it combines heat dissipation diffusion with denoising diffusion to enable native generative learning on 3D mesh surfaces.

arxiv情報

著者 Xuyang Wang,Ziang Cheng,Zhenyu Li,Jiayu Yang,Haorui Ji,Pan Ji,Mehrtash Harandi,Richard Hartley,Hongdong Li
発行日 2025-04-01 10:27:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DoubleDiffusion: Combining Heat Diffusion with Denoising Diffusion for Texture Generation on 3D Meshes はコメントを受け付けていません

Exploiting Mixture-of-Experts Redundancy Unlocks Multimodal Generative Abilities

要約

この作業では、2つのコア制約を満たしながら、マルチモーダル生成機能を備えた、事前に訓練されたテキストのみの大手言語モデル(LLMS)の既存の生成機能を強化するという課題を引き受けます。
専用モジュールを追加する現在のアプローチとは対照的に、パラメーターカウントを大幅に増加させると、深いモデルに固有の十分に活用されていない容量を活用する方法を提案します。
具体的には、新しいモダリティを学習するための追加能力のソースとして、混合物(MOE)内のパラメーター冗長性を活用し、より良いパラメーター効率(C1)を可能にします。
さらに、新しいモダリティ(C2)のトークン専用に低ランクの適応を適用することにより、元の言語生成機能を保存します。
さらに、収束とトレーニングの安定性を改善するために、Gromov-Wasserstein距離に基づいた新しいパラメーター初期化スキームを導入します。
ルーティングメカニズムの広範な分析により、マルチモーダル生成能力のロックを効率的に解除できる専門家内のモダリティ固有の経路の出現と冗長性の減少を明らかにします。
全体として、私たちの方法は、幅広い現代LLMSにシームレスに適用され、Uni-Modalからマルチモーダルアーキテクチャに移行するための新しい経路を提供できます。

要約(オリジナル)

In this work, we undertake the challenge of augmenting the existing generative capabilities of pre-trained text-only large language models (LLMs) with multi-modal generation capability while satisfying two core constraints: C1 preserving the preservation of original language generative capabilities with negligible performance degradation, and C2 adhering to a small parameter budget to learn the new modality, ensuring scalability and efficiency. In contrast to current approaches that add dedicated modules, thereby significantly increasing the parameter count, we propose a method that leverages the underutilized capacity inherent in deep models. Specifically, we exploit the parameter redundancy within Mixture-of-Experts (MoEs) as a source of additional capacity for learning a new modality, enabling better parameter efficiency (C1). Moreover, we preserve the original language generation capabilities by applying low-rank adaptation exclusively to the tokens of the new modality (C2). Furthermore, we introduce a novel parameter initialization scheme based on the Gromov-Wasserstein distance to improve convergence and training stability. Through an extensive analysis of the routing mechanism, we uncover the emergence of modality-specific pathways and decreased redundancy within the experts that can efficiently unlock multi-modal generative capabilities. Overall, our method can be seamlessly applied to a wide range of contemporary LLMs, providing a new pathway for transitioning from uni-modal to multi-modal architectures.

arxiv情報

著者 Raman Dutt,Harleen Hanspal,Guoxuan Xia,Petru-Daniel Tudosiu,Alexander Black,Yongxin Yang,Steven McDonagh,Sarah Parisot
発行日 2025-04-01 10:42:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Exploiting Mixture-of-Experts Redundancy Unlocks Multimodal Generative Abilities はコメントを受け付けていません

Introducing the Short-Time Fourier Kolmogorov Arnold Network: A Dynamic Graph CNN Approach for Tree Species Classification in 3D Point Clouds

要約

陸生レーザースキャン(TLS)および空中レーザースキャン(ALS)に基づく樹種の正確な分類は、生物多様性の保全に不可欠です。
3Dポイントクラウド分類の高度なディープラーニングモデルは、このドメインで強力なパフォーマンスを実証していますが、それらの高い複雑さは、しばしば効率的で低コンポーテーションアーキテクチャの開発を妨げます。
この論文では、標準の線形層を活性化に置き換えることができる短時間フーリエ変換(STFT)を統合する新しいコルモゴロフアーノルドネットワークであるSTFT-KANを紹介します。
TLSデータを使用して樹種を分類するために、Liettgcnnと呼ばれるDGCNNの軽量バージョン内にSTFT-KANを実装しました。
私たちの実験は、STFT-KANがモデルの複雑さとパフォーマンスとパラメーターカウント削減と効果的にバランスをとることにより、既存のKANバリアントを上回り、MLPベースのモデルと比較して競争結果を達成することを示しています。
さらに、エッジ畳み込みのMLPと他の層のSTFT-KANを組み合わせたハイブリッドアーキテクチャを評価し、MLPモデルに匹敵するパフォーマンスを達成しながら、他のKANベースのバリアントと比較してパラメーター数を50%および75%削減しました。
さらに、モデルを主要な3Dポイントクラウド学習アプローチと比較し、STFT-KANが最先端のメソッドPOINTMLPライトと比較して競争結果を提供し、パラメーター数が87%減少したことを示しています。

要約(オリジナル)

Accurate classification of tree species based on Terrestrial Laser Scanning (TLS) and Airborne Laser Scanning (ALS) is essential for biodiversity conservation. While advanced deep learning models for 3D point cloud classification have demonstrated strong performance in this domain, their high complexity often hinders the development of efficient, low-computation architectures. In this paper, we introduce STFT-KAN, a novel Kolmogorov-Arnold network that integrates the Short-Time Fourier Transform (STFT), which can replace the standard linear layer with activation. We implemented STFT-KAN within a lightweight version of DGCNN, called liteDGCNN, to classify tree species using the TLS data. Our experiments show that STFT-KAN outperforms existing KAN variants by effectively balancing model complexity and performance with parameter count reduction, achieving competitive results compared to MLP-based models. Additionally, we evaluated a hybrid architecture that combines MLP in edge convolution with STFT-KAN in other layers, achieving comparable performance to MLP models while reducing the parameter count by 50% and 75% compared to other KAN-based variants. Furthermore, we compared our model to leading 3D point cloud learning approaches, demonstrating that STFT-KAN delivers competitive results compared to the state-of-the-art method PointMLP lite with an 87% reduction in parameter count.

arxiv情報

著者 Said Ohamouddou,Mohamed Ohamouddou,Hanaa El Afia,Abdellatif El Afia,Rafik Lasri,Raddouane Chiheb
発行日 2025-04-01 10:58:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Introducing the Short-Time Fourier Kolmogorov Arnold Network: A Dynamic Graph CNN Approach for Tree Species Classification in 3D Point Clouds はコメントを受け付けていません