L-LBVC: Long-Term Motion Estimation and Prediction for Learned Bi-Directional Video Compression

要約

近年、学習型ビデオ圧縮(LVC)が低遅延構成で優れた性能を示すようになった。しかし、学習型双方向映像圧縮(LBVC)の性能は、従来の双方向符号化に比べてまだ遅れている。この性能差は主に、特に大きな動きのシーンにおいて、長期的な動き推定と遠距離フレームの予測が不正確であることに起因する。これら2つの重大な問題を解決するために、本論文では新しいLBVCフレームワーク、すなわちL-LBVCを提案する。まず、短期的な動きと長期的な動きの両方を扱うことができる適応的な動き推定モジュールを提案する。具体的には、動きの小さい隣接フレームと非隣接フレームのオプティカルフローを直接推定する。動きの大きい非隣接フレームに対しては、隣接フレーム間の局所フローを再帰的に累積し、長期フローを推定する。次に、動き符号化のビットコストを大幅に削減できる適応的動き予測モジュールを提案する。長期的な動き予測の精度を向上させるために、トレーニング中に観測された動きの範囲に合わせて、テスト中に参照フレームを適応的にダウンサンプリングする。実験によれば、我々のL-LBVCは、ランダムアクセス設定下のいくつかのテストデータセットにおいて、これまでの最先端のLVC手法を大幅に上回り、VVC(VTM)をも上回る。

要約(オリジナル)

Recently, learned video compression (LVC) has shown superior performance under low-delay configuration. However, the performance of learned bi-directional video compression (LBVC) still lags behind traditional bi-directional coding. The performance gap mainly arises from inaccurate long-term motion estimation and prediction of distant frames, especially in large motion scenes. To solve these two critical problems, this paper proposes a novel LBVC framework, namely L-LBVC. Firstly, we propose an adaptive motion estimation module that can handle both short-term and long-term motions. Specifically, we directly estimate the optical flows for adjacent frames and non-adjacent frames with small motions. For non-adjacent frames with large motions, we recursively accumulate local flows between adjacent frames to estimate long-term flows. Secondly, we propose an adaptive motion prediction module that can largely reduce the bit cost for motion coding. To improve the accuracy of long-term motion prediction, we adaptively downsample reference frames during testing to match the motion ranges observed during training. Experiments show that our L-LBVC significantly outperforms previous state-of-the-art LVC methods and even surpasses VVC (VTM) on some test datasets under random access configuration.

arxiv情報

著者 Yongqi Zhai,Luyang Tang,Wei Jiang,Jiayu Yang,Ronggang Wang
発行日 2025-04-03 13:15:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM | L-LBVC: Long-Term Motion Estimation and Prediction for Learned Bi-Directional Video Compression はコメントを受け付けていません

MedConv: Convolutions Beat Transformers on Long-Tailed Bone Density Prediction

要約

Tスコアを推定するためのCTスキャンによる骨密度予測は極めて重要であり、空間分解能や局所的な変化を検出する能力に欠けるX線骨密度検査のような従来の方法と比較して、骨の健康状態をより正確に評価することができる。しかし、CTに基づく予測は、2つの大きな課題に直面している。すなわち、トランスフォーマーに基づくアーキテクチャーの計算複雑性が高く、ポータブルおよび臨床環境での展開が制限されることと、実世界の病院データの分布が不均衡でロングテールであるため、予測に歪みが生じることである。これらの問題に対処するために、我々は、骨密度予測のための畳み込みモデルであるMedConvを導入する。また、クラスバランスを改善するために、Bal-CE損失とポストホックロジット調整を適応させる。AustinSpineデータセットを用いた広範な実験により、我々のアプローチは、従来の最先端手法と比較して、精度で最大21%、ROC AUCで最大20%の改善を達成することが示された。

要約(オリジナル)

Bone density prediction via CT scans to estimate T-scores is crucial, providing a more precise assessment of bone health compared to traditional methods like X-ray bone density tests, which lack spatial resolution and the ability to detect localized changes. However, CT-based prediction faces two major challenges: the high computational complexity of transformer-based architectures, which limits their deployment in portable and clinical settings, and the imbalanced, long-tailed distribution of real-world hospital data that skews predictions. To address these issues, we introduce MedConv, a convolutional model for bone density prediction that outperforms transformer models with lower computational demands. We also adapt Bal-CE loss and post-hoc logit adjustment to improve class balance. Extensive experiments on our AustinSpine dataset shows that our approach achieves up to 21% improvement in accuracy and 20% in ROC AUC over previous state-of-the-art methods.

arxiv情報

著者 Xuyin Qi,Zeyu Zhang,Huazhan Zheng,Mingxi Chen,Numan Kutaiba,Ruth Lim,Cherie Chiang,Zi En Tham,Xuan Ren,Wenxin Zhang,Lei Zhang,Hao Zhang,Wenbing Lv,Guangzhen Yao,Renda Han,Kangsheng Wang,Mingyuan Li,Hongtao Mao,Yu Li,Zhibin Liao,Yang Zhao,Minh-Son To
発行日 2025-04-03 13:23:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | MedConv: Convolutions Beat Transformers on Long-Tailed Bone Density Prediction はコメントを受け付けていません

Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme

要約

強化学習(RL)は、近年、大規模言語モデルの推論能力を向上させる強い可能性を示し、現在、視覚言語モデル(VLM)に積極的に拡張されている。しかしながら、VLMにおける既存のRLアプリケーションは、多くの場合、再現性とアクセシビリティを妨げる、高度に設計されたフレームワークに依存しており、標準化された評価プロトコルがないため、結果の比較やトレーニングダイナミクスの解釈が困難である。本研究では、VLMにおけるRLのための透明でゼロからのフレームワークを導入し、複数のモデルやデータセットで検証された、最小かつ機能的な4段階のパイプラインを提供する。さらに、標準化された評価スキームを提案し、トレーニングダイナミクスと反射行動を評価する。視覚的推論タスクに関する広範な実験により、重要な経験的知見が明らかになった:応答の長さはランダムシードに敏感であり、反射は出力の長さと相関し、RLは高品質なデータであっても、汎化において教師付き微調整(SFT)を一貫して上回る。これらの発見は、提案されたフレームワークとともに、再現可能なベースラインを確立し、RLベースのVLM研究への幅広い関与を支援することを目的としている。

要約(オリジナル)

Reinforcement learning (RL) has recently shown strong potential in improving the reasoning capabilities of large language models and is now being actively extended to vision-language models (VLMs). However, existing RL applications in VLMs often rely on heavily engineered frameworks that hinder reproducibility and accessibility, while lacking standardized evaluation protocols, making it difficult to compare results or interpret training dynamics. This work introduces a transparent, from-scratch framework for RL in VLMs, offering a minimal yet functional four-step pipeline validated across multiple models and datasets. In addition, a standardized evaluation scheme is proposed to assess training dynamics and reflective behaviors. Extensive experiments on visual reasoning tasks uncover key empirical findings: response length is sensitive to random seeds, reflection correlates with output length, and RL consistently outperforms supervised fine-tuning (SFT) in generalization, even with high-quality data. These findings, together with the proposed framework, aim to establish a reproducible baseline and support broader engagement in RL-based VLM research.

arxiv情報

著者 Yan Ma,Steffi Chern,Xuyang Shen,Yiran Zhong,Pengfei Liu
発行日 2025-04-03 13:53:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.LG | Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme はコメントを受け付けていません

Object-Centric 2D Gaussian Splatting: Background Removal and Occlusion-Aware Pruning for Compact Object Models

要約

現在のガウススプラッティングアプローチは、シーン全体の再構成には有効であるが、特定のオブジェクトをターゲットとするオプションがないため、計算コストが高く、オブジェクトに特化したアプリケーションには不向きである。我々は、オブジェクトマスクを活用することで、ターゲットを絞った再構成を可能にし、オブジェクト中心のモデルを実現する新しいアプローチを提案する。さらに、オクルージョンを考慮した刈り込み戦略を導入し、品質を落とすことなくガウシアンの数を最小化する。我々の手法は、コンパクトなオブジェクトモデルを再構成し、ベースラインと比較して最大96%小さく、最大71%高速に学習できるオブジェクト中心のガウシアン表現とメッシュ表現を得る。これらの表現は、外観編集や物理シミュレーションのような下流のアプリケーションで、追加処理なしに直ちに使用可能である。

要約(オリジナル)

Current Gaussian Splatting approaches are effective for reconstructing entire scenes but lack the option to target specific objects, making them computationally expensive and unsuitable for object-specific applications. We propose a novel approach that leverages object masks to enable targeted reconstruction, resulting in object-centric models. Additionally, we introduce an occlusion-aware pruning strategy to minimize the number of Gaussians without compromising quality. Our method reconstructs compact object models, yielding object-centric Gaussian and mesh representations that are up to 96% smaller and up to 71% faster to train compared to the baseline while retaining competitive quality. These representations are immediately usable for downstream applications such as appearance editing and physics simulation without additional processing.

arxiv情報

著者 Marcel Rogge,Didier Stricker
発行日 2025-04-03 14:01:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Object-Centric 2D Gaussian Splatting: Background Removal and Occlusion-Aware Pruning for Compact Object Models はコメントを受け付けていません

Leveraging Sparse Annotations for Leukemia Diagnosis on the Large Leukemia Dataset

要約

白血病は10番目に多く診断される癌であり、世界中で癌関連死の主要な原因の一つである。白血病の現実的な解析には、白血球(WBC)の局在化、分類、形態学的評価が必要である。医療画像におけるディープラーニングの進歩にもかかわらず、白血病解析には大規模で多様なマルチタスクデータセットが欠けており、既存の小規模データセットには領域の多様性がないため、実世界での適用が制限されている。データセットの課題を克服するために、我々はLarge Leukemia Dataset (LLD)と名付けられた大規模なWBCデータセットと、その属性を持つWBCを検出するための新しい方法を提示する。我々の貢献は3つある。第一に、複数の患者の末梢血フィルム(PBF)を用いて、複数の顕微鏡、複数のカメラ、複数の倍率で収集した大規模な白血病データセットを提示する。診断の説明可能性と医療専門家の受容性を高めるために、各白血病細胞は100倍で細胞の大きさから核の形まで7つの形態学的属性で注釈されている。第二に、WBCを検出するだけでなく、その属性を予測するマルチタスクモデルを提案し、解釈可能で臨床的に意味のあるソリューションを提供する。第三に、スパースアノテーションを用いた属性解析によるWBC検出法を提案する。この手法により、血液専門医のアノテーションの負担が軽減され、視野内のわずかな領域に印をつけるだけで済む。本手法により、アノテーションされた領域だけでなく、視野全体を活用することが可能となり、学習効率と診断精度が向上する。診断の説明可能性からドメインシフトの課題の克服に至るまで、提示されたデータセットは顕微鏡画像解析の多くの困難な局面に利用できる。データセット、コード、デモは、https://im.itu.edu.pk/sparse-leukemiaattri/。

要約(オリジナル)

Leukemia is 10th most frequently diagnosed cancer and one of the leading causes of cancer related deaths worldwide. Realistic analysis of Leukemia requires White Blook Cells (WBC) localization, classification, and morphological assessment. Despite deep learning advances in medical imaging, leukemia analysis lacks a large, diverse multi-task dataset, while existing small datasets lack domain diversity, limiting real world applicability. To overcome dataset challenges, we present a large scale WBC dataset named Large Leukemia Dataset (LLD) and novel methods for detecting WBC with their attributes. Our contribution here is threefold. First, we present a large-scale Leukemia dataset collected through Peripheral Blood Films (PBF) from several patients, through multiple microscopes, multi cameras, and multi magnification. To enhance diagnosis explainability and medical expert acceptance, each leukemia cell is annotated at 100x with 7 morphological attributes, ranging from Cell Size to Nuclear Shape. Secondly, we propose a multi task model that not only detects WBCs but also predicts their attributes, providing an interpretable and clinically meaningful solution. Third, we propose a method for WBC detection with attribute analysis using sparse annotations. This approach reduces the annotation burden on hematologists, requiring them to mark only a small area within the field of view. Our method enables the model to leverage the entire field of view rather than just the annotated regions, enhancing learning efficiency and diagnostic accuracy. From diagnosis explainability to overcoming domain shift challenges, presented datasets could be used for many challenging aspects of microscopic image analysis. The datasets, code, and demo are available at: https://im.itu.edu.pk/sparse-leukemiaattri/

arxiv情報

著者 Abdul Rehman,Talha Meraj,Aiman Mahmood Minhas,Ayisha Imran,Mohsen Ali,Waqas Sultani,Mubarak Shah
発行日 2025-04-03 14:04:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Leveraging Sparse Annotations for Leukemia Diagnosis on the Large Leukemia Dataset はコメントを受け付けていません

TAMT: Temporal-Aware Model Tuning for Cross-Domain Few-Shot Action Recognition

要約

数ショット行動認識(FSAR)を超えて、クロスドメインFSAR(CDFSAR)は、ソースからターゲットへの転送学習に潜むドメインギャップを解決することで、最近の研究関心を集めている。既存のCDFSAR手法は、ドメインギャップの副作用を軽減するために、主にソースデータとターゲットデータの共同学習に焦点を当てています。しかし、このような手法には2つの限界があります:第一に、ペアごとの共同学習は、1つのソースデータと複数のターゲットデータの場合、ディープモデルの再学習を必要とし、特にソースデータが大きくターゲットデータが小さい場合、大きな計算コストがかかります。第二に,共同学習後の事前学習済みモデルは,そのまま対象ドメインに採用されるため,事前学習済みモデルのポテンシャルが十分に発揮されず,認識性能が制限される.上記の限界を克服するために、本論文では、CDFSARのためのTAMT(Temporal-Aware Model Tuning)というシンプルで効果的なベースラインを提案する。具体的には、TAMTは、ソースデータに対して事前学習を行い、ターゲットデータに対して微調整を行うことで、単一のソースで複数のターゲットデータに対する再学習を回避する、非連成パラダイムを含む。事前学習されたモデルの可能性を効果的かつ効率的にターゲット領域へ移行させるために、我々のTAMTは階層的時間チューニングネットワーク(Hierarchical Temporal Tuning Network: HTTN)を提案し、そのコアには局所的時間認識アダプタ(Local temporal-aware adapters: TAA)と大域的時間認識モーメントチューニング(Global temporal-aware moment tuning: GTMT)が含まれる。特にTAAは、事前に学習された凍結モデルの中間的な特徴を再キャリブレーションするために、少数のパラメータを学習し、ターゲットドメインへの効率的な適応を可能にする。さらに、GTMTは強力なビデオ表現を生成するのに役立ち、ターゲットドメインでのマッチング性能を向上させる。広く使われているいくつかのビデオベンチマークで実験した結果、我々のTAMTは最近提案された同等モデルを13%$sim$31%上回り、最新のCDFSARの結果を達成した。

要約(オリジナル)

Going beyond few-shot action recognition (FSAR), cross-domain FSAR (CDFSAR) has attracted recent research interests by solving the domain gap lying in source-to-target transfer learning. Existing CDFSAR methods mainly focus on joint training of source and target data to mitigate the side effect of domain gap. However, such kind of methods suffer from two limitations: First, pair-wise joint training requires retraining deep models in case of one source data and multiple target ones, which incurs heavy computation cost, especially for large source and small target data. Second, pre-trained models after joint training are adopted to target domain in a straightforward manner, hardly taking full potential of pre-trained models and then limiting recognition performance. To overcome above limitations, this paper proposes a simple yet effective baseline, namely Temporal-Aware Model Tuning (TAMT) for CDFSAR. Specifically, our TAMT involves a decoupled paradigm by performing pre-training on source data and fine-tuning target data, which avoids retraining for multiple target data with single source. To effectively and efficiently explore the potential of pre-trained models in transferring to target domain, our TAMT proposes a Hierarchical Temporal Tuning Network (HTTN), whose core involves local temporal-aware adapters (TAA) and a global temporal-aware moment tuning (GTMT). Particularly, TAA learns few parameters to recalibrate the intermediate features of frozen pre-trained models, enabling efficient adaptation to target domains. Furthermore, GTMT helps to generate powerful video representations, improving match performance on the target domain. Experiments on several widely used video benchmarks show our TAMT outperforms the recently proposed counterparts by 13%$\sim$31%, achieving new state-of-the-art CDFSAR results.

arxiv情報

著者 Yilong Wang,Zilin Gao,Qilong Wang,Zhaofeng Chen,Peihua Li,Qinghua Hu
発行日 2025-04-03 14:10:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | TAMT: Temporal-Aware Model Tuning for Cross-Domain Few-Shot Action Recognition はコメントを受け付けていません

Fine-Tuning Visual Autoregressive Models for Subject-Driven Generation

要約

テキストから画像への生成モデルにおける最近の進歩は、わずかな例から被験者のセマンティクスをキャプチャするために事前に訓練されたモデルを微調整する被験者駆動型生成を含む、多くの実用的なアプリケーションを可能にしている。拡散に基づくモデルは高品質な画像を生成するが、その大規模なノイズ除去ステップの結果、計算オーバーヘッドが大きくなり、実世界での適用が制限される。空間的に隣接したトークンではなく、次のスケールのトークンを予測する視覚的自己回帰~(VAR)モデルは、実用的な展開に適した、著しく高速な推論を提供する。本論文では、被写体駆動型生成のための最初のVARベースのアプローチを提案する。しかし、VARの微調整は、計算オーバヘッド、言語ドリフト、多様性の減少につながる。これらの課題に対処するために、複雑さを低減する選択的レイヤーチューニングと、言語ドリフトを緩和する事前蒸留を導入する。さらに、初期段階は、単に局所的な詳細を合成する後期段階よりも、主題の生成に大きな影響を与えることを発見した。この知見に基づき、局所的な詳細ではなく、主題に関連する情報に焦点を当てるようにモデルを促進するために、より粗い解像度を優先するスケール単位の重み付けチューニングを提案する。広範な実験により、我々の手法が様々な指標において拡散ベースのベースラインを大幅に上回ることを検証し、その実用的な利用法を示す。

要約(オリジナル)

Recent advances in text-to-image generative models have enabled numerous practical applications, including subject-driven generation, which fine-tunes pretrained models to capture subject semantics from only a few examples. While diffusion-based models produce high-quality images, their extensive denoising steps result in significant computational overhead, limiting real-world applicability. Visual autoregressive~(VAR) models, which predict next-scale tokens rather than spatially adjacent ones, offer significantly faster inference suitable for practical deployment. In this paper, we propose the first VAR-based approach for subject-driven generation. However, na\'{\i}ve fine-tuning VAR leads to computational overhead, language drift, and reduced diversity. To address these challenges, we introduce selective layer tuning to reduce complexity and prior distillation to mitigate language drift. Additionally, we found that the early stages have a greater influence on the generation of subject than the latter stages, which merely synthesize local details. Based on this finding, we propose scale-wise weighted tuning, which prioritizes coarser resolutions for promoting the model to focus on the subject-relevant information instead of local details. Extensive experiments validate that our method significantly outperforms diffusion-based baselines across various metrics and demonstrates its practical usage.

arxiv情報

著者 Jiwoo Chung,Sangeek Hyun,Hyunjun Kim,Eunseo Koh,MinKyu Lee,Jae-Pil Heo
発行日 2025-04-03 14:12:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Fine-Tuning Visual Autoregressive Models for Subject-Driven Generation はコメントを受け付けていません

PicoPose: Progressive Pixel-to-Pixel Correspondence Learning for Novel Object Pose Estimation

要約

RGB画像からの新しいオブジェクトのポーズ推定は、ゼロショット汎化において重要な課題を提示する。これは、RGB観察画像と、学習中に見られなかったオブジェクトのCADモデルとの間の相対的な6次元変換を推定する必要があるためである。本論文では、PicoPoseを紹介する。PicoPoseは、3段階のピクセル間対応学習プロセスを用いて、この課題に取り組むために設計された新しいフレームワークである。まず、PicoPoseは、RGBの観測データから得られた特徴量と、レンダリングされたオブジェクトのテンプレートから得られた特徴量をマッチングさせ、最もマッチしたテンプレートを特定し、粗い対応関係を確立する。次に、PicoPoseは粗対応マップから、面内回転、スケール、2次元平行移動を含む2次元アフィン変換を大域的に回帰することにより、対応関係を滑らかにします。第三に、PicoPoseはアフィン変換をベストマッチテンプレートの特徴マップに適用し、局所領域内の対応オフセットを学習することで、きめ細かい対応を実現する。対応関係を段階的に精緻化することで、PicoPoseはPnP/RANSACで計算された物体姿勢の精度を大幅に向上させます。PicoPoseは、BOPベンチマークの7つのコアデータセットで最先端の性能を達成し、CADモデルや物体参照画像で表現された新しい物体への卓越した汎用性を示す。コードとモデルはhttps://github.com/foollh/PicoPose。

要約(オリジナル)

Novel object pose estimation from RGB images presents a significant challenge for zero-shot generalization, as it involves estimating the relative 6D transformation between an RGB observation and a CAD model of an object that was not seen during training. In this paper, we introduce PicoPose, a novel framework designed to tackle this task using a three-stage pixel-to-pixel correspondence learning process. Firstly, PicoPose matches features from the RGB observation with those from rendered object templates, identifying the best-matched template and establishing coarse correspondences. Secondly, PicoPose smooths the correspondences by globally regressing a 2D affine transformation, including in-plane rotation, scale, and 2D translation, from the coarse correspondence map. Thirdly, PicoPose applies the affine transformation to the feature map of the best-matched template and learns correspondence offsets within local regions to achieve fine-grained correspondences. By progressively refining the correspondences, PicoPose significantly improves the accuracy of object poses computed via PnP/RANSAC. PicoPose achieves state-of-the-art performance on the seven core datasets of the BOP benchmark, demonstrating exceptional generalization to novel objects represented by CAD models or object reference images. Code and models are available at https://github.com/foollh/PicoPose.

arxiv情報

著者 Lihua Liu,Jiehong Lin,Zhenxin Liu,Kui Jia
発行日 2025-04-03 14:16:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | PicoPose: Progressive Pixel-to-Pixel Correspondence Learning for Novel Object Pose Estimation はコメントを受け付けていません

Efficient Model Editing with Task-Localized Sparse Fine-tuning

要約

タスク演算は、タスク固有の知識を合成可能なタスクベクトルとして表現することで、モデルを編集するための有望なアプローチとして登場した。しかし、既存の手法は、タスクベクトルを導出するためにネットワークの線形化に依存しており、学習や推論時の計算ボトルネックにつながっている。さらに、線形化だけでは、タスクベクトルの競合のない合成を可能にする重要な性質である重みの非連続性が保証されない。この問題に対処するため、我々は、明示的な線形化を必要とせず、タスク間で情報を共有することで、干渉を最小限に抑えた疎なタスクベクトルを構築できるTaLoSを提案する。我々は、事前に訓練されたモデルには、タスク間で一貫して低い勾配感度を持つパラメータのサブセットが含まれており、これらのパラメータのみをスパースに更新することで、微調整中に重みの分離を促進できることを発見した。我々の実験により、TaLoSがタスクの追加と否定において現在の手法を凌駕しながら、学習と推論の効率を改善することが証明された。モジュラーパラメータ編集を可能にすることで、我々のアプローチは、実世界のアプリケーションにおける適応可能な基礎モデルの実用的な展開を促進する。

要約(オリジナル)

Task arithmetic has emerged as a promising approach for editing models by representing task-specific knowledge as composable task vectors. However, existing methods rely on network linearization to derive task vectors, leading to computational bottlenecks during training and inference. Moreover, linearization alone does not ensure weight disentanglement, the key property that enables conflict-free composition of task vectors. To address this, we propose TaLoS which allows to build sparse task vectors with minimal interference without requiring explicit linearization and sharing information across tasks. We find that pre-trained models contain a subset of parameters with consistently low gradient sensitivity across tasks, and that sparsely updating only these parameters allows for promoting weight disentanglement during fine-tuning. Our experiments prove that TaLoS improves training and inference efficiency while outperforming current methods in task addition and negation. By enabling modular parameter editing, our approach fosters practical deployment of adaptable foundation models in real-world applications.

arxiv情報

著者 Leonardo Iurada,Marco Ciccone,Tatiana Tommasi
発行日 2025-04-03 14:20:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Efficient Model Editing with Task-Localized Sparse Fine-tuning はコメントを受け付けていません

Enforcing View-Consistency in Class-Agnostic 3D Segmentation Fields

要約

ラディアンスフィールドは、複数の画像から3Dシーンをモデリングするための強力なツールとなっている。しかし、意味的に意味のある領域にセグメンテーションすることは依然として困難である。いくつかの手法は2次元のセマンティックマスクを用いてうまく機能するが、クラスにとらわれないセグメンテーションへの汎用性は低い。最近の手法では、この問題を回避するために、コントラスト学習を用いて高次元の3次元特徴場を最適化する。しかし、セグメンテーションを復元するためには、クラスタリングと、関連するハイパーパラメータの微調整が必要となる。これに対して我々は、セグメンテーションフィールドの手法に必要な変更を特定することで、クラスに依存しないマスクの矛盾にロバストでありながら、セグメンテーションフィールドを直接学習し、シーンを任意のクラスのオブジェクト集合にうまく分解することを目指す。 さらに空間的な正則化項を導入し、マスクが照合されるフィールドを限られた数の競合するオブジェクトスロットに制限することで、2D監視を最もよく説明する意味のあるオブジェクト表現が現れる。我々の実験は、複雑なシーンにおいて3Dパノプティックセグメンテーションを生成し、仮想3D環境で使用可能な高品質の3D資産を輝度フィールドから抽出する我々の手法の能力を実証する。

要約(オリジナル)

Radiance Fields have become a powerful tool for modeling 3D scenes from multiple images. However, they remain difficult to segment into semantically meaningful regions. Some methods work well using 2D semantic masks, but they generalize poorly to class-agnostic segmentations. More recent methods circumvent this issue by using contrastive learning to optimize a high-dimensional 3D feature field instead. However, recovering a segmentation then requires clustering and fine-tuning the associated hyperparameters. In contrast, we aim to identify the necessary changes in segmentation field methods to directly learn a segmentation field while being robust to inconsistent class-agnostic masks, successfully decomposing the scene into a set of objects of any class. By introducing an additional spatial regularization term and restricting the field to a limited number of competing object slots against which masks are matched, a meaningful object representation emerges that best explains the 2D supervision. Our experiments demonstrate the ability of our method to generate 3D panoptic segmentations on complex scenes, and extract high-quality 3D assets from radiance fields that can then be used in virtual 3D environments.

arxiv情報

著者 Corentin Dumery,Aoxiang Fan,Ren Li,Nicolas Talabot,Pascal Fua
発行日 2025-04-03 14:23:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.GR | Enforcing View-Consistency in Class-Agnostic 3D Segmentation Fields はコメントを受け付けていません