Open-Vocabulary Online Semantic Mapping for SLAM

要約

このペーパーでは、頭字語OVOで示すオープンボキャブラリーオンライン3Dセマンティックマッピングパイプラインを紹介します。
POSED RGB-Dフレームのシーケンスを考慮して、3Dセグメントを検出および追跡し、クリップベクトルを使用して説明します。
これらは、新しいクリップマージメソッドによって観察される視点から計算されます。
特に、当社のOVOは、オフラインのベースラインよりも計算およびメモリのフットプリントが大幅に低く、同時にセグメンテーションメトリックよりも優れたセグメンテーションメトリックも表示されます。
優れたセグメンテーションパフォーマンスに加えて、2つの異なるスラムバックボーン(Gaussian-SlamとOrb-Slam2)と統合されたマッピング寄与の実験結果も示しています。

要約(オリジナル)

This paper presents an Open-Vocabulary Online 3D semantic mapping pipeline, that we denote by its acronym OVO. Given a sequence of posed RGB-D frames, we detect and track 3D segments, which we describe using CLIP vectors. These are computed from the viewpoints where they are observed by a novel CLIP merging method. Notably, our OVO has a significantly lower computational and memory footprint than offline baselines, while also showing better segmentation metrics than them. Along with superior segmentation performance, we also show experimental results of our mapping contributions integrated with two different SLAM backbones (Gaussian-SLAM and ORB-SLAM2), being the first ones demonstrating end-to-end open-vocabulary online 3D reconstructions without relying on ground-truth camera poses or scene geometry.

arxiv情報

著者 Tomas Berriel Martins,Martin R. Oswald,Javier Civera
発行日 2025-03-10 14:44:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Open-Vocabulary Online Semantic Mapping for SLAM はコメントを受け付けていません

REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding

要約

マルチモーダル大手言語モデル(MLLMS)は、メガスケールのデータセットでトレーニングした後、多様なビジョン言語タスク全体で堅牢なゼロショット機能を実証します。
ただし、セマンティックセグメンテーションやキーポイント検出などの密な予測タスクは、テキスト出力としてのみ表現される場合、MLLMに大きな課題をもたらします。
同時に、視覚的なタスクデコードに潜在的な埋め込みを利用する現在のMLLMは、一般に、マルチタスク学習とマルチ顆粒性シナリオの両方に限られた適応性を示しています。
この作業では、さまざまな視覚デコードタスクの統一トレーニングのためのエンドツーエンドのフレームワークであるREF-VLMを紹介します。
複雑な視覚デコードシナリオに対処するために、トリプレットベースの参照パラダイム(TRP)を導入します。これは、概念、デコードタイプ、ターゲットをトリプレット構造に介した視覚デコードタスクの3つの重要な次元を明示的に明らかにします。
TRPは、構造化された表現学習を実施するためにシンボリックデリミターを採用し、モデル出力の偏見と解釈可能性を高めます。
さらに、25のタスクタイプに1億を超えるマルチモーダルダイアログサンプルを含む大規模なマルチタスクデータセットであるデータセット(VTINSTRUCT)に従って、ビジュアルタスク命令を構築します。
VT-Instructには、テキスト入力と出力を超えて、ポイント、ボックス、落書き、マスクなどのさまざまな視覚プロンプトが組み込まれ、ボックス、キーポイント、深さ、マスクなどのテキストと視覚ユニットで構成される出力を生成します。
さまざまな視覚プロンプトと視覚ユニットの組み合わせにより、さまざまなタスクタイプが生成され、REF-VLMの適用性が大幅に拡大します。
定性的実験と定量的実験の両方で、REF-VLMがさまざまな標準ベンチマークで他のMLLMを上回ることを示しています。
https://github.com/macavityt/ref-vlmで入手可能なコード、データセット、およびデモ。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) demonstrate robust zero-shot capabilities across diverse vision-language tasks after training on mega-scale datasets. However, dense prediction tasks, such as semantic segmentation and keypoint detection, pose significant challenges for MLLMs when represented solely as text outputs. Simultaneously, current MLLMs utilizing latent embeddings for visual task decoding generally demonstrate limited adaptability to both multi-task learning and multi-granularity scenarios. In this work, we present REF-VLM, an end-to-end framework for unified training of various visual decoding tasks. To address complex visual decoding scenarios, we introduce the Triplet-Based Referring Paradigm (TRP), which explicitly decouples three critical dimensions in visual decoding tasks through a triplet structure: concepts, decoding types, and targets. TRP employs symbolic delimiters to enforce structured representation learning, enhancing the parsability and interpretability of model outputs. Additionally, we construct Visual-Task Instruction Following Dataset (VTInstruct), a large-scale multi-task dataset containing over 100 million multimodal dialogue samples across 25 task types. Beyond text inputs and outputs, VT-Instruct incorporates various visual prompts such as point, box, scribble, and mask, and generates outputs composed of text and visual units like box, keypoint, depth and mask. The combination of different visual prompts and visual units generates a wide variety of task types, expanding the applicability of REF-VLM significantly. Both qualitative and quantitative experiments demonstrate that our REF-VLM outperforms other MLLMs across a variety of standard benchmarks. The code, dataset, and demo available at https://github.com/MacavityT/REF-VLM.

arxiv情報

著者 Yan Tai,Luhao Zhu,Zhiqiang Chen,Ynan Ding,Yiying Dong,Xiaohong Liu,Guodong Guo
発行日 2025-03-10 14:59:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding はコメントを受け付けていません

TimeStep Master: Asymmetrical Mixture of Timestep LoRA Experts for Versatile and Efficient Diffusion Models in Vision

要約

拡散モデルは、過去数年間の視覚生成の進歩を促進してきました。
ただし、大規模な微調整コストのため、これらの大きなモデルをダウンストリームタスクに適用することはしばしば困難です。
最近、低ランク適応(LORA)が拡散モデルの効率的な調整に適用されています。
残念ながら、同じロラが拡散プロセスの異なるタイムステップに使用されるため、LORAチューニング拡散モデルの機能は限られています。
この問題に取り組むために、2つの重要な微調整段階で、一般的で簡潔なタイムステップマスター(TSM)パラダイムを紹介します。
育成段階(1段)では、異なるタイムステップ間隔で拡散モデルを微調整するために異なるロラを適用します。
これにより、異なる騒音レベルを効果的にキャプチャできるさまざまなタイムステップロラの専門家が生じます。
組み立て段階(2段)では、マルチスケール間隔での専門家のコアコンテキストコラボレーションを介して、タイムステップロラの専門家の新しい非対称混合物を設計します。
各タイムステップについて、ゲーティングなしでコアエキスパートとして最も小さな間隔でタイムステップロラの専門家を活用し、時間依存のゲーティングを持つコンテキストの専門家としてより大きな間隔で専門家を使用します。
したがって、当社のTSMは、最高の間隔で専門家を介してノイズレベルを効果的にモデル化し、他のスケールの専門家からコンテキストを適応的に統合し、拡散モデルの汎用性を高めます。
TSMパラダイムの有効性を示すために、ドメイン適応、予定、およびモデルの蒸留を含む拡散モデルの3つの典型的で一般的なLORA関連のタスクについて広範な実験を行います。
TSMは、さまざまなモデル構造(UNET、DIT、MM-DIT)および視覚データモダリティ(画像、ビデオ)で、これらすべてのタスクで最先端の結果を達成し、その顕著な一般化能力を示しています。

要約(オリジナル)

Diffusion models have driven the advancement of vision generation over the past years. However, it is often difficult to apply these large models in downstream tasks, due to massive fine-tuning cost. Recently, Low-Rank Adaptation (LoRA) has been applied for efficient tuning of diffusion models. Unfortunately, the capabilities of LoRA-tuned diffusion models are limited, since the same LoRA is used for different timesteps of the diffusion process. To tackle this problem, we introduce a general and concise TimeStep Master (TSM) paradigm with two key fine-tuning stages. In the fostering stage (1-stage), we apply different LoRAs to fine-tune the diffusion model at different timestep intervals. This results in different TimeStep LoRA experts that can effectively capture different noise levels. In the assembling stage (2-stage), we design a novel asymmetrical mixture of TimeStep LoRA experts, via core-context collaboration of experts at multi-scale intervals. For each timestep, we leverage TimeStep LoRA expert within the smallest interval as the core expert without gating, and use experts within the bigger intervals as the context experts with time-dependent gating. Consequently, our TSM can effectively model the noise level via the expert in the finest interval, and adaptively integrate contexts from the experts of other scales, boosting the versatility of diffusion models. To show the effectiveness of our TSM paradigm, we conduct extensive experiments on three typical and popular LoRA-related tasks of diffusion models, including domain adaptation, post-pretraining, and model distillation. Our TSM achieves the state-of-the-art results on all these tasks, throughout various model structures (UNet, DiT and MM-DiT) and visual data modalities (Image, Video), showing its remarkable generalization capacity.

arxiv情報

著者 Shaobin Zhuang,Yiwei Guo,Yanbo Ding,Kunchang Li,Xinyuan Chen,Yaohui Wang,Fangyikang Wang,Ying Zhang,Chen Li,Yali Wang
発行日 2025-03-10 15:03:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TimeStep Master: Asymmetrical Mixture of Timestep LoRA Experts for Versatile and Efficient Diffusion Models in Vision はコメントを受け付けていません

GM-MoE: Low-Light Enhancement with Gated-Mechanism Mixture-of-Experts

要約

Low-light Enhancementには、自律運転、3D再構成、リモートセンシング、監視などに幅広い用途があり、情報の使用率を大幅に改善できます。
ただし、ほとんどの既存の方法には一般化がなく、画像回復などの特定のタスクに限定されています。
これらの問題に対処するために、\ textbf {gated-mechanism of-experts(gm-moe)}}を提案します。
GM-MOEは、動的なゲートウェイトコンディショニングネットワークと3つのサブエクスパーネットワークで構成されており、それぞれが明確な拡張タスクに特化しています。
異なるデータドメインのサブ専門ネットワークの重みを動的に調整する自己設計のゲートメカニズムを組み合わせます。
さらに、マルチスケール機能をキャプチャすることにより、サブ専門ネットワーク内にローカルおよびグローバル機能の融合を統合して画質を向上させます。
実験結果は、GM-MoEが25の比較アプローチに対して優れた一般化を達成し、それぞれ5つのベンチマークでPSNRで最先端のパフォーマンスに到達し、4つのベンチマークでそれぞれSSIMに達することを示しています。

要約(オリジナル)

Low-light enhancement has wide applications in autonomous driving, 3D reconstruction, remote sensing, surveillance, and so on, which can significantly improve information utilization. However, most existing methods lack generalization and are limited to specific tasks such as image recovery. To address these issues, we propose \textbf{Gated-Mechanism Mixture-of-Experts (GM-MoE)}, the first framework to introduce a mixture-of-experts network for low-light image enhancement. GM-MoE comprises a dynamic gated weight conditioning network and three sub-expert networks, each specializing in a distinct enhancement task. Combining a self-designed gated mechanism that dynamically adjusts the weights of the sub-expert networks for different data domains. Additionally, we integrate local and global feature fusion within sub-expert networks to enhance image quality by capturing multi-scale features. Experimental results demonstrate that the GM-MoE achieves superior generalization with respect to 25 compared approaches, reaching state-of-the-art performance on PSNR on 5 benchmarks and SSIM on 4 benchmarks, respectively.

arxiv情報

著者 Minwen Liao,Hao Bo Dong,Xinyi Wang,Ziyang Yan,Yihua Shao
発行日 2025-03-10 15:05:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GM-MoE: Low-Light Enhancement with Gated-Mechanism Mixture-of-Experts はコメントを受け付けていません

AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion

要約

ビデオ生成のタスクには、視覚的に現実的で一時的にコヒーレントなビデオフレームを合成する必要があります。
既存の方法は、主に非同期自己回帰モデルまたは同期拡散モデルを使用して、この課題に対処します。
ただし、非同期の自己回帰モデルは、トレーニングと推論の間の矛盾に苦しむことが多く、エラーの蓄積などの問題につながりますが、同期拡散モデルは剛性シーケンスの長さに依存することによって制限されます。
これらの問題に対処するために、柔軟な非同期ビデオ生成のための自己回帰および拡散モデルの強度を組み合わせた新しいモデルである自動回帰拡散(AR拡散)を導入します。
具体的には、私たちのアプローチは、トレーニングと推論の両方で徐々に破損したビデオフレームに拡散を活用し、これらのフェーズ間の矛盾を減らします。
自動回帰の世代に触発されて、私たちは個々のフレームの破損のタイムステップに非断固たる制約を組み込み、以前のフレームが後続のフレームよりも明確なままであることを保証します。
このセットアップは、一時的な因果関係とともに、時間の一貫性を維持しながら、さまざまな長さのビデオの柔軟な生成を可能にします。
さらに、トレーニング中のバランスの取れたタイムステップサンプリング用のFOPPスケジューラと、推論中の柔軟なタイムステップの違いのための広告スケジューラの2つの特殊なタイムステップスケジューラを設計し、同期と非同期の生成の両方をサポートします。
広範な実験は、提案された方法の優位性を示しています。これは、4つの挑戦的なベンチマークで競争力のある最先端の結果を達成します。

要約(オリジナル)

The task of video generation requires synthesizing visually realistic and temporally coherent video frames. Existing methods primarily use asynchronous auto-regressive models or synchronous diffusion models to address this challenge. However, asynchronous auto-regressive models often suffer from inconsistencies between training and inference, leading to issues such as error accumulation, while synchronous diffusion models are limited by their reliance on rigid sequence length. To address these issues, we introduce Auto-Regressive Diffusion (AR-Diffusion), a novel model that combines the strengths of auto-regressive and diffusion models for flexible, asynchronous video generation. Specifically, our approach leverages diffusion to gradually corrupt video frames in both training and inference, reducing the discrepancy between these phases. Inspired by auto-regressive generation, we incorporate a non-decreasing constraint on the corruption timesteps of individual frames, ensuring that earlier frames remain clearer than subsequent ones. This setup, together with temporal causal attention, enables flexible generation of videos with varying lengths while preserving temporal coherence. In addition, we design two specialized timestep schedulers: the FoPP scheduler for balanced timestep sampling during training, and the AD scheduler for flexible timestep differences during inference, supporting both synchronous and asynchronous generation. Extensive experiments demonstrate the superiority of our proposed method, which achieves competitive and state-of-the-art results across four challenging benchmarks.

arxiv情報

著者 Mingzhen Sun,Weining Wang,Gen Li,Jiawei Liu,Jiahui Sun,Wanquan Feng,Shanshan Lao,SiYu Zhou,Qian He,Jing Liu
発行日 2025-03-10 15:05:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion はコメントを受け付けていません

Analysis of 3D Urticaceae Pollen Classification Using Deep Learning Models

要約

気候変動のため、干し草熱は、影響を受ける人口の増加、延長された感情、厳しい症状を伴う、差し迫ったヘルスケアの問題になります。
正確な花粉の分類は、年間を通じて空中におけるアレルギー性花粉の傾向を監視し、自治体によって開始された予防戦略を導くのに役立ちます。
花粉分類のほとんどは、2D顕微鏡画像または3D画像データセットから派生した2D投影を使用しています。
この論文では、分類に3D画像の全体のスタックを使用し、異なるディープラーニングモデルで分類パフォーマンスを評価することを目指しています。
このホワイトペーパーで使用されている3D画像データセットは、urticaceaeファミリー、特にウルティカ属と頭頂部からのものであり、形態学的に類似しているが、アレルギー性の可能性が大きく異なります。
最適なレイヤー選択と拡張エポックを使用した事前に訓練されたResNet3Dモデルは、98.3%のF1スコアで最高のパフォーマンスを達成しました。

要約(オリジナル)

Due to the climate change, hay fever becomes a pressing healthcare problem with an increasing number of affected population, prolonged period of affect and severer symptoms. A precise pollen classification could help monitor the trend of allergic pollen in the air throughout the year and guide preventive strategies launched by municipalities. Most of the pollen classification works use 2D microscopy image or 2D projection derived from 3D image datasets. In this paper, we aim at using whole stack of 3D images for the classification and evaluating the classification performance with different deep learning models. The 3D image dataset used in this paper is from Urticaceae family, particularly the genera Urtica and Parietaria, which are morphologically similar yet differ significantly in allergenic potential. The pre-trained ResNet3D model, using optimal layer selection and extended epochs, achieved the best performance with an F1-score of 98.3%.

arxiv情報

著者 Tijs Konijn,Imaan Bijl,Lu Cao,Fons Verbeek
発行日 2025-03-10 15:07:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Analysis of 3D Urticaceae Pollen Classification Using Deep Learning Models はコメントを受け付けていません

CATPlan: Loss-based Collision Prediction in End-to-End Autonomous Driving

要約

近年、エンドツーエンドの自律運転(AD)システムの設計、トレーニング、評価に関心が高まっています。
しばしば見落とされがちな側面の1つは、安全性と堅牢性を達成するための鍵である自分自身の不確実性が鍵であることを認識しているにもかかわらず、これらのシステムによって予測される計画された軌跡の不確実性です。
不確実性の定量化の文献から損失予測を適応させることにより、この不確実性を推定することを提案します。
この目的のために、エンドツーエンドの広告システムを部分的に監督するために使用される衝突損失の推定に埋め込みを計画し、計画するように訓練されたCatplanと呼ばれる新しい軽量モジュールを紹介します。
推論中、これらの推定値は衝突リスクとして解釈されます。
安全性が批判的で、NERFベースの閉ループベンチマークニューロランキャップでCATPLANを評価し、予測された遷移が他の道路使用者の予測された軌道と比較されるGMMベースのベースライン上の平均精度に対する$ 54.8 \%$の相対改善を検出することができることを発見しました。
私たちの調査結果は、CatPlanの追加がより安全なエンドツーエンド広告システムにつながる可能性があり、私たちの仕事がそのようなシステムの不確実性の定量化への関心を高めることを望んでいることを示しています。

要約(オリジナル)

In recent years, there has been increased interest in the design, training, and evaluation of end-to-end autonomous driving (AD) systems. One often overlooked aspect is the uncertainty of planned trajectories predicted by these systems, despite awareness of their own uncertainty being key to achieve safety and robustness. We propose to estimate this uncertainty by adapting loss prediction from the uncertainty quantification literature. To this end, we introduce a novel light-weight module, dubbed CATPlan, that is trained to decode motion and planning embeddings into estimates of the collision loss used to partially supervise end-to-end AD systems. During inference, these estimates are interpreted as collision risk. We evaluate CATPlan on the safety-critical, nerf-based, closed-loop benchmark NeuroNCAP and find that it manages to detect collisions with a $54.8\%$ relative improvement to average precision over a GMM-based baseline in which the predicted trajectory is compared to the forecasted trajectories of other road users. Our findings indicate that the addition of CATPlan can lead to safer end-to-end AD systems and hope that our work will spark increased interest in uncertainty quantification for such systems.

arxiv情報

著者 Ziliang Xiong,Shipeng Liu,Nathaniel Helgesen,Joakim Johnander,Per-Erik Forssen
発行日 2025-03-10 15:10:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | CATPlan: Loss-based Collision Prediction in End-to-End Autonomous Driving はコメントを受け付けていません

Open-Set Gait Recognition from Sparse mmWave Radar Point Clouds

要約

人間のセンシング、特に歩行認識のためのミリ波(mmwave)レーダーデバイスの採用は、最近、その効率、環境条件への回復力、プライバシーを提供する性質のために大きな注意を集めています。
この作業では、まばらなMmwaveレーダーポイントクラウドからのオープンセット歩行認識(OSGR)の挑戦的な問題に取り組んでいます。
クローズドセットのシナリオを想定しているほとんどの既存の研究とは異なり、私たちの研究では、推論時に未知の被験者が存在する可能性があり、システムによって正しく認識される可能性がある、より現実的なオープンセットケースを考慮します。
ポイントクラウドは、リソースの制約を備えたエッジコンピューティングアプリケーションに適していますが、より一般的なマイクロドップラーの署名など​​、他の表現よりもノイズやランダム変動により大きな影響を受けます。
これは、スパースポイントクラウドデータを使用したオープンセットの歩行認識に対処する最初の作業です。
そのために、監視された分類とポイントクラウドの監視されていない再構築を組み合わせた新しいニューラルネットワークアーキテクチャを提案し、堅牢でリッチで高度に正規化された歩行特徴の潜在的な潜在スペースを作成します。
推論時に未知の被験者を検出するために、構造化された潜在スペースを活用し、推論速度と予測精度の間の調整可能なトレードオフを提供する確率的斬新な検出アルゴリズムを導入します。
このペーパーに加えて、さまざまな歩行モダリティの下で、10人の被験者から5時間以上の測定値を備えた元のヒューマンゲートデータセットであるMMGAIT10をリリースします。
広範な実験結果は、私たちのソリューションがF1スコアの改善を、平均して、および複数のオープンネスレベルにわたって最先端の方法で24%達成することを示しています。

要約(オリジナル)

The adoption of Millimeter-Wave (mmWave) radar devices for human sensing, particularly gait recognition, has recently gathered significant attention due to their efficiency, resilience to environmental conditions, and privacy-preserving nature. In this work, we tackle the challenging problem of Open-set Gait Recognition (OSGR) from sparse mmWave radar point clouds. Unlike most existing research, which assumes a closed-set scenario, our work considers the more realistic open-set case, where unknown subjects might be present at inference time, and should be correctly recognized by the system. Point clouds are well-suited for edge computing applications with resource constraints, but are more significantly affected by noise and random fluctuations than other representations, like the more common micro-Doppler signature. This is the first work addressing open-set gait recognition with sparse point cloud data. To do so, we propose a novel neural network architecture that combines supervised classification with unsupervised reconstruction of the point clouds, creating a robust, rich, and highly regularized latent space of gait features. To detect unknown subjects at inference time, we introduce a probabilistic novelty detection algorithm that leverages the structured latent space and offers a tunable trade-off between inference speed and prediction accuracy. Along with this paper, we release mmGait10, an original human gait dataset featuring over five hours of measurements from ten subjects, under varied walking modalities. Extensive experimental results show that our solution attains F1-Score improvements by 24% over state-of-the-art methods, on average, and across multiple openness levels.

arxiv情報

著者 Riccardo Mazzieri,Jacopo Pegoraro,Michele Rossi
発行日 2025-03-10 15:18:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.SP | Open-Set Gait Recognition from Sparse mmWave Radar Point Clouds はコメントを受け付けていません

Divide and Conquer Self-Supervised Learning for High-Content Imaging

要約

自己教師の表現学習方法は、しばしば微妙または複雑な機能を学習できません。これは、学習がはるかに簡単なパターンによって支配されます。
複雑な機能は発見と分析にとって重要である可能性があるため、この制限は科学と工学への応用に特に問題があります。
これに対処するために、画像をセクションに分割し、より単純な機能に妥協することなく、より微妙で複雑な機能を学習するために各セクションから情報を蒸留する新しいアーキテクチャであるSplit Component埋め込み登録(SPLICER)を紹介します。
Splicerは、任意の自己監視損失機能と互換性があり、変更なしで既存の方法に統合できます。
この作業の主な貢献は次のとおりです。i)既存の自己監視方法が、単純で複雑な機能が両方とも存在する場合にショートカットソリューションを学ぶことができることを実証します。
ii)既存の方法の制限を克服するために、新しい自己監視トレーニング方法であるSplicerを紹介し、大幅な下流のパフォーマンス改善を達成します。
iii)最先端の医療および地理空間イメージングの設定におけるスプライサーの有効性を実証します。
Splicerは、表現学習のための強力な新しいツールを提供し、モデルが他の方法で見落とされる可能性のある複雑な機能を発見できるようにします。

要約(オリジナル)

Self-supervised representation learning methods often fail to learn subtle or complex features, which can be dominated by simpler patterns which are much easier to learn. This limitation is particularly problematic in applications to science and engineering, as complex features can be critical for discovery and analysis. To address this, we introduce Split Component Embedding Registration (SpliCER), a novel architecture which splits the image into sections and distils information from each section to guide the model to learn more subtle and complex features without compromising on simpler features. SpliCER is compatible with any self-supervised loss function and can be integrated into existing methods without modification. The primary contributions of this work are as follows: i) we demonstrate that existing self-supervised methods can learn shortcut solutions when simple and complex features are both present; ii) we introduce a novel self-supervised training method, SpliCER, to overcome the limitations of existing methods, and achieve significant downstream performance improvements; iii) we demonstrate the effectiveness of SpliCER in cutting-edge medical and geospatial imaging settings. SpliCER offers a powerful new tool for representation learning, enabling models to uncover complex features which could be overlooked by other methods.

arxiv情報

著者 Lucas Farndale,Paul Henderson,Edward W Roberts,Ke Yuan
発行日 2025-03-10 15:24:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, q-bio.QM | Divide and Conquer Self-Supervised Learning for High-Content Imaging はコメントを受け付けていません

EigenGS Representation: From Eigenspace to Gaussian Image Space

要約

主成分分析(PCA)、古典的な次元削減技術、および2Dガウス表現は、画像表現のための3Dガウスのスプラッティングの適応であり、視覚データのモデリングに明確なアプローチを提供します。
Eigengsを提示します。これは、固有空間と画像空間ガウス表現を接続する効率的な変換パイプラインを通じてこれらのパラダイムを橋渡しする新しい方法です。
私たちのアプローチにより、画像ごとの最適化をゼロから最適化することなく、新しい画像のガウスパラメーターを即座に初期化することができ、収束を劇的に加速します。
Eigengsは、ガウス人がさまざまなスケールに適応することを奨励し、さまざまな空間周波数を効果的にモデリングし、高解像度の再構築におけるアーティファクトを防ぐことを奨励する周波数認識学習メカニズムを導入します。
広範な実験は、Eigengsが直接2Dガウスフィッティングと比較して優れた再構築品質を達成するだけでなく、必要なパラメーターのカウントとトレーニング時間を短縮することを示しています。
この結果は、さまざまな解像度と多様なカテゴリを備えた画像間のEigengsの有効性と一般化能力を強調し、ガウスベースの画像表現をリアルタイムアプリケーションで高品質で実行可能にします。

要約(オリジナル)

Principal Component Analysis (PCA), a classical dimensionality reduction technique, and 2D Gaussian representation, an adaptation of 3D Gaussian Splatting for image representation, offer distinct approaches to modeling visual data. We present EigenGS, a novel method that bridges these paradigms through an efficient transformation pipeline connecting eigenspace and image-space Gaussian representations. Our approach enables instant initialization of Gaussian parameters for new images without requiring per-image optimization from scratch, dramatically accelerating convergence. EigenGS introduces a frequency-aware learning mechanism that encourages Gaussians to adapt to different scales, effectively modeling varied spatial frequencies and preventing artifacts in high-resolution reconstruction. Extensive experiments demonstrate that EigenGS not only achieves superior reconstruction quality compared to direct 2D Gaussian fitting but also reduces necessary parameter count and training time. The results highlight EigenGS’s effectiveness and generalization ability across images with varying resolutions and diverse categories, making Gaussian-based image representation both high-quality and viable for real-time applications.

arxiv情報

著者 Lo-Wei Tai,Ching-En Li,Cheng-Lin Chen,Chih-Jung Tsai,Hwann-Tzong Chen,Tyng-Luh Liu
発行日 2025-03-10 15:27:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EigenGS Representation: From Eigenspace to Gaussian Image Space はコメントを受け付けていません