Mamba-Based Ensemble learning for White Blood Cell Classification

要約

白血球(WBC)の分類は、免疫の健康の評価とさまざまな疾患の診断に役立ちますが、手動分類は労働集約的であり、矛盾が生じる傾向があります。
深い学習の最近の進歩は、従来の方法よりも有望であることを示しています。
ただし、データの不均衡や、入力サイズに適していないトランスベースのモデルなどの最新のテクノロジーの計算要求などの課題は、実用的なアプリケーションを制限します。
このペーパーでは、WBC分類を改善するためにアンサンブル学習と統合されたMambaモデルを活用する新しいフレームワークを紹介します。
線形の複雑さで知られるMAMBAモデルは、トランスベースのアプローチに代わるスケーラブルな代替品を提供し、リソース制約の環境での展開に適しています。
さらに、ベンチマーク用に新しいWBCデータセットChula-WBC-8を紹介します。
私たちのアプローチは、このドメインにおけるMAMBAモデルの有効性を検証するだけでなく、精度を損なうことなく分類効率を大幅に向上させる可能性も示しています。
ソースコードは、https://github.com/lewisclifton/mamba-wbc-classificationにあります。

要約(オリジナル)

White blood cell (WBC) classification assists in assessing immune health and diagnosing various diseases, yet manual classification is labor-intensive and prone to inconsistencies. Recent advancements in deep learning have shown promise over traditional methods; however, challenges such as data imbalance and the computational demands of modern technologies, such as Transformer-based models which do not scale well with input size, limit their practical application. This paper introduces a novel framework that leverages Mamba models integrated with ensemble learning to improve WBC classification. Mamba models, known for their linear complexity, provide a scalable alternative to Transformer-based approaches, making them suitable for deployment in resource-constrained environments. Additionally, we introduce a new WBC dataset, Chula-WBC-8, for benchmarking. Our approach not only validates the effectiveness of Mamba models in this domain but also demonstrates their potential to significantly enhance classification efficiency without compromising accuracy. The source code can be found at https://github.com/LewisClifton/Mamba-WBC-Classification.

arxiv情報

著者 Lewis Clifton,Xin Tian,Duangdao Palasuwan,Phandee Watanaboonyongcharoen,Ponlapat Rojnuckarin,Nantheera Anantrasirichai
発行日 2025-04-15 17:53:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Mamba-Based Ensemble learning for White Blood Cell Classification はコメントを受け付けていません

TADACap: Time-series Adaptive Domain-Aware Captioning

要約

画像キャプションは大きな注目を集めていますが、金融やヘルスケアなどの分野で一般的な時系列画像のキャプションの可能性は、ほとんど未開発のままです。
既存の時系列キャプションメソッドは通常、時系列の形状の一般的なドメインと存在する説明を提供し、実質的な再訓練なしに新しいドメインに適応するのに苦労しています。
これらの制限に対処するために、トレーニングなしで新しいドメインに適応できるタイムシリーズ画像のドメイン認識キャプションを生成するための検索ベースのフレームワークであるTadacapを紹介します。
TADACAPに基づいて、ターゲットドメインデータベース、つまりTADACAP-DIVERSEから多様な画像キャプションペアを取得する新しい検索戦略を提案します。
最先端の方法とアブレーションバリアントに対して、タダカップダイバーをベンチマークしました。
TADACAP-DIVERSEは、注釈の取り組みが大幅に少ない一方で、同等のセマンティックの精度を示しています。

要約(オリジナル)

While image captioning has gained significant attention, the potential of captioning time-series images, prevalent in areas like finance and healthcare, remains largely untapped. Existing time-series captioning methods typically offer generic, domain-agnostic descriptions of time-series shapes and struggle to adapt to new domains without substantial retraining. To address these limitations, we introduce TADACap, a retrieval-based framework to generate domain-aware captions for time-series images, capable of adapting to new domains without retraining. Building on TADACap, we propose a novel retrieval strategy that retrieves diverse image-caption pairs from a target domain database, namely TADACap-diverse. We benchmarked TADACap-diverse against state-of-the-art methods and ablation variants. TADACap-diverse demonstrates comparable semantic accuracy while requiring significantly less annotation effort.

arxiv情報

著者 Elizabeth Fons,Rachneet Kaur,Zhen Zeng,Soham Palande,Tucker Balch,Svitlana Vyetrenko,Manuela Veloso
発行日 2025-04-15 17:54:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | TADACap: Time-series Adaptive Domain-Aware Captioning はコメントを受け付けていません

Reference-Based 3D-Aware Image Editing with Triplanes

要約

生成的敵対ネットワーク(GAN)は、潜在スペースを操作することにより、高品質の画像生成と実際の画像編集のための強力なツールとして浮上しています。
GANの最近の進歩には、EG3Dなどの3Dアウェアモデルが含まれています。EG3Dには、単一の画像から3Dジオメトリを再構築できる効率的なトリプレーベースのアーキテクチャが備えています。
ただし、3Dが認識し、高品質の参照ベースの画像編集のための統合フレームワークを提供することには、限られた注意が払われています。
この研究では、高度な参照ベースの編集のためのトリプレーン空間の有効性を調査および実証することにより、このギャップに対処します。
私たちの斬新なアプローチは、エンコード、自動ローカリゼーション、トリプレーン機能の空間的解体、および望ましい編集を実現するための融合学習を統合します。
私たちのアプローチが、人間の顔、360度の頭、動物の顔、漫画の顔、フルボディの衣類の編集、クラスにとらわれないサンプルの編集などの部分的に様式化された編集を含む多様なドメインでどのように優れているかを示します。
私たちの方法では、関連する潜在的方向、テキスト、画像ガイド付きの2Dおよび3Dに認識された拡散およびGANメソッドの両方で、定性的および定量的に最先端のパフォーマンスを示しています。

要約(オリジナル)

Generative Adversarial Networks (GANs) have emerged as powerful tools for high-quality image generation and real image editing by manipulating their latent spaces. Recent advancements in GANs include 3D-aware models such as EG3D, which feature efficient triplane-based architectures capable of reconstructing 3D geometry from single images. However, limited attention has been given to providing an integrated framework for 3D-aware, high-quality, reference-based image editing. This study addresses this gap by exploring and demonstrating the effectiveness of the triplane space for advanced reference-based edits. Our novel approach integrates encoding, automatic localization, spatial disentanglement of triplane features, and fusion learning to achieve the desired edits. We demonstrate how our approach excels across diverse domains, including human faces, 360-degree heads, animal faces, partially stylized edits like cartoon faces, full-body clothing edits, and edits on class-agnostic samples. Our method shows state-of-the-art performance over relevant latent direction, text, and image-guided 2D and 3D-aware diffusion and GAN methods, both qualitatively and quantitatively.

arxiv情報

著者 Bahri Batuhan Bilecen,Yigit Yalin,Ning Yu,Aysegul Dundar
発行日 2025-04-15 17:56:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Reference-Based 3D-Aware Image Editing with Triplanes はコメントを受け付けていません

Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion

要約

3D LIDARシーンの完了における拡散モデルの適用は、拡散のサンプリング速度が遅いため、制限されています。
スコア蒸留は拡散サンプリングを加速しますが、パフォーマンスの低下とともに、直接ポリシー最適化(DPO)を使用したトレーニング後は、優先データを使用してパフォーマンスを高めます。
このペーパーでは、蒸留-DPOを提案します。これは、好みの整理を伴うLIDARシーンの完成のための新しい拡散蒸留フレームワークです。
まず、学生モデルは、異なる初期ノイズでペアの完了シーンを生成します。
第二に、Lidarシーンの評価メトリックを好みとして使用して、獲得とサンプルのペアを失います。
ほとんどのLIDARシーンメトリックは有益ですが、直接最適化されるためには有益ではないが、決定不可能であるため、このような構造は合理的です。
第三に、蒸留-DPOは、ペアの完了シーンで教師モデルと学生モデルの間のスコア関数の違いを活用することにより、学生モデルを最適化します。
このような手順は、収束するまで繰り返されます。
広範な実験では、最先端のLIDARシーンの完了拡散モデルと比較して、蒸留-DPOが高品質のシーンの完成を達成しながら、完了速度を5倍以上加速することが示されています。
私たちの方法は、私たちの知識を最大限に活用して蒸留において好みの学習を採用することを探求し、好みに合った蒸留に関する洞察を提供する最初の方法です。
私たちのコードは、https://github.com/happyw1nd/distillationdpoで公開されています。

要約(オリジナル)

The application of diffusion models in 3D LiDAR scene completion is limited due to diffusion’s slow sampling speed. Score distillation accelerates diffusion sampling but with performance degradation, while post-training with direct policy optimization (DPO) boosts performance using preference data. This paper proposes Distillation-DPO, a novel diffusion distillation framework for LiDAR scene completion with preference aligment. First, the student model generates paired completion scenes with different initial noises. Second, using LiDAR scene evaluation metrics as preference, we construct winning and losing sample pairs. Such construction is reasonable, since most LiDAR scene metrics are informative but non-differentiable to be optimized directly. Third, Distillation-DPO optimizes the student model by exploiting the difference in score functions between the teacher and student models on the paired completion scenes. Such procedure is repeated until convergence. Extensive experiments demonstrate that, compared to state-of-the-art LiDAR scene completion diffusion models, Distillation-DPO achieves higher-quality scene completion while accelerating the completion speed by more than 5-fold. Our method is the first to explore adopting preference learning in distillation to the best of our knowledge and provide insights into preference-aligned distillation. Our code is public available on https://github.com/happyw1nd/DistillationDPO.

arxiv情報

著者 An Zhaol,Shengyuan Zhang,Ling Yang,Zejian Li,Jiale Wu,Haoran Xu,AnYang Wei,Perry Pengyun GU Lingyun Sun
発行日 2025-04-15 17:57:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion はコメントを受け付けていません

PARTFIELD: Learning 3D Feature Fields for Part Segmentation and Beyond

要約

Partfieldを提案します。これは、定義済みのテンプレートやテキストベースの名前に依存することなく、パーツの一般的な概念とその階層の一般的な概念をキャプチャし、さまざまなモダリティにわたってオープンワールド3D形状に適用できます。
Partfieldは、推論時に3Dフィードフォワードパスのみを必要とし、以前のアプローチと比較してランタイムと堅牢性を大幅に改善します。
私たちのモデルは、対照的な学習定式化を介して、監視されていない大規模なデータセットのラベル付きデータセットと画像セグメンテーションの組み合わせから2Dおよび3Dパーツの提案を蒸留することでトレーニングされています。
階層的な部分分解を生成するためにクラスター化できる連続機能フィールドを生成します。
比較では、パートフィールドは、他のクラスに依存しないパートセグメンテーション方法よりも最大20%の正確であり、多くの場合数桁高速であることが示されています。
シングルシェイプ部分の分解を超えて、学習したフィールドの一貫性は形状にわたって現れ、共同セグメンテーションや対応などのタスクを可能にします。これは、これらの汎用、階層的、一貫した3D機能フィールドのいくつかのアプリケーションで実証します。
私たちのウェブページをチェックしてください!
https://research.nvidia.com/labs/toronto-ai/partfield-release/

要約(オリジナル)

We propose PartField, a feedforward approach for learning part-based 3D features, which captures the general concept of parts and their hierarchy without relying on predefined templates or text-based names, and can be applied to open-world 3D shapes across various modalities. PartField requires only a 3D feedforward pass at inference time, significantly improving runtime and robustness compared to prior approaches. Our model is trained by distilling 2D and 3D part proposals from a mix of labeled datasets and image segmentations on large unsupervised datasets, via a contrastive learning formulation. It produces a continuous feature field which can be clustered to yield a hierarchical part decomposition. Comparisons show that PartField is up to 20% more accurate and often orders of magnitude faster than other recent class-agnostic part-segmentation methods. Beyond single-shape part decomposition, consistency in the learned field emerges across shapes, enabling tasks such as co-segmentation and correspondence, which we demonstrate in several applications of these general-purpose, hierarchical, and consistent 3D feature fields. Check our Webpage! https://research.nvidia.com/labs/toronto-ai/partfield-release/

arxiv情報

著者 Minghua Liu,Mikaela Angelina Uy,Donglai Xiang,Hao Su,Sanja Fidler,Nicholas Sharp,Jun Gao
発行日 2025-04-15 17:58:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PARTFIELD: Learning 3D Feature Fields for Part Segmentation and Beyond はコメントを受け付けていません

SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL

要約

この作業は、複雑なアーキテクチャの変更なしに、バニラの自己回帰視覚生成フレームワークであるSimperearを提示します。
トレーニングと推論の最適化を慎重に調査することにより、次のことを実証します。1)0.5Bパラメーターのみで、モデルは1024×1024の解像度画像を高い忠実度で生成し、困難なテキストからイメージへのベンチマーク、例えばGeneval、および79.66での競争結果を達成できます。
2)監視された微調整(SFT)とグループ相対ポリシーの最適化(GRPO)トレーニングの両方が、世代の審美性と迅速な調整の大幅な改善につながる可能性があります。
3)VLLMのような推論アクセラトン技術で最適化されると、1024×1024の画像を簡単に生成する時間を約14秒に減らすことができます。
これらの調査結果を共有し、コードをオープンソーシングすることにより、自己回帰視覚生成の可能性を明らかにし、この研究分野へのより多くの参加を奨励したいと考えています。
コードはhttps://github.com/wdrink/simplearで入手できます。

要約(オリジナル)

This work presents SimpleAR, a vanilla autoregressive visual generation framework without complex architecure modifications. Through careful exploration of training and inference optimization, we demonstrate that: 1) with only 0.5B parameters, our model can generate 1024×1024 resolution images with high fidelity, and achieve competitive results on challenging text-to-image benchmarks, e.g., 0.59 on GenEval and 79.66 on DPG; 2) both supervised fine-tuning (SFT) and Group Relative Policy Optimization (GRPO) training could lead to significant improvements on generation aesthectics and prompt alignment; and 3) when optimized with inference acceleraton techniques like vLLM, the time for SimpleAR to generate an 1024×1024 image could be reduced to around 14 seconds. By sharing these findings and open-sourcing the code, we hope to reveal the potential of autoregressive visual generation and encourage more participation in this research field. Code is available at https://github.com/wdrink/SimpleAR.

arxiv情報

著者 Junke Wang,Zhi Tian,Xun Wang,Xinyu Zhang,Weilin Huang,Zuxuan Wu,Yu-Gang Jiang
発行日 2025-04-15 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL はコメントを受け付けていません

Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception

要約

画像生成の成功に伴い、ピクセル生成が統一された知覚インターフェイスを提供するため、生成的拡散モデルが識別タスクにますます採用されています。
ただし、差別的な目的のために生成的除去プロセスを直接再利用すると、以前に扱われた重要なギャップが明らかになります。
生成モデルは、最終的な分布がもっともらしい場合の中間サンプリングエラーに耐えますが、識別タスクは画像セグメンテーションを参照するなどのマルチモーダルタスクに挑戦することで証明されるように、全体を通して厳密な精度を必要とします。
このギャップに動機付けられ、生成的拡散プロセスと知覚タスクの間のアライメントを分析および強化し、除去中に知覚品質がどのように進化するかに焦点を当てます。
(1)以前の除去ステップは、知覚品質に不釣り合いに貢献し、さまざまなタイムステップの貢献を反映したテーラード学習目標を提案するよう促します。
(2)その後の除去ステップは、予期しない知覚の劣化を示し、拡散テールデータ増強によって対処されたトレーニングを非難する分布シフトに対する感受性を強調します。
(3)生成プロセスは、マルチラウンド相互作用の補正プロンプトに適応可能な制御可能なユーザーインターフェイスとして機能するインタラクティブ性を独自に有効にします。
当社の洞察は、アーキテクチャの変化なしに拡散ベースの知覚モデルを大幅に改善し、深度推定で最先端のパフォーマンスを達成し、画像セグメンテーションを参照し、一般主義者の知覚タスクを参照しています。
https://github.com/ziqipang/addpで入手可能なコード。

要約(オリジナル)

With the success of image generation, generative diffusion models are increasingly adopted for discriminative tasks, as pixel generation provides a unified perception interface. However, directly repurposing the generative denoising process for discriminative objectives reveals critical gaps rarely addressed previously. Generative models tolerate intermediate sampling errors if the final distribution remains plausible, but discriminative tasks require rigorous accuracy throughout, as evidenced in challenging multi-modal tasks like referring image segmentation. Motivated by this gap, we analyze and enhance alignment between generative diffusion processes and perception tasks, focusing on how perception quality evolves during denoising. We find: (1) earlier denoising steps contribute disproportionately to perception quality, prompting us to propose tailored learning objectives reflecting varying timestep contributions; (2) later denoising steps show unexpected perception degradation, highlighting sensitivity to training-denoising distribution shifts, addressed by our diffusion-tailored data augmentation; and (3) generative processes uniquely enable interactivity, serving as controllable user interfaces adaptable to correctional prompts in multi-round interactions. Our insights significantly improve diffusion-based perception models without architectural changes, achieving state-of-the-art performance on depth estimation, referring image segmentation, and generalist perception tasks. Code available at https://github.com/ziqipang/ADDP.

arxiv情報

著者 Ziqi Pang,Xin Xu,Yu-Xiong Wang
発行日 2025-04-15 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception はコメントを受け付けていません

MultiLoKo: a multilingual local knowledge benchmark for LLMs spanning 31 languages

要約

31の言語をカバーするLLMSの多言語性を評価するための新しいベンチマークであるMultilokoを紹介します。
Multilokoは3つのパーティションで構成されています。言語ごとに500の質問で構成されるメインパーティションで、特定の言語に局所的に関連するように供給され、30の非英語言語から英語とその逆への人間の告発された翻訳を含む2つの翻訳されたパーティションです。
比較のために、対応する機械執筆の翻訳もリリースします。
データは、DEV分割と盲目的な分散テストの分割の2つの分割に等しく分布しています。
Multilokoを使用して、LLMの多言語性に関するさまざまな質問と、多言語のベンチマーク作成に関するメタ質問を研究できます。
マルチリンギャルであるために販売されている11のベースモデルとチャットモデルのマルチロコスコアを計算し、平均パフォーマンス、言語間のパフォーマンスパリティ、質問に答える能力が質問言語に依存し、どの言語が最も難しいかを研究します。
私たちが研究したモデルはいずれも、平均スコアが低いだけでなく、最高のスコアリング言語と最悪の言語の大きな違いによって示されるように、Multilokoでうまく機能しません。
さらに、質問言語の実質的な効果があり、言語間の最適な知識転送を示しています。
最後に、ローカルと英語翻訳データを使用すると、最高のパフォーマンスモデルで20ポイント以上の違いが発生する可能性があり、一部の言語の推定難易度を大幅に変更することがわかります。
人間の翻訳の代わりにマシンを使用するために、言語の難易度の順序付け、モデルランキングの大きな違い、およびすべてのモデルの推定パフォーマンスの大幅な低下に弱い効果があることがわかります。

要約(オリジナル)

We present MultiLoKo, a new benchmark for evaluating multilinguality in LLMs covering 31 languages. MultiLoKo consists of three partitions: a main partition consisting of 500 questions per language, separately sourced to be locally relevant to the specific language, and two translated partitions, containing human-authored translations from 30 non-English languages to English and vice versa. For comparison, we also release corresponding machine-authored translations. The data is equally distributed over two splits: a dev split and a blind, out-of-distribution test split. MultiLoKo can be used to study a variety of questions regarding the multilinguality of LLMs as well as meta-questions about multilingual benchmark creation. We compute MultiLoKo scores for 11 base and chat models marketed to be multilingual and study their average performance, their performance parity across languages, how much their ability to answer questions depends on the question language, and which languages are most difficult. None of the models we studied performs well on MultiLoKo, as indicated by low average scores as well as large differences between the best and worst scoring languages. Furthermore, we find a substantial effect of the question language, indicating sub-optimal knowledge transfer between languages. Lastly, we find that using local vs English-translated data can result in differences more than 20 points for the best performing models, drastically change the estimated difficulty of some languages. For using machines instead of human translations, we find a weaker effect on ordering of language difficulty, a larger difference in model rankings, and a substantial drop in estimated performance for all models.

arxiv情報

著者 Dieuwke Hupkes,Nikolay Bogoychev
発行日 2025-04-15 15:02:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MultiLoKo: a multilingual local knowledge benchmark for LLMs spanning 31 languages はコメントを受け付けていません

Weight Ensembling Improves Reasoning in Language Models

要約

推論モデルのトレーニング中に発生する障害モードを調査します。そこでは、世代の多様性が崩壊し始め、最適ではないテスト時間スケーリングにつながります。
特に、パス@1レートは、監視されたFinetuning(SFT)中に確実に改善されますが、パス@Kは急速に劣化します。
驚くべきことに、最新のSFTチェックポイントの重みを早期チェックポイント(Wise-ftとも呼ばれる)を補間するという単純な介入は、パス@Kもほぼ完全に回復し、パス@1を改善します。
Wise-ftバリアントは、より良いテスト時間スケーリング(Best@K、多数決)を達成し、強化学習によってさらに調整された場合、より少ないデータで優れた結果を達成します。
最後に、Wise-FTは、温度スケーリングなどの多様性を誘発するデコード戦略によってのみ達成できない補完的なパフォーマンスの向上を提供することがわかります。
テスト分布に対するPass@1の期待と分散に関して、Pass@Kのバイアス分散トレードオフを正式化します。
Wise-ftはバイアスと分散を同時に減らすことができ、温度スケーリングは本質的にバイアスと分散の間のトレードオフを減らすことができます。

要約(オリジナル)

We investigate a failure mode that arises during the training of reasoning models, where the diversity of generations begins to collapse, leading to suboptimal test-time scaling. Notably, the Pass@1 rate reliably improves during supervised finetuning (SFT), but Pass@k rapidly deteriorates. Surprisingly, a simple intervention of interpolating the weights of the latest SFT checkpoint with an early checkpoint, otherwise known as WiSE-FT, almost completely recovers Pass@k while also improving Pass@1. The WiSE-FT variant achieves better test-time scaling (Best@k, majority vote) and achieves superior results with less data when tuned further by reinforcement learning. Finally, we find that WiSE-FT provides complementary performance gains that cannot be achieved only through diversity-inducing decoding strategies, like temperature scaling. We formalize a bias-variance tradeoff of Pass@k with respect to the expectation and variance of Pass@1 over the test distribution. We find that WiSE-FT can reduce bias and variance simultaneously, while temperature scaling inherently trades-off between bias and variance.

arxiv情報

著者 Xingyu Dang,Christina Baek,Kaiyue Wen,Zico Kolter,Aditi Raghunathan
発行日 2025-04-15 17:46:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Weight Ensembling Improves Reasoning in Language Models はコメントを受け付けていません

LL-Gaussian: Low-Light Scene Reconstruction and Enhancement via Gaussian Splatting for Novel View Synthesis

要約

低光光シーンでの新規ビュー合成(NVS)は、重度のノイズ、低ダイナミックレンジ(LDR)、および信頼性の低い初期化を特徴とする劣化した入力のために、重要な課題のままです。
最近のNERFベースのアプローチでは有望な結果が示されていますが、ほとんどは高い計算コストに苦しんでおり、一部の人は慎重にキャプチャされたデータまたは前処理されたデータ(生のセンサー入力や多重暴露シーケンスなど)に依存して、実用性を厳しく制限します。
対照的に、3Dガウスの飛び散(3DGS)により、競争力のある視覚的忠実度を備えたリアルタイムレンダリングが可能になります。
ただし、既存の3DGSベースの方法は、低光のSRGB入力と闘い、不安定なガウス初期化と効果のないノイズ抑制をもたらします。
これらの課題に対処するために、LL-Gaussianを提案します。LL-Gaussianは、低光のSRGB画像からの3D再構成と強化のための新しいフレームワークであり、擬似正常光の新規ビューの統合を可能にします。
私たちの方法では、3つの重要な革新を紹介します。1)学習ベースのMVSアプローチから密なプライアーを活用して高品質の初期点雲を生成するエンドツーエンドの低光ガウス初期化モジュール(LLGIM)。
2)一時的な干渉から固有のシーン特性(反射率と照明)を解き放ち、安定した解釈可能な最適化を可能にするデュアルブランチガウス分解モデル。
3)分解と強化を共同で操縦する前の物理的制約と拡散の両方によって導かれる監視されていない最適化戦略。
さらに、極端な低光環境で収集された挑戦的なデータセットを提供し、LL-Gaussianの有効性を実証します。
最先端のNERFベースの方法と比較して、LL-Gaussianは推論の最大2,000倍を達成し、トレーニング時間をわずか2%に短縮し、優れた再構築と品質を提供します。

要約(オリジナル)

Novel view synthesis (NVS) in low-light scenes remains a significant challenge due to degraded inputs characterized by severe noise, low dynamic range (LDR) and unreliable initialization. While recent NeRF-based approaches have shown promising results, most suffer from high computational costs, and some rely on carefully captured or pre-processed data–such as RAW sensor inputs or multi-exposure sequences–which severely limits their practicality. In contrast, 3D Gaussian Splatting (3DGS) enables real-time rendering with competitive visual fidelity; however, existing 3DGS-based methods struggle with low-light sRGB inputs, resulting in unstable Gaussian initialization and ineffective noise suppression. To address these challenges, we propose LL-Gaussian, a novel framework for 3D reconstruction and enhancement from low-light sRGB images, enabling pseudo normal-light novel view synthesis. Our method introduces three key innovations: 1) an end-to-end Low-Light Gaussian Initialization Module (LLGIM) that leverages dense priors from learning-based MVS approach to generate high-quality initial point clouds; 2) a dual-branch Gaussian decomposition model that disentangles intrinsic scene properties (reflectance and illumination) from transient interference, enabling stable and interpretable optimization; 3) an unsupervised optimization strategy guided by both physical constrains and diffusion prior to jointly steer decomposition and enhancement. Additionally, we contribute a challenging dataset collected in extreme low-light environments and demonstrate the effectiveness of LL-Gaussian. Compared to state-of-the-art NeRF-based methods, LL-Gaussian achieves up to 2,000 times faster inference and reduces training time to just 2%, while delivering superior reconstruction and rendering quality.

arxiv情報

著者 Hao Sun,Fenggen Yu,Huiyao Xu,Tao Zhang,Changqing Zou
発行日 2025-04-15 15:06:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LL-Gaussian: Low-Light Scene Reconstruction and Enhancement via Gaussian Splatting for Novel View Synthesis はコメントを受け付けていません