WildFireCan-MMD: A Multimodal Dataset for Classification of User-Generated Content During Wildfires in Canada

要約

迅速な情報アクセスは山火事では不可欠ですが、従来のデータソースはゆっくりとコストがかかります。
ソーシャルメディアはリアルタイムの更新を提供しますが、関連する洞察を抽出することは依然として課題です。
最近のカナダの山火事からのX投稿の新しいマルチモーダルデータセットであるWildFirecan-MMDを提示し、12の主要なテーマに注釈が付けられています。
ビジョン言語モデルとカスタムトレーニングを受けた分類器の両方を評価すると、ゼロショットプロンプトは迅速な展開を提供する一方で、ラベル付きデータが利用可能になったときに簡単なトレーニングモデルでさえそれらを上回ることを示します。
当社の最高のパフォーマンスの変圧器ベースの微調整モデルは、83%のFスコアに達し、GPT4を23%上回ることができます。
ユースケースとして、このモデルを使用して山火事中の傾向を明らかにする方法を示します。
私たちの調査結果は、カスタマイズされたデータセットとタスク固有のトレーニングの永続的な重要性を強調しています。
重要なのは、災害対応要件が地域やコンテキストによって異なるため、このようなデータセットをローカライズする必要があります。

要約(オリジナル)

Rapid information access is vital during wildfires, yet traditional data sources are slow and costly. Social media offers real-time updates, but extracting relevant insights remains a challenge. We present WildFireCan-MMD, a new multimodal dataset of X posts from recent Canadian wildfires, annotated across twelve key themes. Evaluating both vision-language models and custom-trained classifiers, we show that while zero-shot prompting offers quick deployment, even simple trained models outperform them when labelled data is available. Our best-performing transformer-based fine-tuned model reaches 83% f-score, outperforming gpt4 by 23%. As a use case, we demonstrate how this model can be used to uncover trends during wildfires. Our findings highlight the enduring importance of tailored datasets and task-specific training. Importantly, such datasets should be localized, as disaster response requirements vary across regions and contexts.

arxiv情報

著者 Braeden Sherritt,Isar Nejadgholi,Marzieh Amini
発行日 2025-05-15 14:47:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | WildFireCan-MMD: A Multimodal Dataset for Classification of User-Generated Content During Wildfires in Canada はコメントを受け付けていません

Highly Efficient 3D Human Pose Tracking from Events with Spiking Spatiotemporal Transformer

要約

シーンのダイナミクスをキャプチャする非同期ビジョンセンサーとしてのイベントカメラは、非常に効率的な3Dヒューマンポーズ追跡の新しい機会を提供します。
既存のアプローチは、通常、CNNやトランスなどの現代の人工ニューラルネットワーク(ANN)を採用します。ここでは、スパースイベントが密な画像に変換されるか、入力として追加のグレースケール画像とペアになります。
ただし、このような慣行は、イベントの固有のスパース性を無視し、冗長計算、エネルギー消費の増加、およびパフォーマンスの低下をもたらします。
これらの観察に動機付けられて、イベントのみに基づいて3Dヒューマンポーズ追跡のための最初のスパーススパイクニューラルネットワーク(SNNS)フレームワークを紹介します。
私たちのアプローチは、スパースデータを密集した形式に変換したり、追加の画像を組み込んだりする必要性を排除し、それによって入力イベントの生来のスパース性を完全に活用します。
私たちのフレームワークの中心は、スパイクポーズ機能の双方向の時空融合を可能にする新しいスパイキング空間変圧器です。
さらに、大規模な合成データセットであるSyneventHPDを構築しました。これは、3Dヒトの動きの広範囲で多様なセットと、イベントストリームの長い時間を特徴としています。
経験的実験は、既存の最先端(SOTA)ベースの方法に対するアプローチの優位性を示しており、19.1%のフロップと3.6%のエネルギーコストのみを必要とします。
さらに、当社のアプローチは、このタスクで既存のSNNベースのベンチマークを上回り、提案されているSNNフレームワークの有効性を強調しています。
データセットは受け入れられるとリリースされ、コードはhttps://github.com/jimmyzou/humanposeTracking_snnにあります。

要約(オリジナル)

Event camera, as an asynchronous vision sensor capturing scene dynamics, presents new opportunities for highly efficient 3D human pose tracking. Existing approaches typically adopt modern-day Artificial Neural Networks (ANNs), such as CNNs or Transformer, where sparse events are converted into dense images or paired with additional gray-scale images as input. Such practices, however, ignore the inherent sparsity of events, resulting in redundant computations, increased energy consumption, and potentially degraded performance. Motivated by these observations, we introduce the first sparse Spiking Neural Networks (SNNs) framework for 3D human pose tracking based solely on events. Our approach eliminates the need to convert sparse data to dense formats or incorporate additional images, thereby fully exploiting the innate sparsity of input events. Central to our framework is a novel Spiking Spatiotemporal Transformer, which enables bi-directional spatiotemporal fusion of spike pose features and provides a guaranteed similarity measurement between binary spike features in spiking attention. Moreover, we have constructed a large-scale synthetic dataset, SynEventHPD, that features a broad and diverse set of 3D human motions, as well as much longer hours of event streams. Empirical experiments demonstrate the superiority of our approach over existing state-of-the-art (SOTA) ANN-based methods, requiring only 19.1% FLOPs and 3.6% energy cost. Furthermore, our approach outperforms existing SNN-based benchmarks in this task, highlighting the effectiveness of our proposed SNN framework. The dataset will be released upon acceptance, and code can be found at https://github.com/JimmyZou/HumanPoseTracking_SNN.

arxiv情報

著者 Shihao Zou,Yuxuan Mu,Wei Ji,Zi-An Wang,Xinxin Zuo,Sen Wang,Weixin Si,Li Cheng
発行日 2025-05-15 14:51:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Highly Efficient 3D Human Pose Tracking from Events with Spiking Spatiotemporal Transformer はコメントを受け付けていません

Teaching Humans Subtle Differences with DIFFusion

要約

科学的専門知識には、ドメインの専門家にとっても明確にするのが難しい微妙な視覚的な違いを認識する必要があることがよくあります。
生成モデルを活用して、インスタンスのアイデンティティを保持しながら、カテゴリ間で最小限の識別機能を自動的に発見および視覚化するシステムを提示します。
私たちの方法は、クラス間の微妙なターゲットを絞った変換を伴う反事実的な視覚化を生成し、データがまばらであり、例が対応しておらず、カテゴリの境界が口頭での説明に抵抗するドメインでもうまく機能します。
ブラックホールシミュレーション、バタフライの分類法、医療イメージングを含む6つのドメインにわたる実験は、限られたトレーニングデータを備えた正確な遷移を示し、確立された識別機能とカテゴリの差別化を測定できるように測定できる新しい微妙な区別の両方を強調しています。
ユーザーの研究では、生成された反事実が、人間に微調整されたクラスを正しく区別するように教える際の従来のアプローチを大幅に上回り、視覚学習と科学的研究を進める生成モデルの可能性を示しています。

要約(オリジナル)

Scientific expertise often requires recognizing subtle visual differences that remain challenging to articulate even for domain experts. We present a system that leverages generative models to automatically discover and visualize minimal discriminative features between categories while preserving instance identity. Our method generates counterfactual visualizations with subtle, targeted transformations between classes, performing well even in domains where data is sparse, examples are unpaired, and category boundaries resist verbal description. Experiments across six domains, including black hole simulations, butterfly taxonomy, and medical imaging, demonstrate accurate transitions with limited training data, highlighting both established discriminative features and novel subtle distinctions that measurably improved category differentiation. User studies confirm our generated counterfactuals significantly outperform traditional approaches in teaching humans to correctly differentiate between fine-grained classes, showing the potential of generative models to advance visual learning and scientific research.

arxiv情報

著者 Mia Chiquier,Orr Avrech,Yossi Gandelsman,Berthy Feng,Katherine Bouman,Carl Vondrick
発行日 2025-05-15 15:00:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Teaching Humans Subtle Differences with DIFFusion はコメントを受け付けていません

Towards Scalable IoT Deployment for Visual Anomaly Detection via Efficient Compression

要約

視覚異常検出(VAD)は、運用コストを最小限に抑えることが不可欠な産業環境の重要なタスクです。
モノのインターネット(IoT)環境内にディープラーニングモデルを展開すると、計算能力が限られているため、エッジデバイスの帯域幅が限られているため、特定の課題が導入されます。
この研究では、コンパクトで効率的な処理戦略を活用することにより、このような制約の下でVADを効果的に実行する方法を調査します。
システムのレイテンシと検出精度の間のトレードオフを調べると、いくつかのデータ圧縮手法を評価します。
MVTEC ADベンチマークの実験は、非圧縮データと比較して、異常検出性能の最小限の損失で有意な圧縮を達成できることを示しています。
現在の結果は、エッジ処理、伝送、サーバーの計算など、エンドツーエンドの推論時間が最大80%減少しています。

要約(オリジナル)

Visual Anomaly Detection (VAD) is a key task in industrial settings, where minimizing operational costs is essential. Deploying deep learning models within Internet of Things (IoT) environments introduces specific challenges due to limited computational power and bandwidth of edge devices. This study investigates how to perform VAD effectively under such constraints by leveraging compact, efficient processing strategies. We evaluate several data compression techniques, examining the tradeoff between system latency and detection accuracy. Experiments on the MVTec AD benchmark demonstrate that significant compression can be achieved with minimal loss in anomaly detection performance compared to uncompressed data. Current results show up to 80% reduction in end-to-end inference time, including edge processing, transmission, and server computation.

arxiv情報

著者 Arianna Stropeni,Francesco Borsatti,Manuel Barusco,Davide Dalle Pezze,Marco Fabris,Gian Antonio Susto
発行日 2025-05-15 15:05:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Towards Scalable IoT Deployment for Visual Anomaly Detection via Efficient Compression はコメントを受け付けていません

CryoSAMU: Enhancing 3D Cryo-EM Density Maps of Protein Structures at Intermediate Resolution with Structure-Aware Multimodal U-Nets

要約

中間分解能(4-8 {\ aa})で極低温電子顕微鏡(CRYO-EM)3D密度マップを強化することは、タンパク質構造決定において重要です。
深い学習における最近の進歩により、実験的な極低音域密度マップを強化するための自動化されたアプローチが開発されました。
しかし、これらの方法は中間解像度マップに最適化されておらず、マップ密度の特徴だけに依存しています。
これに対処するために、構造認識マルチモーダルUネットを使用してタンパク質構造の3D cryo-em密度マップを強化し、キュレーションされた中間解像度密度マップで訓練されたタンパク質構造の3D cryo-em密度マップを強化するために設計された新しい方法であるcryosamuを提案します。
さまざまなメトリックにわたってcryosamuを包括的に評価し、最先端の方法と比較して競争力のあるパフォーマンスを実証します。
特に、Cryosamuは処理速度を大幅に高速化し、将来の実用的なアプリケーションの可能性を示しています。
私たちのコードは、https://github.com/chenwei-zhang/cryosamuで入手できます。

要約(オリジナル)

Enhancing cryogenic electron microscopy (cryo-EM) 3D density maps at intermediate resolution (4-8 {\AA}) is crucial in protein structure determination. Recent advances in deep learning have led to the development of automated approaches for enhancing experimental cryo-EM density maps. Yet, these methods are not optimized for intermediate-resolution maps and rely on map density features alone. To address this, we propose CryoSAMU, a novel method designed to enhance 3D cryo-EM density maps of protein structures using structure-aware multimodal U-Nets and trained on curated intermediate-resolution density maps. We comprehensively evaluate CryoSAMU across various metrics and demonstrate its competitive performance compared to state-of-the-art methods. Notably, CryoSAMU achieves significantly faster processing speed, showing promise for future practical applications. Our code is available at https://github.com/chenwei-zhang/CryoSAMU.

arxiv情報

著者 Chenwei Zhang,Khanh Dao Duc
発行日 2025-05-15 15:06:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, q-bio.BM | CryoSAMU: Enhancing 3D Cryo-EM Density Maps of Protein Structures at Intermediate Resolution with Structure-Aware Multimodal U-Nets はコメントを受け付けていません

TactileNet: Bridging the Accessibility Gap with AI-Generated Tactile Graphics for Individuals with Vision Impairment

要約

触覚グラフィックは、視力喪失を伴う世界的に生活している4300万人の視覚情報へのアクセスを提供するために不可欠です。
これらのグラフィックを作成するための従来の方法は労働集約的であり、需要の高まりを満たすことができません。
テキストツーイメージの安定拡散(SD)モデルを使用してエンボスレディ2D触覚テンプレートを生成するための最初の包括的なデータセットとAI駆動型フレームワークであるTactilenetを紹介します。
低ランクの適応(LORA)とDreamBoothを統合することにより、この方法は、計算コストを削減しながら、忠実度、ガイドラインに準拠したグラフィックスを作成するためのSDモデルを微調整します。
触覚の専門家との定量的評価は、アクセシビリティ基準の92.86%の遵守を示しています。
構造的忠実度分析により、人間に近い設計の類似性が明らかになり、SSIMは生成されたグラフィックスとエキスパートが設計した触覚画像の間に0.538です。
特に、私たちの方法は、オブジェクトのシルエットを人間のデザイン(SSIM = 0.259対バイナリマスクの0.215)よりもよく保存し、手動触覚抽象の重要な制限に対処します。
フレームワークは、66のクラスで32,000の画像(7,050高品質)にスケーリングし、カスタマイズ可能な出力を有効にするプロンプトの編集(例:詳細の追加または削除)を拡大します。
2Dテンプレート生成を標準のエンボス加工ワークフロータクティレネットでステップ互換性を自動化することにより、デザインの柔軟性を維持しながら、生産を加速します。
この作業は、AIが人間の専門知識を(置き換えない)方法で、教育やそれ以降のアクセシビリティのギャップを埋める方法を示しています。
コード、データ、モデルは、さらなる研究を促進するために公開されます。

要約(オリジナル)

Tactile graphics are essential for providing access to visual information for the 43 million people globally living with vision loss. Traditional methods for creating these graphics are labor-intensive and cannot meet growing demand. We introduce TactileNet, the first comprehensive dataset and AI-driven framework for generating embossing-ready 2D tactile templates using text-to-image Stable Diffusion (SD) models. By integrating Low-Rank Adaptation (LoRA) and DreamBooth, our method fine-tunes SD models to produce high-fidelity, guideline-compliant graphics while reducing computational costs. Quantitative evaluations with tactile experts show 92.86% adherence to accessibility standards. Structural fidelity analysis revealed near-human design similarity, with an SSIM of 0.538 between generated graphics and expert-designed tactile images. Notably, our method preserves object silhouettes better than human designs (SSIM = 0.259 vs. 0.215 for binary masks), addressing a key limitation of manual tactile abstraction. The framework scales to 32,000 images (7,050 high-quality) across 66 classes, with prompt editing enabling customizable outputs (e.g., adding or removing details). By automating the 2D template generation step-compatible with standard embossing workflows-TactileNet accelerates production while preserving design flexibility. This work demonstrates how AI can augment (not replace) human expertise to bridge the accessibility gap in education and beyond. Code, data, and models will be publicly released to foster further research.

arxiv情報

著者 Adnan Khan,Alireza Choubineh,Mai A. Shaaban,Abbas Akkasi,Majid Komeili
発行日 2025-05-15 15:09:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TactileNet: Bridging the Accessibility Gap with AI-Generated Tactile Graphics for Individuals with Vision Impairment はコメントを受け付けていません

SeagrassFinder: Deep Learning for Eelgrass Detection and Coverage Estimation in the Wild

要約

海草の牧草地は、海洋生態系で重要な役割を果たし、炭素隔離、水質改善、生息地の提供などの利点を提供します。
海草の分布と豊富さを監視することは、環境への影響評価と保全の取り組みに不可欠です。
ただし、水中ビデオデータを分析して海草のカバレッジを評価する現在の手動の方法は、時間がかかり、主観的です。
この作業では、水中ビデオデータからの海草の検出とカバレッジの推定のプロセスを自動化するためのディープラーニングモデルの使用を調査します。
8,300を超える注釈付きの水中画像の新しいデータセットを作成し、その後、転送学習による海草の存在と不在に関するバイナリ分類のタスクについて、ResNet、InceptionNetv3、Densenet、Vision Transformerを含むいくつかの深い学習アーキテクチャを評価します。
結果は、深い学習モデル、特に視覚変圧器が、最終テストデータセットでAuroCスコアが0.95を超えるEelgrassの存在を予測する上で高性能を達成できることを示しています。
水中画像強化を適用すると、モデルの予測機能がさらに改善されました。
さらに、ビデオデータからの海草のカバレッジを推定するための新しいアプローチを導入し、専門家のマニュアルラベルと一致する有望な予備的な結果を示し、一貫したスケーラブルな監視の可能性を示しています。
提案された方法論により、大量のビデオデータの効率的な処理が可能になり、現在の手動方法と比較して、海草分布に関するより詳細な情報の取得が可能になります。
海草は沿岸生態系の健康に関する重要な指標であるため、この情報は環境影響評価と監視プログラムにとって重要です。
このプロジェクトは、深い学習が海洋生態学と環境監視の分野にもたらすことができる価値を示しています。

要約(オリジナル)

Seagrass meadows play a crucial role in marine ecosystems, providing benefits such as carbon sequestration, water quality improvement, and habitat provision. Monitoring the distribution and abundance of seagrass is essential for environmental impact assessments and conservation efforts. However, the current manual methods of analyzing underwater video data to assess seagrass coverage are time-consuming and subjective. This work explores the use of deep learning models to automate the process of seagrass detection and coverage estimation from underwater video data. We create a new dataset of over 8,300 annotated underwater images, and subsequently evaluate several deep learning architectures, including ResNet, InceptionNetV3, DenseNet, and Vision Transformer for the task of binary classification on the presence and absence of seagrass by transfer learning. The results demonstrate that deep learning models, particularly Vision Transformers, can achieve high performance in predicting eelgrass presence, with AUROC scores exceeding 0.95 on the final test dataset. The application of underwater image enhancement further improved the models’ prediction capabilities. Furthermore, we introduce a novel approach for estimating seagrass coverage from video data, showing promising preliminary results that align with expert manual labels, and indicating potential for consistent and scalable monitoring. The proposed methodology allows for the efficient processing of large volumes of video data, enabling the acquisition of much more detailed information on seagrass distributions in comparison to current manual methods. This information is crucial for environmental impact assessments and monitoring programs, as seagrasses are important indicators of coastal ecosystem health. This project demonstrates the value that deep learning can bring to the field of marine ecology and environmental monitoring.

arxiv情報

著者 Jannik Elsäßer,Laura Weihl,Veronika Cheplygina,Lisbeth Tangaa Nielsen
発行日 2025-05-15 15:11:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SeagrassFinder: Deep Learning for Eelgrass Detection and Coverage Estimation in the Wild はコメントを受け付けていません

Visual Fidelity Index for Generative Semantic Communications with Critical Information Embedding

要約

大規模な人工知能(AI)モデルを使用した生成セマンティックコミュニケーション(GEN-SEMCOM)は、6Gネットワ​​ークの変換パラダイムを約束します。これにより、生データではなく低次元プロンプトを送信することで通信コストが削減されます。
しかし、純粋に迅速な駆動型の世代は、きめ細かい視覚的な詳細を失います。
さらに、Gen-Semcomシステムのパフォーマンスを評価するための体系的なメトリックが不足しています。
これらの問題に対処するために、重要な情報埋め込み(CIE)フレームワークを備えたハイブリッドGen-Semcomシステムを開発します。ここでは、テキストプロンプトと意味的に重要な機能の両方が送信用に抽出されます。
まず、セマンティックラベルに関連する画像の意味的に重要な機能を選択および送信するために、セマンティックフィルタリングの新しいアプローチが提案されています。
テキストプロンプトと重要な機能を統合することにより、受信機は拡散ベースの生成モデルを使用して高忠実度画像を再構築します。
次に、生成された画像の視覚品質を評価するために、生成視覚情報の忠実度(GVIF)メトリックを提案します。
画像機能の統計モデルを特徴付けることにより、GVIFメトリックは、歪んだ特徴と元のカウンターパートの間の相互情報を定量化します。
GVIFメトリックを最大化することにより、チャネル状態に応じて機能の量と圧縮率を適応的に制御するチャネル適応Gen-Semcomシステムを設計します。
実験結果は、視覚的忠実度に対するGVIFメトリックの感度を検証し、PSNRと重要な情報量の両方と相関しています。
さらに、最適化されたシステムは、より高いPSNRおよびより低いFIDスコアに関して、ベンチマークスキームよりも優れたパフォーマンスを実現します。

要約(オリジナル)

Generative semantic communication (Gen-SemCom) with large artificial intelligence (AI) model promises a transformative paradigm for 6G networks, which reduces communication costs by transmitting low-dimensional prompts rather than raw data. However, purely prompt-driven generation loses fine-grained visual details. Additionally, there is a lack of systematic metrics to evaluate the performance of Gen-SemCom systems. To address these issues, we develop a hybrid Gen-SemCom system with a critical information embedding (CIE) framework, where both text prompts and semantically critical features are extracted for transmissions. First, a novel approach of semantic filtering is proposed to select and transmit the semantically critical features of images relevant to semantic label. By integrating the text prompt and critical features, the receiver reconstructs high-fidelity images using a diffusion-based generative model. Next, we propose the generative visual information fidelity (GVIF) metric to evaluate the visual quality of the generated image. By characterizing the statistical models of image features, the GVIF metric quantifies the mutual information between the distorted features and their original counterparts. By maximizing the GVIF metric, we design a channel-adaptive Gen-SemCom system that adaptively control the volume of features and compression rate according to the channel state. Experimental results validate the GVIF metric’s sensitivity to visual fidelity, correlating with both the PSNR and critical information volume. In addition, the optimized system achieves superior performance over benchmarking schemes in terms of higher PSNR and lower FID scores.

arxiv情報

著者 Jianhao Huang,Qunsong Zeng,Kaibin Huang
発行日 2025-05-15 15:28:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | Visual Fidelity Index for Generative Semantic Communications with Critical Information Embedding はコメントを受け付けていません

PEP-GS: Perceptually-Enhanced Precise Structured 3D Gaussians for View-Adaptive Rendering

要約

最近、3D Gaussian Splatting(3D-GS)は、リアルタイムで高品質の3Dシーンレンダリングで大きな成功を収めました。
ただし、ガウスの冗長性、視界に依存する効果をキャプチャする限られた能力、複雑な照明や鏡面反射の処理の困難など、いくつかの課題に直面しています。
さらに、色表現に球状の高調波を使用する方法は、特に複雑な照明条件下でビュー依存の色をモデル化する場合に、異方性成分を効果的にキャプチャするのに苦労し、コントラストが不十分で不自然な色の飽和につながります。
これらの制限に対処するために、PEP-GSを導入します。これは、不透明度、色、共分散などのガウス属性を動的に予測する知覚的に強化されたフレームワークです。
従来の球状高調波を階層的な粒状構造的注意メカニズムに置き換えます。これにより、複雑なビュー依存性の色効果のより正確なモデリングが可能になります。
PEP-GSは、不透明度と共分散推定のために安定した解釈可能なフレームワークを採用することにより、必須のガウスの除去を早めに回避し、より正確なシーン表現を確保します。
さらに、知覚最適化が最終レンダリングされた画像に適用され、異なるビュー全体で知覚的な一貫性を高め、テクスチャの忠実度と細かい詳細保存が改善された高品質のレンダリングを確保します。
実験結果は、PEP-GSが、特にビュー依存の効果と微細スケールの詳細を含む挑戦的なシナリオで、最先端の方法よりも優れていることを示しています。

要約(オリジナル)

Recently, 3D Gaussian Splatting (3D-GS) has achieved significant success in real-time, high-quality 3D scene rendering. However, it faces several challenges, including Gaussian redundancy, limited ability to capture view-dependent effects, and difficulties in handling complex lighting and specular reflections. Additionally, methods that use spherical harmonics for color representation often struggle to effectively capture anisotropic components, especially when modeling view-dependent colors under complex lighting conditions, leading to insufficient contrast and unnatural color saturation. To address these limitations, we introduce PEP-GS, a perceptually-enhanced framework that dynamically predicts Gaussian attributes, including opacity, color, and covariance. We replace traditional spherical harmonics with a Hierarchical Granular-Structural Attention mechanism, which enables more accurate modeling of complex view-dependent color effects. By employing a stable and interpretable framework for opacity and covariance estimation, PEP-GS avoids the removal of essential Gaussians prematurely, ensuring a more accurate scene representation. Furthermore, perceptual optimization is applied to the final rendered images, enhancing perceptual consistency across different views and ensuring high-quality renderings with improved texture fidelity and fine-scale detail preservation. Experimental results demonstrate that PEP-GS outperforms state-of-the-art methods, particularly in challenging scenarios involving view-dependent effects and fine-scale details.

arxiv情報

著者 Junxi Jin,Xiulai Li,Haiping Huang,Lianjun Liu,Yujie Sun,Logan Liu
発行日 2025-05-15 15:32:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PEP-GS: Perceptually-Enhanced Precise Structured 3D Gaussians for View-Adaptive Rendering はコメントを受け付けていません

Learned Lightweight Smartphone ISP with Unpaired Data

要約

Image Signal Processor(ISP)は、知覚品質に重点を置いて、RAWセンサー画像データのRGB画像への変換を担当する最新のスマートフォンカメラの基本コンポーネントです。
最近の研究は、深い学習アプローチの可能性と、プロのカメラの品質にますます近い品質で詳細をキャプチャする能力を強調しています。
学習したISPを開発する際の困難で費用のかかるステップは、スマートフォンカメラセンサーによってキャプチャされたRAWを高品質の参照画像にマップするPixelごとのアラインドペアデータの取得です。
この作業では、一致するコンテンツを使用して、生の画像とグラウンドトゥルースデータの間の直接的な対応の必要性を排除する学習可能なISPのための新しいトレーニング方法を提案することにより、この課題に対処します。
私たちの対応のないアプローチは、ターゲットRGBデータセットから色とテクスチャの特性を学習しながら、コンテンツ構造を維持するために、事前に訓練されたネットワークからマップを処理する複数の判別器を処理する敵対的トレーニングによって導かれる複数期の損失関数を採用しています。
バックボーンとしてモバイルデバイスに適した軽量ニューラルネットワークアーキテクチャを使用して、Zurich RawのRGBおよびFujifilm Ultraispデータセットの方法を評価しました。
ペアのトレーニング方法と比較して、当社の不対の学習戦略は強力な可能性を示し、複数の評価メトリックにわたって高い忠実度を達成します。
コードと事前に訓練されたモデルは、https://github.com/andreiiarhire/Learned-lightweight-smartphone-isp-with-unpaired-dataで入手できます。

要約(オリジナル)

The Image Signal Processor (ISP) is a fundamental component in modern smartphone cameras responsible for conversion of RAW sensor image data to RGB images with a strong focus on perceptual quality. Recent work highlights the potential of deep learning approaches and their ability to capture details with a quality increasingly close to that of professional cameras. A difficult and costly step when developing a learned ISP is the acquisition of pixel-wise aligned paired data that maps the raw captured by a smartphone camera sensor to high-quality reference images. In this work, we address this challenge by proposing a novel training method for a learnable ISP that eliminates the need for direct correspondences between raw images and ground-truth data with matching content. Our unpaired approach employs a multi-term loss function guided by adversarial training with multiple discriminators processing feature maps from pre-trained networks to maintain content structure while learning color and texture characteristics from the target RGB dataset. Using lightweight neural network architectures suitable for mobile devices as backbones, we evaluated our method on the Zurich RAW to RGB and Fujifilm UltraISP datasets. Compared to paired training methods, our unpaired learning strategy shows strong potential and achieves high fidelity across multiple evaluation metrics. The code and pre-trained models are available at https://github.com/AndreiiArhire/Learned-Lightweight-Smartphone-ISP-with-Unpaired-Data .

arxiv情報

著者 Andrei Arhire,Radu Timofte
発行日 2025-05-15 15:37:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Learned Lightweight Smartphone ISP with Unpaired Data はコメントを受け付けていません