When Gaussian Meets Surfel: Ultra-fast High-fidelity Radiance Field Rendering

要約

ラディアンスフィールドレンダリングのバイスケール表現であるガウスで強化されたサーフェル(GESS)を紹介します。ここでは、ビュー依存の色を持つ2D不透明なサーフェルのセットが、シーンの粗いスケールのジオメトリと外観を表し、サーフェルサプリメントサプリメントの詳細を囲むいくつかの3Dガウス人を表します。
GESSでのレンダリングは2つのパスで構成されています。サーフェルは最初に標準のグラフィックスパイプラインを介してラスター化され、深さとカラーマップを生成し、ガウス人は各ピクセルの順序に深さテストと色の蓄積を独立してスプラットします。
マルチビュー画像からのGESSの最適化は、豊かなシーンの外観を忠実にキャプチャして、精巧な粗い手順を通じて実行されます。
Gessの完全にソートフリーのレンダリングは、非常に速いレートを達成するだけでなく、ビューのない画像を生成し、ビューの変更の下でポップなアーティファクトを避けます。
基本的なGES表現を簡単に拡張して、レンダリング(MIP-GES)でアンチエイリアシングを実現し、レンダリング速度(スピーディージョージ)およびコンパクトストレージ(コンパクトゲージ)をブーストし、3Dガウシア人を2Dガウス(2D-GES)に置き換えることにより、より良いシーンのジオメトリを再構築することができます。
実験結果は、Gessが最先端の高忠実度ラディアンスフィールドレンダリングの説得力のある表現として前進することを示しています。

要約(オリジナル)

We introduce Gaussian-enhanced Surfels (GESs), a bi-scale representation for radiance field rendering, wherein a set of 2D opaque surfels with view-dependent colors represent the coarse-scale geometry and appearance of scenes, and a few 3D Gaussians surrounding the surfels supplement fine-scale appearance details. The rendering with GESs consists of two passes — surfels are first rasterized through a standard graphics pipeline to produce depth and color maps, and then Gaussians are splatted with depth testing and color accumulation on each pixel order independently. The optimization of GESs from multi-view images is performed through an elaborate coarse-to-fine procedure, faithfully capturing rich scene appearance. The entirely sorting-free rendering of GESs not only achieves very fast rates, but also produces view-consistent images, successfully avoiding popping artifacts under view changes. The basic GES representation can be easily extended to achieve anti-aliasing in rendering (Mip-GES), boosted rendering speeds (Speedy-GES) and compact storage (Compact-GES), and reconstruct better scene geometries by replacing 3D Gaussians with 2D Gaussians (2D-GES). Experimental results show that GESs advance the state-of-the-arts as a compelling representation for ultra-fast high-fidelity radiance field rendering.

arxiv情報

著者 Keyang Ye,Tianjia Shao,Kun Zhou
発行日 2025-04-24 13:32:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | When Gaussian Meets Surfel: Ultra-fast High-fidelity Radiance Field Rendering はコメントを受け付けていません

A Comprehensive Survey of Knowledge-Based Vision Question Answering Systems: The Lifecycle of Knowledge in Visual Reasoning Task

要約

知識ベースのビジョン質問応答(KB-VQA)は、視覚的およびテキストの入力を理解するだけでなく、広範な知識の理解を必要とするだけでなく、さまざまな現実世界のアプリケーションにわたる大幅な進歩を可能にすることで、一般的なビジョン質問応答(VQA)を拡張します。
KB-VQAは、多様なモダリティとソースからの異種情報の整合、騒々しいまたは大規模なリポジトリからの関連知識の検索、複合的なコンテキストからの回答を推測する複雑な推論の実行など、独自の課題を導入します。
大規模な言語モデル(LLMS)の進歩により、KB-VQAシステムも顕著な変換を受けており、LLMSは強力な知識リポジトリ、検索された高度発電機、強力な推論として機能します。
実質的な進歩にもかかわらず、既存のKB-VQAメソッドを体系的に整理およびレビューする包括的な調査は現在存在しません。
この調査の目的は、KB-VQAアプローチの構造化された分類法を確立し、システムをメインステージ(知識表現、知識の検索、および知識推論)に分類することにより、このギャップを埋めることを目的としています。
さまざまな知識統合技術を調査し、永続的な課題を特定することにより、この作業は、将来の研究の方向性を約束し、KB-VQAモデルとそのア​​プリケーションを推進するための基盤を提供することを概説しています。

要約(オリジナル)

Knowledge-based Vision Question Answering (KB-VQA) extends general Vision Question Answering (VQA) by not only requiring the understanding of visual and textual inputs but also extensive range of knowledge, enabling significant advancements across various real-world applications. KB-VQA introduces unique challenges, including the alignment of heterogeneous information from diverse modalities and sources, the retrieval of relevant knowledge from noisy or large-scale repositories, and the execution of complex reasoning to infer answers from the combined context. With the advancement of Large Language Models (LLMs), KB-VQA systems have also undergone a notable transformation, where LLMs serve as powerful knowledge repositories, retrieval-augmented generators and strong reasoners. Despite substantial progress, no comprehensive survey currently exists that systematically organizes and reviews the existing KB-VQA methods. This survey aims to fill this gap by establishing a structured taxonomy of KB-VQA approaches, and categorizing the systems into main stages: knowledge representation, knowledge retrieval, and knowledge reasoning. By exploring various knowledge integration techniques and identifying persistent challenges, this work also outlines promising future research directions, providing a foundation for advancing KB-VQA models and their applications.

arxiv情報

著者 Jiaqi Deng,Zonghan Wu,Huan Huo,Guandong Xu
発行日 2025-04-24 13:37:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR, cs.MM | A Comprehensive Survey of Knowledge-Based Vision Question Answering Systems: The Lifecycle of Knowledge in Visual Reasoning Task はコメントを受け付けていません

Unsupervised Urban Land Use Mapping with Street View Contrastive Clustering and a Geographical Prior

要約

都市の土地利用の分類とマッピングは、都市計画、資源管理、環境監視に不可欠です。
既存のリモートセンシング技術は、地上レベルの詳細がないため、複雑な都市環境の精度を欠いていることがよくあります。
空中の視点とは異なり、ストリートビュー画像は、複雑な都市シーンでの土地利用に関連するより人間的および社会的活動を捉える地上レベルのビューを提供します。
既存のストリートビューベースの方法は、主に監視された分類に依存しています。これは、高品質のラベル付きデータの希少性と、多様な都市景観全体に一般化することの難しさに挑戦しています。
この研究では、クラスタリングパフォーマンスを向上させるために、地理的な事前に組み込まれたストリートビュー画像の監視されていないコントラストクラスタリングモデルを紹介します。
クラスターの単純な視覚的割り当てと組み合わせると、このアプローチは、都市計画者の特定のニーズに合わせた土地利用マッピングに対する柔軟でカスタマイズ可能なソリューションを提供します。
私たちの方法は、2つの都市のジオタグ付きストリートビュー画像データセットから土地利用地図を生成できることを実験的に示します。
私たちの方法論は、地理空間データの普遍的な空間的一貫性(「Tobler’s Law」)に依存しているため、Street View画像が利用可能なさまざまな設定に適合させることができ、スケーラブルで監視されていない土地使用マッピングと更新を可能にします。
コードはhttps://github.com/lin102/ccgpで入手できます。

要約(オリジナル)

Urban land use classification and mapping are critical for urban planning, resource management, and environmental monitoring. Existing remote sensing techniques often lack precision in complex urban environments due to the absence of ground-level details. Unlike aerial perspectives, street view images provide a ground-level view that captures more human and social activities relevant to land use in complex urban scenes. Existing street view-based methods primarily rely on supervised classification, which is challenged by the scarcity of high-quality labeled data and the difficulty of generalizing across diverse urban landscapes. This study introduces an unsupervised contrastive clustering model for street view images with a built-in geographical prior, to enhance clustering performance. When combined with a simple visual assignment of the clusters, our approach offers a flexible and customizable solution to land use mapping, tailored to the specific needs of urban planners. We experimentally show that our method can generate land use maps from geotagged street view image datasets of two cities. As our methodology relies on the universal spatial coherence of geospatial data (‘Tobler’s law’), it can be adapted to various settings where street view images are available, to enable scalable, unsupervised land use mapping and updating. The code will be available at https://github.com/lin102/CCGP.

arxiv情報

著者 Lin Che,Yizi Chen,Tanhua Jin,Martin Raubal,Konrad Schindler,Peter Kiefer
発行日 2025-04-24 13:41:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Unsupervised Urban Land Use Mapping with Street View Contrastive Clustering and a Geographical Prior はコメントを受け付けていません

FMNV: A Dataset of Media-Published News Videos for Fake News Detection

要約

ニュースメディア、特にビデオベースのプラットフォームは、日常生活に深く組み込まれ、誤った情報の普及のリスクを同時に増幅しています。
その結果、マルチモーダルの偽のニュース検出は、非常に研究の注目を集めています。
ただし、既存のデータセットは、主に粗野な編集と限られた一般的な関与を特徴とするユーザー生成ビデオで構成されていますが、専門的に作成されたメディアアウトレットに播種された偽のニュースビデオは、しばしば政治的またはバイラルモチベーションのある社会的危害を促進します。
このギャップに対処するために、メディア組織が発行したニュースビデオで構成される新しいデータセットであるFMNVを構築します。
既存のデータセットとキュレーションされたコレクションの経験的分析を通じて、偽のニュースビデオを4つの異なるタイプに分類します。
この分類法に基づいて、大規模な言語モデル(LLM)を採用して、本物のメディアが発行したニュースビデオを操作することにより、欺cept的なコンテンツを自動的に生成します。
さらに、特徴の改良性とマルチモーダル集合体の共通メカニズムによって強化された、クリップとビデオ機能抽出のためのr-CNNを統合するデュアルストリームアーキテクチャを特徴とするベースラインモデルであるFMNVDを提案します。
比較実験は、複数のベースラインにわたるFMNVの一般化能力とFMNVDの優れた検出効果の両方を示しています。
この作業は、メディアエコシステムのインパクトのある偽のニュースを検出するための重要なベンチマークを確立し、モーダルの矛盾分析のための方法論を進めています。

要約(オリジナル)

News media, particularly video-based platforms, have become deeply embedded in daily life, concurrently amplifying risks of misinformation dissemination. Consequently, multimodal fake news detection has garnered significant research attention. However, existing datasets predominantly comprise user-generated videos characterized by crude editing and limited public engagement, whereas professionally crafted fake news videos disseminated by media outlets, often politically or virally motivated-pose substantially greater societal harm. To address this gap, we construct FMNV, a novel dataset exclusively composed of news videos published by media organizations. Through empirical analysis of existing datasets and our curated collection, we categorize fake news videos into four distinct types. Building upon this taxonomy, we employ Large Language Models (LLMs) to automatically generate deceptive content by manipulating authentic media-published news videos. Furthermore, we propose FMNVD, a baseline model featuring a dual-stream architecture integrating CLIP and Faster R-CNN for video feature extraction, enhanced by co-attention mechanisms for feature refinement and multimodal aggregation. Comparative experiments demonstrate both the generalization capability of FMNV across multiple baselines and the superior detection efficacy of FMNVD. This work establishes critical benchmarks for detecting high-impact fake news in media ecosystems while advancing methodologies for cross-modal inconsistency analysis.

arxiv情報

著者 Yihao Wang,Zhong Qian,Peifeng Li
発行日 2025-04-24 13:53:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | FMNV: A Dataset of Media-Published News Videos for Fake News Detection はコメントを受け付けていません

Occlusion-Aware Self-Supervised Monocular Depth Estimation for Weak-Texture Endoscopic Images

要約

内視鏡シーンに合わせて調整された自己監督の単眼深度推定ネットワークを提案し、単眼画像から胃腸管内の深さを推測することを目指しています。
既存の方法は、正確ですが、通常、一貫した照明を想定しています。これは、GIの運動性によって引き起こされる動的な照明と閉塞のためにしばしば違反されます。
これらの変動は、誤った幾何学的解釈と信頼できない自己監視信号、深さの再構成の品質を分解することにつながります。
これに対処するために、咬合を意識した自己監視フレームワークを紹介します。
まず、視点依存の閉塞シナリオをシミュレートすることにより、擬似ラベルを生成するデータ増強のための閉塞マスクを組み込みます。
これにより、部分的な可視性の下で堅牢な深さの特徴を学習するモデルの能力が向上します。
第二に、非陰性マトリックス因数分解、テクスチャ不足領域で擬似適応を生成するための畳み込み活性化のクラスター化によって導かれたセマンティックセグメンテーションを活用し、それによりセグメンテーションの精度を改善し、照明の変化による情報の損失を軽減します。
怖いデータセットでの実験結果は、私たちの方法が自己教師の深さ推定で最先端のパフォーマンスを達成することを示しています。
さらに、Endo-SlamおよびServ-CTデータセットの評価は、多様な内視鏡環境全体で強力な一般化を示しています。

要約(オリジナル)

We propose a self-supervised monocular depth estimation network tailored for endoscopic scenes, aiming to infer depth within the gastrointestinal tract from monocular images. Existing methods, though accurate, typically assume consistent illumination, which is often violated due to dynamic lighting and occlusions caused by GI motility. These variations lead to incorrect geometric interpretations and unreliable self-supervised signals, degrading depth reconstruction quality. To address this, we introduce an occlusion-aware self-supervised framework. First, we incorporate an occlusion mask for data augmentation, generating pseudo-labels by simulating viewpoint-dependent occlusion scenarios. This enhances the model’s ability to learn robust depth features under partial visibility. Second, we leverage semantic segmentation guided by non-negative matrix factorization, clustering convolutional activations to generate pseudo-labels in texture-deprived regions, thereby improving segmentation accuracy and mitigating information loss from lighting changes. Experimental results on the SCARED dataset show that our method achieves state-of-the-art performance in self-supervised depth estimation. Additionally, evaluations on the Endo-SLAM and SERV-CT datasets demonstrate strong generalization across diverse endoscopic environments.

arxiv情報

著者 Zebo Huang,Yinghui Wang
発行日 2025-04-24 14:12:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Occlusion-Aware Self-Supervised Monocular Depth Estimation for Weak-Texture Endoscopic Images はコメントを受け付けていません

Putting the Segment Anything Model to the Test with 3D Knee MRI – A Comparison with State-of-the-Art Performance

要約

メニスピは、関節の潤滑と体重分散に寄与する膝の中に見られる軟骨組織です。
メニスチの損傷は、障害の主な原因であり、効果的な治療法がほとんどない状態である膝の変形性関節症(OA)の発症と進行につながる可能性があります。
メニスピの正確な自動セグメンテーションにより、メニスコール異常の早期の検出と治療が可能になり、OA病因におけるメニスピが果たす役割にもっと光を当てることができます。
この分野でのフォーカスは、主に畳み込みネットワークのバリエーションを使用していますが、最近の大型視覚変圧器セグメンテーションモデルを利用する試みはありませんでした。
Segment Anything Model(SAM)は、いわゆる基礎セグメンテーションモデルです。これは、モデルのトレーニングに使用される大量のデータにより、さまざまなタスクの範囲で有用であることがわかりました。
この研究では、SAMは、3D膝磁気共鳴画像からのメニスピの完全に自動化されたセグメンテーションを実行するように適合しました。
3D U-Netもベースラインとして訓練されました。
デコーダーのみを微調整した場合、サムは3D U-Netと競合することができず、$ 0.87 \ PM0.03 $と比較して、$ 0.81 \ PM0.03 $のサイコロスコアを達成できたことがわかりました。
微調整サムのエンドツーエンドで、0.87 \ PM0.03 $のサイコロスコアが達成されました。
エンドツーエンドのトレーニングされたSAM構成と3D U-NETの両方のパフォーマンスは、Iwoai膝MRIセグメンテーションチャレンジ2019の勝利ダイススコア($ 0.88 \ PM0.03 $)に匹敵しました。
結果は、その一般化可能性にもかかわらず、SAMはメニスカスセグメンテーションで基本的な3D U-Netを上回ることができず、コントラストが低く、定義が不十分な境界を持つ細かい解剖学的構造も含む同様の3D医療画像セグメンテーションタスクに適していない可能性があることを実証しました。

要約(オリジナル)

Menisci are cartilaginous tissue found within the knee that contribute to joint lubrication and weight dispersal. Damage to menisci can lead to onset and progression of knee osteoarthritis (OA), a condition that is a leading cause of disability, and for which there are few effective therapies. Accurate automated segmentation of menisci would allow for earlier detection and treatment of meniscal abnormalities, as well as shedding more light on the role the menisci play in OA pathogenesis. Focus in this area has mainly used variants of convolutional networks, but there has been no attempt to utilise recent large vision transformer segmentation models. The Segment Anything Model (SAM) is a so-called foundation segmentation model, which has been found useful across a range of different tasks due to the large volume of data used for training the model. In this study, SAM was adapted to perform fully-automated segmentation of menisci from 3D knee magnetic resonance images. A 3D U-Net was also trained as a baseline. It was found that, when fine-tuning only the decoder, SAM was unable to compete with 3D U-Net, achieving a Dice score of $0.81\pm0.03$, compared to $0.87\pm0.03$, on a held-out test set. When fine-tuning SAM end-to-end, a Dice score of $0.87\pm0.03$ was achieved. The performance of both the end-to-end trained SAM configuration and the 3D U-Net were comparable to the winning Dice score ($0.88\pm0.03$) in the IWOAI Knee MRI Segmentation Challenge 2019. Performance in terms of the Hausdorff Distance showed that both configurations of SAM were inferior to 3D U-Net in matching the meniscus morphology. Results demonstrated that, despite its generalisability, SAM was unable to outperform a basic 3D U-Net in meniscus segmentation, and may not be suitable for similar 3D medical image segmentation tasks also involving fine anatomical structures with low contrast and poorly-defined boundaries.

arxiv情報

著者 Oliver Mills,Philip Conaghan,Nishant Ravikumar,Samuel Relton
発行日 2025-04-24 14:18:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Putting the Segment Anything Model to the Test with 3D Knee MRI – A Comparison with State-of-the-Art Performance はコメントを受け付けていません

RGB-D Tracking via Hierarchical Modality Aggregation and Distribution Network

要約

デュアルモーダル機能の統合は、RGB深度(RGB-D)追跡を進める上で極めて重要です。
ただし、現在のトラッカーは効率が低く、単一レベルの機能のみに焦点を当てているため、融合の堅牢性が弱くなり、実際のアプリケーションの要求を満たすことができない速度が遅くなります。
この論文では、これらの課題に対処するHMAD(階層モダリティの集約と分布)として示される新しいネットワークを紹介します。
HMADは、RGBと深さのモダリティの明確な特徴表現強度を活用し、特徴分布と融合の階層的アプローチに顕著になり、それによりRGB-D追跡の堅牢性を高めます。
さまざまなRGB-Dデータセットの実験結果は、HMADが最先端のパフォーマンスを達成することを示しています。
さらに、実際の実験は、リアルタイムシナリオでさまざまな追跡課題を効果的に処理するHMADの能力をさらに検証します。

要約(オリジナル)

The integration of dual-modal features has been pivotal in advancing RGB-Depth (RGB-D) tracking. However, current trackers are less efficient and focus solely on single-level features, resulting in weaker robustness in fusion and slower speeds that fail to meet the demands of real-world applications. In this paper, we introduce a novel network, denoted as HMAD (Hierarchical Modality Aggregation and Distribution), which addresses these challenges. HMAD leverages the distinct feature representation strengths of RGB and depth modalities, giving prominence to a hierarchical approach for feature distribution and fusion, thereby enhancing the robustness of RGB-D tracking. Experimental results on various RGB-D datasets demonstrate that HMAD achieves state-of-the-art performance. Moreover, real-world experiments further validate HMAD’s capacity to effectively handle a spectrum of tracking challenges in real-time scenarios.

arxiv情報

著者 Boyue Xu,Yi Xu,Ruichao Hou,Jia Bei,Tongwei Ren,Gangshan Wu
発行日 2025-04-24 14:22:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RGB-D Tracking via Hierarchical Modality Aggregation and Distribution Network はコメントを受け付けていません

Tamper-evident Image using JPEG Fixed Points

要約

JPEG圧縮に関する興味深い現象が20年前から観察されてきました。JPEG圧縮と減圧を繰り返した後、それはもはや変化しない安定した画像につながります。
この作業では、必須のJPEGプロシージャに固定点が存在することを証明します。
JPEG圧縮プロセスと減圧プロセスを分析し、いくつかの反復内で到達できる固定点の存在を明らかにします。
これらの固定点は多様であり、画像の視覚品質を維持し、歪みを最小限に抑えます。
この結果は、元の本物の画像から改ざん防止画像を作成する方法を開発するために使用されます。これにより、固定点画像からの逸脱を示すことで改ざん操作を公開できます。

要約(オリジナル)

An intriguing phenomenon about JPEG compression has been observed since two decades ago- after repeating JPEG compression and decompression, it leads to a stable image that does not change anymore, which is a fixed point. In this work, we prove the existence of fixed points in the essential JPEG procedures. We analyze JPEG compression and decompression processes, revealing the existence of fixed points that can be reached within a few iterations. These fixed points are diverse and preserve the image’s visual quality, ensuring minimal distortion. This result is used to develop a method to create a tamper-evident image from the original authentic image, which can expose tampering operations by showing deviations from the fixed point image.

arxiv情報

著者 Zhaofeng Si,Siwei Lyu
発行日 2025-04-24 14:22:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4.7 | Tamper-evident Image using JPEG Fixed Points はコメントを受け付けていません

STCL:Curriculum learning Strategies for deep learning image steganography models

要約

深い学習に基づいて、ステガノグラフィ画像の質の低さと画像ステガノグラフィモデルのゆっくりとしたネットワーク収束の問題を目指して、このペーパーでは、深い学習画像ステガノグラフィモデルのためのステガノグラフィカリキュラム学習トレーニング戦略(STCL)を提案します。
そのため、モデルが初期段階で不十分なフィッティング能力を持ち、より困難な画像に徐々に拡張している場合、トレーニングのために簡単な画像のみが選択されるように、戦略には、教師モデルとニーポイントベースのトレーニングスケジューリング戦略に基づく難易度評価戦略が含まれます。
第一に、複数の教師モデルがトレーニングされ、複数の教師モデルの下でのステガノグラフィ画像の品質の一貫性が難易度スコアとして使用され、トレーニングサブセットを簡単から難しいものに構築します。
第二に、膝ポイントに基づくトレーニング制御戦略が提案されており、小規模なトレーニングセットに過剰に適合する可能性を減らし、トレーニングプロセスを加速します。
Alaska2、VoC2012、およびImagenetの3つの大規模なパブリックデータセットでの実験結果は、提案された画像ステガノグラフィスキームが複数のアルゴリズムフレームワークの下でモデルパフォーマンスを改善できることを示しています。
\ href {https://github.com/chaos-boops/stcl} {https://github.com/chaos-boops/stcl}でコードを見つけることができます。

要約(オリジナル)

Aiming at the problems of poor quality of steganographic images and slow network convergence of image steganography models based on deep learning, this paper proposes a Steganography Curriculum Learning training strategy (STCL) for deep learning image steganography models. So that only easy images are selected for training when the model has poor fitting ability at the initial stage, and gradually expand to more difficult images, the strategy includes a difficulty evaluation strategy based on the teacher model and an knee point-based training scheduling strategy. Firstly, multiple teacher models are trained, and the consistency of the quality of steganographic images under multiple teacher models is used as the difficulty score to construct the training subsets from easy to difficult. Secondly, a training control strategy based on knee points is proposed to reduce the possibility of overfitting on small training sets and accelerate the training process. Experimental results on three large public datasets, ALASKA2, VOC2012 and ImageNet, show that the proposed image steganography scheme is able to improve the model performance under multiple algorithmic frameworks, which not only has a high PSNR, SSIM score, and decoding accuracy, but also the steganographic images generated by the model under the training of the STCL strategy have a low steganography analysis scores. You can find our code at \href{https://github.com/chaos-boops/STCL}{https://github.com/chaos-boops/STCL}.

arxiv情報

著者 Fengchun Liu,Tong Zhang,Chunying Zhang
発行日 2025-04-24 14:34:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV | STCL:Curriculum learning Strategies for deep learning image steganography models はコメントを受け付けていません

The effects of Hessian eigenvalue spectral density type on the applicability of Hessian analysis to generalization capability assessment of neural networks

要約

Hessians of Neural Network(NN)には、NNの一般化能力を推定するために使用できるNN損失景観の曲率に関する重要な情報が含まれています。
以前に、ヘシアン固有値スペクトル密度(HESD)が幅広いクラスのNNSに対して同様に動作するという観察に依存する一般化基準を提案しました。
この論文は、さまざまなタイプのHESDをもたらす可能性のある要因を調査することにより、それらの適用性をさらに研究します。
HESDが主にNNトレーニングに正の固有値(MP-HESD)があり、異なる前処理と増強手順を備えたさまざまなデータセットでさまざまなオプティマイザーを使用して微調整されていることを示す幅広い実験を実施します。
また、主に陰性HESD(MN-HESD)が外部勾配操作の結果であり、以前に提案されていたヘシアン分析方法をそのような場合に適用できないことを示しています。
また、HESDタイプを決定し、NN一般化の可能性を推定するための基準と対応する条件を提案します。
これらのHESDタイプと以前に提案されていた一般化基準は、統合されたHESD分析方法論に結合されます。
最後に、トレーニング中にHESDがどのように変化するかについて説明し、準シングル(QS)HESDの発生と、提案された方法論と、ヘシアン固有値とNN損失の景観の曲がりとの関係に関する従来の仮定に対する影響を示します。

要約(オリジナル)

Hessians of neural network (NN) contain essential information about the curvature of NN loss landscapes which can be used to estimate NN generalization capabilities. We have previously proposed generalization criteria that rely on the observation that Hessian eigenvalue spectral density (HESD) behaves similarly for a wide class of NNs. This paper further studies their applicability by investigating factors that can result in different types of HESD. We conduct a wide range of experiments showing that HESD mainly has positive eigenvalues (MP-HESD) for NN training and fine-tuning with various optimizers on different datasets with different preprocessing and augmentation procedures. We also show that mainly negative HESD (MN-HESD) is a consequence of external gradient manipulation, indicating that the previously proposed Hessian analysis methodology cannot be applied in such cases. We also propose criteria and corresponding conditions to determine HESD type and estimate NN generalization potential. These HESD types and previously proposed generalization criteria are combined into a unified HESD analysis methodology. Finally, we discuss how HESD changes during training, and show the occurrence of quasi-singular (QS) HESD and its influence on the proposed methodology and on the conventional assumptions about the relation between Hessian eigenvalues and NN loss landscape curvature.

arxiv情報

著者 Nikita Gabdullin
発行日 2025-04-24 14:43:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | The effects of Hessian eigenvalue spectral density type on the applicability of Hessian analysis to generalization capability assessment of neural networks はコメントを受け付けていません