Fixed-Length Dense Fingerprint Representation

要約

各指紋をコンパクトで固定サイズの特徴ベクトルにマッピングする固定長の指紋表現は、計算上効率的で、大規模なマッチングに適しています。
ただし、多様な指紋モダリティを効果的に処理する堅牢な表現の設計、バリエーション、およびノイズ干渉の発生は依然として重要な課題です。
この作業では、フィンガープリントの固定長の密な記述子を提案し、固定長の高密度記述子とポーズベースのアライメントと堅牢な強化を統合するフレアA指紋マッチングフレームワークを導入します。
この固定された長さの表現は、3次元の密な記述子を採用して、指紋尾根構造間の空間的関係を効果的にキャプチャし、堅牢で局所的に識別的な表現を可能にします。
この密な特徴空間内で一貫性を確保するために、フレアには、補完的な推定方法を使用したポーズベースのアライメントと、元の指紋モダリティを維持しながらリッジの透明度を改良する二重強化戦略が組み込まれています。
提案された密な記述子は、空間的対応を維持しながら固定長の表現をサポートし、迅速かつ正確な類似性計算を可能にします。
広範な実験は、フレアが転がった、平易な、潜在的、接触的な指紋にわたって優れた性能を達成し、クロスモダリティおよび低品質のシナリオで既存の方法を大幅に上回ることを示しています。
さらなる分析では、密な記述子設計の有効性、および密な記述子マッチングの精度に対するアラインメントモジュールと強化モジュールの影響を検証します。
実験結果は、堅牢な指紋表現とマッチングのための統一されたスケーラブルなソリューションとしてのフレアの有効性と一般化可能性を強調しています。
実装とコードは、https://github.com/yu-yy/flareで公開されます。

要約(オリジナル)

Fixed-length fingerprint representations, which map each fingerprint to a compact and fixed-size feature vector, are computationally efficient and well-suited for large-scale matching. However, designing a robust representation that effectively handles diverse fingerprint modalities, pose variations, and noise interference remains a significant challenge. In this work, we propose a fixed-length dense descriptor of fingerprints, and introduce FLARE-a fingerprint matching framework that integrates the Fixed-Length dense descriptor with pose-based Alignment and Robust Enhancement. This fixed-length representation employs a three-dimensional dense descriptor to effectively capture spatial relationships among fingerprint ridge structures, enabling robust and locally discriminative representations. To ensure consistency within this dense feature space, FLARE incorporates pose-based alignment using complementary estimation methods, along with dual enhancement strategies that refine ridge clarity while preserving the original fingerprint modality. The proposed dense descriptor supports fixed-length representation while maintaining spatial correspondence, enabling fast and accurate similarity computation. Extensive experiments demonstrate that FLARE achieves superior performance across rolled, plain, latent, and contactless fingerprints, significantly outperforming existing methods in cross-modality and low-quality scenarios. Further analysis validates the effectiveness of the dense descriptor design, as well as the impact of alignment and enhancement modules on the accuracy of dense descriptor matching. Experimental results highlight the effectiveness and generalizability of FLARE as a unified and scalable solution for robust fingerprint representation and matching. The implementation and code will be publicly available at https://github.com/Yu-Yy/FLARE.

arxiv情報

著者 Zhiyu Pan,Xiongjun Guan,Yongjie Duan,Jianjiang Feng,Jie Zhou
発行日 2025-05-06 14:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Fixed-Length Dense Fingerprint Representation はコメントを受け付けていません

From Pixels to Polygons: A Survey of Deep Learning Approaches for Medical Image-to-Mesh Reconstruction

要約

ディープラーニングに基づいた医療画像からメッシュへの再構成が急速に進化し、疾患メカニズムと現代医学の診断および治療技術の理解を進めるための計算医学およびシリコ試験で重要な3次元メッシュモデルへの医療イメージングデータの変換を可能にします。
この調査では、既存のアプローチを体系的に4つの主要なカテゴリに分類します:テンプレートモデル、統計モデル、生成モデル、および暗黙的なモデル。
各カテゴリを詳細に分析し、さまざまな解剖学的構造とイメージングモダリティへの方法論的基盤、強み、制限、および適用性を調べます。
標準メトリックを使用した定量的比較によってサポートされている、心臓イメージングから神経学的研究まで、さまざまな解剖学的アプリケーションにわたるこれらの方法の広範な評価を提供します。
さらに、医療メッシュ再構成タスクで利用可能な主要なパブリックデータセットをコンパイルおよび分析し、一般的に使用される評価メトリックと損失関数について説明します。
この調査では、トポロジーの正確性、幾何学的精度、マルチモダリティ統合の要件など、現場での現在の課題が特定されています。
最後に、このドメインで有望な将来の研究の方向性を提示します。
この系統的レビューは、医療画像分析と計算医学の研究者と実践者の包括的なリファレンスとして機能することを目的としています。

要約(オリジナル)

Deep learning-based medical image-to-mesh reconstruction has rapidly evolved, enabling the transformation of medical imaging data into three-dimensional mesh models that are critical in computational medicine and in silico trials for advancing our understanding of disease mechanisms, and diagnostic and therapeutic techniques in modern medicine. This survey systematically categorizes existing approaches into four main categories: template models, statistical models, generative models, and implicit models. Each category is analysed in detail, examining their methodological foundations, strengths, limitations, and applicability to different anatomical structures and imaging modalities. We provide an extensive evaluation of these methods across various anatomical applications, from cardiac imaging to neurological studies, supported by quantitative comparisons using standard metrics. Additionally, we compile and analyze major public datasets available for medical mesh reconstruction tasks and discuss commonly used evaluation metrics and loss functions. The survey identifies current challenges in the field, including requirements for topological correctness, geometric accuracy, and multi-modality integration. Finally, we present promising future research directions in this domain. This systematic review aims to serve as a comprehensive reference for researchers and practitioners in medical image analysis and computational medicine.

arxiv情報

著者 Fengming Lin,Arezoo Zakeri,Yidan Xue,Michael MacRaild,Haoran Dou,Zherui Zhou,Ziwei Zou,Ali Sarrami-Foroushani,Jinming Duan,Alejandro F. Frangi
発行日 2025-05-06 15:01:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | From Pixels to Polygons: A Survey of Deep Learning Approaches for Medical Image-to-Mesh Reconstruction はコメントを受け付けていません

PAHA: Parts-Aware Audio-Driven Human Animation with Diffusion Model

要約

オーディオ駆動型のヒューマンアニメーションテクノロジーは、ヒューマンコンピューターの相互作用で広く使用されており、拡散モデルの出現により、その開発がさらに進歩しました。
現在、ほとんどの方法は、マルチステージの生成と中間表現に依存しており、特定の前景領域の生成品質とオーディオモーションの一貫性に長い推論時間と問題をもたらしています。
これらの欠点は、主に局所的な細粒の監視されたガイダンスがないためです。
上記の課題に対処するために、拡散モデルを備えたエンドツーエンドのオーディオ駆動型の上半身の人間アニメーションフレームワークであるPahaを提案します。
2つの重要な方法を紹介します:部品認識の再重視(PAR)と部品の一貫性の強化(PCE)。
PARは、ポーズ信頼スコアに基づいて地域のトレーニング損失の重みを動的に調整し、視覚品質を効果的に改善します。
PCEは、拡散ベースの地域の視聴覚分類器を構築および訓練して、モーションと共同スピーチのオーディオの一貫性を改善します。
その後、前述の分類器、シーケンシャルガイダンス(SG)および差動ガイダンス(DG)の2つの新しい推論ガイダンス方法を、それぞれ効率と品質のバランスをとることができます。
さらに、この分野での研究と検証を進めるために、最初の中国のニュースアンカースピーチデータセットであるCNAを構築します。
大規模な実験結果とユーザー研究は、PAHAがオーディオモーションの調整とビデオ関連の評価で既存の方法を大幅に上回ることを示しています。
コードとCNASデータセットは、受け入れられるとリリースされます。

要約(オリジナル)

Audio-driven human animation technology is widely used in human-computer interaction, and the emergence of diffusion models has further advanced its development. Currently, most methods rely on multi-stage generation and intermediate representations, resulting in long inference time and issues with generation quality in specific foreground regions and audio-motion consistency. These shortcomings are primarily due to the lack of localized fine-grained supervised guidance. To address above challenges, we propose PAHA, an end-to-end audio-driven upper-body human animation framework with diffusion model. We introduce two key methods: Parts-Aware Re-weighting (PAR) and Parts Consistency Enhancement (PCE). PAR dynamically adjusts regional training loss weights based on pose confidence scores, effectively improving visual quality. PCE constructs and trains diffusion-based regional audio-visual classifiers to improve the consistency of motion and co-speech audio. Afterwards, we design two novel inference guidance methods for the foregoing classifiers, Sequential Guidance (SG) and Differential Guidance (DG), to balance efficiency and quality respectively. Additionally, we build CNAS, the first public Chinese News Anchor Speech dataset, to advance research and validation in this field. Extensive experimental results and user studies demonstrate that PAHA significantly outperforms existing methods in audio-motion alignment and video-related evaluations. The codes and CNAS dataset will be released upon acceptance.

arxiv情報

著者 Y. B. Wang,S. Z. Zhou,J. F. Wu,T. Hu,J. N. Zhang,Y. Liu
発行日 2025-05-06 15:03:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | PAHA: Parts-Aware Audio-Driven Human Animation with Diffusion Model はコメントを受け付けていません

Learning Knowledge-based Prompts for Robust 3D Mask Presentation Attack Detection

要約

3Dマスクのプレゼンテーション攻撃の検出は、3Dマスク攻撃の上昇する脅威から顔認識システムを保護するために重要です。
ほとんどの既存の方法は、マルチモーダル機能またはリモートフォト植物学(RPPG)シグナルを利用して、実際の面と3Dマスクを区別しますが、マルチモーダルセンサーに関連する高コストや一般化能力の限られたコストなど、重大な課題に直面しています。
検出関連のテキストの説明は、簡潔で普遍的な情報を提供し、取得するのに費用対効果が高いです。
ただし、3Dマスクプレゼンテーション攻撃の検出のためのビジョン言語マルチモーダル機能の可能性は未踏のままです。
この論文では、3Dマスクプレゼンテーション攻撃検出のための視覚言語モデルの強力な一般化能力を調査するための新しい知識ベースの迅速な学習フレームワークを提案します。
具体的には、私たちのアプローチには、知識グラフから迅速な学習プロセスへのエンティティとトリプルが組み込まれ、事前に訓練されたビジョン言語モデルに埋め込まれた知識を効果的に活用する細かいタスク固有の明示的なプロンプトを生成します。
さらに、異なる入力画像が明確な知識グラフ要素を強調することを考慮すると、視覚的なコンテキストに応じて関連する要素を改良するための注意メカニズムに基づいて視覚固有の知識フィルターを導入します。
さらに、因果グラフ理論の洞察を迅速な学習プロセスに活用して、メソッドの一般化能力をさらに強化します。
トレーニング中に、スプリアス相関除去パラダイムが採用されています。これにより、知識ベースのテキスト機能からのガイダンスを使用して、カテゴリと関連性のあるローカル画像パッチが削除され、カテゴリ関連のローカルパッチと一致する一般化された因果プロンプトの学習を促進します。
実験結果は、提案された方法がベンチマークデータセットで最先端の内部およびクロスセナリオ検出性能を達成することを示しています。

要約(オリジナル)

3D mask presentation attack detection is crucial for protecting face recognition systems against the rising threat of 3D mask attacks. While most existing methods utilize multimodal features or remote photoplethysmography (rPPG) signals to distinguish between real faces and 3D masks, they face significant challenges, such as the high costs associated with multimodal sensors and limited generalization ability. Detection-related text descriptions offer concise, universal information and are cost-effective to obtain. However, the potential of vision-language multimodal features for 3D mask presentation attack detection remains unexplored. In this paper, we propose a novel knowledge-based prompt learning framework to explore the strong generalization capability of vision-language models for 3D mask presentation attack detection. Specifically, our approach incorporates entities and triples from knowledge graphs into the prompt learning process, generating fine-grained, task-specific explicit prompts that effectively harness the knowledge embedded in pre-trained vision-language models. Furthermore, considering different input images may emphasize distinct knowledge graph elements, we introduce a visual-specific knowledge filter based on an attention mechanism to refine relevant elements according to the visual context. Additionally, we leverage causal graph theory insights into the prompt learning process to further enhance the generalization ability of our method. During training, a spurious correlation elimination paradigm is employed, which removes category-irrelevant local image patches using guidance from knowledge-based text features, fostering the learning of generalized causal prompts that align with category-relevant local patches. Experimental results demonstrate that the proposed method achieves state-of-the-art intra- and cross-scenario detection performance on benchmark datasets.

arxiv情報

著者 Fangling Jiang,Qi Li,Bing Liu,Weining Wang,Caifeng Shan,Zhenan Sun,Ming-Hsuan Yang
発行日 2025-05-06 15:09:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Learning Knowledge-based Prompts for Robust 3D Mask Presentation Attack Detection はコメントを受け付けていません

Learning Unknown Spoof Prompts for Generalized Face Anti-Spoofing Using Only Real Face Images

要約

フェイスアンチスプーフィングは、顔認識システムのセキュリティを確保するための重要な技術です。
ただし、多様なシナリオ全体で一般化する能力は依然として重要な課題です。
この論文では、限られた一般化能力を、外部のデータ収集のバリエーションから生じる共変量シフトと、新たな攻撃タイプの実質的な違いに起因するセマンティックシフトの2つの重要な要因に起因すると考えています。
両方の課題に対処するために、単一のソースドメインからの実際の顔の画像のみに依存して、未知のスプーフプロンプトを学習するための新しいアプローチを提案します。
私たちの方法は、ビジョン言語モデルに組み込まれた一般的な知識を活用することにより、実際の顔と潜在的な未知のスプーフィング攻撃のテキストプロンプトを生成し、それにより、目に見えないターゲットドメインに一般化するモデルの能力を高めます。
具体的には、効果的なプロンプトを学習するために、多様なスプーフィングプロンプト最適化フレームワークを紹介します。
このフレームワークは、リラックスした事前知識空間内で未知のスプーフィングプロンプトを制約しながら、実際の顔の画像からの距離を最大化します。
さらに、さまざまなスプーフィングプロンプトの間でセマンティックな独立性を実施して、広範囲のスプーフィングパターンをキャプチャします。
9つのデータセットでの実験結果は、学習されたプロンプトが視覚言語モデルの知識を効果的に転送し、スプーフィングの顔画像を使用せずに、目に見えないターゲットドメイン全体の多様な未知の攻撃タイプに対する最先端の一般化能力を可能にすることを示しています。

要約(オリジナル)

Face anti-spoofing is a critical technology for ensuring the security of face recognition systems. However, its ability to generalize across diverse scenarios remains a significant challenge. In this paper, we attribute the limited generalization ability to two key factors: covariate shift, which arises from external data collection variations, and semantic shift, which results from substantial differences in emerging attack types. To address both challenges, we propose a novel approach for learning unknown spoof prompts, relying solely on real face images from a single source domain. Our method generates textual prompts for real faces and potential unknown spoof attacks by leveraging the general knowledge embedded in vision-language models, thereby enhancing the model’s ability to generalize to unseen target domains. Specifically, we introduce a diverse spoof prompt optimization framework to learn effective prompts. This framework constrains unknown spoof prompts within a relaxed prior knowledge space while maximizing their distance from real face images. Moreover, it enforces semantic independence among different spoof prompts to capture a broad range of spoof patterns. Experimental results on nine datasets demonstrate that the learned prompts effectively transfer the knowledge of vision-language models, enabling state-of-the-art generalization ability against diverse unknown attack types across unseen target domains without using any spoof face images.

arxiv情報

著者 Fangling Jiang,Qi Li,Weining Wang,Wei Shen,Bing Liu,Zhenan Sun
発行日 2025-05-06 15:09:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Learning Unknown Spoof Prompts for Generalized Face Anti-Spoofing Using Only Real Face Images はコメントを受け付けていません

PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

要約

リモートフォトプレチスモグラフィ(RPPG)は、非接触生理的測定を可能にしますが、照明の変化、モーションアーティファクト、および限られた時間モデリングに非常に影響を受けやすいままです。
大規模な言語モデル(LLM)は、長距離依存関係のキャプチャに優れており、潜在的なソリューションを提供しますが、テキスト中心のデザインによるRPPG信号の継続的で騒音に敏感な性質と闘っています。
このギャップを埋めるために、ドメイン固有のRPPGコンポーネントとLLMを相乗する共同最適化フレームワークであるPhysllMを紹介します。
具体的には、テキストプロトタイプガイダンス(TPG)戦略は、血行動態の特徴をLLMで解釈可能なセマンティック空間に投影することにより、クロスモーダルアラインメントを確立し、生理学的シグナルと言語トークンの間の表現ギャップを効果的に埋めるために提案されています。
また、適応時間周波数の特徴の再重み付けを通じて信号の不安定性を解決するために、新しいデュアルドメイン固定(DDS)アルゴリズムが提案されています。
最後に、RPPGタスク固有のキューは、生理学的統計、環境コンテキストの回答、およびタスクの説明を通じて生理学的プライエアを体系的に注入し、クロスモーダル学習を活用して視覚情報とテキスト情報の両方を統合し、可変照明や被験者の動きなどの挑戦的なシナリオへの動的な適応を可能にします。
4つのベンチマークデータセットでの評価Physllmは、最先端の精度と堅牢性を達成し、照明のバリエーションとモーションシナリオ全体で優れた一般化を実証します。

要約(オリジナル)

Remote photoplethysmography (rPPG) enables non-contact physiological measurement but remains highly susceptible to illumination changes, motion artifacts, and limited temporal modeling. Large Language Models (LLMs) excel at capturing long-range dependencies, offering a potential solution but struggle with the continuous, noise-sensitive nature of rPPG signals due to their text-centric design. To bridge this gap, we introduce PhysLLM, a collaborative optimization framework that synergizes LLMs with domain-specific rPPG components. Specifically, the Text Prototype Guidance (TPG) strategy is proposed to establish cross-modal alignment by projecting hemodynamic features into LLM-interpretable semantic space, effectively bridging the representational gap between physiological signals and linguistic tokens. Besides, a novel Dual-Domain Stationary (DDS) Algorithm is proposed for resolving signal instability through adaptive time-frequency domain feature re-weighting. Finally, rPPG task-specific cues systematically inject physiological priors through physiological statistics, environmental contextual answering, and task description, leveraging cross-modal learning to integrate both visual and textual information, enabling dynamic adaptation to challenging scenarios like variable illumination and subject movements. Evaluation on four benchmark datasets, PhysLLM achieves state-of-the-art accuracy and robustness, demonstrating superior generalization across lighting variations and motion scenarios.

arxiv情報

著者 Yiping Xie,Bo Zhao,Mingtong Dai,Jian-Ping Zhou,Yue Sun,Tao Tan,Weicheng Xie,Linlin Shen,Zitong Yu
発行日 2025-05-06 15:18:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing はコメントを受け付けていません

Bounding Box-Guided Diffusion for Synthesizing Industrial Images and Segmentation Map

要約

コンピュータービジョン、特に産業用途向けの合成データセット生成は、依然として露出度が低くなっています。
たとえば、産業上の欠陥セグメンテーションには非常に正確なラベルが必要ですが、そのようなデータを取得するには費用がかかり、時間がかかります。
この課題に対処するために、監督を最小限に抑えて高忠実度の産業データセットを生成するための新しい拡散ベースのパイプラインを提案します。
私たちのアプローチは、濃縮境界ボックス表現の拡散モデルを条件として、正確なセグメンテーションマスクを生成し、現実的で正確に局所的な欠陥合成を確保します。
既存のレイアウト条件付き生成方法と比較して、当社のアプローチは欠陥の一貫性と空間精度を改善します。
2つの定量的メトリックを導入して、方法の有効性を評価し、実際のデータと合成データでトレーニングされたダウンストリームセグメンテーションタスクへの影響を評価します。
我々の結果は、拡散ベースの合成が人工産業データと現実世界の産業データのギャップを埋め、より信頼性が高く費用効率の高いセグメンテーションモデルを促進できることを示しています。
このコードは、https://github.com/covisionlab/diffusion_labelingで公開されています。

要約(オリジナル)

Synthetic dataset generation in Computer Vision, particularly for industrial applications, is still underexplored. Industrial defect segmentation, for instance, requires highly accurate labels, yet acquiring such data is costly and time-consuming. To address this challenge, we propose a novel diffusion-based pipeline for generating high-fidelity industrial datasets with minimal supervision. Our approach conditions the diffusion model on enriched bounding box representations to produce precise segmentation masks, ensuring realistic and accurately localized defect synthesis. Compared to existing layout-conditioned generative methods, our approach improves defect consistency and spatial accuracy. We introduce two quantitative metrics to evaluate the effectiveness of our method and assess its impact on a downstream segmentation task trained on real and synthetic data. Our results demonstrate that diffusion-based synthesis can bridge the gap between artificial and real-world industrial data, fostering more reliable and cost-efficient segmentation models. The code is publicly available at https://github.com/covisionlab/diffusion_labeling.

arxiv情報

著者 Alessandro Simoni,Francesco Pelosin
発行日 2025-05-06 15:21:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Bounding Box-Guided Diffusion for Synthesizing Industrial Images and Segmentation Map はコメントを受け付けていません

Cobra: Efficient Line Art COlorization with BRoAder References

要約

コミック生産業界では、高精度、効率、コンテキストの一貫性、柔軟な制御を備えた参照ベースのラインアートの色付けが必要です。
コミックページには、多くの場合、多様なキャラクター、オブジェクト、背景が含まれているため、着色プロセスが複雑になります。
画像生成のための拡散モデルの進歩にもかかわらず、ラインアートの色付けへの応用は限られたままであり、広範な参照画像、時間のかかる推論、柔軟な制御に関連する課題に直面しています。
ラインアートの色付けの品質に関する広範なコンテキストイメージガイダンスの必要性を調査します。
これらの課題に対処するために、色のヒントをサポートし、低遅延を維持しながら200を超える参照画像を利用する効率的で多用途の方法であるCobraを紹介します。
Cobraの中心は、因果的なスパースDITアーキテクチャであり、特別に設計された位置エンコーディング、因果的スパースの注意、キー価値のキャッシュを活用して、長いコンテキスト参照を効果的に管理し、カラーアイデンティティの一貫性を確保します。
結果は、COBRAが広範な文脈的参照を通じて正確なラインアートの色付けを達成し、推論の速度と相互作用を大幅に向上させ、それによって重要な産業的要求を満たすことを示しています。
プロジェクトページでコードとモデルをリリースします:https://zhuang2002.github.io/cobra/。

要約(オリジナル)

The comic production industry requires reference-based line art colorization with high accuracy, efficiency, contextual consistency, and flexible control. A comic page often involves diverse characters, objects, and backgrounds, which complicates the coloring process. Despite advancements in diffusion models for image generation, their application in line art colorization remains limited, facing challenges related to handling extensive reference images, time-consuming inference, and flexible control. We investigate the necessity of extensive contextual image guidance on the quality of line art colorization. To address these challenges, we introduce Cobra, an efficient and versatile method that supports color hints and utilizes over 200 reference images while maintaining low latency. Central to Cobra is a Causal Sparse DiT architecture, which leverages specially designed positional encodings, causal sparse attention, and Key-Value Cache to effectively manage long-context references and ensure color identity consistency. Results demonstrate that Cobra achieves accurate line art colorization through extensive contextual reference, significantly enhancing inference speed and interactivity, thereby meeting critical industrial demands. We release our codes and models on our project page: https://zhuang2002.github.io/Cobra/.

arxiv情報

著者 Junhao Zhuang,Lingen Li,Xuan Ju,Zhaoyang Zhang,Chun Yuan,Ying Shan
発行日 2025-05-06 15:23:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Cobra: Efficient Line Art COlorization with BRoAder References はコメントを受け付けていません

Rethinking Meta-Learning from a Learning Lens

要約

メタラーニングは、目に見えないタスクを解決するために、トレーニングタスクから十分に一般化されたモデルの初期化を学ぶことを目指しています。
「学習することを学ぶ」の観点から、初期化の品質は、内側ループに1段階のグラデーションが適切にモデル化されます。
しかし、理論的な期待に反して、私たちの経験的分析は、これがメタラーニングを過小装着にさらす可能性があることを明らかにしています。
理論的理解と実用的な実装の間のギャップを埋めるために、「学習」レンズからのメタ学習を再考します。
メタラーニングモデルは、モデル初期化のパラメーターとタスク固有の微調整のためのメタ層の2つの相互に関連するコンポーネントで構成されていることを提案します。
これらのコンポーネントは、タスクに応じて過剰適合と装着のリスクにつながり、そのソリューション、より多くのパラメーターとメタレイヤーが少なくなり、しばしば対立します。
これに対処するために、データやモデル構造を変更せずにモデルが受信するタスク情報を規制することを目指しています。
私たちの理論分析は、さまざまなタスクに適応したモデルが相互に互いに強化し、効果的な情報を強調できることを示しています。
この洞察に基づいて、メタラーニングのキャリブレーションにタスク関係を活用するプラグアンドプレイ方法であるTreLearnerを提案します。
最初にタスク関係のマトリックスを抽出し、次に関係を認識する一貫性の正規化を適用して、最適化を導きます。
広範な理論的および経験的評価は、その有効性を示しています。

要約(オリジナル)

Meta-learning seeks to learn a well-generalized model initialization from training tasks to solve unseen tasks. From the ‘learning to learn’ perspective, the quality of the initialization is modeled with one-step gradient decent in the inner loop. However, contrary to theoretical expectations, our empirical analysis reveals that this may expose meta-learning to underfitting. To bridge the gap between theoretical understanding and practical implementation, we reconsider meta-learning from the ‘Learning’ lens. We propose that the meta-learning model comprises two interrelated components: parameters for model initialization and a meta-layer for task-specific fine-tuning. These components will lead to the risks of overfitting and underfitting depending on tasks, and their solutions, fewer parameters vs. more meta-layer, are often in conflict. To address this, we aim to regulate the task information the model receives without modifying the data or model structure. Our theoretical analysis indicates that models adapted to different tasks can mutually reinforce each other, highlighting the effective information. Based on this insight, we propose TRLearner, a plug-and-play method that leverages task relation to calibrate meta-learning. It first extracts task relation matrices and then applies relation-aware consistency regularization to guide optimization. Extensive theoretical and empirical evaluations demonstrate its effectiveness.

arxiv情報

著者 Jingyao Wang,Wenwen Qiang,Changwen Zheng,Hui Xiong,Gang Hua
発行日 2025-05-06 15:25:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Rethinking Meta-Learning from a Learning Lens はコメントを受け付けていません

Breaking Annotation Barriers: Generalized Video Quality Assessment via Ranking-based Self-Supervision

要約

ビデオ品質評価(VQA)は、カメラキャプチャシステムからオーバーザトップストリーミングプラットフォームに至るまで、さまざまなビデオ処理ワークフローの知覚品質を定量化するために不可欠です。
最近の監視されたVQAモデルは大幅に進歩していますが、手動で注釈付きのデータセット(労働集約的で費用がかかり、スケールアップが困難なプロセスへの依存が、目に見えないビデオコンテンツと歪みに対する一般化のさらなる最適化を妨げています。
このギャップを埋めるために、VQAの自己監視学習フレームワークを紹介して、大規模でラベルの付いたWebビデオから品質評価機能を学習します。
私たちのアプローチは、a \ textBf {ランキングの学習}パラダイムを活用して、既存のVQAモデルによる高品質の擬似標識や合成歪みシミュレーションに基づく相対的な品質ランキングを含む、2つのマナーで自動的にラベル付けされたビデオペアで大きなマルチモーダルモデル(LMM)をトレーニングします。
さらに、新しい\ textBf {反復的自己改善トレーニング戦略}を紹介します。ここでは、トレーニングされたモデルが改良されたアノテーターを使用して、トレーニングデータの注釈の品質を繰り返し改善します。
既存のVQAベンチマークよりも10 \ Times $のデータセットでトレーニングすることにより、我々のモデル:(1)ドメイン内のVQAベンチマークでゼロショットパフォーマンスを達成し、監視されたモデルと一致または上回る。
(2)多様なビデオコンテンツと歪みにわたる優れた分散(OOD)一般化を示します。
(3)人間に標識されたデータセットで微調整されたときに、新しい最先端を設定します。
広範な実験結果は、一般化されたVQAモデルのトレーニングにおける自己監視アプローチの有効性を検証します。
データセットとコードは、将来の研究を促進するために公開されます。

要約(オリジナル)

Video quality assessment (VQA) is essential for quantifying perceptual quality in various video processing workflows, spanning from camera capture systems to over-the-top streaming platforms. While recent supervised VQA models have made substantial progress, the reliance on manually annotated datasets — a process that is labor-intensive, costly, and difficult to scale up — has hindered further optimization of their generalization to unseen video content and distortions. To bridge this gap, we introduce a self-supervised learning framework for VQA to learn quality assessment capabilities from large-scale, unlabeled web videos. Our approach leverages a \textbf{learning-to-rank} paradigm to train a large multimodal model (LMM) on video pairs automatically labeled via two manners, including quality pseudo-labeling by existing VQA models and relative quality ranking based on synthetic distortion simulations. Furthermore, we introduce a novel \textbf{iterative self-improvement training strategy}, where the trained model acts an improved annotator to iteratively refine the annotation quality of training data. By training on a dataset $10\times$ larger than the existing VQA benchmarks, our model: (1) achieves zero-shot performance on in-domain VQA benchmarks that matches or surpasses supervised models; (2) demonstrates superior out-of-distribution (OOD) generalization across diverse video content and distortions; and (3) sets a new state-of-the-art when fine-tuned on human-labeled datasets. Extensive experimental results validate the effectiveness of our self-supervised approach in training generalized VQA models. The datasets and code will be publicly released to facilitate future research.

arxiv情報

著者 Linhan Cao,Wei Sun,Kaiwei Zhang,Yicong Peng,Guangtao Zhai,Xiongkuo Min
発行日 2025-05-06 15:29:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Breaking Annotation Barriers: Generalized Video Quality Assessment via Ranking-based Self-Supervision はコメントを受け付けていません