Flow Distillation Sampling: Regularizing 3D Gaussians with Pre-trained Matching Priors

要約

3D Gaussian Splatting(3DGS)は、高速トレーニングとレンダリング速度で優れたレンダリング品質を達成しました。
ただし、その最適化プロセスには明示的な幾何学的制約が欠けており、観測入力ビューがまばらまたはまったくない領域で最適ではない幾何学的再構成につながります。
この作業では、3DGS最適化プロセスの前に事前に訓練されたマッチングを組み込むことにより、問題を軽減しようとします。
フロー蒸留サンプリング(FDS)を導入します。これは、事前に訓練された幾何学的知識を活用してガウス放射輝度フィールドの精度を強化する手法です。
私たちの方法は、入力ビューに隣接する観測されていないビューをターゲットにする戦略的サンプリング手法を採用しており、マッチングモデル(前流)から計算された光学フローを利用して、3DGSジオメトリ(放射線フロー)から分析的に計算された流れを導きます。
詳細なレンダリング、メッシュ再構築、および新しいビュー合成の包括的な実験では、最先端の方法よりもFDSの重要な利点が示されています。
さらに、私たちの解釈実験と分析は、幾何学的精度と品質のレンダリングに対するFDの影響に光を当てることを目的としており、そのパフォーマンスに関する洞察を読者に提供する可能性があります。
プロジェクトページ:https://nju-3dv.github.io/projects/fds

要約(オリジナル)

3D Gaussian Splatting (3DGS) has achieved excellent rendering quality with fast training and rendering speed. However, its optimization process lacks explicit geometric constraints, leading to suboptimal geometric reconstruction in regions with sparse or no observational input views. In this work, we try to mitigate the issue by incorporating a pre-trained matching prior to the 3DGS optimization process. We introduce Flow Distillation Sampling (FDS), a technique that leverages pre-trained geometric knowledge to bolster the accuracy of the Gaussian radiance field. Our method employs a strategic sampling technique to target unobserved views adjacent to the input views, utilizing the optical flow calculated from the matching model (Prior Flow) to guide the flow analytically calculated from the 3DGS geometry (Radiance Flow). Comprehensive experiments in depth rendering, mesh reconstruction, and novel view synthesis showcase the significant advantages of FDS over state-of-the-art methods. Additionally, our interpretive experiments and analysis aim to shed light on the effects of FDS on geometric accuracy and rendering quality, potentially providing readers with insights into its performance. Project page: https://nju-3dv.github.io/projects/fds

arxiv情報

著者 Lin-Zhuo Chen,Kangjie Liu,Youtian Lin,Siyu Zhu,Zhihao Li,Xun Cao,Yao Yao
発行日 2025-02-11 15:05:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Flow Distillation Sampling: Regularizing 3D Gaussians with Pre-trained Matching Priors はコメントを受け付けていません

Scaling Pre-training to One Hundred Billion Data for Vision Language Models

要約

前例のないスケールでのトレーニング前のビジョン言語モデルの可能性についての経験的調査を提供します:1,000億の例。
モデルのパフォーマンスは、ココキャプションなどの多くの一般的な西部中心の分類および検索ベンチマークでこの規模で飽和する傾向があることがわかります。
それにもかかわらず、文化的多様性のタスクは、長期尾の概念をカバーしているおかげで、1,000億スケールのWebデータからより大きな利益を得ています。
さらに、モデルの多言語性を分析し、低リソース言語でも利益を示します。
さらに、通常、パフォーマンスを向上させるために使用されるクリップを使用するなどの高品質フィルターを介して、事前トレーニングデータセットのサイズを縮小することは、大規模なデータセットでも表される文化的多様性を誤って減らすことができることを観察します。
私たちの結果は、従来のベンチマークがノイズの多いRaw Webデータのスケーリングから1,000億の例に大きく利益を得ることはないかもしれないが、このデータスケールは真に包括的なマルチモーダルシステムを構築するために不可欠であることを強調しています。

要約(オリジナル)

We provide an empirical investigation of the potential of pre-training vision-language models on an unprecedented scale: 100 billion examples. We find that model performance tends to saturate at this scale on many common Western-centric classification and retrieval benchmarks, such as COCO Captions. Nevertheless, tasks of cultural diversity achieve more substantial gains from the 100-billion scale web data, thanks to its coverage of long-tail concepts. Furthermore, we analyze the model’s multilinguality and show gains in low-resource languages as well. In addition, we observe that reducing the size of the pretraining dataset via quality filters like using CLIP, typically used to enhance performance, may inadvertently reduce the cultural diversity represented even in large-scale datasets. Our results highlight that while traditional benchmarks may not benefit significantly from scaling noisy, raw web data to 100 billion examples, this data scale is vital for building truly inclusive multimodal systems.

arxiv情報

著者 Xiao Wang,Ibrahim Alabdulmohsin,Daniel Salz,Zhe Li,Keran Rong,Xiaohua Zhai
発行日 2025-02-11 15:05:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Scaling Pre-training to One Hundred Billion Data for Vision Language Models はコメントを受け付けていません

Towards Single-Lens Controllable Depth-of-Field Imaging via Depth-Aware Point Spread Functions

要約

制御可能なディープオブフィールド(DOF)イメージングは​​、一般に、重くて高価なハイエンドレンズに基づいて驚くべき視覚効果を生成します。
ただし、モバイルシナリオの需要の増加に直面しているため、ミニマリスト光学システム(MO)を使用して軽量ソリューションを実現することが望ましいです。
この作業は、MOの2つの主要な制限、つまり、計算方法を介して単一レンズ制御可能なDOFイメージングを達成するための重度の光学異常と制御不能なDOFを中心にしています。
深さに対応する制御可能なDOFイメージング(DCDI)フレームワークが提案されています。オールインフォーカス(AIF)異常補正と単眼深度推定が提案されています。ここでは、回復した画像と対応する深度マップが利用され、高いDOFの下でイメージング結果を生成するために使用されます。
– パッチごとの畳み込みによるエンドレンズ。
深さの変化の光学分解に対処するために、深さに触れた劣化適応トレーニング(DA2T)スキームを導入します。
データセットレベルでは、さまざまなオブジェクト距離でのポイントスプレッド関数(PSF)のシミュレーションに基づいて、深度認識異常MOS(DAMOS)データセットが確立されます。
さらに、深さ情報の回復に深さ情報を埋め込んで、深さに対応する劣化を改善するために、2つのプラグアンドプレイの深さアウェアメカニズムを設計します。
さらに、さまざまなレンズの4D PSFライブラリを表すために、ストレージ効率の高いOmni-Lens-Fieldモデルを提案します。
予測された深度マップ、回復した画像、およびオムニレンズフィールドによって推測される深度認識PSFマップにより、シングルレンズ制御可能なDOFイメージングが達成されます。
包括的な実験結果は、提案されたフレームワークが回復パフォーマンスを向上させ、印象的なシングルレンズ制御可能なDOFイメージング結果を達成し、このフィールドに独創的なベースラインを提供することを示しています。
ソースコードと確立されたデータセットは、https://github.com/xiaolongqian/dcdiで公開されます。

要約(オリジナル)

Controllable Depth-of-Field (DoF) imaging commonly produces amazing visual effects based on heavy and expensive high-end lenses. However, confronted with the increasing demand for mobile scenarios, it is desirable to achieve a lightweight solution with Minimalist Optical Systems (MOS). This work centers around two major limitations of MOS, i.e., the severe optical aberrations and uncontrollable DoF, for achieving single-lens controllable DoF imaging via computational methods. A Depth-aware Controllable DoF Imaging (DCDI) framework is proposed equipped with All-in-Focus (AiF) aberration correction and monocular depth estimation, where the recovered image and corresponding depth map are utilized to produce imaging results under diverse DoFs of any high-end lens via patch-wise convolution. To address the depth-varying optical degradation, we introduce a Depth-aware Degradation-adaptive Training (DA2T) scheme. At the dataset level, a Depth-aware Aberration MOS (DAMOS) dataset is established based on the simulation of Point Spread Functions (PSFs) under different object distances. Additionally, we design two plug-and-play depth-aware mechanisms to embed depth information into the aberration image recovery for better tackling depth-aware degradation. Furthermore, we propose a storage-efficient Omni-Lens-Field model to represent the 4D PSF library of various lenses. With the predicted depth map, recovered image, and depth-aware PSF map inferred by Omni-Lens-Field, single-lens controllable DoF imaging is achieved. Comprehensive experimental results demonstrate that the proposed framework enhances the recovery performance, and attains impressive single-lens controllable DoF imaging results, providing a seminal baseline for this field. The source code and the established dataset will be publicly available at https://github.com/XiaolongQian/DCDI.

arxiv情報

著者 Xiaolong Qian,Qi Jiang,Yao Gao,Shaohua Gao,Zhonghua Yi,Lei Sun,Kai Wei,Haifeng Li,Kailun Yang,Kaiwei Wang,Jian Bai
発行日 2025-02-11 15:06:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV, physics.optics | Towards Single-Lens Controllable Depth-of-Field Imaging via Depth-Aware Point Spread Functions はコメントを受け付けていません

Causal-Informed Contrastive Learning: Towards Bias-Resilient Pre-training under Concept Drift

要約

最上層データセットによって推進される大規模な対照的なトレーニングの進化は、スケーリング法の遷移点に達しました。
その結果、ドリフト環境でのモデルのトレーニング前の機能を維持および強化することは、顕著な課題として浮上しています。
この論文では、最初に、対照的なトレーニング前の方法がコンセプトドリフトによって大きく影響を受け、分布が予測不可能に変化し、事前に訓練されたモデルの特徴空間に顕著なバイアスをもたらすことを明らかにします。
因果推論に力を与え、概念ドリフトが体系的にコントラシスティング前のトレーニングを対象とする影響を分析するための構造的因果グラフを構築し、因果介入の対照的な目的を提案します。
これを達成すると、シンプルでスケーラブルな実装を使用して、コンセプトドリフトのデータストリームに対応するための回復力のある対照的なトレーニングアプローチを考案します。
さまざまな下流のタスクに関する広範な実験は、私たちの回復力のあるコントラスト前トレーニングが、コンセプトドリフトデータストリームに起因するバイアスを効果的に軽減することを示しています。
コードはhttps://anonymous.4open.science/r/resilientcl/で入手できます。

要約(オリジナル)

The evolution of large-scale contrastive pre-training propelled by top-tier datasets has reached a transition point in the scaling law. Consequently, sustaining and enhancing a model’s pre-training capabilities in drift environments have surfaced as a notable challenge. In this paper, we initially uncover that contrastive pre-training methods are significantly impacted by concept drift wherein distributions change unpredictably, resulting in notable biases in the feature space of the pre-trained model. Empowered by causal inference, we construct a structural causal graph to analyze the impact of concept drift to contrastive pre-training systemically, and propose the causal interventional contrastive objective. Upon achieving this, we devise a resilient contrastive pre-training approach to accommodate the data stream of concept drift, with simple and scalable implementation. Extensive experiments on various downstream tasks demonstrate our resilient contrastive pre-training effectively mitigates the bias stemming from the concept drift data stream. Codes are available at https://anonymous.4open.science/r/ResilientCL/.

arxiv情報

著者 Xiaoyu Yang,Jie Lu,En Yu
発行日 2025-02-11 15:09:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Causal-Informed Contrastive Learning: Towards Bias-Resilient Pre-training under Concept Drift はコメントを受け付けていません

Divide and Merge: Motion and Semantic Learning in End-to-End Autonomous Driving

要約

環境とその変化を長期にわたって知覚することは、セマンティクスと動きという2つの基本的で不均一なタイプの情報に対応しています。
以前のエンドツーエンドの自律運転作業は、単一の機能ベクトル内の両方のタイプの情報を表しています。
ただし、予測や計画などのモーションタスクには、常に検出と追跡性能が損なわれます。これは、マルチタスク学習における負の転送として知られる現象です。
この問題に対処するために、ベイズフィルターと同様に、セマンティックとモーション学習を分離する新しい並列検出、追跡、および予測方法であるニューラルベイのモーションデコードを提案します。
具体的には、検出および追跡クエリと並行して動作する一連の学習モーションクエリを使用し、再帰的に更新された参照ポイントの統一されたセットを共有します。
さらに、セマンティックタスクの情報交換を強化するために、インタラクティブなセマンティックデコードを採用し、肯定的な転送を促進します。
Nuscenesデータセットの実験では、検出が5%、追跡が11%の改善が示されています。
私たちの方法は、計画モジュールを変更することなく、オープンループ計画評価で最先端の衝突率を達成します。

要約(オリジナル)

Perceiving the environment and its changes over time corresponds to two fundamental yet heterogeneous types of information: semantics and motion. Previous end-to-end autonomous driving works represent both types of information in a single feature vector. However, including motion tasks, such as prediction and planning, always impairs detection and tracking performance, a phenomenon known as negative transfer in multi-task learning. To address this issue, we propose Neural-Bayes motion decoding, a novel parallel detection, tracking, and prediction method separating semantic and motion learning, similar to the Bayes filter. Specifically, we employ a set of learned motion queries that operate in parallel with the detection and tracking queries, sharing a unified set of recursively updated reference points. Moreover, we employ interactive semantic decoding to enhance information exchange in semantic tasks, promoting positive transfer. Experiments on the nuScenes dataset show improvements of 5% in detection and 11% in tracking. Our method achieves state-of-the-art collision rates in open-loop planning evaluation without any modifications to the planning module.

arxiv情報

著者 Yinzhe Shen,Ömer Şahin Taş,Kaiwen Wang,Royden Wagner,Christoph Stiller
発行日 2025-02-11 15:21:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Divide and Merge: Motion and Semantic Learning in End-to-End Autonomous Driving はコメントを受け付けていません

LP-DETR: Layer-wise Progressive Relations for Object Detection

要約

このホワイトペーパーでは、マルチスケールリレーションモデリングを通じてDETRベースのオブジェクト検出を強化する新しいアプローチであるLP-DERT(レイヤーごとのプログレッシブDETR)を紹介します。
私たちの方法は、デコーダー層全体でさまざまな関係(ローカル、メディア、グローバル)のバランスをとることを適応的に学習する、関係認識の自己触媒メカニズムを通じて、オブジェクトクエリ間の学習可能な空間的関係を導入します。
このプログレッシブ設計により、モデルは検出パイプライン全体で進化する空間依存関係を効果的にキャプチャできます。
COCO 2017データセットの広範な実験は、標準の自己触媒モジュールと比較して、この方法が収束速度と検出精度の両方を改善することを示しています。
提案された方法は競争結果を達成し、ResNet-50バックボーンを使用して12エポックと24エポックで52.3%APと52.5 \%APで52.3%APに達し、さらにSWIN-Lバックボーンで58.0 \%APに改善します。
さらに、私たちの分析は興味深いパターンを明らかにしています。モデルは自然に初期デコーダー層のローカル空間関係に優先順位を付けることを学びながら、より深い層のより広いコンテキストに徐々に注意をシフトし、オブジェクト検出の将来の研究のための貴重な洞察を提供します。

要約(オリジナル)

This paper presents LP-DETR (Layer-wise Progressive DETR), a novel approach that enhances DETR-based object detection through multi-scale relation modeling. Our method introduces learnable spatial relationships between object queries through a relation-aware self-attention mechanism, which adaptively learns to balance different scales of relations (local, medium and global) across decoder layers. This progressive design enables the model to effectively capture evolving spatial dependencies throughout the detection pipeline. Extensive experiments on COCO 2017 dataset demonstrate that our method improves both convergence speed and detection accuracy compared to standard self-attention module. The proposed method achieves competitive results, reaching 52.3\% AP with 12 epochs and 52.5\% AP with 24 epochs using ResNet-50 backbone, and further improving to 58.0\% AP with Swin-L backbone. Furthermore, our analysis reveals an interesting pattern: the model naturally learns to prioritize local spatial relations in early decoder layers while gradually shifting attention to broader contexts in deeper layers, providing valuable insights for future research in object detection.

arxiv情報

著者 Zhengjian Kang,Ye Zhang,Xiaoyu Deng,Xintao Li,Yongzhe Zhang
発行日 2025-02-11 15:25:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | LP-DETR: Layer-wise Progressive Relations for Object Detection はコメントを受け付けていません

FlexiCrackNet: A Flexible Pipeline for Enhanced Crack Segmentation with General Features Transfered from SAM

要約

自動亀裂セグメンテーションは、交通安全維持と構造の完全性システムにおけるインテリジェントな視覚認識モジュールのための基礎技術です。
既存の深い学習モデルと「トレーニング前 +微調整」パラダイムは、リソースに制約のある環境での限られた適応性の課題と、多様なデータドメイン全体での不十分なスケーラビリティに直面することがよくあります。
これらの制限を克服するために、従来の深い学習パラダイムを大規模な事前訓練モデルの強さをシームレスに統合する新しいパイプラインであるFlexicRackNetを提案します。
そのコアでは、FlexicRackNetはエンコーダデコーダーアーキテクチャを採用して、タスク固有の機能を抽出します。
軽量のEdgesamのCNNベースのエンコーダーは、EdgesAMの固定入力サイズ要件から分離された一般的な特徴抽出器としてのみ使用されます。
一般的およびドメイン固有の機能を調和させるために、情報相互作用ゲート注意メカニズム(IGAM)を導入します。これは、マルチレベルの特徴を適応的に融合してセグメンテーションパフォーマンスを強化し、無関係なノイズを軽減します。
この設計により、一般的な知識の効率的な転送がセグメンテーションタスクをクラックしながら、多様な入力解像度とリソース制約の環境への適応性を確保できます。
実験は、FlexicRackNetが最先端の方法を上回り、ぼやけた入力、複雑な背景、視覚的に曖昧なアーティファクトなどの挑戦的なシナリオの下で、ゼロショットの一般化、計算効率、およびセグメンテーションの堅牢性に優れていることを示しています。
これらの進歩は、自動亀裂検出および包括的な構造的健康監視システムにおける実際のアプリケーションのFlexicRackNetの可能性を強調しています。

要約(オリジナル)

Automatic crack segmentation is a cornerstone technology for intelligent visual perception modules in road safety maintenance and structural integrity systems. Existing deep learning models and “pre-training + fine-tuning” paradigms often face challenges of limited adaptability in resource-constrained environments and inadequate scalability across diverse data domains. To overcome these limitations, we propose FlexiCrackNet, a novel pipeline that seamlessly integrates traditional deep learning paradigms with the strengths of large-scale pre-trained models. At its core, FlexiCrackNet employs an encoder-decoder architecture to extract task-specific features. The lightweight EdgeSAM’s CNN-based encoder is exclusively used as a generic feature extractor, decoupled from the fixed input size requirements of EdgeSAM. To harmonize general and domain-specific features, we introduce the information-Interaction gated attention mechanism (IGAM), which adaptively fuses multi-level features to enhance segmentation performance while mitigating irrelevant noise. This design enables the efficient transfer of general knowledge to crack segmentation tasks while ensuring adaptability to diverse input resolutions and resource-constrained environments. Experiments show that FlexiCrackNet outperforms state-of-the-art methods, excels in zero-shot generalization, computational efficiency, and segmentation robustness under challenging scenarios such as blurry inputs, complex backgrounds, and visually ambiguous artifacts. These advancements underscore the potential of FlexiCrackNet for real-world applications in automated crack detection and comprehensive structural health monitoring systems.

arxiv情報

著者 Xinlong Wan,Xiaoyan Jiang,Guangsheng Luo,Ferdous Sohel,Jenqneng Hwang
発行日 2025-02-11 15:27:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FlexiCrackNet: A Flexible Pipeline for Enhanced Crack Segmentation with General Features Transfered from SAM はコメントを受け付けていません

CILP-FGDI: Exploiting Vision-Language Model for Generalizable Person Re-Identification

要約

堅牢なクロスモーダル機能で知られる視覚言語モデルは、さまざまなコンピュータービジョンタスクに広く適用されています。
この論文では、大規模な画像テキストペアで前提とされた視覚的およびテキストの特徴を調整するために、大規模な画像テキストペアに前提とした視覚言語モデルであるクリップ(コントラスト言語イメージの前oraining)の使用を探ります。
一般化可能な人の再識別。
タスクへのクリップの適応は、2つの主要な課題を提示します。差別的能力を​​高めるためのより微細な機能を学習し、モデルの一般化機能を改善するためのよりドメイン不変の機能を学習することです。
最初の課題を緩和するために、微調整された機能を学習する能力を高めるために、テキストの説明の精度を高めるために3段階の戦略が提案されています。
当初、画像エンコーダーは、人の再識別タスクに効果的に適応するようにトレーニングされています。
第2段階では、画像エンコーダーによって抽出された機能を使用して、各画像のテキストの説明(つまり、プロンプト)を生成します。
最後に、学習されたプロンプトを備えたテキストエンコーダーが使用され、最終画像エンコーダーのトレーニングをガイドします。
モデルの一般化機能を目に見えないドメインに強化するために、ドメインに不変の画像機能を学習するために、双方向ガイド方法が導入されています。
具体的には、ドメインインヴァリアントおよびドメイン関連プロンプトが生成され、正の(画像機能とドメイン不変プロンプトをまとめる)とネガティブ(画像機能とドメイン関連プロンプトの引き離し)ビューの両方が画像エンコーダーのトレーニングに使用されます。
まとめて、これらの戦略は、微粒子の一般化された機能を直接再識別するための革新的なクリップベースのフレームワークの開発に貢献しています。

要約(オリジナル)

The Visual Language Model, known for its robust cross-modal capabilities, has been extensively applied in various computer vision tasks. In this paper, we explore the use of CLIP (Contrastive Language-Image Pretraining), a vision-language model pretrained on large-scale image-text pairs to align visual and textual features, for acquiring fine-grained and domain-invariant representations in generalizable person re-identification. The adaptation of CLIP to the task presents two primary challenges: learning more fine-grained features to enhance discriminative ability, and learning more domain-invariant features to improve the model’s generalization capabilities. To mitigate the first challenge thereby enhance the ability to learn fine-grained features, a three-stage strategy is proposed to boost the accuracy of text descriptions. Initially, the image encoder is trained to effectively adapt to person re-identification tasks. In the second stage, the features extracted by the image encoder are used to generate textual descriptions (i.e., prompts) for each image. Finally, the text encoder with the learned prompts is employed to guide the training of the final image encoder. To enhance the model’s generalization capabilities to unseen domains, a bidirectional guiding method is introduced to learn domain-invariant image features. Specifically, domain-invariant and domain-relevant prompts are generated, and both positive (pulling together image features and domain-invariant prompts) and negative (pushing apart image features and domain-relevant prompts) views are used to train the image encoder. Collectively, these strategies contribute to the development of an innovative CLIP-based framework for learning fine-grained generalized features in person re-identification.

arxiv情報

著者 Huazhong Zhao,Lei Qi,Xin Geng
発行日 2025-02-11 15:37:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CILP-FGDI: Exploiting Vision-Language Model for Generalizable Person Re-Identification はコメントを受け付けていません

TransRef: Multi-Scale Reference Embedding Transformer for Reference-Guided Image Inpainting

要約

複雑なセマンティック環境と破損した画像の多様な穴パターンを完了するための入力の画像は、大規模なデータでトレーニングされた最先端の学習ベースの入力方法であっても挑戦的です。
破損した画像の同じシーンをキャプチャする参照画像は、破損した画像の穴と同様のテクスチャと構造の事前を共有するため、破損した画像を完成させるための有益なガイダンスを提供します。
この作業では、参照ガイド付き画像の開始用にトランスベースのエンコーダデコーダーネットワーク、TransRefという名前のネットワークを提案します。
具体的には、ガイダンスは参照埋め込み手順を通じて徐々に行われます。この手順では、その後、参照機能が破損した画像の機能と融合し、融合します。
ガイダンスのための参照機能を正確に利用するために、参照パッチアラインメント(REF-PA)モジュールが提案され、参照画像と破損した画像のパッチ機能を整列させ、スタイルの違いを調和させ、参照パッチトランス(REF-PT)
)埋め込まれた参照機能を改良するモジュールが提案されています。
さらに、参照ガイド付き画像修復タスクの研究を容易にするために、50Kペアの入力画像と参照画像を含む公開可能なベンチマークデータセットを構築します。
定量的評価と定性的評価の両方が、複雑な穴を完成させる際の最先端の方法に対する参照情報の有効性と提案された方法を示しています。
コードとデータセットはhttps://github.com/cameltr/transrefでアクセスできます。

要約(オリジナル)

Image inpainting for completing complicated semantic environments and diverse hole patterns of corrupted images is challenging even for state-of-the-art learning-based inpainting methods trained on large-scale data. A reference image capturing the same scene of a corrupted image offers informative guidance for completing the corrupted image as it shares similar texture and structure priors to that of the holes of the corrupted image. In this work, we propose a transformer-based encoder-decoder network, named TransRef, for reference-guided image inpainting. Specifically, the guidance is conducted progressively through a reference embedding procedure, in which the referencing features are subsequently aligned and fused with the features of the corrupted image. For precise utilization of the reference features for guidance, a reference-patch alignment (Ref-PA) module is proposed to align the patch features of the reference and corrupted images and harmonize their style differences, while a reference-patch transformer (Ref-PT) module is proposed to refine the embedded reference feature. Moreover, to facilitate the research of reference-guided image restoration tasks, we construct a publicly accessible benchmark dataset containing 50K pairs of input and reference images. Both quantitative and qualitative evaluations demonstrate the efficacy of the reference information and the proposed method over the state-of-the-art methods in completing complex holes. Code and dataset can be accessed at https://github.com/Cameltr/TransRef.

arxiv情報

著者 Taorong Liu,Liang Liao,Delin Chen,Jing Xiao,Zheng Wang,Chia-Wen Lin,Shin’ichi Satoh
発行日 2025-02-11 15:55:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TransRef: Multi-Scale Reference Embedding Transformer for Reference-Guided Image Inpainting はコメントを受け付けていません

mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition

要約

Audio-Visuual Speech Speech Septureation(AVSR)は、リップベースのビデオとオーディオを組み合わせて、ノイズのパフォーマンスを向上させることができますが、ほとんどの方法は英語のデータでのみトレーニングされています。
1つの制限は、大規模な多言語ビデオデータがないことです。これにより、モデルをゼロからトレーニングするのが難しくなります。
この作業では、事前に訓練されたオーディオモデル(Whisper)とビデオモデル(AV-Hubert)の強度を組み合わせた多言語AVSRのMwhisper-Flamingoを提案します。
より良いマルチモーダル統合を有効にし、ノイズの多い多言語パフォーマンスを改善するために、ペアのオーディオ視聴覚入力と個別のオーディオ/ビジュアル入力の両方でモデルがトレーニングされるデコーダーモダリティドロップアウトを導入します。
Mwisper-Flamingoは、9言語のAVSRデータセットであるMuavicで最先端のWERを達成しています。
視聴覚MWHISPER-FLAMINGOは、騒々しい条件ですべての言語でオーディオのみのささやきを常に上回っています。

要約(オリジナル)

Audio-Visual Speech Recognition (AVSR) combines lip-based video with audio and can improve performance in noise, but most methods are trained only on English data. One limitation is the lack of large-scale multilingual video data, which makes it hard hard to train models from scratch. In this work, we propose mWhisper-Flamingo for multilingual AVSR which combines the strengths of a pre-trained audio model (Whisper) and video model (AV-HuBERT). To enable better multi-modal integration and improve the noisy multilingual performance, we introduce decoder modality dropout where the model is trained both on paired audio-visual inputs and separate audio/visual inputs. mWhisper-Flamingo achieves state-of-the-art WER on MuAViC, an AVSR dataset of 9 languages. Audio-visual mWhisper-Flamingo consistently outperforms audio-only Whisper on all languages in noisy conditions.

arxiv情報

著者 Andrew Rouditchenko,Samuel Thomas,Hilde Kuehne,Rogerio Feris,James Glass
発行日 2025-02-11 15:56:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS | mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition はコメントを受け付けていません