Dimitra: Audio-driven Diffusion model for Expressive Talking Head Generation

要約

オーディオ駆動のトーキングヘッド生成のための新しいフレームワークであるディミトラを提案し、リップモーション、表情、ヘッドポーズモーションを学習するために合理化されています。
具体的には、3D表現を備えた顔の運動シーケンスをモデル化することにより、条件付き運動拡散トランス(CMDT)をトレーニングします。
CMDTは、2つの入力信号、オーディオシーケンス、および参照フェイシャルイメージのみを条件付けます。
オーディオから追加の機能を直接抽出することにより、Dimitraは生成されたビデオの品質とリアリズムを高めることができます。
特に、音素シーケンスは唇の動きのリアリズムに寄与しますが、テキストの転写は表情とヘッドポーズリアリズムに転写されます。
広く採用されている2つのデータセットであるVoxceleB2とHDTFでの定量的および定性的実験は、Dimitraが既存のアプローチを上回り、リップモーション、表情、およびヘッドポーズを与える現実的なトーキングヘッドを生成できることを示しています。

要約(オリジナル)

We propose Dimitra, a novel framework for audio-driven talking head generation, streamlined to learn lip motion, facial expression, as well as head pose motion. Specifically, we train a conditional Motion Diffusion Transformer (cMDT) by modeling facial motion sequences with 3D representation. We condition the cMDT with only two input signals, an audio-sequence, as well as a reference facial image. By extracting additional features directly from audio, Dimitra is able to increase quality and realism of generated videos. In particular, phoneme sequences contribute to the realism of lip motion, whereas text transcript to facial expression and head pose realism. Quantitative and qualitative experiments on two widely employed datasets, VoxCeleb2 and HDTF, showcase that Dimitra is able to outperform existing approaches for generating realistic talking heads imparting lip motion, facial expression, and head pose.

arxiv情報

著者 Baptiste Chopin,Tashvik Dhamija,Pranav Balaji,Yaohui Wang,Antitza Dantcheva
発行日 2025-02-24 14:31:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Dimitra: Audio-driven Diffusion model for Expressive Talking Head Generation はコメントを受け付けていません

Modeling Multi-modal Cross-interaction for Multi-label Few-shot Image Classification Based on Local Feature Selection

要約

マルチラベル少数のショット画像分類(ML-FSIC)の目的は、各ラベルに少数のトレーニング例のみが利用できる設定で、セマンティックラベルを画像に割り当てることです。
マルチラベル設定の重要な特徴は、画像にいくつかのラベルがあることが多いことです。これは通常、画像の異なる領域に表示されるオブジェクトを指します。
メトリックベースの設定でラベルのプロトタイプを推定する場合、どの領域がどの領域に関連するかを判断することが重要ですが、トレーニングデータの限られた量とローカル機能の騒々しい性質により、これは非常に困難になります。
解決策として、ラベルのプロトタイプが徐々に洗練される戦略を提案します。
まず、ワード埋め込みを使用してプロトタイプを初期化します。これにより、ラベルの意味に関する事前知識を活用できます。
第二に、これらの初期プロトタイプを活用して、損失変化測定(LCM)戦略を使用して、特定のラベルを代表する可能性が最も高いトレーニング画像(つまり、サポートセット)からローカル機能を選択します。
第三に、マルチモーダルの相互相互作用メカニズムを使用して、これらの代表的なローカル機能を集約することにより、ラベルの最終プロトタイプを構築します。
Coco、Pascal Voc、Nus-Wide、およびImaterialistの実験は、私たちのモデルが現在の最先端を大幅に改善することを示しています。

要約(オリジナル)

The aim of multi-label few-shot image classification (ML-FSIC) is to assign semantic labels to images, in settings where only a small number of training examples are available for each label. A key feature of the multi-label setting is that an image often has several labels, which typically refer to objects appearing in different regions of the image. When estimating label prototypes, in a metric-based setting, it is thus important to determine which regions are relevant for which labels, but the limited amount of training data and the noisy nature of local features make this highly challenging. As a solution, we propose a strategy in which label prototypes are gradually refined. First, we initialize the prototypes using word embeddings, which allows us to leverage prior knowledge about the meaning of the labels. Second, taking advantage of these initial prototypes, we then use a Loss Change Measurement (LCM) strategy to select the local features from the training images (i.e. the support set) that are most likely to be representative of a given label. Third, we construct the final prototype of the label by aggregating these representative local features using a multi-modal cross-interaction mechanism, which again relies on the initial word embedding-based prototypes. Experiments on COCO, PASCAL VOC, NUS-WIDE, and iMaterialist show that our model substantially improves the current state-of-the-art.

arxiv情報

著者 Kun Yan,Zied Bouraoui,Fangyun Wei,Chang Xu,Ping Wang,Shoaib Jameel,Steven Schockaert
発行日 2025-02-24 14:34:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Modeling Multi-modal Cross-interaction for Multi-label Few-shot Image Classification Based on Local Feature Selection はコメントを受け付けていません

Motion-Robust T2* Quantification from Gradient Echo MRI with Physics-Informed Deep Learning

要約

目的:勾配エコーからのT2*の定量化磁気共鳴画像法は、運動の影響を受け、信号損失を引き起こす可能性のある磁場の不均一性に対する高感度のため、特に被験者の動きの影響を受けます。
したがって、高品質のT2*マップを取得するには、動き補正が重要です。
方法:獲得知識を活用して動きのパターンに挑戦するための再構成パフォーマンスを高め、脳全体の磁場の強度の強度にフィモの堅牢性を高めることにより、以前に導入された学習ベースの物理学に基づいた動き補正法であるPhimoを拡張します。
シミュレートされた実際の動きを備えたデータのモーション検出精度と画質に関する包括的な評価を実行します。
結果:Phimoの拡張バージョンは、ライン検出と画質に関して、定性的および定量的に学習ベースのベースラインメソッドを上回ります。
さらに、Phimoは、冗長データ収集に依存する勾配エコーMRIからのT2*の定量化のための従来の最先端の動き補正方法でParを実行します。
結論:Phimoの競争力のある動きの修正パフォーマンスは、最先端の方法と比較して40%を超える取得時間の短縮と相まって、研究環境と臨床ルーチンでのモーションロバストT2*の定量化の有望なソリューションになります。

要約(オリジナル)

Purpose: T2* quantification from gradient echo magnetic resonance imaging is particularly affected by subject motion due to the high sensitivity to magnetic field inhomogeneities, which are influenced by motion and might cause signal loss. Thus, motion correction is crucial to obtain high-quality T2* maps. Methods: We extend our previously introduced learning-based physics-informed motion correction method, PHIMO, by utilizing acquisition knowledge to enhance the reconstruction performance for challenging motion patterns and increase PHIMO’s robustness to varying strengths of magnetic field inhomogeneities across the brain. We perform comprehensive evaluations regarding motion detection accuracy and image quality for data with simulated and real motion. Results: Our extended version of PHIMO outperforms the learning-based baseline methods both qualitatively and quantitatively with respect to line detection and image quality. Moreover, PHIMO performs on-par with a conventional state-of-the-art motion correction method for T2* quantification from gradient echo MRI, which relies on redundant data acquisition. Conclusion: PHIMO’s competitive motion correction performance, combined with a reduction in acquisition time by over 40% compared to the state-of-the-art method, make it a promising solution for motion-robust T2* quantification in research settings and clinical routine.

arxiv情報

著者 Hannah Eichhorn,Veronika Spieker,Kerstin Hammernik,Elisa Saks,Lina Felsner,Kilian Weiss,Christine Preibisch,Julia A. Schnabel
発行日 2025-02-24 14:41:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV, physics.med-ph | Motion-Robust T2* Quantification from Gradient Echo MRI with Physics-Informed Deep Learning はコメントを受け付けていません

A Two-step Linear Mixing Model for Unmixing under Hyperspectral Variability

要約

スペクトルアンミキシングは、ハイパースペクトル画像処理の研究分野で重要なタスクです。
これは、観測された変数(つまり、画像ピクセル)が応答変数の関数(つまり、エンドメンバーと呼ばれるシーンの純粋な素材)として見つけることを回帰問題と考えることができます。
線形混合モデル(LMM)は、そのシンプルさと最適化の問題での使いやすさのために、大きな注目を集めています。
その最大の欠陥は、純粋な素材がシーン全体に1つのユニークなスペクトルによって特徴付けられることを前提としていることです。
多くの場合、これは間違っています。エンドメンバーは、照明条件、大気効果、または固有の変動によって引き起こされる大量のスペクトル変動に直面しています。
研究者は、この効果を軽減するためにLMMのいくつかの一般化を提案しています。
ただし、ほとんどのモデルは、不適切で非凸の最適化の問題につながります。これは、解決が困難であり、チューニングが困難なハイパーパラメーターを持っています。
このホワイトペーパーでは、モデルの複雑さと計算牽引性の間のギャップを埋める2段階のLMMを提案します。
このモデルが軽度の非凸最適化問題のみにつながることを示します。これは、インテリアポイントソルバーで解決します。
この方法では、事実上ハイパーパラメーターの調整が必要であるため、広範囲の混合タスクで簡単かつ迅速に使用できます。
モデルは競争力があり、場合によっては既存および十分に確立された混合解除方法とアルゴリズムよりも優れていることを示します。
これを、合成データ、実生活の衛星データ、およびハイブリッド合成リアルデータに関するいくつかの実験を行います。

要約(オリジナル)

Spectral unmixing is an important task in the research field of hyperspectral image processing. It can be thought of as a regression problem, where the observed variable (i.e., an image pixel) is to be found as a function of the response variables (i.e., the pure materials in a scene, called endmembers). The Linear Mixing Model (LMM) has received a great deal of attention, due to its simplicity and ease of use in, e.g., optimization problems. Its biggest flaw is that it assumes that any pure material can be characterized by one unique spectrum throughout the entire scene. In many cases this is incorrect: the endmembers face a significant amount of spectral variability caused by, e.g., illumination conditions, atmospheric effects, or intrinsic variability. Researchers have suggested several generalizations of the LMM to mitigate this effect. However, most models lead to ill-posed and highly non-convex optimization problems, which are hard to solve and have hyperparameters that are difficult to tune. In this paper, we propose a two-step LMM that bridges the gap between model complexity and computational tractability. We show that this model leads to only a mildly non-convex optimization problem, which we solve with an interior-point solver. This method requires virtually no hyperparameter tuning, and can therefore be used easily and quickly in a wide range of unmixing tasks. We show that the model is competitive and in some cases superior to existing and well-established unmixing methods and algorithms. We do this through several experiments on synthetic data, real-life satellite data, and hybrid synthetic-real data.

arxiv情報

著者 Xander Haijen,Bikram Koirala,Xuanwen Tao,Paul Scheunders
発行日 2025-02-24 14:44:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | A Two-step Linear Mixing Model for Unmixing under Hyperspectral Variability はコメントを受け付けていません

ELFS: Label-Free Coreset Selection with Proxy Training Dynamics

要約

高品質のヒトが注目したデータは、最新の深い学習パイプラインにとって重要ですが、人間の注釈プロセスは費用がかかり、時間がかかります。
制約された人間のラベル付け予算を考えると、ラベル付けのために有益で代表的なデータサブセットを選択すると、人間の注釈の取り組みが大幅に削減される可能性があります。
パフォーマンスの良い最先端の(SOTA)コアセット選択方法には、データセット全体にわたってグラウンドトゥルースラベルが必要であり、人間のラベル付けの負担を軽減できません。
一方、SOTAラベルフリーのコアセット選択方法は、幾何学ベースの難易度スコアが低いため、パフォーマンスが劣っています。
この論文では、新しいラベルフリーコアセット選択方法であるELF(効果的なラベルフリーコアセット選択)を紹介します。
ELFは、2つの課題に対処することにより、ラベルフリーのコアセット選択を大幅に改善します。1)ELFは、深いクラスタリングを利用して、グラウンドトゥルースラベルなしのトレーニングダイナミクスベースのデータ難易度スコアを推定します。
2)擬似ラベルは、データ難易度スコアに分布シフトを導入し、計算されたスコアのバイアスを緩和するためのシンプルだが効果的な剪定方法を提案します。
4つのビジョンベンチマークでELFを評価し、同じVisionエンコーダーを考えると、ELFがSOTAラベルフリーのベースラインよりも一貫して優れていることを示しています。
たとえば、SWAVをエンコーダーとして使用する場合、ELFはImagENET-1Kの精度が最大10.2%D2を上回ります。
コードをGithubで公開しています。

要約(オリジナル)

High-quality human-annotated data is crucial for modern deep learning pipelines, yet the human annotation process is both costly and time-consuming. Given a constrained human labeling budget, selecting an informative and representative data subset for labeling can significantly reduce human annotation effort. Well-performing state-of-the-art (SOTA) coreset selection methods require ground truth labels over the whole dataset, failing to reduce the human labeling burden. Meanwhile, SOTA label-free coreset selection methods deliver inferior performance due to poor geometry-based difficulty scores. In this paper, we introduce ELFS (Effective Label-Free Coreset Selection), a novel label-free coreset selection method. ELFS significantly improves label-free coreset selection by addressing two challenges: 1) ELFS utilizes deep clustering to estimate training dynamics-based data difficulty scores without ground truth labels; 2) Pseudo-labels introduce a distribution shift in the data difficulty scores, and we propose a simple but effective double-end pruning method to mitigate bias on calculated scores. We evaluate ELFS on four vision benchmarks and show that, given the same vision encoder, ELFS consistently outperforms SOTA label-free baselines. For instance, when using SwAV as the encoder, ELFS outperforms D2 by up to 10.2% in accuracy on ImageNet-1K. We make our code publicly available on GitHub.

arxiv情報

著者 Haizhong Zheng,Elisa Tsai,Yifu Lu,Jiachen Sun,Brian R. Bartoldson,Bhavya Kailkhura,Atul Prakash
発行日 2025-02-24 14:56:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | ELFS: Label-Free Coreset Selection with Proxy Training Dynamics はコメントを受け付けていません

Cross-Attention Head Position Patterns Can Align with Human Visual Concepts in Text-to-Image Generative Models

要約

最近のテキスト間拡散モデルは、視覚的な生成タスクの範囲を強化するために効果的に利用されてきたクロスアテンション層を活用しています。
ただし、通過層の理解はやや制限されたままです。
この研究では、ヒト指定された視覚概念と整合するヘッド関連ベクター(HRV)を構築することにより、拡散モデルの機械的解釈可能性アプローチを導入します。
特定の視覚概念のHRVは、交差する頭部の総数に等しい長さを持ち、各要素は、指定された視覚概念の対応するヘッドの重要性を表しています。
HRVを解釈可能な機能として検証するために、有効性を実証する順序付けられた弱体化分析を開発します。
さらに、概念の強化と概念の調整方法を提案し、それらを適用して3つの視覚的な生成タスクを強化します。
我々の結果は、HRVが画像生成におけるポリシー語の誤解を減らし、画像編集で5つの挑戦的な属性を正常に変更し、マルチコンセプト生成で壊滅的な無視を緩和できることを示しています。
全体として、私たちの作品は、横断層を理解するための進歩を提供し、これらの層を頭レベルで細かく制御するための新しいアプローチを導入します。

要約(オリジナル)

Recent text-to-image diffusion models leverage cross-attention layers, which have been effectively utilized to enhance a range of visual generative tasks. However, our understanding of cross-attention layers remains somewhat limited. In this study, we introduce a mechanistic interpretability approach for diffusion models by constructing Head Relevance Vectors (HRVs) that align with human-specified visual concepts. An HRV for a given visual concept has a length equal to the total number of cross-attention heads, with each element representing the importance of the corresponding head for the given visual concept. To validate HRVs as interpretable features, we develop an ordered weakening analysis that demonstrates their effectiveness. Furthermore, we propose concept strengthening and concept adjusting methods and apply them to enhance three visual generative tasks. Our results show that HRVs can reduce misinterpretations of polysemous words in image generation, successfully modify five challenging attributes in image editing, and mitigate catastrophic neglect in multi-concept generation. Overall, our work provides an advancement in understanding cross-attention layers and introduces new approaches for fine-controlling these layers at the head level.

arxiv情報

著者 Jungwon Park,Jungmin Ko,Dongnam Byun,Jangwon Suh,Wonjong Rhee
発行日 2025-02-24 14:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Cross-Attention Head Position Patterns Can Align with Human Visual Concepts in Text-to-Image Generative Models はコメントを受け付けていません

X Modality Assisting RGBT Object Tracking

要約

堅牢なマルチモーダル機能表現の開発は、オブジェクト追跡パフォーマンスを強化するために重要です。
この目的を追求するために、視覚オブジェクトの追跡を3つの異なるレベルに切り離すことにより、融合パラダイムの影響を調査し、それによってその後の処理を促進することにより、融合パラダイムの影響を調査する、この目的を追求するために、紹介されます。
当初、RGBと熱モダリティの間の有意な矛盾に関連する機能学習に関連する課題を克服するために、知識蒸留学習に基づくプラグアンドプレイのピクセルレベル生成モジュール(PGM)が提案されています。
このモジュールはXモダリティを効果的に生成し、2つのパターン間のギャップを埋めながら、ノイズ干渉を最小限に抑えます。
その後、サンプルの特徴表現を最適化し、クロスモーダル相互作用を促進するために、機能レベルの相互作用モジュール(FIM)が導入され、混合特徴インタラクショントランスと空間的寸法の特徴翻訳戦略を統合します。
最後に、不足しているインスタンス機能によって引き起こされるランダムドリフトに対処するために、意思決定レベルの洗練モジュール(DRM)と呼ばれる柔軟なオンライン最適化戦略が提案されており、光学フローと洗練メカニズムが組み込まれています。
X-NETの有効性は、3つのベンチマークでの実験を通じて検証され、最先端のトラッカーに対する優位性を示しています。
特に、X-NETは、それぞれ正確なレートと成功率の平均で0.47%/1.2%のパフォーマンスの向上を達成します。
さらに、研究コンテンツ、データ、およびコードは、https://github.com/dzsyunnan/xnetで公開されることを誓約されています。

要約(オリジナル)

Developing robust multi-modal feature representations is crucial for enhancing object tracking performance. In pursuit of this objective, a novel X Modality Assisting Network (X-Net) is introduced, which explores the impact of the fusion paradigm by decoupling visual object tracking into three distinct levels, thereby facilitating subsequent processing. Initially, to overcome the challenges associated with feature learning due to significant discrepancies between RGB and thermal modalities, a plug-and-play pixel-level generation module (PGM) based on knowledge distillation learning is proposed. This module effectively generates the X modality, bridging the gap between the two patterns while minimizing noise interference. Subsequently, to optimize sample feature representation and promote cross-modal interactions, a feature-level interaction module (FIM) is introduced, integrating a mixed feature interaction transformer and a spatial dimensional feature translation strategy. Finally, to address random drifting caused by missing instance features, a flexible online optimization strategy called the decision-level refinement module (DRM) is proposed, which incorporates optical flow and refinement mechanisms. The efficacy of X-Net is validated through experiments on three benchmarks, demonstrating its superiority over state-of-the-art trackers. Notably, X-Net achieves performance gains of 0.47%/1.2% in the average of precise rate and success rate, respectively. Additionally, the research content, data, and code are pledged to be made publicly accessible at https://github.com/DZSYUNNAN/XNet.

arxiv情報

著者 Zhaisheng Ding,Haiyan Li,Ruichao Hou,Yanyu Liu,Shidong Xie
発行日 2025-02-24 15:06:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | X Modality Assisting RGBT Object Tracking はコメントを受け付けていません

Tidiness Score-Guided Monte Carlo Tree Search for Visual Tabletop Rearrangement

要約

このホワイトペーパーでは、RGB-Dカメラのみを使用してテーブルトップの片付け問題に対処するために設計された新しいフレームワークである、潮のスコアガイド付きモンテカルロツリー検索(TSMCTS)を紹介します。
テーブルトップの片付け問題の2つの主要な問題に対処します。(1)パブリックデータセットとベンチマークの欠如、および(2)目に見えないオブジェクトの目標構成を指定することの難しさ。
シミュレーションで収集された構造化されたデータセットであるTabletop Tidying Up(TTU)データセットを提示することにより、前者に対処します。
このデータセットを使用して、整頓スコアを予測できるビジョンベースの判別器をトレーニングします。
この識別器は、現実世界のシーンを含む、目に見えない構成全体の整頓の程度を一貫して評価できます。
2番目の問題に対処すると、モンテカルロツリー検索(MCTS)を使用して、明示的な目標を指定せずに片付けの軌跡を見つけます。
特定の目標を提供する代わりに、MCTSベースのプランナーがガイダンスとしてTidinessスコアを使用して多様な整頓された構成を見つけることができることを実証します。
その結果、TSMCTSを提案します。これは、最適な整頓された配置を見つけるために、MCTSベースの整頓プランナーと潮disdinessの識別器を統合します。
TSMCTは、コーヒーテーブル、ダイニングテーブル、オフィスデスク、バスルームなど、さまざまな環境でその機能を成功裏に実証しています。
TTUデータセットは、https://github.com/rllab-snu/ttu-datasetで入手できます。

要約(オリジナル)

In this paper, we present the tidiness score-guided Monte Carlo tree search (TSMCTS), a novel framework designed to address the tabletop tidying up problem using only an RGB-D camera. We address two major problems for tabletop tidying up problem: (1) the lack of public datasets and benchmarks, and (2) the difficulty of specifying the goal configuration of unseen objects. We address the former by presenting the tabletop tidying up (TTU) dataset, a structured dataset collected in simulation. Using this dataset, we train a vision-based discriminator capable of predicting the tidiness score. This discriminator can consistently evaluate the degree of tidiness across unseen configurations, including real-world scenes. Addressing the second problem, we employ Monte Carlo tree search (MCTS) to find tidying trajectories without specifying explicit goals. Instead of providing specific goals, we demonstrate that our MCTS-based planner can find diverse tidied configurations using the tidiness score as a guidance. Consequently, we propose TSMCTS, which integrates a tidiness discriminator with an MCTS-based tidying planner to find optimal tidied arrangements. TSMCTS has successfully demonstrated its capability across various environments, including coffee tables, dining tables, office desks, and bathrooms. The TTU dataset is available at: https://github.com/rllab-snu/TTU-Dataset.

arxiv情報

著者 Hogun Kee,Wooseok Oh,Minjae Kang,Hyemin Ahn,Songhwai Oh
発行日 2025-02-24 15:12:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Tidiness Score-Guided Monte Carlo Tree Search for Visual Tabletop Rearrangement はコメントを受け付けていません

MegaLoc: One Retrieval to Place Them All

要約

特定のクエリと同じ場所から画像を取得することは、視覚的な場所認識、ランドマーク検索、視覚的ローカリゼーション、3D再建、スラムなど、複数のコンピュータービジョンタスクの重要なコンポーネントです。
ただし、既存のソリューションは、これらのタスクのいずれかに特に機能するように構築されており、要件がわずかに変更されたり、配布不足データを満たしているときに失敗することが知られています。
このペーパーでは、さまざまな既存の方法、トレーニング技術、およびデータセットを組み合わせて、複数のタスクで実行されるMegalocと呼ばれる検索モデルをトレーニングします。
Megaloc(1)は、多数の視覚的な場所認識データセットで最先端を達成し、(2)一般的なランドマーク検索データセットの印象的な結果を達成し、(3)Lamarでの視覚的ローカリゼーションのための新しい最新技術を設定することがわかります。
データセット。検索方法を既存のローカリゼーションパイプラインにのみ変更しました。
Megalocのコードは、https://github.com/gmberton/megalocで入手できます

要約(オリジナル)

Retrieving images from the same location as a given query is an important component of multiple computer vision tasks, like Visual Place Recognition, Landmark Retrieval, Visual Localization, 3D reconstruction, and SLAM. However, existing solutions are built to specifically work for one of these tasks, and are known to fail when the requirements slightly change or when they meet out-of-distribution data. In this paper we combine a variety of existing methods, training techniques, and datasets to train a retrieval model, called MegaLoc, that is performant on multiple tasks. We find that MegaLoc (1) achieves state of the art on a large number of Visual Place Recognition datasets, (2) impressive results on common Landmark Retrieval datasets, and (3) sets a new state of the art for Visual Localization on the LaMAR datasets, where we only changed the retrieval method to the existing localization pipeline. The code for MegaLoc is available at https://github.com/gmberton/MegaLoc

arxiv情報

著者 Gabriele Berton,Carlo Masone
発行日 2025-02-24 15:14:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MegaLoc: One Retrieval to Place Them All はコメントを受け付けていません

Bringing NeRFs to the Latent Space: Inverse Graphics Autoencoder

要約

事前に訓練された画像自動エンコーダーは、コンピュータービジョンでますます利用されていますが、2D潜在スペースでの逆グラフィックスの適用は未調査です。
しかし、トレーニングを減らして複雑さをレンダリングすることに加えて、潜在スペースに逆グラフィックスを適用することで、他の潜在ベースの2Dメソッドとの貴重な相互運用性が可能になります。
主な課題は、逆の3Dジオメトリがないため、そのような画像潜在スペースに逆グラフィックを直接適用できないことです。
この論文では、この問題に特に対処する逆グラフィックスオートエンコーダー(IG-AE)を提案します。
この目的のために、潜在スペースを共同訓練された潜在的な3Dシーンと整列させることにより、3Dジオメトリを使用して画像オートエンコーダーを正規化します。
訓練されたIG-AEを利用して、NERFSの潜在的なトレーニングパイプラインを使用して潜在スペースにnerfsを持ち込みます。これは、Nerfstudioフレームワークのオープンソース拡張に実装して、サポートされている方法の潜在的なシーン学習のロックを解除します。
Ig-AEで訓練された潜在的なNERFSが、標準の自動エンコーダーと比較して品質が向上していることを実験的に確認しますが、すべてが画像スペースで訓練されたNERFに関するトレーニングとレンダリングの加速を示します。
プロジェクトページは、https://ig-ae.github.ioにあります。

要約(オリジナル)

While pre-trained image autoencoders are increasingly utilized in computer vision, the application of inverse graphics in 2D latent spaces has been under-explored. Yet, besides reducing the training and rendering complexity, applying inverse graphics in the latent space enables a valuable interoperability with other latent-based 2D methods. The major challenge is that inverse graphics cannot be directly applied to such image latent spaces because they lack an underlying 3D geometry. In this paper, we propose an Inverse Graphics Autoencoder (IG-AE) that specifically addresses this issue. To this end, we regularize an image autoencoder with 3D-geometry by aligning its latent space with jointly trained latent 3D scenes. We utilize the trained IG-AE to bring NeRFs to the latent space with a latent NeRF training pipeline, which we implement in an open-source extension of the Nerfstudio framework, thereby unlocking latent scene learning for its supported methods. We experimentally confirm that Latent NeRFs trained with IG-AE present an improved quality compared to a standard autoencoder, all while exhibiting training and rendering accelerations with respect to NeRFs trained in the image space. Our project page can be found at https://ig-ae.github.io .

arxiv情報

著者 Antoine Schnepf,Karim Kassab,Jean-Yves Franceschi,Laurent Caraffa,Flavian Vasile,Jeremie Mary,Andrew Comport,Valerie Gouet-Brunet
発行日 2025-02-24 15:16:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Bringing NeRFs to the Latent Space: Inverse Graphics Autoencoder はコメントを受け付けていません