ProtoGS: Efficient and High-Quality Rendering with 3D Gaussian Prototypes

要約

3Dガウススプラッティング(3DG)は、新しいビューの合成に大きな進歩を遂げましたが、必要なガウスプリミティブのかなりの数によって制限されており、軽量デバイスへの展開の課題を提起しています。
最近の方法は、密なガウスの貯蔵サイズを圧縮することによりこの問題に対処していますが、レンダリングの品質と効率を維持できません。
これらの制限を克服するために、ガウスのプロトタイプがガウスプリミティブを表すことを学ぶためにプロトグを提案し、視覚的な品質を犠牲にすることなく総ガウス量を大幅に減らします。
私たちの方法は、ガウスのプロトタイプを直接使用して、結果として生じる再構築損失を効率的にレンダリングし、プロトタイプ学習を導くことを可能にします。
トレーニング中にメモリ効率をさらに最適化するために、アンカーポイントがグループガウスプリミティブにポイントを獲得するため、構造からモーション(SFM)ポイントを組み込みます。
ガウスのプロトタイプは、各グループ内でK-meansのクラスタリングによって導出され、アンカーポイントとプロトタイプの両方が共同で最適化されます。
実際のデータセットと合成データセットに関する実験は、既存の方法を上回り、ガウスの数を大幅に削減し、レンダリング速度を維持しながら忠実度を維持または強化することを可能にすることが証明されています。

要約(オリジナル)

3D Gaussian Splatting (3DGS) has made significant strides in novel view synthesis but is limited by the substantial number of Gaussian primitives required, posing challenges for deployment on lightweight devices. Recent methods address this issue by compressing the storage size of densified Gaussians, yet fail to preserve rendering quality and efficiency. To overcome these limitations, we propose ProtoGS to learn Gaussian prototypes to represent Gaussian primitives, significantly reducing the total Gaussian amount without sacrificing visual quality. Our method directly uses Gaussian prototypes to enable efficient rendering and leverage the resulting reconstruction loss to guide prototype learning. To further optimize memory efficiency during training, we incorporate structure-from-motion (SfM) points as anchor points to group Gaussian primitives. Gaussian prototypes are derived within each group by clustering of K-means, and both the anchor points and the prototypes are optimized jointly. Our experiments on real-world and synthetic datasets prove that we outperform existing methods, achieving a substantial reduction in the number of Gaussians, and enabling high rendering speed while maintaining or even enhancing rendering fidelity.

arxiv情報

著者 Zhengqing Gao,Dongting Hu,Jia-Wang Bian,Huan Fu,Yan Li,Tongliang Liu,Mingming Gong,Kun Zhang
発行日 2025-04-08 12:19:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | ProtoGS: Efficient and High-Quality Rendering with 3D Gaussian Prototypes はコメントを受け付けていません

AVP-AP: Self-supervised Automatic View Positioning in 3D cardiac CT via Atlas Prompting

要約

自動ビューのポジショニングは、疾患診断や外科​​的計画を含む、心臓コンピューター断層撮影(CT)試験で重要です。
ただし、個々の変動と大きな3D検索スペースのため、非常に困難です。
既存の作業には、固定された平面セットのみを予測することに限定された、視野固有のモデルを訓練するために、労働集約的で時間のかかる手動注釈が必要です。
ただし、実際の臨床シナリオでは、任意の3Dボリュームのさまざまな座標空間への方向を持つセマンティック2Dスライスを配置するという課題は未解決のままです。
したがって、3D CTボリュームでの自己監視された自動ビューの位置付けを促すATLASを最初に使用した新しいフレームワークAVP-APを紹介します。
具体的には、このペーパーでは、最初にATLASプロンプトメソッドを提案します。これにより、3Dカノニカルアトラスが生成され、ネットワークをトレーニングして、スライスを自己監視方法でアトラス空間の対応する位置にマッピングします。
次に、参照CTの指定されたクエリ画像に対応するATLASプロンプトに導かれ、3D ATLAとターゲットCTボリューム間の剛体変換を使用して、ターゲットCTボリュームのスライスの粗い位置を識別し、検索スペースを効果的に削減します。
最後に、特定の基礎モデルの特徴空間で、予測されたスライスとクエリ画像との類似性を最大化することにより、粗い位置を改良します。
私たちのフレームワークは、他の方法と比較して柔軟で効率的であり、4人の放射線科医と比較して、任意のビューの位置決めで他の方法を19.8%平均構造的類似性(SSIM)よりも上回っています。
一方、パブリックデータセットでの実験は、フレームワークの一般化可能性を検証します。

要約(オリジナル)

Automatic view positioning is crucial for cardiac computed tomography (CT) examinations, including disease diagnosis and surgical planning. However, it is highly challenging due to individual variability and large 3D search space. Existing work needs labor-intensive and time-consuming manual annotations to train view-specific models, which are limited to predicting only a fixed set of planes. However, in real clinical scenarios, the challenge of positioning semantic 2D slices with any orientation into varying coordinate space in arbitrary 3D volume remains unsolved. We thus introduce a novel framework, AVP-AP, the first to use Atlas Prompting for self-supervised Automatic View Positioning in the 3D CT volume. Specifically, this paper first proposes an atlas prompting method, which generates a 3D canonical atlas and trains a network to map slices into their corresponding positions in the atlas space via a self-supervised manner. Then, guided by atlas prompts corresponding to the given query images in a reference CT, we identify the coarse positions of slices in the target CT volume using rigid transformation between the 3D atlas and target CT volume, effectively reducing the search space. Finally, we refine the coarse positions by maximizing the similarity between the predicted slices and the query images in the feature space of a given foundation model. Our framework is flexible and efficient compared to other methods, outperforming other methods by 19.8% average structural similarity (SSIM) in arbitrary view positioning and achieving 9% SSIM in two-chamber view compared to four radiologists. Meanwhile, experiments on a public dataset validate our framework’s generalizability.

arxiv情報

著者 Xiaolin Fan,Yan Wang,Yingying Zhang,Mingkun Bao,Bosen Jia,Dong Lu,Yifan Gu,Jian Cheng,Haogang Zhu
発行日 2025-04-08 12:24:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | AVP-AP: Self-supervised Automatic View Positioning in 3D cardiac CT via Atlas Prompting はコメントを受け付けていません

Diffusion Based Ambiguous Image Segmentation

要約

医療画像のセグメンテーションには、多くの場合、専門家の注釈の変動による固有の不確実性が含まれます。
この不確実性をキャプチャすることは重要な目標であり、以前の作品は、もっともらしい専門家の基本真理の完全な分布を表す目的で、さまざまな生成画像モデルを使用しています。
この作業では、生成セグメンテーションのための拡散モデルの設計スペースを探り、ノイズスケジュール、予測タイプ、および損失の重みの影響を調査します。
特に、入力スケーリングによりノイズスケジュールを難しくすると、パフォーマンスが大幅に向上することがわかります。
拡散プロセスが離散セグメンテーションドメインにあるため、XおよびV予測はエプシロン予測よりも優れていると結論付けます。
多くの損失の重み付けは、拡散プロセスの終わりに十分な重みを与える限り、同様の性能を達成します。
LIDC-Idri肺病変データセットに基づいて実験を行い、最先端の(SOTA)パフォーマンスを取得します。
さらに、画像セグメンテーションの不確実性により適したLIDC-IDRIデータセットのランダムにトリミングされたバリアントを紹介します。
私たちのモデルは、この難しい設定でもSOTAを達成します。

要約(オリジナル)

Medical image segmentation often involves inherent uncertainty due to variations in expert annotations. Capturing this uncertainty is an important goal and previous works have used various generative image models for the purpose of representing the full distribution of plausible expert ground truths. In this work, we explore the design space of diffusion models for generative segmentation, investigating the impact of noise schedules, prediction types, and loss weightings. Notably, we find that making the noise schedule harder with input scaling significantly improves performance. We conclude that x- and v-prediction outperform epsilon-prediction, likely because the diffusion process is in the discrete segmentation domain. Many loss weightings achieve similar performance as long as they give enough weight to the end of the diffusion process. We base our experiments on the LIDC-IDRI lung lesion dataset and obtain state-of-the-art (SOTA) performance. Additionally, we introduce a randomly cropped variant of the LIDC-IDRI dataset that is better suited for uncertainty in image segmentation. Our model also achieves SOTA in this harder setting.

arxiv情報

著者 Jakob Lønborg Christensen,Morten Rieger Hannemose,Anders Bjorholm Dahl,Vedrana Andersen Dahl
発行日 2025-04-08 12:33:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Diffusion Based Ambiguous Image Segmentation はコメントを受け付けていません

An Empirical Study of GPT-4o Image Generation Capabilities

要約

初期のGANベースのアプローチから拡散モデル、そして最近では、理解と生成のタスクを橋渡ししようとする統一された生成アーキテクチャまで、画像生成の景観は急速に進化してきました。
最近の進歩、特にGPT-4Oは、高忠実度のマルチモーダル生成の実現可能性を実証しており、その建築設計は神秘的で未発表のままです。
これにより、画像とテキスト生成がすでにこれらの方法の統一されたフレームワークに統合されているかどうかの問題が促されます。
この作業では、GPT-4oの画像生成機能の実証研究を実施し、主要なオープンソースおよび商業モデルに対してベンチマークを付けています。
私たちの評価では、テキストからイメージ、画像から画像、画像から3D、画像からXの世代など、20を超えるタスクを含む4つの主要なカテゴリをカバーしています。
私たちの分析は、さまざまな設定でのGPT-4Oの強みと制限を強調し、生成モデリングのより広い進化の範囲内でそれを位置づけます。
この調査を通じて、将来の統一された生成モデルの有望な方向を特定し、建築設計とデータスケーリングの役割を強調します。

要約(オリジナル)

The landscape of image generation has rapidly evolved, from early GAN-based approaches to diffusion models and, most recently, to unified generative architectures that seek to bridge understanding and generation tasks. Recent advances, especially the GPT-4o, have demonstrated the feasibility of high-fidelity multimodal generation, their architectural design remains mysterious and unpublished. This prompts the question of whether image and text generation have already been successfully integrated into a unified framework for those methods. In this work, we conduct an empirical study of GPT-4o’s image generation capabilities, benchmarking it against leading open-source and commercial models. Our evaluation covers four main categories, including text-to-image, image-to-image, image-to-3D, and image-to-X generation, with more than 20 tasks. Our analysis highlights the strengths and limitations of GPT-4o under various settings, and situates it within the broader evolution of generative modeling. Through this investigation, we identify promising directions for future unified generative models, emphasizing the role of architectural design and data scaling.

arxiv情報

著者 Sixiang Chen,Jinbin Bai,Zhuoran Zhao,Tian Ye,Qingyu Shi,Donghao Zhou,Wenhao Chai,Xin Lin,Jianzong Wu,Chao Tang,Shilin Xu,Tao Zhang,Haobo Yuan,Yikang Zhou,Wei Chow,Linfeng Li,Xiangtai Li,Lei Zhu,Lu Qi
発行日 2025-04-08 12:34:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | An Empirical Study of GPT-4o Image Generation Capabilities はコメントを受け付けていません

AI analysis of medical images at scale as a health disparities probe: a feasibility demonstration using chest radiographs

要約

健康格差(健康に影響を与える非遺伝的条件の違い)は、人口内のグループによる病気の負担の違いに関連する可能性があります。
健康の社会的決定要因(SDOH)は、ヘルスケアへのアクセス、食事へのアクセス、および健康格差との潜在的な関連のために頻繁に研究される経済学などのドメインです。
データソースとして日常的な医療画像を使用したSDOH関連の表現型を評価すると、健康格差の研究が強化される可能性があります。
医療画像から自動的に健康格差指数計算への入力として自動的に抽出された定量的測定を使用するためのパイプラインを開発しました。
私たちの研究は、2人のSDOH人口統計相関(性と人種)のユースケースと、1,571人のユニークな患者の胸部X線写真から抽出されたデータに焦点を当てました。
確立された深い学習モデルを使用して測定された各画像タイプの肺実質内の重度の疾患の可能性は、各患者の単一の数値画像ベースの表現型に統合されました。
その後、患者は、画像ベースの表現型の監視されていないクラスタリングにより、フェノグループに分離されました。
各フェノグループの健康率は、4つのイメージング由来の健康格差指数(IHDI)への入力として使用される各SDOHの画像ベースの表現型の中央値として定義されました。
IHDIの測定は、各SDOH人口統計相関の実行可能な値を実証し、医療画像が健康格差の新しい調査として役立つ可能性を示しています。
医療画像の大規模なAI分析は、健康格差研究のための新しいデータソースの調査として役立ちます。

要約(オリジナル)

Health disparities (differences in non-genetic conditions that influence health) can be associated with differences in burden of disease by groups within a population. Social determinants of health (SDOH) are domains such as health care access, dietary access, and economics frequently studied for potential association with health disparities. Evaluating SDOH-related phenotypes using routine medical images as data sources may enhance health disparities research. We developed a pipeline for using quantitative measures automatically extracted from medical images as inputs into health disparities index calculations. Our study focused on the use case of two SDOH demographic correlates (sex and race) and data extracted from chest radiographs of 1,571 unique patients. The likelihood of severe disease within the lung parenchyma from each image type, measured using an established deep learning model, was merged into a single numerical image-based phenotype for each patient. Patients were then separated into phenogroups by unsupervised clustering of the image-based phenotypes. The health rate for each phenogroup was defined as the median image-based phenotype for each SDOH used as inputs to four imaging-derived health disparities indices (iHDIs): one absolute measure (between-group variance) and three relative measures (index of disparity, Theil index, and mean log deviation). The iHDI measures demonstrated feasible values for each SDOH demographic correlate, showing potential for medical images to serve as a novel probe for health disparities. Large-scale AI analysis of medical images can serve as a probe for a novel data source for health disparities research.

arxiv情報

著者 Heather M. Whitney,Hui Li,Karen Drukker,Elbert Huang,Maryellen L. Giger
発行日 2025-04-08 12:53:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, physics.med-ph | AI analysis of medical images at scale as a health disparities probe: a feasibility demonstration using chest radiographs はコメントを受け付けていません

Under-Sampled High-Dimensional Data Recovery via Symbiotic Multi-Prior Tensor Reconstruction

要約

センシングテクノロジーの進歩により、高次元データの広範なアプリケーションが推進されています。
ただし、取得中のエントリの欠落や送信などの問題は、後続のタスクの精度に悪影響を及ぼします。
テンソル再構成は、高次元データの以前の情報を調査することにより、サンプリングされていない観察されたデータから基礎となる完全なデータを回復することを目的としています。
ただし、調査が不十分なため、サンプリングレートが非常に低い場合、再構築方法は依然として課題に直面しています。
この作業では、データの固有の構造を包括的に活用するために複数のプライアーを統合するテンソル再構築方法を提案します。
具体的には、このメソッドは、学習可能なテンソル分解を組み合わせて、再構築されたデータの低ランク制約、スムージングと除去のための事前に訓練された畳み込みニューラルネットワーク、および再構成されたデータの非局所類似性を強化するためのブロックマッチングと3Dフィルタリングの正則化を実施します。
乗数アルゴリズムの交互方向方法は、結果の最適化問題を3つのサブ問題に分解して、効率的な解像度を分解するように設計されています。
カラー画像、ハイパースペクトル画像、グレースケールビデオデータセットに関する広範な実験は、最先端の方法と比較して、極端な場合の方法の優位性を示しています。

要約(オリジナル)

The advancement of sensing technology has driven the widespread application of high-dimensional data. However, issues such as missing entries during acquisition and transmission negatively impact the accuracy of subsequent tasks. Tensor reconstruction aims to recover the underlying complete data from under-sampled observed data by exploring prior information in high-dimensional data. However, due to insufficient exploration, reconstruction methods still face challenges when sampling rate is extremely low. This work proposes a tensor reconstruction method integrating multiple priors to comprehensively exploit the inherent structure of the data. Specifically, the method combines learnable tensor decomposition to enforce low-rank constraints of the reconstructed data, a pre-trained convolutional neural network for smoothing and denoising, and block-matching and 3D filtering regularization to enhance the non-local similarity in the reconstructed data. An alternating direction method of the multipliers algorithm is designed to decompose the resulting optimization problem into three subproblems for efficient resolution. Extensive experiments on color images, hyperspectral images, and grayscale videos datasets demonstrate the superiority of our method in extreme cases as compared with state-of-the-art methods.

arxiv情報

著者 Jie Yang,Chang Su,Yuhan Zhang,Jianjun Zhu,Jianli Wang
発行日 2025-04-08 12:55:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Under-Sampled High-Dimensional Data Recovery via Symbiotic Multi-Prior Tensor Reconstruction はコメントを受け付けていません

econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians

要約

空色の神経分野に関する最新の作品の主な焦点は、VLMSから正確なセマンティック機能を抽出し、それらを効率的にマルチビューの一貫した3Dニューラルフィールド表現に統合することです。
ただし、ほとんどの既存の作品は、SAMを覆し、さらに改良せずに画像レベルのクリップを正規化しました。
さらに、いくつかの既存の作品は、3DGSセマンティックフィールドと融合する前に、2D VLMSからのセマンティック機能の次元低下により効率を改善し、必然的にマルチビューの矛盾につながります。
この作業では、3DGSを使用したオープンホキャブラリーセマンティックセグメンテーションのECONSGを提案します。
ECONSGは次のとおりです。1)SAMとクリップを相互に改良して、完全かつ正確な境界を持つ正確なセマンティック機能のために両方の世界を最大限に活用する信頼地域のガイド付き正規化(CRR)。
2)バックプロジェクトのマルチビュー2D機能を融合させ、各2Dビューを個別に動作する代わりに融合3D機能で直接次元削減することにより、計算効率を改善しながら3Dマルチビューの一貫性を実施する低次元のコンテキスト空間。
ECONSGは、既存の方法と比較して、4つのベンチマークデータセットで最先端のパフォーマンスを示しています。
さらに、私たちはすべての方法の中で最も効率的なトレーニングでもあります。

要約(オリジナル)

The primary focus of most recent works on open-vocabulary neural fields is extracting precise semantic features from the VLMs and then consolidating them efficiently into a multi-view consistent 3D neural fields representation. However, most existing works over-trusted SAM to regularize image-level CLIP without any further refinement. Moreover, several existing works improved efficiency by dimensionality reduction of semantic features from 2D VLMs before fusing with 3DGS semantic fields, which inevitably leads to multi-view inconsistency. In this work, we propose econSG for open-vocabulary semantic segmentation with 3DGS. Our econSG consists of: 1) A Confidence-region Guided Regularization (CRR) that mutually refines SAM and CLIP to get the best of both worlds for precise semantic features with complete and precise boundaries. 2) A low dimensional contextual space to enforce 3D multi-view consistency while improving computational efficiency by fusing backprojected multi-view 2D features and follow by dimensional reduction directly on the fused 3D features instead of operating on each 2D view separately. Our econSG shows state-of-the-art performance on four benchmark datasets compared to the existing methods. Furthermore, we are also the most efficient training among all the methods.

arxiv情報

著者 Can Zhang,Gim Hee Lee
発行日 2025-04-08 13:12:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians はコメントを受け付けていません

FedFeat+: A Robust Federated Learning Framework Through Federated Aggregation and Differentially Private Feature-Based Classifier Retraining

要約

この論文では、FedFeat+フレームワークを提案します。これにより、特徴抽出を分類とはっきりと分離します。
2層のモデルトレーニングプロセスを開発します。ローカルトレーニングに続いて、クライアントは、最終的なローカルエポックからサーバーに機能抽出器から抽出されたいくつかの機能を送信します。
サーバーは、FEDAVGメソッドを使用してこれらのモデルを集約し、その後、共有機能を使用してグローバル分類器を再獲得します。
分類器再訓練プロセスは、データ分布の全体的な見解に関するモデルの理解を高め、多様なデータセット全体のより良い一般化を確保します。
この改善された一般化により、分類器は、その後のローカルトレーニングエポック中に特徴抽出器に適応的に影響を与えることができます。
差別的なプライバシーメカニズムの実装を通じて、モデルの精度の向上と個々のプライバシーを保護することとのバランスを確立します。
サーバーと共有される機能ベクトルにノイズを組み込むことにより、機密データが秘密になるようにします。
パフォーマンスの向上とプライバシーの保存に関する理論的推論とともに、包括的な収束分析を提示します。
CIFAR-10、CIFAR-100、MNIST、FMNISTを含むベンチマークデータセットで実施された経験的評価を通じてアプローチを検証し、厳しいプライバシー保証を順守しながら高い精度を達成します。
実験結果は、軽量の2層CNN分類器のみを使用しているにもかかわらず、FEDFEAT+フレームワークがIIDシナリオと非IIDシナリオの両方でFEDAVGメソッドを上回り、CIFAR-10、CIFAR-100、およびファッションミストデータセットで3.92%から12.34%の精度の改善を達成することを示しています。

要約(オリジナル)

In this paper, we propose the FedFeat+ framework, which distinctively separates feature extraction from classification. We develop a two-tiered model training process: following local training, clients transmit their weights and some features extracted from the feature extractor from the final local epochs to the server. The server aggregates these models using the FedAvg method and subsequently retrains the global classifier utilizing the shared features. The classifier retraining process enhances the model’s understanding of the holistic view of the data distribution, ensuring better generalization across diverse datasets. This improved generalization enables the classifier to adaptively influence the feature extractor during subsequent local training epochs. We establish a balance between enhancing model accuracy and safeguarding individual privacy through the implementation of differential privacy mechanisms. By incorporating noise into the feature vectors shared with the server, we ensure that sensitive data remains confidential. We present a comprehensive convergence analysis, along with theoretical reasoning regarding performance enhancement and privacy preservation. We validate our approach through empirical evaluations conducted on benchmark datasets, including CIFAR-10, CIFAR-100, MNIST, and FMNIST, achieving high accuracy while adhering to stringent privacy guarantees. The experimental results demonstrate that the FedFeat+ framework, despite using only a lightweight two-layer CNN classifier, outperforms the FedAvg method in both IID and non-IID scenarios, achieving accuracy improvements ranging from 3.92 % to 12.34 % across CIFAR-10, CIFAR-100, and Fashion-MNIST datasets.

arxiv情報

著者 Mrityunjoy Gain,Kitae Kim,Avi Deb Raha,Apurba Adhikary,Eui-Nam Huh,Zhu Han,Choong Seon Hong
発行日 2025-04-08 13:12:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FedFeat+: A Robust Federated Learning Framework Through Federated Aggregation and Differentially Private Feature-Based Classifier Retraining はコメントを受け付けていません

RoMeO: Robust Metric Visual Odometry

要約

Visual Odometry(VO)は、視覚入力からカメラのポーズを推定することを目的としています。これは、VR/ARやロボット工学などの多くのアプリケーションの基本的な構成要素です。
この作業は、入力がIMUまたは3Dセンサーのない単眼RGBビデオである単眼RGB VOに焦点を当てています。
既存のアプローチは、この挑戦​​的なシナリオの下で堅牢性を欠いており、目に見えないデータ(特に屋外)に一般化できません。
また、メトリックスケールのポーズを回復することもできません。
堅牢なメトリック視覚匂い(Romeo)を提案します。これは、事前に訓練された深さモデルからプライアーを活用するこれらの問題を解決する新しい方法です。
Romeoは、モノクラーメートリック深度とマルチビューステレオ(MVS)モデルの両方を組み込んで、メートルスケールを回復し、対応の検索を簡素化し、初期化を改善し、最適化を正規化します。
トレーニング中にノイズを注入し、ノイズの多い深さの前層を適応的にフィルタリングするための効果的な戦略が提案されています。これにより、野生のデータに対するロミオの堅牢性が保証されます。
図1に示すように、ロミオは、屋内と屋外の両方のシーンをカバーする6つの多様なデータセットに大きなマージンで最先端(SOTA)を前進させます。
現在のSOTA DPVOと比較して、ロミオは相対的なもの(軌道スケールをGTに合わせて)と絶対軌道誤差を50%除外します。
パフォーマンスゲインは、完全なスラムパイプラインにも転送されます(グローバルBA&ループの閉鎖を伴います)。
コードは受け入れられるとリリースされます。

要約(オリジナル)

Visual odometry (VO) aims to estimate camera poses from visual inputs — a fundamental building block for many applications such as VR/AR and robotics. This work focuses on monocular RGB VO where the input is a monocular RGB video without IMU or 3D sensors. Existing approaches lack robustness under this challenging scenario and fail to generalize to unseen data (especially outdoors); they also cannot recover metric-scale poses. We propose Robust Metric Visual Odometry (RoMeO), a novel method that resolves these issues leveraging priors from pre-trained depth models. RoMeO incorporates both monocular metric depth and multi-view stereo (MVS) models to recover metric-scale, simplify correspondence search, provide better initialization and regularize optimization. Effective strategies are proposed to inject noise during training and adaptively filter noisy depth priors, which ensure the robustness of RoMeO on in-the-wild data. As shown in Fig.1, RoMeO advances the state-of-the-art (SOTA) by a large margin across 6 diverse datasets covering both indoor and outdoor scenes. Compared to the current SOTA DPVO, RoMeO reduces the relative (align the trajectory scale with GT) and absolute trajectory errors both by >50%. The performance gain also transfers to the full SLAM pipeline (with global BA & loop closure). Code will be released upon acceptance.

arxiv情報

著者 Junda Cheng,Zhipeng Cai,Zhaoxing Zhang,Wei Yin,Matthias Muller,Michael Paulitsch,Xin Yang
発行日 2025-04-08 13:16:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RoMeO: Robust Metric Visual Odometry はコメントを受け付けていません

Latent Multimodal Reconstruction for Misinformation Detection

要約

キャプションが画像の起源、コンテキスト、または意味を誤って伝えた誤った画像などのマルチモーダルの誤った情報は、デジタル時代に成長する課題をもたらします。
ファクトチェッカーをサポートするために、研究者はデータセットの作成と、マルチモーダル誤った情報検出(MMD)の方法の開発に焦点を当てています。
大規模な注釈付きMMDデータセットが不足しているため、最近の研究では、コンテキスト外の画像キャプションペアまたは名前付きエンティティ操作を介して合成トレーニングデータを活用しています。
名前、日付、場所を変更します。
しかし、これらのアプローチは、多くの場合、現実世界の複雑さを反映することができない単純な誤った情報を生み出し、それらについて訓練された検出モデルの堅牢性を制限します。
一方、最近の進歩にもかかわらず、MMDの多様で現実的な合成トレーニングデータを生成するために、大規模な視覚言語モデル(LVLM)が十分に活用されていないままです。
このギャップに対処するために、LVLMで生成された誤った画像を含むトレーニングデータセットである「This!」を紹介します。
さらに、「潜在的なマルチモーダル再構成」(LAMAR)を導入します。これは、真実のキャプションの埋め込みを再構築するようにトレーニングされたネットワークで、検出プロセスに強力な補助信号を提供します。
Lamarを最適化するために、さまざまなトレーニング戦略(エンドツーエンドのトレーニングと大規模なトレーニング前)と統合アプローチ(直接、マスク、ゲート、および注意)を調査します。
広範な実験では、モデルが「これを誤って!」で訓練したことが示されています。
ラマーは、現実世界の誤った情報をよりよく一般化し、ニュースクリッピングとveriteベンチマークの両方で新しい最先端を設定します。
MMDを進めるためのLVLM生成データと再構築に基づくアプローチの可能性を強調します。
コードをhttps://github.com/stevejpapad/miscaptioned-image-reconstructionでリリースします

要約(オリジナル)

Multimodal misinformation, such as miscaptioned images, where captions misrepresent an image’s origin, context, or meaning, poses a growing challenge in the digital age. To support fact-checkers, researchers have been focusing on creating datasets and developing methods for multimodal misinformation detection (MMD). Due to the scarcity of large-scale annotated MMD datasets, recent studies leverage synthetic training data via out-of-context image-caption pairs or named entity manipulations; altering names, dates, and locations. However, these approaches often produce simplistic misinformation that fails to reflect real-world complexity, limiting the robustness of detection models trained on them. Meanwhile, despite recent advancements, Large Vision-Language Models (LVLMs) remain underutilized for generating diverse, realistic synthetic training data for MMD. To address this gap, we introduce ‘MisCaption This!’, a training dataset comprising LVLM-generated miscaptioned images. Additionally, we introduce ‘Latent Multimodal Reconstruction’ (LAMAR), a network trained to reconstruct the embeddings of truthful captions, providing a strong auxiliary signal to the detection process. To optimize LAMAR, we explore different training strategies (end-to-end training and large-scale pre-training) and integration approaches (direct, mask, gate, and attention). Extensive experiments show that models trained on ‘MisCaption This!’ generalize better on real-world misinformation, while LAMAR sets new state-of-the-art on both NewsCLIPpings and VERITE benchmarks; highlighting the potential of LVLM-generated data and reconstruction-based approaches for advancing MMD. We release our code at: https://github.com/stevejpapad/miscaptioned-image-reconstruction

arxiv情報

著者 Stefanos-Iordanis Papadopoulos,Christos Koutlis,Symeon Papadopoulos,Panagiotis C. Petrantonakis
発行日 2025-04-08 13:16:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | Latent Multimodal Reconstruction for Misinformation Detection はコメントを受け付けていません