Perceptually Accurate 3D Talking Head Generation: New Definitions, Speech-Mesh Representation, and Evaluation Metrics

要約

音声駆動型の3Dトーキングヘッド生成における最近の進歩により、唇の同期が大幅に進歩しました。
ただし、既存のモデルは、さまざまな音声特性と対応する唇の動きとの間の知覚的アライメントを捉えるのに苦労しています。
この作業では、3つの基準 – 時間的同期、唇の読みやすさ、表現力 – が、知覚的に正確な唇の動きを達成するために重要であると主張しています。
これらの3つの基準を満たすために望ましい表現スペースが存在するという仮説によって動機付けられて、音声信号と3Dフェイスメッシュの間の複雑な対応をキャプチャする音声メッシュ同期表現を導入します。
学習した表現は望ましい特性を示すことがわかりました。また、既存のモデルにプラグインして知覚的損失として、唇の動きを与えられたスピーチに合わせてより適切に整列させます。
さらに、この表現を知覚メトリックとして利用し、他の2つの物理的に接地したリップ同期メトリックを導入して、生成された3Dトーキングヘッドがこれらの3つの基準にどれだけ整合するかを評価します。
実験では、知覚的損失を伴う3Dトーキングヘッド生成モデルのトレーニングは、知覚的に正確なリップ同期の3つの側面すべてを大幅に改善することを示しています。
コードとデータセットは、https://perceptual-3d-talking-head.github.io/で入手できます。

要約(オリジナル)

Recent advancements in speech-driven 3D talking head generation have made significant progress in lip synchronization. However, existing models still struggle to capture the perceptual alignment between varying speech characteristics and corresponding lip movements. In this work, we claim that three criteria — Temporal Synchronization, Lip Readability, and Expressiveness — are crucial for achieving perceptually accurate lip movements. Motivated by our hypothesis that a desirable representation space exists to meet these three criteria, we introduce a speech-mesh synchronized representation that captures intricate correspondences between speech signals and 3D face meshes. We found that our learned representation exhibits desirable characteristics, and we plug it into existing models as a perceptual loss to better align lip movements to the given speech. In addition, we utilize this representation as a perceptual metric and introduce two other physically grounded lip synchronization metrics to assess how well the generated 3D talking heads align with these three criteria. Experiments show that training 3D talking head generation models with our perceptual loss significantly improve all three aspects of perceptually accurate lip synchronization. Codes and datasets are available at https://perceptual-3d-talking-head.github.io/.

arxiv情報

著者 Lee Chae-Yeon,Oh Hyun-Bin,Han EunGi,Kim Sung-Bin,Suekyeong Nam,Tae-Hyun Oh
発行日 2025-03-31 16:08:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Perceptually Accurate 3D Talking Head Generation: New Definitions, Speech-Mesh Representation, and Evaluation Metrics はコメントを受け付けていません

FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics

要約

生成的人工知能(AI)の迅速かつ抑制されていない進歩は、両刃の剣を提示します。前例のない創造性を可能にしながら、非常に説得力のある欺cept的な内容の生成を促進し、社会的信頼を損ないます。
画像生成のテクニックがますます洗練されるにつれて、合成画像の検出はもはや単なるバイナリタスクではありません。信頼性と透明性を高める解釈可能なコンテキスト認識の方法論が必要です。
ただし、既存の検出モデルは主に分類に焦点を当てており、画像の信頼性に関する説明的な洞察を提供します。
この作業では、AIが生成された画像法医学に合わせて調整された専門家マルチモーダルモデル(LMM)であるFakescopeを提案します。これは、高精度でAI合成画像を識別するだけでなく、豊富で解釈可能な、クエリ駆動型のフォレンジック洞察を提供します。
最初に、視覚的なトレースの証拠に基づいた言語の信頼性の推論を含むFakechainデータセットを構築し、新しいヒューマシンコラボレーションフレームワークを通じて開発しました。
さらに、LMMの法医学的認識を高めるために調整された200万の視覚命令を含む最大のマルチモーダル命令チューニングデータセットであるFakeinstructをさらに紹介します。
Fakescopeは、閉鎖された法医学シナリオとオープンエンドの両方のフォレンジックシナリオで最先端のパフォーマンスを達成します。
合成画像を高い精度で区別することができ、一貫した洞察力のある説明、きめ細かい偽造属性に関する自由形式の議論、および実用的な強化戦略を提供します。
特に、定性的なハードラベルのみで訓練されているにもかかわらず、Fakescopeは、提案されているトークンベースの確率推定戦略によって有効になっている検出に関する顕著なゼロショットの定量的機能を示しています。
さらに、Fakescopeは強力な一般化と野生の能力を示し、実際のシナリオでの適用性を確保します。

要約(オリジナル)

The rapid and unrestrained advancement of generative artificial intelligence (AI) presents a double-edged sword: while enabling unprecedented creativity, it also facilitates the generation of highly convincing deceptive content, undermining societal trust. As image generation techniques become increasingly sophisticated, detecting synthetic images is no longer just a binary task: it necessitates interpretable, context-aware methodologies that enhance trustworthiness and transparency. However, existing detection models primarily focus on classification, offering limited explanatory insights into image authenticity. In this work, we propose FakeScope, an expert multimodal model (LMM) tailored for AI-generated image forensics, which not only identifies AI-synthetic images with high accuracy but also provides rich, interpretable, and query-driven forensic insights. We first construct FakeChain dataset that contains linguistic authenticity reasoning based on visual trace evidence, developed through a novel human-machine collaborative framework. Building upon it, we further present FakeInstruct, the largest multimodal instruction tuning dataset containing 2 million visual instructions tailored to enhance forensic awareness in LMMs. FakeScope achieves state-of-the-art performance in both closed-ended and open-ended forensic scenarios. It can distinguish synthetic images with high accuracy while offering coherent and insightful explanations, free-form discussions on fine-grained forgery attributes, and actionable enhancement strategies. Notably, despite being trained exclusively on qualitative hard labels, FakeScope demonstrates remarkable zero-shot quantitative capability on detection, enabled by our proposed token-based probability estimation strategy. Furthermore, FakeScope exhibits strong generalization and in-the-wild ability, ensuring its applicability in real-world scenarios.

arxiv情報

著者 Yixuan Li,Yu Tian,Yipo Huang,Wei Lu,Shiqi Wang,Weisi Lin,Anderson Rocha
発行日 2025-03-31 16:12:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics はコメントを受け付けていません

Visual Acoustic Fields

要約

オブジェクトはヒットすると異なる音を生成し、人間はその外観と材料特性に基づいてオブジェクトがどのように鳴るかを直感的に推測できます。
この直感に触発されて、3Dガウスのスプラッティング(3DG)を使用して3Dスペース内で音と視覚的な信号を打つ橋渡しするフレームワークである視覚的なアコースティックフィールドを提案します。
私たちのアプローチには、2つの重要なモジュールがあります。サウンド生成とサウンドローカリゼーションです。
サウンド生成モジュールは、条件付き拡散モデルを活用します。これにより、特徴の高級3DGからレンダリングされたマルチスケール機能が現実的なヒット音を生成します。
一方、サウンドローカリゼーションモジュールは、機能編成された3DGSで表される3Dシーンをクエリすることで、サウンドソースに基づいてヒット位置をローカライズできます。
このフレームワークをサポートするために、シーンレベルのビジュアルサウンドサンプルペアを収集し、キャプチャされた画像、インパクトロケーション、対応するサウンド間のアライメントを実現するための新しいパイプラインを紹介します。
私たちの知る限り、これは3Dコンテキストで視覚と音響信号を接続する最初のデータセットです。
データセットでの広範な実験は、もっともらしい衝撃音を生成し、衝撃ソースを正確にローカライズする際の視覚音響場の有効性を示しています。
プロジェクトページはhttps://yuelei0428.github.io/projects/visual-acoustic-fields/にあります。

要約(オリジナル)

Objects produce different sounds when hit, and humans can intuitively infer how an object might sound based on its appearance and material properties. Inspired by this intuition, we propose Visual Acoustic Fields, a framework that bridges hitting sounds and visual signals within a 3D space using 3D Gaussian Splatting (3DGS). Our approach features two key modules: sound generation and sound localization. The sound generation module leverages a conditional diffusion model, which takes multiscale features rendered from a feature-augmented 3DGS to generate realistic hitting sounds. Meanwhile, the sound localization module enables querying the 3D scene, represented by the feature-augmented 3DGS, to localize hitting positions based on the sound sources. To support this framework, we introduce a novel pipeline for collecting scene-level visual-sound sample pairs, achieving alignment between captured images, impact locations, and corresponding sounds. To the best of our knowledge, this is the first dataset to connect visual and acoustic signals in a 3D context. Extensive experiments on our dataset demonstrate the effectiveness of Visual Acoustic Fields in generating plausible impact sounds and accurately localizing impact sources. Our project page is at https://yuelei0428.github.io/projects/Visual-Acoustic-Fields/.

arxiv情報

著者 Yuelei Li,Hyunjin Kim,Fangneng Zhan,Ri-Zhao Qiu,Mazeyu Ji,Xiaojun Shan,Xueyan Zou,Paul Liang,Hanspeter Pfister,Xiaolong Wang
発行日 2025-03-31 16:16:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Visual Acoustic Fields はコメントを受け付けていません

Learning Velocity and Acceleration: Self-Supervised Motion Consistency for Pedestrian Trajectory Prediction

要約

人間の動きを理解することは、正確な歩行者の軌跡予測には重要です。
従来の方法は通常、監視された学習に依存しています。この学習は、予測された軌跡に対して地上軌道ラベルが直接最適化されています。
これにより、長期尾のあるデータ分布によって引き起こされる制限が増幅され、モデルが異常な行動をキャプチャすることが困難になります。
この作業では、位置、速度、および加速を明示的にモデル化する自己監視された歩行者軌道予測フレームワークを提案します。
速度と加速情報を活用して、特徴注入と自己監視の動きの一貫性メカニズムを通じて位置予測を強化します。
私たちのモデルは、速度の特徴を位置ストリームに階層的に注入します。
加速機能が速度ストリームに注入されます。
これにより、モデルは位置、速度、および加速度を共同で予測できます。
予測された位置から、対応する擬似速度と加速度を計算し、モデルがデータ生成された擬似ラベルから学習し、したがって自己監視学習を実現できるようにします。
さらに、物理的原則に基づいた動きの一貫性評価戦略を設計します。
それは、それを歴史的ダイナミクスと比較することにより、最も合理的な予測されるモーショントレンドを選択し、この傾向を使用して軌跡の生成を導き、制約します。
Eth-usyおよびStanfordドローンデータセットで実験を実施し、両方のデータセットで最先端のパフォーマンスを達成することを実証しています。

要約(オリジナル)

Understanding human motion is crucial for accurate pedestrian trajectory prediction. Conventional methods typically rely on supervised learning, where ground-truth labels are directly optimized against predicted trajectories. This amplifies the limitations caused by long-tailed data distributions, making it difficult for the model to capture abnormal behaviors. In this work, we propose a self-supervised pedestrian trajectory prediction framework that explicitly models position, velocity, and acceleration. We leverage velocity and acceleration information to enhance position prediction through feature injection and a self-supervised motion consistency mechanism. Our model hierarchically injects velocity features into the position stream. Acceleration features are injected into the velocity stream. This enables the model to predict position, velocity, and acceleration jointly. From the predicted position, we compute corresponding pseudo velocity and acceleration, allowing the model to learn from data-generated pseudo labels and thus achieve self-supervised learning. We further design a motion consistency evaluation strategy grounded in physical principles; it selects the most reasonable predicted motion trend by comparing it with historical dynamics and uses this trend to guide and constrain trajectory generation. We conduct experiments on the ETH-UCY and Stanford Drone datasets, demonstrating that our method achieves state-of-the-art performance on both datasets.

arxiv情報

著者 Yizhou Huang,Yihua Cheng,Kezhi Wang
発行日 2025-03-31 16:17:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Learning Velocity and Acceleration: Self-Supervised Motion Consistency for Pedestrian Trajectory Prediction はコメントを受け付けていません

Reversible Decoupling Network for Single Image Reflection Removal

要約

シングルイメージの反射除去に対する最近の深部学習ベースのアプローチは、主に2つの理由で有望な進歩を示しています。1)入力としての認識基準機能の利用、および2)デュアルストリームインタラクションネットワークの設計。
ただし、情報の原則によれば、高レベルのセマンティックの手がかりは、レイヤーごとの伝播中に圧縮または破棄される傾向があります。
さらに、デュアルストリームネットワークの相互作用は、異なるレイヤーの固定パターンに従い、全体的なパフォーマンスを制限します。
これらの制限に対処するために、リバーシブルデカップリングネットワーク(RDNET)と呼ばれる新しいアーキテクチャを提案します。これは、リバーシブルエンコーダーを使用して貴重な情報を保護しながら、フォワードパス中に伝送と反射関連の機能を柔軟に分離します。
さらに、トランスミッションレート認識プロンプトジェネレーターをカスタマイズして、機能を動的に校正し、パフォーマンスをさらに高めます。
広範な実験は、5つの広く採用されているベンチマークデータセットの既存のSOTAメソッドに対するRDNETの優位性を示しています。
RDNETは、忠実度と知覚的比較の両方で、Wild ChallengeでNTIRE 2025単一画像反射除去で最高のパフォーマンスを達成します。
私たちのコードは、https://github.com/lime-j/rdnetで入手できます

要約(オリジナル)

Recent deep-learning-based approaches to single-image reflection removal have shown promising advances, primarily for two reasons: 1) the utilization of recognition-pretrained features as inputs, and 2) the design of dual-stream interaction networks. However, according to the Information Bottleneck principle, high-level semantic clues tend to be compressed or discarded during layer-by-layer propagation. Additionally, interactions in dual-stream networks follow a fixed pattern across different layers, limiting overall performance. To address these limitations, we propose a novel architecture called Reversible Decoupling Network (RDNet), which employs a reversible encoder to secure valuable information while flexibly decoupling transmission- and reflection-relevant features during the forward pass. Furthermore, we customize a transmission-rate-aware prompt generator to dynamically calibrate features, further boosting performance. Extensive experiments demonstrate the superiority of RDNet over existing SOTA methods on five widely-adopted benchmark datasets. RDNet achieves the best performance in the NTIRE 2025 Single Image Reflection Removal in the Wild Challenge in both fidelity and perceptual comparison. Our code is available at https://github.com/lime-j/RDNet

arxiv情報

著者 Hao Zhao,Mingjia Li,Qiming Hu,Xiaojie Guo
発行日 2025-03-31 16:19:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Reversible Decoupling Network for Single Image Reflection Removal はコメントを受け付けていません

Style Quantization for Data-Efficient GAN Training

要約

限られたデータ設定では、GANSはしばしば入力潜在スペースをナビゲートし、効果的に活用するのに苦労します。
その結果、スパース入力潜在空間で隣接する変数から生成された画像は、リアリズムに有意な矛盾を示す可能性があり、最適ではない一貫性の正規化(CR)の結果につながります。
これに対処するために、スタイル空間量子化スキームを導入することでCRを強化する新しいアプローチである\ textit {sq-Gan}を提案します。
この方法は、スパースで連続的な入力潜在スペースをコンパクトな構造化された離散プロキシ空間に変換し、各要素が特定の実際のデータポイントに対応し、CRパフォーマンスを向上させることができます。
直接的な量子化の代わりに、最初に入力潜在変数をあまり絡み合っていない「スタイル」空間にマッピングし、学習可能なコードブックを使用して量子化を適用します。
これにより、各量子化されたコードが変動の異なる要因を制御できます。
さらに、最適な輸送距離を最適化して、基礎モデルによってトレーニングデータから抽出された機能とコードブックコードを調整し、外部知識をコードブックに埋め込み、トレーニングデータセットを適切に説明する意味的に豊富な語彙を確立します。
広範な実験は、私たちの方法で、判別器の堅牢性と生成品質の両方の大幅な改善を示しています。

要約(オリジナル)

Under limited data setting, GANs often struggle to navigate and effectively exploit the input latent space. Consequently, images generated from adjacent variables in a sparse input latent space may exhibit significant discrepancies in realism, leading to suboptimal consistency regularization (CR) outcomes. To address this, we propose \textit{SQ-GAN}, a novel approach that enhances CR by introducing a style space quantization scheme. This method transforms the sparse, continuous input latent space into a compact, structured discrete proxy space, allowing each element to correspond to a specific real data point, thereby improving CR performance. Instead of direct quantization, we first map the input latent variables into a less entangled “style” space and apply quantization using a learnable codebook. This enables each quantized code to control distinct factors of variation. Additionally, we optimize the optimal transport distance to align the codebook codes with features extracted from the training data by a foundation model, embedding external knowledge into the codebook and establishing a semantically rich vocabulary that properly describes the training dataset. Extensive experiments demonstrate significant improvements in both discriminator robustness and generation quality with our method.

arxiv情報

著者 Jian Wang,Xin Lan,Jizhe Zhou,Yuxin Tian,Jiancheng Lv
発行日 2025-03-31 16:28:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Style Quantization for Data-Efficient GAN Training はコメントを受け付けていません

A Double Deep Learning-based Solution for Efficient Event Data Coding and Classification

要約

イベントカメラには、「イベント」と呼ばれる非同期の輝度変化をキャプチャする機能があり、コンピュータービジョンアプリケーション向けの従来のフレームベースのカメラよりも利点を提供します。
イベントのかなりの量を考えると、イベントデータを効率的にコーディングすることは、伝送とストレージに重要です。
このペーパーでは、イベントのポイントクラウドベースの表現を使用して、イベントデータのコーディングと分類の両方について、新しい二重ディープ学習ベースのアーキテクチャを提案します。
これに関連して、イベントからポイントクラウドへの変換は、提案されたソリューションの重要なステップであるため、その影響は圧縮と分類パフォーマンスの観点から評価されます。
実験結果は、明確なレート削減を伴う最近の学習ベースのJPEGプレノポイントクラウドコーディング標準、特に最近の学習ベースのJPEGプレノポイントクラウドコーディング標準を適用した後でも、元のイベントの1つに似た圧縮イベントの分類パフォーマンスを達成できることを示しています。
また、実験結果は、JPEG PCCを使用してコード化されたイベントが、従来の損失のあるMPEGジオメトリベースのポイントクラウドコーディング標準を使用してコード化されたパフォーマンスよりも優れた分類パフォーマンスを実現することを示しています。
さらに、学習ベースのコーディングの採用は、圧縮ドメインでコンピュータービジョンタスクを実行する可能性が高いため、コーディングアーティファクトの影響を軽減しながらデコード段階をスキップできるようになります。

要約(オリジナル)

Event cameras have the ability to capture asynchronous per-pixel brightness changes, called ‘events’, offering advantages over traditional frame-based cameras for computer vision applications. Efficiently coding event data is critical for transmission and storage, given the significant volume of events. This paper proposes a novel double deep learning-based architecture for both event data coding and classification, using a point cloud-based representation for events. In this context, the conversions from events to point clouds and back to events are key steps in the proposed solution, and therefore its impact is evaluated in terms of compression and classification performance. Experimental results show that it is possible to achieve a classification performance of compressed events which is similar to one of the original events, even after applying a lossy point cloud codec, notably the recent learning-based JPEG Pleno Point Cloud Coding standard, with a clear rate reduction. Experimental results also demonstrate that events coded using JPEG PCC achieve better classification performance than those coded using the conventional lossy MPEG Geometry-based Point Cloud Coding standard. Furthermore, the adoption of learning-based coding offers high potential for performing computer vision tasks in the compressed domain, which allows skipping the decoding stage while mitigating the impact of coding artifacts.

arxiv情報

著者 Abdelrahman Seleem,André F. R. Guarda,Nuno M. M. Rodrigues,Fernando Pereira
発行日 2025-03-31 16:41:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Double Deep Learning-based Solution for Efficient Event Data Coding and Classification はコメントを受け付けていません

Order Matters: On Parameter-Efficient Image-to-Video Probing for Recognizing Nearly Symmetric Actions

要約

私たちは、ほぼ対称的なアクションを認識するという承認されていない課題のパラメーター効率の高い画像からビデオへの調査 – 反対の時間的順序で展開する視覚的に類似したアクション(たとえば、ボトルの閉鎖と閉鎖など)。
DinoV2やClipなどの画像処理されたモデルの既存の調査メカニズムは、時間モデリングの注意メカニズムに依存していますが、本質的に順列不変であり、フレームの順序に関係なく同一の予測につながります。
これに対処するために、パラメーター効率の高い画像からビデオへの移動に時間感度を施行するために設計されたシンプルで効果的なアプローチである、自己触媒的時間埋め込みプロービング(STEP)を紹介します。
ステップは、3つの重要な修正を使用して、自己触媒プロービングを強化します。(1)学習可能なフレームごとの位置エンコーディング、一時的な順序を明示的にエンコードする。
(2)シーケンスコヒーレンスのための単一のグローバルCLSトークン。
(3)パラメーター効率を改善するための簡略化された注意メカニズム。
ステップは、学習可能なパラメーターの1/3のみで、4つのアクティビティ認識ベンチマークにわたって既存の画像からビデオへの調査メカニズムを3〜15%上回ります。
2つのデータセットでは、完全に微調整されたモデルを含む、公開されたすべての方法を上回ります。
ステップは、ほぼ対称的なアクションを認識し、他のプローブメカニズムを9〜19%上回ることにおける明確な利点を示しています。
パラメーター – ハビエPEFTベースの転送方法は5〜15%です。
コードとモデルは公開されます。

要約(オリジナル)

We study parameter-efficient image-to-video probing for the unaddressed challenge of recognizing nearly symmetric actions – visually similar actions that unfold in opposite temporal order (e.g., opening vs. closing a bottle). Existing probing mechanisms for image-pretrained models, such as DinoV2 and CLIP, rely on attention mechanism for temporal modeling but are inherently permutation-invariant, leading to identical predictions regardless of frame order. To address this, we introduce Self-attentive Temporal Embedding Probing (STEP), a simple yet effective approach designed to enforce temporal sensitivity in parameter-efficient image-to-video transfer. STEP enhances self-attentive probing with three key modifications: (1) a learnable frame-wise positional encoding, explicitly encoding temporal order; (2) a single global CLS token, for sequence coherence; and (3) a simplified attention mechanism to improve parameter efficiency. STEP outperforms existing image-to-video probing mechanisms by 3-15% across four activity recognition benchmarks with only 1/3 of the learnable parameters. On two datasets, it surpasses all published methods, including fully fine-tuned models. STEP shows a distinct advantage in recognizing nearly symmetric actions, surpassing other probing mechanisms by 9-19%. and parameter-heavier PEFT-based transfer methods by 5-15%. Code and models will be made publicly available.

arxiv情報

著者 Thinesh Thiyakesan Ponbagavathi,Alina Roitberg
発行日 2025-03-31 16:42:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Order Matters: On Parameter-Efficient Image-to-Video Probing for Recognizing Nearly Symmetric Actions はコメントを受け付けていません

Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image

要約

多くのロボット工学およびVR/ARアプリケーションでは、カメラの動きが高速なモーションブラーを引き起こし、既存のカメラポーズ推定方法を失敗させます。
この作業では、モーションのぼやけを、それを望ましくないアーティファクトとして扱うのではなく、モーション推定の豊富な手がかりとして活用する新しいフレームワークを提案します。
私たちのアプローチは、単一のモーションブルーされた画像から直接、密なモーションフローフィールドと単眼深度マップを予測することで機能します。
次に、小さな動きの仮定の下で線形最小二乗問題を解くことにより、瞬時カメラ速度を回復します。
本質的に、私たちの方法は、高速で攻撃的なカメラの動きを堅牢にキャプチャするIMUのような測定を生成します。
モデルをトレーニングするために、Scannet ++ V2から導出された現実的な合成モーションブルールを使用して大規模なデータセットを構築し、完全に微分可能なパイプラインを使用して実際のデータでエンドツーエンドをトレーニングすることにより、モデルをさらに改良します。
現実世界のベンチマークでの広範な評価は、この方法が最先端の角度および翻訳速度推定値を達成し、Mast3RやColMapなどの現在の方法を上回ることを示しています。

要約(オリジナル)

In many robotics and VR/AR applications, fast camera motions cause a high level of motion blur, causing existing camera pose estimation methods to fail. In this work, we propose a novel framework that leverages motion blur as a rich cue for motion estimation rather than treating it as an unwanted artifact. Our approach works by predicting a dense motion flow field and a monocular depth map directly from a single motion-blurred image. We then recover the instantaneous camera velocity by solving a linear least squares problem under the small motion assumption. In essence, our method produces an IMU-like measurement that robustly captures fast and aggressive camera movements. To train our model, we construct a large-scale dataset with realistic synthetic motion blur derived from ScanNet++v2 and further refine our model by training end-to-end on real data using our fully differentiable pipeline. Extensive evaluations on real-world benchmarks demonstrate that our method achieves state-of-the-art angular and translational velocity estimates, outperforming current methods like MASt3R and COLMAP.

arxiv情報

著者 Jerred Chen,Ronald Clark
発行日 2025-03-31 16:52:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image はコメントを受け付けていません

Point Tracking in Surgery–The 2024 Surgical Tattoos in Infrared (STIR) Challenge

要約

手術における組織の動きを理解することは、セグメンテーション、3D再構成、仮想組織ランドマーク、自律プローブベースのスキャン、サブタスクの自律性などの下流タスクでのアプリケーションを有効にするために重要です。
ラベル付きデータは、アルゴリズムを定量化してトレーニングできるため、これらの下流タスクでアルゴリズムを有効にするために不可欠です。
このペーパーでは、これに対処するためのポイントトラッキングチャレンジを紹介します。参加者は、定量化のためにアルゴリズムを提出できます。
提出されたアルゴリズムは、赤外線(Stir)の手術タトゥーという名前のデータセットを使用して評価されます。これは、Stir Challenge 2024と名付けられたチャレンジと呼ばれます。
精度コンポーネントは、in vivoおよびex vivoシーケンスのアルゴリズムの精度をテストします。
効率コンポーネントは、アルゴリズム推論の遅延をテストします。
この課題は、Miccai Endovis 2024の一部として実施されました。この課題では、合計8つのチームがあり、4つのチームが前に提出し、4つのチームがチャレンジデー後に提出しました。
このペーパーでは、Stir Challenge 2024について詳しく説明しています。これは、手術における空間的理解のために、より正確で効率的なアルゴリズムにフィールドを移動するのに役立ちます。
この論文では、デザイン、提出、および課題の結果をまとめたものです。
チャレンジデータセットはこちらから入手できます:https://zenodo.org/records/14803158、およびベースラインモデルとメトリック計算のコードはhttps://github.com/athaddius/stirmetrics

要約(オリジナル)

Understanding tissue motion in surgery is crucial to enable applications in downstream tasks such as segmentation, 3D reconstruction, virtual tissue landmarking, autonomous probe-based scanning, and subtask autonomy. Labeled data are essential to enabling algorithms in these downstream tasks since they allow us to quantify and train algorithms. This paper introduces a point tracking challenge to address this, wherein participants can submit their algorithms for quantification. The submitted algorithms are evaluated using a dataset named surgical tattoos in infrared (STIR), with the challenge aptly named the STIR Challenge 2024. The STIR Challenge 2024 comprises two quantitative components: accuracy and efficiency. The accuracy component tests the accuracy of algorithms on in vivo and ex vivo sequences. The efficiency component tests the latency of algorithm inference. The challenge was conducted as a part of MICCAI EndoVis 2024. In this challenge, we had 8 total teams, with 4 teams submitting before and 4 submitting after challenge day. This paper details the STIR Challenge 2024, which serves to move the field towards more accurate and efficient algorithms for spatial understanding in surgery. In this paper we summarize the design, submissions, and results from the challenge. The challenge dataset is available here: https://zenodo.org/records/14803158 , and the code for baseline models and metric calculation is available here: https://github.com/athaddius/STIRMetrics

arxiv情報

著者 Adam Schmidt,Mert Asim Karaoglu,Soham Sinha,Mingang Jang,Ho-Gun Ha,Kyungmin Jung,Kyeongmo Gu,Ihsan Ullah,Hyunki Lee,Jonáš Šerých,Michal Neoral,Jiří Matas,Rulin Zhou,Wenlong He,An Wang,Hongliang Ren,Bruno Silva,Sandro Queirós,Estêvão Lima,João L. Vilaça,Shunsuke Kikuchi,Atsushi Kouno,Hiroki Matsuzaki,Tongtong Li,Yulu Chen,Ling Li,Xiang Ma,Xiaojian Li,Mona Sheikh Zeinoddin,Xu Wang,Zafer Tandogdu,Greg Shaw,Evangelos Mazomenos,Danail Stoyanov,Yuxin Chen,Zijian Wu,Alexander Ladikos,Simon DiMaio,Septimiu E. Salcudean,Omid Mohareri
発行日 2025-03-31 16:53:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Point Tracking in Surgery–The 2024 Surgical Tattoos in Infrared (STIR) Challenge はコメントを受け付けていません