Pursuing Temporal-Consistent Video Virtual Try-On via Dynamic Pose Interaction

要約

ビデオバーチャルトライオンは、特定の衣服を備えたビデオで主題をシームレスにドレスアップすることを目指しています。
主な課題は、被験者のポーズと体格に動的に適応しながら、衣服の視覚的な真正性を維持することです。
既存の方法は主に画像ベースの仮想トライオンに焦点を合わせていますが、これらの手法を直接ビデオに拡張すると、しばしば時間的な矛盾が生じます。
現在のほとんどのビデオ仮想トライオンアプローチは、時間モジュールを組み込むことによりこの課題を軽減しますが、それでも人間と衣服の間の重要な時空のポーズ相互作用を見落としています。
ビデオでの効果的なポーズ相互作用は、各フレームの人間と衣服のポーズの間の空間的アライメントを考慮するだけでなく、ビデオ全体の人間のポーズの時間的ダイナミクスを説明する必要があります。
このような動機により、新しいフレームワーク、すなわち動的なポーズインタラクション拡散モデル(DPIDM)を提案し、拡散モデルを活用してビデオ仮想トライオンの動的なポーズ相互作用を掘り下げます。
技術的には、DPIDMはスケルトンベースのポーズアダプターを導入して、同期された人間と衣服のポーズを除去ネットワークに統合します。
階層的な注意モジュールは、ポーズ認識の空間的および時間的注意メカニズムを介して、フレーム間のフレーミング内のヒューマンガーメントポーズの相互作用と長期のヒトポーズダイナミクスをモデル化するように非常に設計されています。
さらに、DPIDMは、連続したフレーム間の時間的な正規化された注意損失を活用して、時間的一貫性を高めます。
Viton-HD、VVT、およびVividデータセットで実施された広範な実験は、ベースラインメソッドに対するDPIDMの優位性を示しています。
特に、DPIDMはVVTデータセットで0.506のVFIDスコアを達成し、最先端のGPD-VVTOアプローチで60.5%の改善をもたらしました。

要約(オリジナル)

Video virtual try-on aims to seamlessly dress a subject in a video with a specific garment. The primary challenge involves preserving the visual authenticity of the garment while dynamically adapting to the pose and physique of the subject. While existing methods have predominantly focused on image-based virtual try-on, extending these techniques directly to videos often results in temporal inconsistencies. Most current video virtual try-on approaches alleviate this challenge by incorporating temporal modules, yet still overlook the critical spatiotemporal pose interactions between human and garment. Effective pose interactions in videos should not only consider spatial alignment between human and garment poses in each frame but also account for the temporal dynamics of human poses throughout the entire video. With such motivation, we propose a new framework, namely Dynamic Pose Interaction Diffusion Models (DPIDM), to leverage diffusion models to delve into dynamic pose interactions for video virtual try-on. Technically, DPIDM introduces a skeleton-based pose adapter to integrate synchronized human and garment poses into the denoising network. A hierarchical attention module is then exquisitely designed to model intra-frame human-garment pose interactions and long-term human pose dynamics across frames through pose-aware spatial and temporal attention mechanisms. Moreover, DPIDM capitalizes on a temporal regularized attention loss between consecutive frames to enhance temporal consistency. Extensive experiments conducted on VITON-HD, VVT and ViViD datasets demonstrate the superiority of our DPIDM against the baseline methods. Notably, DPIDM achieves VFID score of 0.506 on VVT dataset, leading to 60.5% improvement over the state-of-the-art GPD-VVTO approach.

arxiv情報

著者 Dong Li,Wenqi Zhong,Wei Yu,Yingwei Pan,Dingwen Zhang,Ting Yao,Junwei Han,Tao Mei
発行日 2025-05-22 17:52:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | Pursuing Temporal-Consistent Video Virtual Try-On via Dynamic Pose Interaction はコメントを受け付けていません

Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation

要約

分散除外(OOD)検出とセグメンテーションは、自律運転やロボット支援手術などの安全性の高いアプリケーションに機械学習モデルを展開するために重要です。
以前の研究は主に単峰性の画像データに焦点を当てていますが、実際のアプリケーションは本質的にマルチモーダルであり、OOD検出の改善のために複数のモダリティを統合する必要があります。
重要な課題は、未知のデータからの監督信号の欠如であり、OODサンプルの自信過剰予測につながることです。
この課題に対処するために、特徴のミキシングを提案します。これは、理論的サポートを備えたマルチモーダルの外れ値合成の非常にシンプルで高速な方法です。これは、モデルが分散貢献(ID)とOODデータをよりよく区別できるようにさらに最適化できます。
特徴のミキシングはモダリティに依存しており、さまざまなモダリティの組み合わせに適用できます。
さらに、さまざまなシーンや気象条件にわたる合成OODオブジェクトを備えたOODセグメンテーション用の新しいマルチモーダルデータセットであるCarla-Ooodを紹介します。
Semantickitti、Nuscenes、Carla-Ooodデータセット、およびマルチウードベンチマークに関する広範な実験は、機能ミキシングが$ 10 \ Times $から370 \ Times $ speedupで最先端のパフォーマンスを達成することを示しています。
ソースコードとデータセットは、https://github.com/mona4399/featuremixingで入手できます。

要約(オリジナル)

Out-of-distribution (OOD) detection and segmentation are crucial for deploying machine learning models in safety-critical applications such as autonomous driving and robot-assisted surgery. While prior research has primarily focused on unimodal image data, real-world applications are inherently multimodal, requiring the integration of multiple modalities for improved OOD detection. A key challenge is the lack of supervision signals from unknown data, leading to overconfident predictions on OOD samples. To address this challenge, we propose Feature Mixing, an extremely simple and fast method for multimodal outlier synthesis with theoretical support, which can be further optimized to help the model better distinguish between in-distribution (ID) and OOD data. Feature Mixing is modality-agnostic and applicable to various modality combinations. Additionally, we introduce CARLA-OOD, a novel multimodal dataset for OOD segmentation, featuring synthetic OOD objects across diverse scenes and weather conditions. Extensive experiments on SemanticKITTI, nuScenes, CARLA-OOD datasets, and the MultiOOD benchmark demonstrate that Feature Mixing achieves state-of-the-art performance with a $10 \times$ to $370 \times$ speedup. Our source code and dataset will be available at https://github.com/mona4399/FeatureMixing.

arxiv情報

著者 Moru Liu,Hao Dong,Jessica Kelly,Olga Fink,Mario Trapp
発行日 2025-05-22 17:54:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation はコメントを受け付けていません

Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding

要約

この作業では、最初の離散拡散マルチモーダル大手言語モデル(DMLLM)であるディンプルを提案します。
純粋に個別の拡散アプローチを備えたトレーニングは、重要なトレーニング不安定性、最適ではないパフォーマンス、重度の長さのバイアスの問題につながることを観察します。
これらの課題に対処するために、初期の自己回帰相とその後の拡散フェーズを組み合わせた新しいトレーニングパラダイムを設計します。
このアプローチは、同じデータセットでトレーニングされ、Llava-Nextと同様のトレーニングパイプラインを使用して、Dimple-7Bモデルを生成します。
Dimple-7Bは最終的にパフォーマンスのLlava-Nextを3.9%上回り、DMLLMが自己回帰モデルのパフォーマンスに匹敵するパフォーマンスを達成できることを示しています。
推論効率を改善するために、自信のあるデコードと呼ばれるデコード戦略を提案します。これは、各ステップで生成されるトークンの数を動的に調整し、生成の反復回数を大幅に削減します。
自己回帰モデルでは、生成中の前方反復の数は応答長に等しくなります。
ただし、自信に満ちたデコードでは、ディンプルが必要とする反復の数は、$ \ frac {\ text {response length}} {3} $のみです。
また、自己回帰モデルのプリファリング手法を再実装し、1.5倍から7倍のスピードアップを提供しながら、ほとんどのベンチマーク評価でパフォーマンスに大きな影響を与えないことを示しています。
さらに、Dimpleの能力を調査して、構造プライアーを使用して応答を正確に制御します。
これらのプライアーは、命令ベースまたは考え方のプロンプトとは異なる方法で構造化された応答を可能にし、応答形式と長さを細かく制御できるようにします。
全体として、この作業はDMLLMの実現可能性と利点を検証し、その推論効率と制御可能性を高めます。
コードとモデルはhttps://github.com/yu-rp/dimpleで入手できます。

要約(オリジナル)

In this work, we propose Dimple, the first Discrete Diffusion Multimodal Large Language Model (DMLLM). We observe that training with a purely discrete diffusion approach leads to significant training instability, suboptimal performance, and severe length bias issues. To address these challenges, we design a novel training paradigm that combines an initial autoregressive phase with a subsequent diffusion phase. This approach yields the Dimple-7B model, trained on the same dataset and using a similar training pipeline as LLaVA-NEXT. Dimple-7B ultimately surpasses LLaVA-NEXT in performance by 3.9%, demonstrating that DMLLM can achieve performance comparable to that of autoregressive models. To improve inference efficiency, we propose a decoding strategy termed confident decoding, which dynamically adjusts the number of tokens generated at each step, significantly reducing the number of generation iterations. In autoregressive models, the number of forward iterations during generation equals the response length. With confident decoding, however, the number of iterations needed by Dimple is even only $\frac{\text{response length}}{3}$. We also re-implement the prefilling technique in autoregressive models and demonstrate that it does not significantly impact performance on most benchmark evaluations, while offering a speedup of 1.5x to 7x. Additionally, we explore Dimple’s capability to precisely control its response using structure priors. These priors enable structured responses in a manner distinct from instruction-based or chain-of-thought prompting, and allow fine-grained control over response format and length, which is difficult to achieve in autoregressive models. Overall, this work validates the feasibility and advantages of DMLLM and enhances its inference efficiency and controllability. Code and models are available at https://github.com/yu-rp/Dimple.

arxiv情報

著者 Runpeng Yu,Xinyin Ma,Xinchao Wang
発行日 2025-05-22 17:55:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding はコメントを受け付けていません

An Effective Training Framework for Light-Weight Automatic Speech Recognition Models

要約

深い学習における最近の進歩により、計算およびメモリの制約を無視しながら有望な結果を達成する大規模な自動音声認識(ASR)モデルの開発が促進されました。
ただし、このようなモデルを低リソースデバイスに展開することは、好ましいパフォーマンスにもかかわらず実用的ではありません。
既存のアプローチ(剪定、蒸留、レイヤースキップなど)は、パフォーマンスの大幅な劣化を犠牲にして大きなモデルを小さなモデルに変換するか、より良いパフォーマンスのために小さなモデルの長期トレーニングを必要とします。
これらの問題に対処するために、限られた数のエポックでかなり良いパフォーマンスを確保するために、単一の大規模モデルからいくつかの小さなサイズのモデルを生成できる効果的な2段階表現学習ベースのアプローチを導入します。
ASRベンチマークでの包括的な実験は、私たちのアプローチの有効性を明らかにし、3倍のトレーニングスピードアップと最大12.54%のワードエラー率の改善を達成します。

要約(オリジナル)

Recent advancement in deep learning encouraged developing large automatic speech recognition (ASR) models that achieve promising results while ignoring computational and memory constraints. However, deploying such models on low resource devices is impractical despite of their favorable performance. Existing approaches (pruning, distillation, layer skip etc.) transform the large models into smaller ones at the cost of significant performance degradation or require prolonged training of smaller models for better performance. To address these issues, we introduce an efficacious two-step representation learning based approach capable of producing several small sized models from a single large model ensuring considerably better performance in limited number of epochs. Comprehensive experimentation on ASR benchmarks reveals the efficacy of our approach, achieving three-fold training speed-up and up to 12.54% word error rate improvement.

arxiv情報

著者 Abdul Hannan,Alessio Brutti,Shah Nawaz,Mubashir Noman
発行日 2025-05-22 17:55:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | An Effective Training Framework for Light-Weight Automatic Speech Recognition Models はコメントを受け付けていません

Native Segmentation Vision Transformers

要約

均一なダウンサンプリングは、視覚バックボーンの空間分解能を減らすための事実上の基準のままです。
この作業では、画像境界とそのセマンティックコンテンツに基づいてトークンを縮小セットに動的に割り当てるコンテンツに認識された空間グループ化レイヤーを中心に構築された代替デザインを提案します。
連続したバックボーン段階にわたってグループ化層を積み重ねると、特徴抽出プロセスでネイティブに発生する階層セグメンテーションが発生し、生成されたネイティブセグメンテーションビジョントランスが生じます。
アーキテクチャの慎重な設計により、グループ化層のみ、つまり追加のセグメンテーション固有のヘッドがないことからの強力なセグメンテーションマスクの出現が可能になることを示しています。
これにより、ネイティブのバックボーンレベルのセグメンテーションの新しいパラダイムの基礎が設定され、マスクの監督なしで強力なゼロショット結果と、下流のセグメンテーションタスクの最小限で効率的なスタンドアロンモデル設計を可能にします。
プロジェクトページはhttps://research.nvidia.com/labs/dvl/projects/native-segmentationです。

要約(オリジナル)

Uniform downsampling remains the de facto standard for reducing spatial resolution in vision backbones. In this work, we propose an alternative design built around a content-aware spatial grouping layer, that dynamically assigns tokens to a reduced set based on image boundaries and their semantic content. Stacking our grouping layer across consecutive backbone stages results in hierarchical segmentation that arises natively in the feature extraction process, resulting in our coined Native Segmentation Vision Transformer. We show that a careful design of our architecture enables the emergence of strong segmentation masks solely from grouping layers, that is, without additional segmentation-specific heads. This sets the foundation for a new paradigm of native, backbone-level segmentation, which enables strong zero-shot results without mask supervision, as well as a minimal and efficient standalone model design for downstream segmentation tasks. Our project page is https://research.nvidia.com/labs/dvl/projects/native-segmentation.

arxiv情報

著者 Guillem Brasó,Aljoša Ošep,Laura Leal-Taixé
発行日 2025-05-22 17:55:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Native Segmentation Vision Transformers はコメントを受け付けていません

Seeing through Satellite Images at Street Views

要約

このペーパーでは、衛星画像と指定されたカメラの位置または軌道を指定したフォトリアリスティックなストリートビューのパノラマ画像とビデオをレンダリングすることを目的とした、Satstreet-View Synthesisのタスクを研究します。
衛星と通りの視点からキャプチャされたペアの画像から神経放射輝度フィールドを学習するように策定します。これは、衛星画像とストリートビュー画像の間のまばらなビューと非常に大きな視点が変化するため、挑戦的な学習問題となるようになります。
空や照明効果を含むストリートビューの固有の要素がストリートビューパノラマでのみ見えるというタスク固有の観察に基づいて課題に取り組み、neural Networksでこれらのストリートビュー視点をモデル化することにより、写真リアルなストリートビューパノラマの目標を達成するために、新しいアプローチsat2denity ++を提示します。
実験では、私たちの方法は、都市部と郊外のシーンデータセットの両方で証言されており、SAT2denity ++は、複数のビューで一貫して衛星画像に忠実なフォトリアリスティックストリートビューパノラマをレンダリングできることを示しています。

要約(オリジナル)

This paper studies the task of SatStreet-view synthesis, which aims to render photorealistic street-view panorama images and videos given any satellite image and specified camera positions or trajectories. We formulate to learn neural radiance field from paired images captured from satellite and street viewpoints, which comes to be a challenging learning problem due to the sparse-view natural and the extremely-large viewpoint changes between satellite and street-view images. We tackle the challenges based on a task-specific observation that street-view specific elements, including the sky and illumination effects are only visible in street-view panoramas, and present a novel approach Sat2Density++ to accomplish the goal of photo-realistic street-view panoramas rendering by modeling these street-view specific in neural networks. In the experiments, our method is testified on both urban and suburban scene datasets, demonstrating that Sat2Density++ is capable of rendering photorealistic street-view panoramas that are consistent across multiple views and faithful to the satellite image.

arxiv情報

著者 Ming Qian,Bin Tan,Qiuyu Wang,Xianwei Zheng,Hanjiang Xiong,Gui-Song Xia,Yujun Shen,Nan Xue
発行日 2025-05-22 17:57:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Seeing through Satellite Images at Street Views はコメントを受け付けていません

PAEFF: Precise Alignment and Enhanced Gated Feature Fusion for Face-Voice Association

要約

私たちは、最近マルチモーダルコミュニティに関心を集めている顔と声の間の学習関連のタスクを研究しています。
これらの方法は、マイナスマイニング手順の意図的なクラフトと、遠いマージンパラメーターへの依存に悩まされています。
これらの問題は、直交の制約が顔と声の融合埋め込みに適用される共同埋め込みスペースを学習することによって対処されます。
ただし、顔と声のスペースを埋め込むには、さまざまな特性があり、融合する前にスペースを調整する必要があります。
この目的のために、埋め込みスペースを正確に整列させ、それらを強化されたゲート融合と融合させる方法を提案し、それにより、顔と声の関連性のパフォーマンスを改善します。
VoxceleBデータセットでの広範な実験は、提案されたアプローチのメリットを明らかにしています。

要約(オリジナル)

We study the task of learning association between faces and voices, which is gaining interest in the multimodal community lately. These methods suffer from the deliberate crafting of negative mining procedures as well as the reliance on the distant margin parameter. These issues are addressed by learning a joint embedding space in which orthogonality constraints are applied to the fused embeddings of faces and voices. However, embedding spaces of faces and voices possess different characteristics and require spaces to be aligned before fusing them. To this end, we propose a method that accurately aligns the embedding spaces and fuses them with an enhanced gated fusion thereby improving the performance of face-voice association. Extensive experiments on the VoxCeleb dataset reveals the merits of the proposed approach.

arxiv情報

著者 Abdul Hannan,Muhammad Arslan Manzoor,Shah Nawaz,Muhammad Irzam Liaqat,Markus Schedl,Mubashir Noman
発行日 2025-05-22 17:57:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | PAEFF: Precise Alignment and Enhanced Gated Feature Fusion for Face-Voice Association はコメントを受け付けていません

CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning

要約

インターネットビデオからの潜在的な動きを学ぶことは、ジェネラリストのロボットを構築するために重要です。
ただし、既存の個別の潜在アクション方法は、情報の損失に悩まされ、複雑で微調整されたダイナミクスとの闘いに悩まされています。
私たちは、多様なインターネットスケールのビデオからより有益な連続運動表現を学ぶことを目的としたCOMOを提案します。
COMOは、モデルの崩壊を防ぎ、静的な外観ノイズを抑制し、効果的にショートカット学習の問題を抑制し、初期の時間的特徴の違いメカニズムを採用しています。
さらに、情報ボトルネックの原則に導かれ、潜在的な動きを埋め込む次元を埋め込み、十分なアクション関連情報を保持することと、アクション傍観的な外観ノイズの包含を最小限に抑えることとのバランスを確保します。
さらに、動きをより堅牢かつ手頃な価格で評価し、動き学習方法のガイドを導くための2つの新しいメトリックも紹介します。
重大なことに、COMOは強力なゼロショットの一般化を示し、以前に見えなかったビデオドメインの連続的な擬似アクションを生成できるようにします。
この機能は、限られたロボットデータで潜在的に増強される可能性のある、さまざまなアクションレスビデオデータセット(特に人間のデモビデオなど)から派生した擬似アクションを使用して、統一されたポリシー共同学習を促進します。
広範な実験では、コモの擬似アクションと共同訓練されたポリシーが、シミュレートされた現実世界の設定における拡散アーキテクチャと自己回帰アーキテクチャの両方で優れた性能を達成することが示されています。

要約(オリジナル)

Learning latent motion from Internet videos is crucial for building generalist robots. However, existing discrete latent action methods suffer from information loss and struggle with complex and fine-grained dynamics. We propose CoMo, which aims to learn more informative continuous motion representations from diverse, internet-scale videos. CoMo employs a early temporal feature difference mechanism to prevent model collapse and suppress static appearance noise, effectively discouraging shortcut learning problem. Furthermore, guided by the information bottleneck principle, we constrain the latent motion embedding dimensionality to achieve a better balance between retaining sufficient action-relevant information and minimizing the inclusion of action-irrelevant appearance noise. Additionally, we also introduce two new metrics for more robustly and affordably evaluating motion and guiding motion learning methods development: (i) the linear probing MSE of action prediction, and (ii) the cosine similarity between past-to-current and future-to-current motion embeddings. Critically, CoMo exhibits strong zero-shot generalization, enabling it to generate continuous pseudo actions for previously unseen video domains. This capability facilitates unified policy joint learning using pseudo actions derived from various action-less video datasets (such as cross-embodiment videos and, notably, human demonstration videos), potentially augmented with limited labeled robot data. Extensive experiments show that policies co-trained with CoMo pseudo actions achieve superior performance with both diffusion and autoregressive architectures in simulated and real-world settings.

arxiv情報

著者 Jiange Yang,Yansong Shi,Haoyi Zhu,Mingyu Liu,Kaijing Ma,Yating Wang,Gangshan Wu,Tong He,Limin Wang
発行日 2025-05-22 17:58:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning はコメントを受け付けていません

Deep mineralogical segmentation of thin section images based on QEMSCAN maps

要約

岩の薄切片の鉱物学的側面を解釈することは、石油とガスの貯水池の評価にとって重要な作業です。
しかし、人間の分析は主観的で面倒な傾向があります。
QEMSCAN(R)などのテクノロジーは、鉱物学的マッピングプロセスを自動化するように設計されていますが、高い金銭的コストや時間のかかる分析などの制限にも悩まされています。
この作業は、炭酸塩岩の薄切片画像の自動鉱物学的セグメンテーションのための畳み込みニューラルネットワークモデルを提案しています。
このモデルは、低コストで一般化された効率的な方法でQEMSCAN自体を模倣することができます。
このため、U-NETセマンティックセグメンテーションアーキテクチャは、対応するQEMSCANマップをターゲットとして使用して、飛行機および交差偏光の薄いセクション画像でトレーニングされます。これは、広く調査されていないアプローチです。
このモデルは、方解石、ドロマイト、Mg粘土鉱物、石英、毛穴、および残りの鉱物相の発生を「その他」という名前のユニークなクラスとして区別するように指示されましたが、その一般化能力に対処するために、トレーニング中に見られた岩石と目に見えない両方で検証されました。
画像とマップはさまざまな解像度で提供されているため、画像登録が適用され、空間的に並べられました。
この研究では、セグメンテーションの品質は、これらの解像度の違いと、学習可能な岩のテクスチャの多様性に大きく依存していることが明らかになりました。
ただし、特に、固体テクスチャ上の鉱物境界の適切な描写と鉱物分布の正確な推定に関して、有望な結果を示しており、予想される分布と予測分布のほぼ線形関係を記述し、測定係数(R^2)は見られた相の0.97、Uneenで0.88に優れています。

要約(オリジナル)

Interpreting the mineralogical aspects of rock thin sections is an important task for oil and gas reservoirs evaluation. However, human analysis tend to be subjective and laborious. Technologies like QEMSCAN(R) are designed to automate the mineralogical mapping process, but also suffer from limitations like high monetary costs and time-consuming analysis. This work proposes a Convolutional Neural Network model for automatic mineralogical segmentation of thin section images of carbonate rocks. The model is able to mimic the QEMSCAN mapping itself in a low-cost, generalized and efficient manner. For this, the U-Net semantic segmentation architecture is trained on plane and cross polarized thin section images using the corresponding QEMSCAN maps as target, which is an approach not widely explored. The model was instructed to differentiate occurrences of Calcite, Dolomite, Mg-Clay Minerals, Quartz, Pores and the remaining mineral phases as an unique class named ‘Others’, while it was validated on rock facies both seen and unseen during training, in order to address its generalization capability. Since the images and maps are provided in different resolutions, image registration was applied to align then spatially. The study reveals that the quality of the segmentation is very much dependent on these resolution differences and on the variety of learnable rock textures. However, it shows promising results, especially with regard to the proper delineation of minerals boundaries on solid textures and precise estimation of the minerals distributions, describing a nearly linear relationship between expected and predicted distributions, with coefficient of determination (R^2) superior to 0.97 for seen facies and 0.88 for unseen.

arxiv情報

著者 Jean Pablo Vieira de Mello,Matheus Augusto Alves Cuglieri,Leandro P. de Figueiredo,Fernando Bordignon,Marcelo Ramalho Albuquerque,Rodrigo Surmas,Bruno Cavalcanti de Paula
発行日 2025-05-22 17:58:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Deep mineralogical segmentation of thin section images based on QEMSCAN maps はコメントを受け付けていません

Learning Adaptive and Temporally Causal Video Tokenization in a 1D Latent Space

要約

ビデオコンテンツに基づいてさまざまなフレームにトークンを柔軟に割り当てることができる適応的な時間的因果ビデオトークンザーであるAdaptokを提案します。
Adaptokには、トレーニング中に各ブロックのテールトークンをランダムにドロップするブロックのマスキング戦略と、さまざまな数のトークンを使用してビデオフレームの再構成品質を予測するブロック因果スコアラーが装備されています。
推論中、整数線形プログラミングに基づく適応トークン割り当て戦略がさらに提案され、予測されたスコアを与えられたトークンの使用を調整します。
このようなデザインは、制御可能な全体的な予算の下でのサンプルごと、コンテンツを認識し、一時的に動的なトークン割り当てを可能にします。
UCF-101およびQuinetics-600でのビデオ再構成と生成のための広範な実験は、私たちのアプローチの有効性を示しています。
追加の画像データがなければ、Adaptokはさまざまなトークン予算の下で再構成の品質と生成のパフォーマンスを一貫して改善し、よりスケーラブルでトークン効率の高い生成ビデオモデリングを可能にします。

要約(オリジナル)

We propose AdapTok, an adaptive temporal causal video tokenizer that can flexibly allocate tokens for different frames based on video content. AdapTok is equipped with a block-wise masking strategy that randomly drops tail tokens of each block during training, and a block causal scorer to predict the reconstruction quality of video frames using different numbers of tokens. During inference, an adaptive token allocation strategy based on integer linear programming is further proposed to adjust token usage given predicted scores. Such design allows for sample-wise, content-aware, and temporally dynamic token allocation under a controllable overall budget. Extensive experiments for video reconstruction and generation on UCF-101 and Kinetics-600 demonstrate the effectiveness of our approach. Without additional image data, AdapTok consistently improves reconstruction quality and generation performance under different token budgets, allowing for more scalable and token-efficient generative video modeling.

arxiv情報

著者 Yan Li,Changyao Tian,Renqiu Xia,Ning Liao,Weiwei Guo,Junchi Yan,Hongsheng Li,Jifeng Dai,Hao Li,Xue Yang
発行日 2025-05-22 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Learning Adaptive and Temporally Causal Video Tokenization in a 1D Latent Space はコメントを受け付けていません