UniAnimate-DiT: Human Image Animation with Large-Scale Video Diffusion Transformer

要約

このレポートでは、一貫した人間のイメージアニメーションのためのオープンソースWAN2.1モデルの最先端で強力な機能を活用する高度なプロジェクトであるUnianimate-Ditを提示します。
具体的には、元のWAN2.1モデルの堅牢な生成機能を保存するために、最小限のパラメーターセットを微調整してトレーニングメモリオーバーヘッドを大幅に削減するために、低ランク適応(LORA)手法を実装します。
複数の積み重ねられた3D畳み込み層で構成される軽量のポーズエンコーダーは、運転ポーズのモーション情報をエンコードするように設計されています。
さらに、簡単な連結操作を採用して、参照の外観をモデルに統合し、参照画像のポーズ情報を組み込み、ポーズアライメントを強化します。
実験結果は、私たちのアプローチが視覚的に表示され、一時的に一貫した高忠実度アニメーションを達成することを示しています。
480p(832×480)のビデオでトレーニングされたUnianimate-ditは、推論中に720p(1280×720)にシームレスにアップスケールする強力な一般化能力を示しています。
トレーニングおよび推論コードは、https://github.com/ali-vilab/unianimate-ditで公開されています。

要約(オリジナル)

This report presents UniAnimate-DiT, an advanced project that leverages the cutting-edge and powerful capabilities of the open-source Wan2.1 model for consistent human image animation. Specifically, to preserve the robust generative capabilities of the original Wan2.1 model, we implement Low-Rank Adaptation (LoRA) technique to fine-tune a minimal set of parameters, significantly reducing training memory overhead. A lightweight pose encoder consisting of multiple stacked 3D convolutional layers is designed to encode motion information of driving poses. Furthermore, we adopt a simple concatenation operation to integrate the reference appearance into the model and incorporate the pose information of the reference image for enhanced pose alignment. Experimental results show that our approach achieves visually appearing and temporally consistent high-fidelity animations. Trained on 480p (832×480) videos, UniAnimate-DiT demonstrates strong generalization capabilities to seamlessly upscale to 720P (1280×720) during inference. The training and inference code is publicly available at https://github.com/ali-vilab/UniAnimate-DiT.

arxiv情報

著者 Xiang Wang,Shiwei Zhang,Longxiang Tang,Yingya Zhang,Changxin Gao,Yuehuan Wang,Nong Sang
発行日 2025-04-15 15:29:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | UniAnimate-DiT: Human Image Animation with Large-Scale Video Diffusion Transformer はコメントを受け付けていません

GarmentTracking: Category-Level Garment Pose Tracking

要約

衣服は人間にとって重要です。
完全な衣服のポーズを推定および追跡できる視覚システムは、多くのダウンストリームタスクや現実世界のアプリケーションに役立ちます。
この作業では、カテゴリレベルの衣服のポーズ追跡タスクに対処するための完全なパッケージを提示します。
(2)大規模なデータセットVR折りたたみ。複雑な衣服は、平坦化や折りたたみなどの操作の構成をもたらします。
(3)ポイントクラウドシーケンスを考慮して、標準空間とタスクスペースの両方で完全な衣服がポーズをとることを予測するエンドツーエンドのオンライン追跡フレームワークの衣料品トラッキング。
広範な実験は、提案された衣服トラッキングが、衣服に大きな非剛性変形がある場合でも素晴らしいパフォーマンスを達成することを示しています。
速度と精度の両方でベースラインアプローチを上回ります。
提案されたソリューションが将来の研究のプラットフォームとして機能することを願っています。
コードとデータセットはhttps://garment-tracking.robotflow.aiで入手できます。

要約(オリジナル)

Garments are important to humans. A visual system that can estimate and track the complete garment pose can be useful for many downstream tasks and real-world applications. In this work, we present a complete package to address the category-level garment pose tracking task: (1) A recording system VR-Garment, with which users can manipulate virtual garment models in simulation through a VR interface. (2) A large-scale dataset VR-Folding, with complex garment pose configurations in manipulation like flattening and folding. (3) An end-to-end online tracking framework GarmentTracking, which predicts complete garment pose both in canonical space and task space given a point cloud sequence. Extensive experiments demonstrate that the proposed GarmentTracking achieves great performance even when the garment has large non-rigid deformation. It outperforms the baseline approach on both speed and accuracy. We hope our proposed solution can serve as a platform for future research. Codes and datasets are available in https://garment-tracking.robotflow.ai.

arxiv情報

著者 Han Xue,Wenqiang Xu,Jieyi Zhang,Tutian Tang,Yutong Li,Wenxin Du,Ruolin Ye,Cewu Lu
発行日 2025-04-15 15:30:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | GarmentTracking: Category-Level Garment Pose Tracking はコメントを受け付けていません

Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning

要約

このペーパーでは、マルチモーダル大手言語モデル(MLLM)のルールベースの強化学習微調整(RFT)の思考プロセスを調査します。
最初に分類のためにCLS-RLを提案し、検証可能な報酬を使用してMLLM思考を促進します。
実験では、CLS-RLがSFTを大幅に上回り、「フリーランチ」一般化効果(1つのデータセットでトレーニングした後、目に見えないデータセットのパフォーマンスの向上)が得られます。
次に、この明示的な思考が常にRFTに必要であるかどうかを疑問視します。
RFTにとって明示的な思考が重要であるという挑戦的な慣習は、単純な平等精度報酬を介して思考を最小限に抑え、非思考RLを導入します。
実験では、domain内および一般化能力でCLS-RLを超えていないことを示しており、微調整時間が大幅に短くなります。
これは、思考を減らすことで、特定の視覚タスクのMLLM微調整効率と有効性を改善できることを示唆しています。
明示的な思考は、RFT中の報酬の収束に悪影響を与えると仮定します。
これをテストするために、モデルが最初に答えを出力し、次に思考プロセスを生成して思考のマイナスの影響を与えて、思考プロセスを生成するために、考え直し後の方法を提案します。
さらに、2Bモデルと7Bモデルを使用して、多様なタスク(数学、空間、パズルを含む)で考えていないRLをテストします。
2Bモデルの場合、考えられていないRLは、数学であっても、すべてのタスクの思考ベースのRFTを、考え直し後にパフォーマンスしています。
7Bモデルの場合、パフォーマンスは単純な視覚タスクで匹敵しますが、思考とのRFTは複雑な推論(数学)に優れています。
これは、複雑な数学の問題に対処するときに、小さなモデルが効果的な推論の生成、複雑なタスクのパフォーマンスの損傷に苦労していることを意味します。
逆に、単純な視覚的なタスクの場合、思考は不可欠ではなく、その削除はパフォーマンスを高め、トレーニング時間を短縮する可能性があります。
私たちの調査結果が、RFTにおける思考プロセスの効果をよりよく理解するための洞察を提供することを願っています。

要約(オリジナル)

This paper investigates the thinking process in rule-based reinforcement learning fine-tuning (RFT) for multi-modal large language models (MLLMs). We first propose CLS-RL for classification, using verifiable rewards to encourage MLLM thinking. Experiments show CLS-RL significantly outperforms SFT and yields a ‘free-lunch’ generalization effect (improving performance on unseen datasets after training on one dataset). We then question if this explicit thinking is always necessary for RFT. Challenging convention that explicit thinking is crucial for RFT, we introduce No-Thinking-RL, minimizing thinking via a simple equality accuracy reward. Experiments show No-Thinking-RL surpasses CLS-RL in in-domain and generalization abilities, with significantly less fine-tuning time. This suggests reducing thinking can improve MLLM fine-tuning efficiency and effectiveness for certain visual tasks. We hypothesize explicit thinking negatively impacts reward convergence during RFT. To test this, we propose the Think-After-Answerwer method to let models first output the answer and then generate thinking process to alliviate the negative impact of thinking. We further test No-Thinking-RL on diverse tasks (including math, spatial, puzzles) with 2B and 7B models. For 2B models, No-Thinking-RL outperforms thinking-based RFT for all tasks, even on math, with Think-After-Answerwer performing intermediately. For 7B models, performance is comparable on simple visual tasks, but RFT with thinking excels on complex reasoning (math). This implies when dealing with complex math problems, smaller models struggle with generating effective reasoning, hurting performance on complex tasks. Conversely, for simple visual tasks, thinking is not indispensable, and its removal can boost performance and reduce training time. We hope our findings offer insights for better understanding the effect of the thinking process in RFT.

arxiv情報

著者 Ming Li,Jike Zhong,Shitian Zhao,Yuxiang Lai,Kaipeng Zhang
発行日 2025-04-15 15:31:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning はコメントを受け付けていません

Autoregressive Distillation of Diffusion Transformers

要約

トランスアーキテクチャを備えた拡散モデルは、高忠実度の画像と高解像度のスケーラビリティを生成する上で有望な能力を実証しています。
ただし、合成に必要な反復サンプリングプロセスは非常にリソース集約的です。
一連の作業は、確率の流れに対するソリューションを少数の学生モデルに蒸留することに焦点を当てています。
それにもかかわらず、既存の方法は、入力として最新の除去されたサンプルへの依存により制限されており、暴露バイアスの影響を受けやすくなります。
この制限に対処するために、将来のステップを予測するためにODEの歴史的軌跡を活用する新しいアプローチである自己回帰蒸留(ARD)を提案します。
ARDは2つの重要な利点を提供します。1)蓄積されたエラーの影響を受けにくい予測された履歴軌道を利用することにより、露出バイアスを軽減し、2)ODE軌道の以前の履歴をより効果的な粒子情報のソースとして活用します。
ARDは、軌道履歴からの各入力をマークするためにトークンごとの時間埋め込みを追加することにより、教師の変圧器アーキテクチャを修正し、トレーニングにブロックごとの因果注意マスクを使用します。
さらに、低い変圧器層にのみ履歴入力を組み込むことで、パフォーマンスと効率が向上します。
ImagenetおよびT2I合成に対するクラス条件の世代におけるARDの有効性を検証します。
私たちのモデルは、イメージェネット-256で1.1 \%の追加フロップのみを必要とする一方で、ベースラインメソッドと比較して5ドルの時間削減を$ FI​​D劣化を達成します。
さらに、ARDは、わずか4ステップでImagenet-256で1.84のFIDに到達し、教師と比較してFIDの最小限の低下で迅速な順守スコアで公開されている1024pテキストから画像への蒸留モデルを上回ります。
プロジェクトページ:https://github.com/alsdudrla10/ard。

要約(オリジナル)

Diffusion models with transformer architectures have demonstrated promising capabilities in generating high-fidelity images and scalability for high resolution. However, iterative sampling process required for synthesis is very resource-intensive. A line of work has focused on distilling solutions to probability flow ODEs into few-step student models. Nevertheless, existing methods have been limited by their reliance on the most recent denoised samples as input, rendering them susceptible to exposure bias. To address this limitation, we propose AutoRegressive Distillation (ARD), a novel approach that leverages the historical trajectory of the ODE to predict future steps. ARD offers two key benefits: 1) it mitigates exposure bias by utilizing a predicted historical trajectory that is less susceptible to accumulated errors, and 2) it leverages the previous history of the ODE trajectory as a more effective source of coarse-grained information. ARD modifies the teacher transformer architecture by adding token-wise time embedding to mark each input from the trajectory history and employs a block-wise causal attention mask for training. Furthermore, incorporating historical inputs only in lower transformer layers enhances performance and efficiency. We validate the effectiveness of ARD in a class-conditioned generation on ImageNet and T2I synthesis. Our model achieves a $5\times$ reduction in FID degradation compared to the baseline methods while requiring only 1.1\% extra FLOPs on ImageNet-256. Moreover, ARD reaches FID of 1.84 on ImageNet-256 in merely 4 steps and outperforms the publicly available 1024p text-to-image distilled models in prompt adherence score with a minimal drop in FID compared to the teacher. Project page: https://github.com/alsdudrla10/ARD.

arxiv情報

著者 Yeongmin Kim,Sotiris Anagnostidis,Yuming Du,Edgar Schönfeld,Jonas Kohler,Markos Georgopoulos,Albert Pumarola,Ali Thabet,Artsiom Sanakoyeu
発行日 2025-04-15 15:33:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Autoregressive Distillation of Diffusion Transformers はコメントを受け付けていません

Cognitive Disentanglement for Referring Multi-Object Tracking

要約

インテリジェント輸送知覚システムにおけるマルチソース情報融合の重要なアプリケーションとして、マルチオブジェクト追跡(RMOT)を参照するには、言語参照に基づいてビデオシーケンスで特定のオブジェクトをローカライズおよび追跡することが含まれます。
ただし、既存のRMOTアプローチは、言語の説明を全体的な埋め込みとして扱い、言語表現に含まれる豊富なセマンティック情報を視覚的な特徴と効果的に統合するのに苦労することがよくあります。
この制限は、静的オブジェクト属性と空間モーション情報の両方を包括的に理解する必要がある複雑なシーンで特に明らかです。
この論文では、これらの課題に対処するマルチオブジェクト追跡(CDRMT)フレームワークを参照するための認知的解体を提案します。
「What」と「Where」経路を、人間の視覚処理システムからのタスクに適応させます。
具体的には、私たちのフレームワークは、最初にモダリティ固有の特性を維持しながら、クロスモーダル接続を確立します。
次に、言語の説明を解き放ち、それらをオブジェクトクエリに階層的に注入し、オブジェクトの理解を粗から微調整されたセマンティックレベルから洗練します。
最後に、視覚的な特徴に基づいて言語表現を再構築し、追跡されたオブジェクトが参照表現を忠実に反映するようにします。
さまざまなベンチマークデータセットでの広範な実験は、CDRMTが最先端の方法よりも大幅な改善を達成し、リファレンスキッティのHOTAスコアが6.0%、Refer-Kitti-V2で3.2%であることを示しています。
私たちのアプローチは、最先端の最先端をRMOTで進め、同時にマルチソース情報融合に関する新しい洞察を提供します。

要約(オリジナル)

As a significant application of multi-source information fusion in intelligent transportation perception systems, Referring Multi-Object Tracking (RMOT) involves localizing and tracking specific objects in video sequences based on language references. However, existing RMOT approaches often treat language descriptions as holistic embeddings and struggle to effectively integrate the rich semantic information contained in language expressions with visual features. This limitation is especially apparent in complex scenes requiring comprehensive understanding of both static object attributes and spatial motion information. In this paper, we propose a Cognitive Disentanglement for Referring Multi-Object Tracking (CDRMT) framework that addresses these challenges. It adapts the ‘what’ and ‘where’ pathways from the human visual processing system to RMOT tasks. Specifically, our framework first establishes cross-modal connections while preserving modality-specific characteristics. It then disentangles language descriptions and hierarchically injects them into object queries, refining object understanding from coarse to fine-grained semantic levels. Finally, we reconstruct language representations based on visual features, ensuring that tracked objects faithfully reflect the referring expression. Extensive experiments on different benchmark datasets demonstrate that CDRMT achieves substantial improvements over state-of-the-art methods, with average gains of 6.0% in HOTA score on Refer-KITTI and 3.2% on Refer-KITTI-V2. Our approach advances the state-of-the-art in RMOT while simultaneously providing new insights into multi-source information fusion.

arxiv情報

著者 Shaofeng Liang,Runwei Guan,Wangwang Lian,Daizong Liu,Xiaolou Sun,Dongming Wu,Yutao Yue,Weiping Ding,Hui Xiong
発行日 2025-04-15 15:35:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Cognitive Disentanglement for Referring Multi-Object Tracking はコメントを受け付けていません

EchoMask: Speech-Queried Attention-based Mask Modeling for Holistic Co-Speech Motion Generation

要約

マスクされたモデリングフレームワークは、共和声モーション生成に有望を示しています。
ただし、効果的なモーションマスキングのために、意味的に重要なフレームを特定するのに苦労しています。
この作業では、音声でのモーション生成のための音声queけの注意ベースのマスクモデリングフレームワークを提案します。
私たちの重要な洞察は、モーションに整合した音声機能を活用して、マスクされたモーションモデリングプロセスをガイドし、リズム関連および意味的に表現力のあるモーションフレームを選択的にマスキングすることです。
具体的には、最初に潜在的な動きとオーディオのジョイント空間を構築するためのモーションオーディオアライメントモジュール(MAM)を提案します。
このスペースでは、低レベルと高レベルの音声機能の両方が予測されており、学習可能な音声クエリを使用してモーション整列音声表現を可能にします。
次に、音声Queed注意メカニズム(SQA)が導入され、モーションキーと音声クエリ間の相互作用を通じてフレームレベルの注意スコアを計算し、注意スコアのあるモーションフレームに向けて選択的マスキングを導きます。
最後に、モーションに整列した音声機能も生成ネットワークに注入され、共和音のモーション生成を促進します。
定性的および定量的評価は、我々の方法が既存の最先端のアプローチよりも優れており、高品質の共発発点モーションを成功裏に生成することを確認しています。

要約(オリジナル)

Masked modeling framework has shown promise in co-speech motion generation. However, it struggles to identify semantically significant frames for effective motion masking. In this work, we propose a speech-queried attention-based mask modeling framework for co-speech motion generation. Our key insight is to leverage motion-aligned speech features to guide the masked motion modeling process, selectively masking rhythm-related and semantically expressive motion frames. Specifically, we first propose a motion-audio alignment module (MAM) to construct a latent motion-audio joint space. In this space, both low-level and high-level speech features are projected, enabling motion-aligned speech representation using learnable speech queries. Then, a speech-queried attention mechanism (SQA) is introduced to compute frame-level attention scores through interactions between motion keys and speech queries, guiding selective masking toward motion frames with high attention scores. Finally, the motion-aligned speech features are also injected into the generation network to facilitate co-speech motion generation. Qualitative and quantitative evaluations confirm that our method outperforms existing state-of-the-art approaches, successfully producing high-quality co-speech motion.

arxiv情報

著者 Xiangyue Zhang,Jianfang Li,Jiaxu Zhang,Jianqiang Ren,Liefeng Bo,Zhigang Tu
発行日 2025-04-15 15:41:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.SD | EchoMask: Speech-Queried Attention-based Mask Modeling for Holistic Co-Speech Motion Generation はコメントを受け付けていません

CFIS-YOLO: A Lightweight Multi-Scale Fusion Network for Edge-Deployable Wood Defect Detection

要約

木材処理産業の品質管理を確保するには、木材の欠陥検出が重要です。
ただし、現在の産業用アプリケーションは2つの主要な課題に直面しています。従来の方法は費用がかかり、主観的で、労働集約的ですが、主流の深い学習モデルは、エッジ展開の検出精度と計算効率のバランスをとるのに苦労しています。
これらの問題に対処するために、この研究では、エッジデバイス用に最適化された軽量オブジェクト検出モデルであるCFIS-Yoloを提案しています。
このモデルでは、強化されたC2F構造、動的特徴の組換えモジュール、および補助境界ボックスと角張った制約を組み込んだ新しい損失関数を導入します。
これらの革新は、マルチスケール機能の融合と小さなオブジェクトのローカリゼーションを改善しながら、計算オーバーヘッドを大幅に削減します。
公共の木材欠陥データセットで評価されたCFIS-Yoloは、平均平均精度(map@0.5)を77.5 \%に達成し、ベースラインYolov10sを4パーセントポイント上回ります。
Sophon BM1684X Edgeデバイスでは、CFIS-Yoloは135 FPSを提供し、電力消費を元の実装の17.3%に減らし、MAPに0.5パーセントポイント低下のみを負担します。
これらの結果は、CFIS-Yoloがリソースに制約のある環境での実際の木材欠陥検出のための実用的で効果的なソリューションであることを示しています。

要約(オリジナル)

Wood defect detection is critical for ensuring quality control in the wood processing industry. However, current industrial applications face two major challenges: traditional methods are costly, subjective, and labor-intensive, while mainstream deep learning models often struggle to balance detection accuracy and computational efficiency for edge deployment. To address these issues, this study proposes CFIS-YOLO, a lightweight object detection model optimized for edge devices. The model introduces an enhanced C2f structure, a dynamic feature recombination module, and a novel loss function that incorporates auxiliary bounding boxes and angular constraints. These innovations improve multi-scale feature fusion and small object localization while significantly reducing computational overhead. Evaluated on a public wood defect dataset, CFIS-YOLO achieves a mean Average Precision (mAP@0.5) of 77.5\%, outperforming the baseline YOLOv10s by 4 percentage points. On SOPHON BM1684X edge devices, CFIS-YOLO delivers 135 FPS, reduces power consumption to 17.3\% of the original implementation, and incurs only a 0.5 percentage point drop in mAP. These results demonstrate that CFIS-YOLO is a practical and effective solution for real-world wood defect detection in resource-constrained environments.

arxiv情報

著者 Jincheng Kang,Yi Cen,Yigang Cen,Ke Wang,Yuhan Liu
発行日 2025-04-15 15:45:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | CFIS-YOLO: A Lightweight Multi-Scale Fusion Network for Edge-Deployable Wood Defect Detection はコメントを受け付けていません

Context-Aware Palmprint Recognition via a Relative Similarity Metric

要約

既存のマッチングフレームワークの堅牢性と識別性を高める相対類似性メトリック(RSM)を導入することにより、Palmprint認識のマッチングメカニズムへの新しいアプローチを提案します。
従来のシステムは、Cosineやユークリッド距離などの直接的なペアワイズ類似性測定に依存していますが、これらのメトリックは、データセット全体のコンテキスト内でペアワイズの類似性がどのように比較されるかをキャプチャできません。
私たちの方法は、すべてのアイデンティティまでの類似性スコアの相対的な一貫性を評価し、誤検知とネガのより良い抑制を可能にすることにより、これに対処します。
CCNETアーキテクチャの上に適用されるこの方法は、Tongjiデータセットで新しい最先端の0.000036%等エラー率(EER)を実現し、以前の方法を上回り、Palmprintマッチングプロセスにリレーショナル構造を組み込むことの有効性を実証します。

要約(オリジナル)

We propose a new approach to matching mechanism for palmprint recognition by introducing a Relative Similarity Metric (RSM) that enhances the robustness and discriminability of existing matching frameworks. While conventional systems rely on direct pairwise similarity measures, such as cosine or Euclidean distances, these metrics fail to capture how a pairwise similarity compares within the context of the entire dataset. Our method addresses this by evaluating the relative consistency of similarity scores across up to all identities, allowing for better suppression of false positives and negatives. Applied atop the CCNet architecture, our method achieves a new state-of-the-art 0.000036% Equal Error Rate (EER) on the Tongji dataset, outperforming previous methods and demonstrating the efficacy of incorporating relational structure into the palmprint matching process.

arxiv情報

著者 Trinnhallen Brisley,Aryan Gandhi,Joseph Magen
発行日 2025-04-15 15:46:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Context-Aware Palmprint Recognition via a Relative Similarity Metric はコメントを受け付けていません

Uncertainty Estimation for Trust Attribution to Speed-of-Sound Reconstruction with Variational Networks

要約

速度(SOS)は組織の生体力学的特性であり、そのイメージングは​​診断のための有望なバイオマーカーを提供することができます。
超音波取得からのSOS画像の再構築は、限られた角度の計算済みトモグラフィーの問題としてキャストでき、変分ネットワークは有望なモデルベースのディープ学習ソリューションです。
ただし、いくつかの取得したデータフレームは、たとえば動き、接触の欠如、音響の影のためにノイズによって破損する可能性があり、結果として生じるSOSの再構成に悪影響を及ぼします。
SOS再構成の不確実性を使用して、個々の取得フレームに信頼を帰属させることを提案します。
複数の買収を考慮して、診断の決定を改善するために、これらの遡及的に不確実性に基づいた自動選択を使用します。
モンテカルロのドロップアウトとベイジアンの変動推論に基づいた不確実性の推定を調査します。
乳がんの鑑別診断のための自動フレーム選択方法を評価し、良性線維腫と悪性癌を区別します。
bi-rads〜4に分類された21の病変を評価します。これは、悪性腫瘍の疑わしい症例を表します。
各病変の4つの獲得の中で最も信頼できるフレームは、不確実性ベースの基準を使用して特定されました。
不確実性が通知されたフレームを選択すると、モンテカルロドロップアウトとベイジアンの変動推論では、それぞれ76%と80%の曲線下面積が達成されました。
不確実性の推定の新しい使用が提案されており、さらに処理および意思決定のために複数のデータ収集のいずれかを選択することが提案されています。

要約(オリジナル)

Speed-of-sound (SoS) is a biomechanical characteristic of tissue, and its imaging can provide a promising biomarker for diagnosis. Reconstructing SoS images from ultrasound acquisitions can be cast as a limited-angle computed-tomography problem, with Variational Networks being a promising model-based deep learning solution. Some acquired data frames may, however, get corrupted by noise due to, e.g., motion, lack of contact, and acoustic shadows, which in turn negatively affects the resulting SoS reconstructions. We propose to use the uncertainty in SoS reconstructions to attribute trust to each individual acquired frame. Given multiple acquisitions, we then use an uncertainty based automatic selection among these retrospectively, to improve diagnostic decisions. We investigate uncertainty estimation based on Monte Carlo Dropout and Bayesian Variational Inference. We assess our automatic frame selection method for differential diagnosis of breast cancer, distinguishing between benign fibroadenoma and malignant carcinoma. We evaluate 21 lesions classified as BI-RADS~4, which represents suspicious cases for probable malignancy. The most trustworthy frame among four acquisitions of each lesion was identified using uncertainty based criteria. Selecting a frame informed by uncertainty achieved an area under curve of 76% and 80% for Monte Carlo Dropout and Bayesian Variational Inference, respectively, superior to any uncertainty-uninformed baselines with the best one achieving 64%. A novel use of uncertainty estimation is proposed for selecting one of multiple data acquisitions for further processing and decision making.

arxiv情報

著者 Sonia Laguna,Lin Zhang,Can Deniz Bezek,Monika Farkas,Dieter Schweizer,Rahel A. Kubik-Huch,Orcun Goksel
発行日 2025-04-15 15:48:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Uncertainty Estimation for Trust Attribution to Speed-of-Sound Reconstruction with Variational Networks はコメントを受け付けていません

Big Brother is Watching: Proactive Deepfake Detection via Learnable Hidden Face

要約

Deepfake Technologiesが進歩し続けるにつれて、受動的検出方法は、さまざまな偽造操作やデータセットに一般化するのに苦労しています。
積極的な防御技術は、深い職業の動作を効果的に防止するという主な目的で積極的に研究されています。
この論文では、受動的検出と積極的な防御の間のギャップを埋めることを目指し、プロアクティブな方法論を利用して検出問題を解決しようとします。
いくつかの透かしに基づいた法医学的方法に触発されて、「顔の中に学習可能な顔を隠す」という概念に基づいた新しい検出フレームワークを探ります。
具体的には、セミフラジールの反転性ステガノグラフィネットワークに依存して、秘密のテンプレート画像は、逆ステガノグラフィープロセスによって復元されたときに悪意のある画像偽造のインジケータモニタリングとして機能するホストイメージに埋め込まれています。
手動で指定される代わりに、秘密のテンプレートは、保護されている画像に隠されている「ビッグブラザー」のように、中立の顔の外観に似ているようにトレーニング中に最適化されています。
シミュレーション伝送チャネルにセルフブレンドメカニズムと堅牢性学習戦略を組み込むことにより、ステガノグラフィー画像が悪意を持って改ざんまたは良性処理されているかどうかを正確に区別するために堅牢な検出器が構築されます。
最後に、複数のデータセットで実施された広範な実験は、競合する受動的および積極的な検出方法よりも提案されたアプローチの優位性を示しています。

要約(オリジナル)

As deepfake technologies continue to advance, passive detection methods struggle to generalize with various forgery manipulations and datasets. Proactive defense techniques have been actively studied with the primary aim of preventing deepfake operation effectively working. In this paper, we aim to bridge the gap between passive detection and proactive defense, and seek to solve the detection problem utilizing a proactive methodology. Inspired by several watermarking-based forensic methods, we explore a novel detection framework based on the concept of “hiding a learnable face within a face”. Specifically, relying on a semi-fragile invertible steganography network, a secret template image is embedded into a host image imperceptibly, acting as an indicator monitoring for any malicious image forgery when being restored by the inverse steganography process. Instead of being manually specified, the secret template is optimized during training to resemble a neutral facial appearance, just like a “big brother” hidden in the image to be protected. By incorporating a self-blending mechanism and robustness learning strategy with a simulative transmission channel, a robust detector is built to accurately distinguish if the steganographic image is maliciously tampered or benignly processed. Finally, extensive experiments conducted on multiple datasets demonstrate the superiority of the proposed approach over competing passive and proactive detection methods.

arxiv情報

著者 Hongbo Li,Shangchao Yang,Ruiyang Xia,Lin Yuan,Xinbo Gao
発行日 2025-04-15 15:50:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Big Brother is Watching: Proactive Deepfake Detection via Learnable Hidden Face はコメントを受け付けていません