Using Foundation Models as Pseudo-Label Generators for Pre-Clinical 4D Cardiac CT Segmentation

要約

心臓画像のセグメンテーションは、多くの心臓画像分析と、心臓力学のモーション追跡やシミュレーションなどのモデリングタスクにおける重要なステップです。
ディープラーニングは臨床環境で非常に高度なセグメンテーションを行っていますが、特にブタモデルでは、臨床前のイメージングに関する作業は限られています。
ただし、種間の違いは、人間から豚のデータへの直接モデルの転送を複雑にするドメインシフトを作成します。
最近、大規模な人間のデータセットで訓練された基礎モデルは、堅牢な医療画像セグメンテーションの可能性を示しています。
しかし、ブタのデータへの適用性はほとんど未踏のままです。
この作業では、基礎モデルが豚の心臓CTの十分に正確な擬似ラベルを生成できるかどうかを調査し、これらのラベルを繰り返し改良するための簡単な自己訓練アプローチを提案します。
私たちの方法では、手動で注釈された豚のデータは必要ありません。代わりに、セグメンテーションの品質を向上させるために反復的な更新に依存しています。
この自己訓練プロセスは、セグメンテーションの精度を高めるだけでなく、連続したフレーム全体の時間的矛盾をスムーズにすることを実証します。
私たちの結果は勇気づけられますが、たとえば、より洗練された自己訓練戦略を組み込み、追加の基礎モデルやその他の心臓イメージング技術を調査することにより、改善の余地が残っています。

要約(オリジナル)

Cardiac image segmentation is an important step in many cardiac image analysis and modeling tasks such as motion tracking or simulations of cardiac mechanics. While deep learning has greatly advanced segmentation in clinical settings, there is limited work on pre-clinical imaging, notably in porcine models, which are often used due to their anatomical and physiological similarity to humans. However, differences between species create a domain shift that complicates direct model transfer from human to pig data. Recently, foundation models trained on large human datasets have shown promise for robust medical image segmentation; yet their applicability to porcine data remains largely unexplored. In this work, we investigate whether foundation models can generate sufficiently accurate pseudo-labels for pig cardiac CT and propose a simple self-training approach to iteratively refine these labels. Our method requires no manually annotated pig data, relying instead on iterative updates to improve segmentation quality. We demonstrate that this self-training process not only enhances segmentation accuracy but also smooths out temporal inconsistencies across consecutive frames. Although our results are encouraging, there remains room for improvement, for example by incorporating more sophisticated self-training strategies and by exploring additional foundation models and other cardiac imaging technologies.

arxiv情報

著者 Anne-Marie Rickmann,Stephanie L. Thorn,Shawn S. Ahn,Supum Lee,Selen Uman,Taras Lysyy,Rachel Burns,Nicole Guerrera,Francis G. Spinale,Jason A. Burdick,Albert J. Sinusas,James S. Duncan
発行日 2025-05-14 17:07:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Using Foundation Models as Pseudo-Label Generators for Pre-Clinical 4D Cardiac CT Segmentation はコメントを受け付けていません

Meta-learning Slice-to-Volume Reconstruction in Fetal Brain MRI using Implicit Neural Representations

要約

複数の動き腐敗した低解像度2Dスライスからの高解像度スライスから容積再構成(SVR)は、胎児の脳磁気共鳴画像法(MRI)などの動く被験者の画像ベースの診断における重要なステップを構成します。
既存のソリューションは、画像アーティファクトと深刻な被験者の動きに苦労しているか、満足のいく再構成パフォーマンスを達成するためにスライスの事前調整を必要とします。
深刻な画像や動きの腐敗の場合でも、迅速かつ正確なMRI再構成を可能にする新しいSVR方法を提案します。
私たちのアプローチは、すべての操作が暗黙の神経表現に完全に基づいている動き補正、外れ値の取り扱い、および超解像度の再構築を実行します。
このモデルは、シミュレーションまたは実際のデータのいずれかで完全に自己監視されたメタ学習を通じて、タスク固有の事前に初期化できます。
さまざまなセンターからのシミュレーションおよび臨床MRI脳データの480以上の再構成を含む広範な実験では、重度の被験者の動きと画像アーティファクトの場合の方法の有用性を証明します。
我々の結果は、特に最新の方法と比較して、特に重度の動きの存在下で、再建時間の最大50%の短縮の再構築品質の改善を示しています。

要約(オリジナル)

High-resolution slice-to-volume reconstruction (SVR) from multiple motion-corrupted low-resolution 2D slices constitutes a critical step in image-based diagnostics of moving subjects, such as fetal brain Magnetic Resonance Imaging (MRI). Existing solutions struggle with image artifacts and severe subject motion or require slice pre-alignment to achieve satisfying reconstruction performance. We propose a novel SVR method to enable fast and accurate MRI reconstruction even in cases of severe image and motion corruption. Our approach performs motion correction, outlier handling, and super-resolution reconstruction with all operations being entirely based on implicit neural representations. The model can be initialized with task-specific priors through fully self-supervised meta-learning on either simulated or real-world data. In extensive experiments including over 480 reconstructions of simulated and clinical MRI brain data from different centers, we prove the utility of our method in cases of severe subject motion and image artifacts. Our results demonstrate improvements in reconstruction quality, especially in the presence of severe motion, compared to state-of-the-art methods, and up to 50% reduction in reconstruction time.

arxiv情報

著者 Maik Dannecker,Thomas Sanchez,Meritxell Bach Cuadra,Özgün Turgut,Anthony N. Price,Lucilio Cordero-Grande,Vanessa Kyriakopoulou,Joseph V. Hajnal,Daniel Rueckert
発行日 2025-05-14 17:07:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Meta-learning Slice-to-Volume Reconstruction in Fetal Brain MRI using Implicit Neural Representations はコメントを受け付けていません

BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset

要約

統一された画像の理解と生成は、マルチモーダルモデルに関する最近の研究で注目を集めています。
画像理解のための設計の選択は広範囲に研究されていますが、画像生成を備えた統一されたフレームワークの最適なモデルアーキテクチャとトレーニングレシピは、採用不足のままです。
高品質の生成とスケーラビリティのための自己回帰および拡散モデルの強力な可能性に動機付けられ、画像表現、モデリング目標、トレーニング戦略に重点を置いて、統一されたマルチモーダル設定での使用に関する包括的な研究を実施します。
これらの調査に基づいて、従来のVAEベースの表現とは対照的に、拡散トランスを使用して意味的にリッチなクリップ画像機能を生成する新しいアプローチを紹介します。
この設計により、トレーニング効率が高くなり、生成品質が向上しました。
さらに、画像の理解とその後の画像生成オフの実用的な利点に関する統一されたモデルの最初のトレーニングのための連続的な事前トレーニング戦略が、強力な画像生成能力を開発しながら画像理解能力を維持することにより、実用的な利点であることを実証します。
最後に、さまざまなシーン、オブジェクト、人間のジェスチャーなどをカバーする多様なキャプションセットでGPT-4oをプロンプトすることにより、画像生成のために高品質の命令調整データセットBLIP3O-60Kを慎重にキュレートします。
革新的なモデル設計、トレーニングレシピ、およびデータセットに基づいて、最先端の統一マルチモーダルモデルのスイートであるBlip3-Oを開発しています。
BLIP3-Oは、画像の理解と生成タスクの両方にまたがる人気のあるベンチマークのほとんどにわたって優れたパフォーマンスを実現します。
将来の研究を容易にするために、コード、モデルの重み、トレーニングスクリプト、および事前販売と命令の調整データセットなど、モデルを完全にオープンソースで飾ります。

要約(オリジナル)

Unifying image understanding and generation has gained growing attention in recent research on multimodal models. Although design choices for image understanding have been extensively studied, the optimal model architecture and training recipe for a unified framework with image generation remain underexplored. Motivated by the strong potential of autoregressive and diffusion models for high-quality generation and scalability, we conduct a comprehensive study of their use in unified multimodal settings, with emphasis on image representations, modeling objectives, and training strategies. Grounded in these investigations, we introduce a novel approach that employs a diffusion transformer to generate semantically rich CLIP image features, in contrast to conventional VAE-based representations. This design yields both higher training efficiency and improved generative quality. Furthermore, we demonstrate that a sequential pretraining strategy for unified models-first training on image understanding and subsequently on image generation-offers practical advantages by preserving image understanding capability while developing strong image generation ability. Finally, we carefully curate a high-quality instruction-tuning dataset BLIP3o-60k for image generation by prompting GPT-4o with a diverse set of captions covering various scenes, objects, human gestures, and more. Building on our innovative model design, training recipe, and datasets, we develop BLIP3-o, a suite of state-of-the-art unified multimodal models. BLIP3-o achieves superior performance across most of the popular benchmarks spanning both image understanding and generation tasks. To facilitate future research, we fully open-source our models, including code, model weights, training scripts, and pretraining and instruction tuning datasets.

arxiv情報

著者 Jiuhai Chen,Zhiyang Xu,Xichen Pan,Yushi Hu,Can Qin,Tom Goldstein,Lifu Huang,Tianyi Zhou,Saining Xie,Silvio Savarese,Le Xue,Caiming Xiong,Ran Xu
発行日 2025-05-14 17:11:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset はコメントを受け付けていません

Don’t Forget your Inverse DDIM for Image Editing

要約

テキストからイメージの生成の分野は、拡散モデルの導入により大きな進歩を遂げています。
それにもかかわらず、ほとんどの方法は計算集中的であるか、再構成が不十分であるため、実際の画像を編集するという課題は持続します。
このホワイトペーパーでは、Sage(画像編集のための自己関節ガイダンス)を紹介します。これは、画像編集のために事前に訓練された拡散モデルを活用する新しい手法です。
SageはDDIMアルゴリズムに基づいて構築され、拡散U-Netの自己関節層を利用した新しいガイダンスメカニズムを組み込んでいます。
このメカニズムは、逆DDIMプロセス中に生成された注意マップに基づいて再構成目標を計算し、入力画像全体を正確に再構築する必要なく、編集されていない領域の効率的な再構築を可能にします。
したがって、Sageは画像編集の重要な課題に直接対処します。
他の方法よりもSAGEの優位性は、定量的および定性的評価を通じて実証され、統計的に検証された包括的なユーザー調査によって確認されます。
さらに、Sageは10の定量分析のうち7つで最高のパフォーマンスの方法としてランク付けされ、残りの3つで2位と3位を確保します。

要約(オリジナル)

The field of text-to-image generation has undergone significant advancements with the introduction of diffusion models. Nevertheless, the challenge of editing real images persists, as most methods are either computationally intensive or produce poor reconstructions. This paper introduces SAGE (Self-Attention Guidance for image Editing) – a novel technique leveraging pre-trained diffusion models for image editing. SAGE builds upon the DDIM algorithm and incorporates a novel guidance mechanism utilizing the self-attention layers of the diffusion U-Net. This mechanism computes a reconstruction objective based on attention maps generated during the inverse DDIM process, enabling efficient reconstruction of unedited regions without the need to precisely reconstruct the entire input image. Thus, SAGE directly addresses the key challenges in image editing. The superiority of SAGE over other methods is demonstrated through quantitative and qualitative evaluations and confirmed by a statistically validated comprehensive user study, in which all 47 surveyed users preferred SAGE over competing methods. Additionally, SAGE ranks as the top-performing method in seven out of 10 quantitative analyses and secures second and third places in the remaining three.

arxiv情報

著者 Guillermo Gomez-Trenado,Pablo Mesejo,Oscar Cordón,Stéphane Lathuilière
発行日 2025-05-14 17:15:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.2.10 | Don’t Forget your Inverse DDIM for Image Editing はコメントを受け付けていません

Optimal-state Dynamics Estimation for Physics-based Human Motion Capture from Videos

要約

単眼ビデオからの人間のモーションキャプチャは、近年大きな進歩を遂げています。
ただし、現代のアプローチはしばしば時間的アーティファクトを生み出します。
不安定な動きの形で、スムーズで肉体的にもっともらしい動きを達成するために苦労しています。
内部力と外部トルクの形で物理学を明示的に統合することは、これらのアーティファクトを緩和するのに役立ちます。
現在の最先端のアプローチでは、自動PDコントローラーを使用して、入力運動学、つまり事前に定義された骨格の関節角を再シミュレートするために、トルクと反応力を予測します。
ただし、不完全な物理モデルのため、これらの方法は多くの場合、仮定を単純化し、入力運動学の広範な前処理を必要として、優れたパフォーマンスを実現する必要があります。
この目的のために、神経カルマンフィルタリングアプローチに触発されたオンライン設定で、物理学モデルを運動学の観測と選択的に組み込む新しい方法を提案します。
内部関節トルクと外部反応力を予測するためのメタ-PDコントローラーとしてコントロールループを開発し、その後に物理ベースのモーションシミュレーションが続きます。
再発性ニューラルネットワークが導入され、運動学の入力とシミュレートされた動きのバランスをとるカルマンフィルターを実現し、最適な状態のダイナミクス予測をもたらします。
このフィルタリングステップが、それぞれの入力運動の欠点のバランスをとるのに役立つオンライン監督を提供するために重要であり、したがって、正確なグローバルな動きの軌跡をキャプチャするだけでなく、身体的にもっともらしい人間のポーズを生成するためにも重要であることを示します。
提案されたアプローチは、物理ベースの人間のポーズ推定タスクに優れており、最先端と比較して、予測力学の物理的妥当性を示しています。
このコードは、https://github.com/cuongle1206/osdcapで入手できます

要約(オリジナル)

Human motion capture from monocular videos has made significant progress in recent years. However, modern approaches often produce temporal artifacts, e.g. in form of jittery motion and struggle to achieve smooth and physically plausible motions. Explicitly integrating physics, in form of internal forces and exterior torques, helps alleviating these artifacts. Current state-of-the-art approaches make use of an automatic PD controller to predict torques and reaction forces in order to re-simulate the input kinematics, i.e. the joint angles of a predefined skeleton. However, due to imperfect physical models, these methods often require simplifying assumptions and extensive preprocessing of the input kinematics to achieve good performance. To this end, we propose a novel method to selectively incorporate the physics models with the kinematics observations in an online setting, inspired by a neural Kalman-filtering approach. We develop a control loop as a meta-PD controller to predict internal joint torques and external reaction forces, followed by a physics-based motion simulation. A recurrent neural network is introduced to realize a Kalman filter that attentively balances the kinematics input and simulated motion, resulting in an optimal-state dynamics prediction. We show that this filtering step is crucial to provide an online supervision that helps balancing the shortcoming of the respective input motions, thus being important for not only capturing accurate global motion trajectories but also producing physically plausible human poses. The proposed approach excels in the physics-based human pose estimation task and demonstrates the physical plausibility of the predictive dynamics, compared to state of the art. The code is available on https://github.com/cuongle1206/OSDCap

arxiv情報

著者 Cuong Le,Viktor Johansson,Manon Kok,Bastian Wandt
発行日 2025-05-14 17:22:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Optimal-state Dynamics Estimation for Physics-based Human Motion Capture from Videos はコメントを受け付けていません

Variational Visual Question Answering

要約

視覚的な質問応答(VQA)のマルチモーダルモデルでは顕著な進歩にもかかわらず、特に分散除外(OOD)設定では、モデルがしばしば自信過剰で誤りがある可能性があるため、大きな信頼性の懸念が残ります。
ユニモーダルモデルのこのような問題に対処するために多くのことが行われていますが、マルチモーダルのケースではほとんど存在しません。
ここでは、変分VQAアプローチを提案することにより、マルチモーダルモデルの信頼性に対応します。
具体的には、ADAMWを使用して微調整されたビジョン言語モデルの代わりに、Ivonと呼ばれる最近提案された変分アルゴリズムを採用しています。これにより、モデルパラメーターよりも後部分布が得られます。
広範な実験を通じて、私たちのアプローチは、Adamwの精度を犠牲にすることなく、キャリブレーションと棄権を改善することを示しています。
たとえば、Adamwの微調整と比較して、AdamWベースラインと比較して予想キャリブレーションエラーを50%以上削減し、SOTA対SOTA(固定リスクの場合)とSOTAを4%増加させます。
分布シフトの存在下では、パフォーマンスゲインがさらに高く、テストケースの50%がOODである場合、8%のカバレッジ(@ 1%のリスク)改善とSOTAを達成します。
全体として、マルチモーダルモデルの信頼性を高めるための実行可能なオプションとして変分学習を提示します。

要約(オリジナル)

Despite remarkable progress in multimodal models for Visual Question Answering (VQA), there remain major reliability concerns because the models can often be overconfident and miscalibrated, especially in out-of-distribution (OOD) settings. Plenty has been done to address such issues for unimodal models, but little work exists for multimodal cases. Here, we address unreliability in multimodal models by proposing a Variational VQA approach. Specifically, instead of fine-tuning vision-language models by using AdamW, we employ a recently proposed variational algorithm called IVON, which yields a posterior distribution over model parameters. Through extensive experiments, we show that our approach improves calibration and abstentions without sacrificing the accuracy of AdamW. For instance, compared to AdamW fine-tuning, we reduce Expected Calibration Error by more than 50% compared to the AdamW baseline and raise Coverage by 4% vs. SOTA (for a fixed risk of 1%). In the presence of distribution shifts, the performance gain is even higher, achieving 8% Coverage (@ 1% risk) improvement vs. SOTA when 50% of test cases are OOD. Overall, we present variational learning as a viable option to enhance the reliability of multimodal models.

arxiv情報

著者 Tobias Jan Wieczorek,Nathalie Daun,Mohammad Emtiyaz Khan,Marcus Rohrbach
発行日 2025-05-14 17:40:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Variational Visual Question Answering はコメントを受け付けていません

Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks

要約

深い思考モデルの最近の進歩により、数学的およびコーディングタスクに関する顕著な推論能力が実証されています。
ただし、画像アクションを介して環境との連続的な相互作用を必要とする具体化されたドメインにおけるそれらの有効性は、主に認定されたままです。
Empodied Reasherを提示します。これは、O1スタイルの推論をインタラクティブな具体化された検索タスクに拡張するモデルです。
主に論理的控除に依存する数学的推論とは異なり、具体化されたシナリオは、空間的理解、時間的推論、および相互作用履歴に基づいた継続的な自己反省を要求します。
これらの課題に対処するために、64kのインタラクティブな画像と90K多様な思考プロセスを含む9.3Kコヒーレント観測思考の軌跡を合成します(分析、空間推論、反射、計画、および検証)。
3段階のトレーニングパイプラインを開発し、模倣学習、拒否サンプリングを介した自己探求、および反射チューニングによる自己修正により、モデルの機能を徐々に強化します。
この評価は、私たちのモデルがこれらの高度な視覚推論モデルを大幅に上回ることを示しています。
分析により、私たちのモデルは、複雑な長期タスクで特に利点がある、繰り返しの検索と論理的な矛盾が少ないことを示すことが明らかになりました。
現実世界の環境は、繰り返しの検索と論理的な矛盾のケースが少なくなりながら、私たちの優位性も示しています。

要約(オリジナル)

Recent advances in deep thinking models have demonstrated remarkable reasoning capabilities on mathematical and coding tasks. However, their effectiveness in embodied domains which require continuous interaction with environments through image action interleaved trajectories remains largely -unexplored. We present Embodied Reasoner, a model that extends o1 style reasoning to interactive embodied search tasks. Unlike mathematical reasoning that relies primarily on logical deduction, embodied scenarios demand spatial understanding, temporal reasoning, and ongoing self-reflection based on interaction history. To address these challenges, we synthesize 9.3k coherent Observation-Thought-Action trajectories containing 64k interactive images and 90k diverse thinking processes (analysis, spatial reasoning, reflection, planning, and verification). We develop a three-stage training pipeline that progressively enhances the model’s capabilities through imitation learning, self-exploration via rejection sampling, and self-correction through reflection tuning. The evaluation shows that our model significantly outperforms those advanced visual reasoning models, e.g., it exceeds OpenAI o1, o3-mini, and Claude-3.7 by +9\%, 24\%, and +13\%. Analysis reveals our model exhibits fewer repeated searches and logical inconsistencies, with particular advantages in complex long-horizon tasks. Real-world environments also show our superiority while exhibiting fewer repeated searches and logical inconsistency cases.

arxiv情報

著者 Wenqi Zhang,Mengna Wang,Gangao Liu,Xu Huixin,Yiwei Jiang,Yongliang Shen,Guiyang Hou,Zhe Zheng,Hang Zhang,Xin Li,Weiming Lu,Peng Li,Yueting Zhuang
発行日 2025-05-14 17:48:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks はコメントを受け付けていません

LightLab: Controlling Light Sources in Images with Diffusion Models

要約

画像内の光源に対するきめの細かいパラメトリック制御のためのシンプルでありながら効果的な拡散ベースの方法を提示します。
既存の再生方法は、複数の入力ビューに依存して、推論時間に逆レンダリングを実行するか、光の変化を明示的に制御できません。
私たちのメソッドは、再ライトのためにそのフォトリアリスティックな事前を誘発するために、規模に合成的にレンダリングされた画像によって補足された、実際の生の写真ペアの小さなセットの拡散モデルを微調整します。
光の直線性を活用して、ターゲット光源または周囲照明のいずれかの制御された光の変化を示す画像ペアを合成します。
このデータと適切な微調整スキームを使用して、光の強度と色を明示的に制御して、正確な照明変更のモデルをトレーニングします。
最後に、私たちの方法が魅力的な軽い編集結果を達成する方法を示し、ユーザーの好みに基づいて既存のメソッドを上回ることを示します。

要約(オリジナル)

We present a simple, yet effective diffusion-based method for fine-grained, parametric control over light sources in an image. Existing relighting methods either rely on multiple input views to perform inverse rendering at inference time, or fail to provide explicit control over light changes. Our method fine-tunes a diffusion model on a small set of real raw photograph pairs, supplemented by synthetically rendered images at scale, to elicit its photorealistic prior for relighting. We leverage the linearity of light to synthesize image pairs depicting controlled light changes of either a target light source or ambient illumination. Using this data and an appropriate fine-tuning scheme, we train a model for precise illumination changes with explicit control over light intensity and color. Lastly, we show how our method can achieve compelling light editing results, and outperforms existing methods based on user preference.

arxiv情報

著者 Nadav Magar,Amir Hertz,Eric Tabellion,Yael Pritch,Alex Rav-Acha,Ariel Shamir,Yedid Hoshen
発行日 2025-05-14 17:57:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | LightLab: Controlling Light Sources in Images with Diffusion Models はコメントを受け付けていません

UWAV: Uncertainty-weighted Weakly-supervised Audio-Visual Video Parsing

要約

オーディオビジュアルビデオの解析(AVVP)は、両方のユニモーダルイベント(つまり、ビデオの視覚的または音響モダリティでのみ発生するもの)とマルチモーダルイベント(つまり、両方のモダリティで同時に発生するもの)の両方で発生するものの両方をローカライズするという挑戦的なタスクを伴います。
さらに、これらすべてのイベントのクラスラベルでトレーニングデータに注釈を付けることの禁止コストは、開始時と終了時間とともに、トレーニングデータで利用可能なモダリティに存在する、ビデオレベルのラベルのみが利用できる、弱く拡張された設定でトレーニングできる限り、AVVP技術のスケーラビリティに制約を課します。
この目的のために、最近提案されたアプローチは、モデルトレーニングをよりよく導くためにセグメントレベルの擬似ラベルを生成しようとします。
ただし、これらの擬似ラベルを生成する際のセグメント間の依存関係がなく、セグメントに存在しないラベルを予測するための一般的なバイアスはパフォーマンスを制限します。
この作業は、不確実性加重された弱い監視視聴覚ビデオ解析(UWAV)と呼ばれるこれらの弱点を克服するための新しいアプローチを提案しています。
さらに、これらの推定擬似適応に関連する不確実性における当社の革新的なアプローチ要因と、改善されたトレーニングのための機能ミックスベースのトレーニングの正則化が組み込まれています。
経験的な結果は、UWAVが2つの異なるデータセットにわたって複数のメトリック上のAVVPタスクの最先端の方法を上回り、その有効性と一般化可能性を証明することを示しています。

要約(オリジナル)

Audio-Visual Video Parsing (AVVP) entails the challenging task of localizing both uni-modal events (i.e., those occurring exclusively in either the visual or acoustic modality of a video) and multi-modal events (i.e., those occurring in both modalities concurrently). Moreover, the prohibitive cost of annotating training data with the class labels of all these events, along with their start and end times, imposes constraints on the scalability of AVVP techniques unless they can be trained in a weakly-supervised setting, where only modality-agnostic, video-level labels are available in the training data. To this end, recently proposed approaches seek to generate segment-level pseudo-labels to better guide model training. However, the absence of inter-segment dependencies when generating these pseudo-labels and the general bias towards predicting labels that are absent in a segment limit their performance. This work proposes a novel approach towards overcoming these weaknesses called Uncertainty-weighted Weakly-supervised Audio-visual Video Parsing (UWAV). Additionally, our innovative approach factors in the uncertainty associated with these estimated pseudo-labels and incorporates a feature mixup based training regularization for improved training. Empirical results show that UWAV outperforms state-of-the-art methods for the AVVP task on multiple metrics, across two different datasets, attesting to its effectiveness and generalizability.

arxiv情報

著者 Yung-Hsuan Lai,Janek Ebbers,Yu-Chiang Frank Wang,François Germain,Michael Jeffrey Jones,Moitreya Chatterjee
発行日 2025-05-14 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS | UWAV: Uncertainty-weighted Weakly-supervised Audio-Visual Video Parsing はコメントを受け付けていません

Sensitivity-Constrained Fourier Neural Operators for Forward and Inverse Problems in Parametric Differential Equations

要約

du/dt = f(u、x、t、p)の形式のパラメトリック微分方程式は、科学と工学の基本です。
フーリエ神経演算子(FNO)などのディープラーニングフレームワークは、効率的にソリューションを近似することができますが、逆問題、感度推定(DU/DP)、および概念ドリフトに苦労しています。
感度に制約のあるフーリエ神経演算子(SC-FNO)と呼ばれる感度ベースの正規化戦略を導入することにより、これらの制限に対処します。
SC-FNOは、ソリューションパスの予測において高い精度を達成し、物理学に基づいた正則化により標準のFNOおよびFNOを常に上回ります。
パラメーターの反転タスクのパフォーマンスを改善し、スケールを高次元パラメータースペース(最大82のパラメーターでテスト)にスケールし、データとトレーニング要件の両方を削減します。
これらの利益は、トレーニング時間のわずかな増加(エポックあたり30%から130%)で達成され、さまざまなタイプの微分方程式と神経演算子にわたって一般化されます。
コードと選択した実験は、https://github.com/ambehroozi/sc_neural_operatorsで入手できます

要約(オリジナル)

Parametric differential equations of the form du/dt = f(u, x, t, p) are fundamental in science and engineering. While deep learning frameworks such as the Fourier Neural Operator (FNO) can efficiently approximate solutions, they struggle with inverse problems, sensitivity estimation (du/dp), and concept drift. We address these limitations by introducing a sensitivity-based regularization strategy, called Sensitivity-Constrained Fourier Neural Operators (SC-FNO). SC-FNO achieves high accuracy in predicting solution paths and consistently outperforms standard FNO and FNO with physics-informed regularization. It improves performance in parameter inversion tasks, scales to high-dimensional parameter spaces (tested with up to 82 parameters), and reduces both data and training requirements. These gains are achieved with a modest increase in training time (30% to 130% per epoch) and generalize across various types of differential equations and neural operators. Code and selected experiments are available at: https://github.com/AMBehroozi/SC_Neural_Operators

arxiv情報

著者 Abdolmehdi Behroozi,Chaopeng Shen and,Daniel Kifer
発行日 2025-05-14 15:24:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.LG | Sensitivity-Constrained Fourier Neural Operators for Forward and Inverse Problems in Parametric Differential Equations はコメントを受け付けていません