Advances in Automated Fetal Brain MRI Segmentation and Biometry: Insights from the FeTA 2024 Challenge

要約

正確な胎児脳組織のセグメンテーションとバイオメトリクス解析は、胎内での脳の発達を研究するために不可欠である。FeTAチャレンジ2024では、組織セグメンテーションと並ぶ新たなタスクとして生体計測予測を導入することで、胎児脳MRI自動解析を進化させた。今回初めて、多様なマルチセントリックテストセットに、新しい低磁場(0.55T)MRIデータセットのデータが含まれました。評価指標も、トポロジーに特化したオイラー特性差(ED)を含むように拡張された。16チームがセグメンテーション法を提出し、そのほとんどは高磁場スキャンと低磁場スキャンの両方で一貫した性能を示した。しかし、長期的な傾向から、セグメンテーションの精度は頭打ちになりつつあり、その結果は評価者間のばらつきに近づいている。EDメトリクスは、従来のメトリクスでは見逃されていたトポロジカルな差異を発見し、低磁場データセットは最高のセグメンテーションスコアを達成した。バイオメトリクスの課題には7チームが参加したが、ほとんどの手法は、妊娠年齢のみに基づいて測定値を予測する単純なベースラインを上回ることができず、画像データのみから信頼性の高いバイオメトリクス推定値を抽出することの難しさを浮き彫りにした。ドメインシフト解析では、モデルの汎化に影響を与える最も重要な要因として画質が特定され、超解像パイプラインも重要な役割を果たした。妊娠年齢、病理学的特徴、撮影部位など、その他の要因の影響は小さいが、それでも測定可能であった。全体として、FeTA 2024は、胎児脳MRIにおけるマルチクラスセグメンテーションとバイオメトリー推定の包括的なベンチマークを提供し、臨床的にロバストで汎用性の高いAIツールを実現するために、データ中心のアプローチ、トポロジー評価の改善、データセットの多様化が必要であることを強調している。

要約(オリジナル)

Accurate fetal brain tissue segmentation and biometric analysis are essential for studying brain development in utero. The FeTA Challenge 2024 advanced automated fetal brain MRI analysis by introducing biometry prediction as a new task alongside tissue segmentation. For the first time, our diverse multi-centric test set included data from a new low-field (0.55T) MRI dataset. Evaluation metrics were also expanded to include the topology-specific Euler characteristic difference (ED). Sixteen teams submitted segmentation methods, most of which performed consistently across both high- and low-field scans. However, longitudinal trends indicate that segmentation accuracy may be reaching a plateau, with results now approaching inter-rater variability. The ED metric uncovered topological differences that were missed by conventional metrics, while the low-field dataset achieved the highest segmentation scores, highlighting the potential of affordable imaging systems when paired with high-quality reconstruction. Seven teams participated in the biometry task, but most methods failed to outperform a simple baseline that predicted measurements based solely on gestational age, underscoring the challenge of extracting reliable biometric estimates from image data alone. Domain shift analysis identified image quality as the most significant factor affecting model generalization, with super-resolution pipelines also playing a substantial role. Other factors, such as gestational age, pathology, and acquisition site, had smaller, though still measurable, effects. Overall, FeTA 2024 offers a comprehensive benchmark for multi-class segmentation and biometry estimation in fetal brain MRI, underscoring the need for data-centric approaches, improved topological evaluation, and greater dataset diversity to enable clinically robust and generalizable AI tools.

arxiv情報

著者 Vladyslav Zalevskyi,Thomas Sanchez,Misha Kaandorp,Margaux Roulet,Diego Fajardo-Rojas,Liu Li,Jana Hutter,Hongwei Bran Li,Matthew Barkovich,Hui Ji,Luca Wilhelmi,Aline Dändliker,Céline Steger,Mériam Koob,Yvan Gomez,Anton Jakovčić,Melita Klaić,Ana Adžić,Pavel Marković,Gracia Grabarić,Milan Rados,Jordina Aviles Verdera,Gregor Kasprian,Gregor Dovjak,Raphael Gaubert-Rachmühl,Maurice Aschwanden,Qi Zeng,Davood Karimi,Denis Peruzzo,Tommaso Ciceri,Giorgio Longari,Rachika E. Hamadache,Amina Bouzid,Xavier Lladó,Simone Chiarella,Gerard Martí-Juan,Miguel Ángel González Ballester,Marco Castellaro,Marco Pinamonti,Valentina Visani,Robin Cremese,Keïn Sam,Fleur Gaudfernau,Param Ahir,Mehul Parikh,Maximilian Zenk,Michael Baumgartner,Klaus Maier-Hein,Li Tianhong,Yang Hong,Zhao Longfei,Domen Preloznik,Žiga Špiclin,Jae Won Choi,Muyang Li,Jia Fu,Guotai Wang,Jingwen Jiang,Lyuyang Tong,Bo Du,Andrea Gondova,Sungmin You,Kiho Im,Abdul Qayyum,Moona Mazher,Steven A Niederer,Maya Yanko,Bella Specktor-Fadida,Dafna Ben Bashat,Andras Jakab,Roxane Licandro,Kelly Payette,Meritxell Bach Cuadra
発行日 2025-05-05 16:54:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Advances in Automated Fetal Brain MRI Segmentation and Biometry: Insights from the FeTA 2024 Challenge はコメントを受け付けていません

FolAI: Synchronized Foley Sound Generation with Semantic and Temporal Alignment

要約

従来のサウンドデザインワークフローは、フォーリーサウンドデザインのように、オーディオイベントをビジュアルキューに合わせるという手作業に頼っていました。このプロセスは時間がかかり、拡張が難しく、クリエイティブな意図を維持する自動化ツールがありません。最近、視覚から音声への生成が進歩したにもかかわらず、動画から時間的に一貫性があり、意味的に制御可能な効果音を生成することは、依然として大きな課題となっています。これらの限界に対処するために、我々はFolAIを導入する。FolAIは、音合成の「いつ」と「何を」を分離する2段階の生成フレームワークである。第一段階では、音声の時間的な足場となる、時間の経過に伴う動きの強さとリズム構造を捉えた滑らかな制御信号を映像から推定する。第2段階では、拡散に基づく生成モデルが、この時間的エンベロープと、ユーザーが提供する、希望する聴覚コンテンツ(例えば、素材やアクションの種類)を定義する高レベルの意味埋め込みの両方を条件として、音響効果を生成する。このモジュール設計により、タイミングと音色の正確な制御が可能になり、プロのフォーリーワークフローにおける創造的な柔軟性を維持しながら、反復作業を効率化することができます。足音の生成やアクションに特化したソノライゼーションなど、多様な視覚的コンテクストの結果は、我々のモデルが、視覚的な動きと時間的に一致し、ユーザーの意図と意味的に一致し、知覚的にリアルな音声を確実に生成することを示しています。これらの結果は、プロフェッショナルかつインタラクティブな環境において、スケーラブルで高品質なフォーリー音声合成のための制御可能でモジュール化されたソリューションとしてのFolAIの可能性を浮き彫りにしています。補足資料は、専用のデモページ(https://ispamm.github.io/FolAI)からアクセスできます。

要約(オリジナル)

Traditional sound design workflows rely on manual alignment of audio events to visual cues, as in Foley sound design, where everyday actions like footsteps or object interactions are recreated to match the on-screen motion. This process is time-consuming, difficult to scale, and lacks automation tools that preserve creative intent. Despite recent advances in vision-to-audio generation, producing temporally coherent and semantically controllable sound effects from video remains a major challenge. To address these limitations, we introduce FolAI, a two-stage generative framework that decouples the when and the what of sound synthesis, i.e., the temporal structure extraction and the semantically guided generation, respectively. In the first stage, we estimate a smooth control signal from the video that captures the motion intensity and rhythmic structure over time, serving as a temporal scaffold for the audio. In the second stage, a diffusion-based generative model produces sound effects conditioned both on this temporal envelope and on high-level semantic embeddings, provided by the user, that define the desired auditory content (e.g., material or action type). This modular design enables precise control over both timing and timbre, streamlining repetitive tasks while preserving creative flexibility in professional Foley workflows. Results on diverse visual contexts, such as footstep generation and action-specific sonorization, demonstrate that our model reliably produces audio that is temporally aligned with visual motion, semantically consistent with user intent, and perceptually realistic. These findings highlight the potential of FolAI as a controllable and modular solution for scalable, high-quality Foley sound synthesis in professional and interactive settings. Supplementary materials are accessible on our dedicated demo page at https://ispamm.github.io/FolAI.

arxiv情報

著者 Riccardo Fosco Gramaccioni,Christian Marinoni,Emilian Postolache,Marco Comunità,Luca Cosmo,Joshua D. Reiss,Danilo Comminiello
発行日 2025-05-05 16:55:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | FolAI: Synchronized Foley Sound Generation with Semantic and Temporal Alignment はコメントを受け付けていません

3D Vision-Language Gaussian Splatting

要約

近年の3D再構成手法と視覚言語モデルの進歩により、マルチモーダル3Dシーン理解の開発が推進されており、これはロボット工学、自律走行、仮想現実/拡張現実における重要な応用分野である。しかし、現在のマルチモーダルなシーン理解アプローチは、視覚モダリティと言語モダリティの間のバランスを取ることなく、素朴に意味表現を3D再構成手法に埋め込んでおり、半透明または反射オブジェクトの満足のいかない意味ラスタライズや、色モダリティへのオーバーフィッティングにつながっている。これらの制限を緩和するために、我々は、異なる視覚モダリティと意味モダリティを適切に扱うソリューション、すなわち、シーン理解のための3次元視覚-言語ガウススプラッティングモデルを提案し、言語モダリティの表現学習に重点を置く。我々は、意味ラスタライゼーションを強化するために、平滑化された意味指標と共にモダリティフュージョンを用いた、新しいクロスモーダルラスタライザを提案する。また、既存のビューと合成されたビューの間の意味的整合性を向上させるために、カメラビューブレンディング技術を採用し、オーバーフィッティングを効果的に緩和する。広範な実験により、我々の手法が、オープン語彙の意味分割において、既存の手法を大きく上回る、最先端の性能を達成することが実証された。

要約(オリジナル)

Recent advancements in 3D reconstruction methods and vision-language models have propelled the development of multi-modal 3D scene understanding, which has vital applications in robotics, autonomous driving, and virtual/augmented reality. However, current multi-modal scene understanding approaches have naively embedded semantic representations into 3D reconstruction methods without striking a balance between visual and language modalities, which leads to unsatisfying semantic rasterization of translucent or reflective objects, as well as over-fitting on color modality. To alleviate these limitations, we propose a solution that adequately handles the distinct visual and semantic modalities, i.e., a 3D vision-language Gaussian splatting model for scene understanding, to put emphasis on the representation learning of language modality. We propose a novel cross-modal rasterizer, using modality fusion along with a smoothed semantic indicator for enhancing semantic rasterization. We also employ a camera-view blending technique to improve semantic consistency between existing and synthesized views, thereby effectively mitigating over-fitting. Extensive experiments demonstrate that our method achieves state-of-the-art performance in open-vocabulary semantic segmentation, surpassing existing methods by a significant margin.

arxiv情報

著者 Qucheng Peng,Benjamin Planche,Zhongpai Gao,Meng Zheng,Anwesa Choudhuri,Terrence Chen,Chen Chen,Ziyan Wu
発行日 2025-05-05 17:00:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | 3D Vision-Language Gaussian Splatting はコメントを受け付けていません

Unsupervised training of keypoint-agnostic descriptors for flexible retinal image registration

要約

現在のカラー眼底画像登録手法は、特に、ラベル付けされたデータの欠如によって制限されている。そこで本研究では、キーポイント検出に依存しない新しい教師なし記述子学習法を開発する。これにより、得られる記述子ネットワークは、登録推論時に使用されるキーポイント検出器に依存しない。 この手法を検証するために、参考となる公開網膜画像登録データセット上で広範かつ包括的な比較を行う。さらに、様々な性質の複数のキーポイント検出器を用いて本手法をテストし、いくつかの新規なものも提案する。その結果、提案手法は正確なレジストレーションを提供し、教師あり手法に対して性能の損失を生じないことが実証された。さらに、使用するキーポイント検出器に関わらず、正確な性能を示す。従って、本研究は、医療領域における教師なし学習の活用に向けた注目すべき一歩である。

要約(オリジナル)

Current color fundus image registration approaches are limited, among other things, by the lack of labeled data, which is even more significant in the medical domain, motivating the use of unsupervised learning. Therefore, in this work, we develop a novel unsupervised descriptor learning method that does not rely on keypoint detection. This enables the resulting descriptor network to be agnostic to the keypoint detector used during the registration inference. To validate this approach, we perform an extensive and comprehensive comparison on the reference public retinal image registration dataset. Additionally, we test our method with multiple keypoint detectors of varied nature, even proposing some novel ones. Our results demonstrate that the proposed approach offers accurate registration, not incurring in any performance loss versus supervised methods. Additionally, it demonstrates accurate performance regardless of the keypoint detector used. Thus, this work represents a notable step towards leveraging unsupervised learning in the medical domain.

arxiv情報

著者 David Rivas-Villar,Álvaro S. Hervella,José Rouco,Jorge Novo
発行日 2025-05-05 17:02:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Unsupervised training of keypoint-agnostic descriptors for flexible retinal image registration はコメントを受け付けていません

DPNet: Dynamic Pooling Network for Tiny Object Detection

要約

無人航空機システム、特に複雑な環境では、小さな物体を正確に検出することが極めて重要である。画像のリサイズは、特に小さな物体の検出精度を向上させるための一般的な戦略である。しかし、単に画像を拡大するだけでは、計算コストと負サンプル数が大幅に増加するため、検出性能が著しく低下し、適用が制限される。本論文では、これらの問題を軽減するために、微小物体検出のためのダイナミックプーリングネットワーク(DPNet)を提案する。DPNetは、特徴マップの固定的なダウンサンプリング処理を調整可能なものに緩和する係数(df)を導入することにより、柔軟なダウンサンプリング戦略を採用する。さらに、各入力画像に対してdfを予測する軽量な予測器を設計し、これを用いてバックボーン内の特徴マップの解像度を下げる。こうして、入力を考慮したダウンサンプリングを実現する。また、適応的正規化モジュール(ANM)を設計し、統一された検出器を異なるdfsに対応させる。ガイダンスロスは予測器の学習を監督する。DPNetは検出精度と効率をトレードオフさせるためにコンピューティングリソースを動的に割り当てる。TinyCOCOとTinyPersonデータセットでの実験から、DPNetは同等の検出性能を維持しながら、それぞれ35%以上と25%以上のGFLOPを節約できることが示された。コードは公開される予定です。

要約(オリジナル)

In unmanned aerial systems, especially in complex environments, accurately detecting tiny objects is crucial. Resizing images is a common strategy to improve detection accuracy, particularly for small objects. However, simply enlarging images significantly increases computational costs and the number of negative samples, severely degrading detection performance and limiting its applicability. This paper proposes a Dynamic Pooling Network (DPNet) for tiny object detection to mitigate these issues. DPNet employs a flexible down-sampling strategy by introducing a factor (df) to relax the fixed downsampling process of the feature map to an adjustable one. Furthermore, we design a lightweight predictor to predict df for each input image, which is used to decrease the resolution of feature maps in the backbone. Thus, we achieve input-aware downsampling. We also design an Adaptive Normalization Module (ANM) to make a unified detector compatible with different dfs. A guidance loss supervises the predictor’s training. DPNet dynamically allocates computing resources to trade off between detection accuracy and efficiency. Experiments on the TinyCOCO and TinyPerson datasets show that DPNet can save over 35% and 25% GFLOPs, respectively, while maintaining comparable detection performance. The code will be made publicly available.

arxiv情報

著者 Luqi Gong,Haotian Chen,Yikun Chen,Tianliang Yao,Chao Li,Shuai Zhao,Guangjie Han
発行日 2025-05-05 17:13:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | DPNet: Dynamic Pooling Network for Tiny Object Detection はコメントを受け付けていません

Interpretable Dynamic Graph Neural Networks for Small Occluded Object Detection and Tracking

要約

歩行者、自転車、バイクのような小さくて見えない物体の検出と追跡は、不規則な動き、頻繁なオクルージョン、動的な都市環境での視認性の悪さから、交通監視システムにとって大きな課題となります。YOLO11のような従来の手法は、正確な検出のための空間特徴抽出には長けているものの、このような小さくて動的に移動する物体に対しては、特にリアルタイムのデータ更新やリソース効率の処理に苦戦することが多い。本稿では、これらの限界に対処するために、ダイナミックグラフニューラルネットワーク(DGNN)をYOLO11に統合した新しいフレームワークであるDGNN-YOLOを紹介する。標準的なGNNとは異なり、DGNNはリアルタイムでグラフ構造を動的に更新する優れた能力から選ばれており、これにより変化の激しい都市交通シナリオにおいて、適応的でロバストな物体追跡が可能になる。このフレームワークは、オブジェクトをノードとして、それらの相互作用をエッジとして捉え、グラフ表現を構築し、定期的に更新することで、急速に変化する状況に効果的に対応する。さらに、DGNN-YOLOはGrad-CAM、Grad-CAM++、Eigen-CAMの可視化技術を取り入れ、解釈可能性を高め、モデルの意思決定プロセスに対する洞察を提供し、信頼を醸成する。広範な実験によりフレームワークの性能が検証され、精度0.8382、想起0.6875、mAP@0.5:0.95 0.6476を達成し、既存の手法を大幅に凌駕している。本研究は、リアルタイムの交通監視のためのスケーラブルで解釈可能なソリューションを提供し、小さくて隠蔽された物体の検出と追跡という重要な課題に取り組むことで、インテリジェント交通システムの能力を大幅に向上させる。

要約(オリジナル)

The detection and tracking of small, occluded objects such as pedestrians, cyclists, and motorbikes pose significant challenges for traffic surveillance systems because of their erratic movement, frequent occlusion, and poor visibility in dynamic urban environments. Traditional methods like YOLO11, while proficient in spatial feature extraction for precise detection, often struggle with these small and dynamically moving objects, particularly in handling real-time data updates and resource efficiency. This paper introduces DGNN-YOLO, a novel framework that integrates dynamic graph neural networks (DGNNs) with YOLO11 to address these limitations. Unlike standard GNNs, DGNNs are chosen for their superior ability to dynamically update graph structures in real-time, which enables adaptive and robust tracking of objects in highly variable urban traffic scenarios. This framework constructs and regularly updates its graph representations, capturing objects as nodes and their interactions as edges, thus effectively responding to rapidly changing conditions. Additionally, DGNN-YOLO incorporates Grad-CAM, Grad-CAM++, and Eigen-CAM visualization techniques to enhance interpretability and foster trust, offering insights into the model’s decision-making process. Extensive experiments validate the framework’s performance, achieving a precision of 0.8382, recall of 0.6875, and mAP@0.5:0.95 of 0.6476, significantly outperforming existing methods. This study offers a scalable and interpretable solution for real-time traffic surveillance and significantly advances intelligent transportation systems’ capabilities by addressing the critical challenge of detecting and tracking small, occluded objects.

arxiv情報

著者 Shahriar Soudeep,Md Abrar Jahin,M. F. Mridha
発行日 2025-05-05 17:28:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | Interpretable Dynamic Graph Neural Networks for Small Occluded Object Detection and Tracking はコメントを受け付けていません

Database-Agnostic Gait Enrollment using SetTransformers

要約

歩行認識は、監視やモニタリングの用途で関連性が高まっている、控えめで長距離のアイデンティティ分析のための強力なツールとして浮上している。ディープラーニングと大規模データセットの最近の進歩により、クローズドセット条件下での高精度な認識が可能になったが、実世界での展開には、オープンセット歩行登録が必要である。これは、新しい歩行サンプルが既知のアイデンティティに対応するか、以前に見たことのない個人を表すかを判断することを意味する。この研究では、データセットに依存せず、認識アーキテクチャにも依存しない、オープンセット歩行登録のための変換器ベースのフレームワークを紹介する。本手法はSetTransformerを活用し、タスク固有の閾値や新しい環境に対する再トレーニングを必要とせず、プローブサンプルとギャラリーから抽出されたコンテキストセットの埋め込みに基づいて登録決定を行う。エンロールメントをメインの認識パイプラインから切り離すことで、我々のモデルは、異なるデータセット、ギャラリーのサイズ、アイデンティティ分布に渡って一般化される。我々は、アイデンティティとアイデンティティ毎のウォークの異なる比率で既存のデータセットを使用する評価プロトコルを提案する。スケルトンベースの歩行表現を用いて我々の手法をインスタンス化し、3つの最先端認識モデル(GaitGraph、GaitFormer、GaitPT)の埋め込みを用いて、2つのベンチマークデータセット(CASIA-BとPsyMo)で評価する。我々は、本手法が柔軟であり、様々なシナリオにおいて正確に登録を行うことができ、従来のアプローチと比較してデータに対してより良くスケールすることを示す。コードとデータセットのシナリオを公開する予定である。

要約(オリジナル)

Gait recognition has emerged as a powerful tool for unobtrusive and long-range identity analysis, with growing relevance in surveillance and monitoring applications. Although recent advances in deep learning and large-scale datasets have enabled highly accurate recognition under closed-set conditions, real-world deployment demands open-set gait enrollment, which means determining whether a new gait sample corresponds to a known identity or represents a previously unseen individual. In this work, we introduce a transformer-based framework for open-set gait enrollment that is both dataset-agnostic and recognition-architecture-agnostic. Our method leverages a SetTransformer to make enrollment decisions based on the embedding of a probe sample and a context set drawn from the gallery, without requiring task-specific thresholds or retraining for new environments. By decoupling enrollment from the main recognition pipeline, our model is generalized across different datasets, gallery sizes, and identity distributions. We propose an evaluation protocol that uses existing datasets in different ratios of identities and walks per identity. We instantiate our method using skeleton-based gait representations and evaluate it on two benchmark datasets (CASIA-B and PsyMo), using embeddings from three state-of-the-art recognition models (GaitGraph, GaitFormer, and GaitPT). We show that our method is flexible, is able to accurately perform enrollment in different scenarios, and scales better with data compared to traditional approaches. We will make the code and dataset scenarios publicly available.

arxiv情報

著者 Nicoleta Basoc,Adrian Cosma,Andy Cǎtrunǎ,Emilian Rǎdoi
発行日 2025-05-05 17:42:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Database-Agnostic Gait Enrollment using SetTransformers はコメントを受け付けていません

MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing

要約

現在の多被験者カスタマイズアプローチには、2つの重大な課題がある。それは、多様な多被験者トレーニングデータを取得することの難しさと、異なる被験者間の属性のもつれである。これらのギャップを埋めるために、我々はMUSARを提案する。MUSARは、単一被験者のトレーニングデータのみを必要としながら、ロバストな多被験者カスタマイズを実現するシンプルかつ効果的なフレームワークである。まず、データの制約を打破するために、非対称二分割学習を導入する。これは、静的アテンションルーティングとデュアルブランチLoRAによって、ディプティーク構築によってもたらされる分布バイアスを積極的に補正しながら、多被験者学習を容易にするために、単一被験者の画像からディプティーク学習ペアを構築する。第二に、被験者間のもつれを解消するために、動的アテンションルーティング機構を導入し、生成された画像と条件付き被験者との間の両対称マッピングを適応的に確立する。この設計により、多被写体表現の分離が達成されるだけでなく、参照被写体が増加してもスケーラブルな汎化性能が維持される。包括的な実験により、我々のMUSARは、単一被験者データセットしか必要としないにもかかわらず、画質、被験者の一貫性、インタラクションの自然さにおいて、既存の手法(多被験者データセットで訓練された手法も含む)を凌駕することが実証された。

要約(オリジナル)

Current multi-subject customization approaches encounter two critical challenges: the difficulty in acquiring diverse multi-subject training data, and attribute entanglement across different subjects. To bridge these gaps, we propose MUSAR – a simple yet effective framework to achieve robust multi-subject customization while requiring only single-subject training data. Firstly, to break the data limitation, we introduce debiased diptych learning. It constructs diptych training pairs from single-subject images to facilitate multi-subject learning, while actively correcting the distribution bias introduced by diptych construction via static attention routing and dual-branch LoRA. Secondly, to eliminate cross-subject entanglement, we introduce dynamic attention routing mechanism, which adaptively establishes bijective mappings between generated images and conditional subjects. This design not only achieves decoupling of multi-subject representations but also maintains scalable generalization performance with increasing reference subjects. Comprehensive experiments demonstrate that our MUSAR outperforms existing methods – even those trained on multi-subject dataset – in image quality, subject consistency, and interaction naturalness, despite requiring only single-subject dataset.

arxiv情報

著者 Zinan Guo,Pengze Zhang,Yanze Wu,Chong Mou,Songtao Zhao,Qian He
発行日 2025-05-05 17:50:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing はコメントを受け付けていません

Towards Dataset Copyright Evasion Attack against Personalized Text-to-Image Diffusion Models

要約

テキストから画像への拡散(T2I)モデルは急速に進歩し、テキストによるプロンプトを条件とした高品質の画像生成が可能になった。しかし、パーソナライゼーションのために事前に訓練されたモデルを微調整する傾向が強まっているため、データセットの不正使用に対する深刻な懸念が生じている。これに対処するため、バックドア技術を使用して微調整データセットに透かしを埋め込むデータセット所有者検証(DOV)が解決策として浮上している。これらの透かしは、良性のサンプルの下では不活性であるが、トリガーされると所有者指定の出力を生成する。T2I拡散モデルに対するDOVの有望性にもかかわらず、著作権回避攻撃(CEA)に対する頑健性は未解明のままである。本論文では、攻撃者がCEAによってこれらのメカニズムを迂回し、電子透かしの入ったデータセットで学習したモデルであっても電子透かしを回避できるようにする方法を探る。我々は、T2I拡散モデルのDOVを弱体化させるために特別に設計された最初の著作権回避攻撃(すなわちCEAT2I)を提案する。具体的には、我々のCEAT2Iは、電子透かし入りサンプルの検出、トリガーの識別、効率的な電子透かしの緩和という3つの段階から構成される。我々のアプローチを推進する重要な洞察は、T2Iモデルは微調整の間、透かし入りサンプルに対してより速い収束を示すということであり、これは中間的な特徴偏差を通して明らかになる。これを利用して、CEAT2Iは透かし入りサンプルを確実に検出することができる。次に、検出された電子透かしサンプルのプロンプトからトークンを繰り返し除去し、中間特徴量のシフトを監視して、正確なトリガートークンを突き止める。最後に、注入された透かしを除去するために閉形式の概念消去法を採用する。広範な実験により、我々のCEAT2Iはモデルの性能を維持しながら、DOVメカニズムを効果的に回避することが示された。

要約(オリジナル)

Text-to-image (T2I) diffusion models have rapidly advanced, enabling high-quality image generation conditioned on textual prompts. However, the growing trend of fine-tuning pre-trained models for personalization raises serious concerns about unauthorized dataset usage. To combat this, dataset ownership verification (DOV) has emerged as a solution, embedding watermarks into the fine-tuning datasets using backdoor techniques. These watermarks remain inactive under benign samples but produce owner-specified outputs when triggered. Despite the promise of DOV for T2I diffusion models, its robustness against copyright evasion attacks (CEA) remains unexplored. In this paper, we explore how attackers can bypass these mechanisms through CEA, allowing models to circumvent watermarks even when trained on watermarked datasets. We propose the first copyright evasion attack (i.e., CEAT2I) specifically designed to undermine DOV in T2I diffusion models. Concretely, our CEAT2I comprises three stages: watermarked sample detection, trigger identification, and efficient watermark mitigation. A key insight driving our approach is that T2I models exhibit faster convergence on watermarked samples during the fine-tuning, evident through intermediate feature deviation. Leveraging this, CEAT2I can reliably detect the watermarked samples. Then, we iteratively ablate tokens from the prompts of detected watermarked samples and monitor shifts in intermediate features to pinpoint the exact trigger tokens. Finally, we adopt a closed-form concept erasure method to remove the injected watermark. Extensive experiments show that our CEAT2I effectively evades DOV mechanisms while preserving model performance.

arxiv情報

著者 Kuofeng Gao,Yufei Zhu,Yiming Li,Jiawang Bai,Yong Yang,Zhifeng Li,Shu-Tao Xia
発行日 2025-05-05 17:51:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR, cs.CV | Towards Dataset Copyright Evasion Attack against Personalized Text-to-Image Diffusion Models はコメントを受け付けていません

Towards Application-Specific Evaluation of Vision Models: Case Studies in Ecology and Biology

要約

コンピュータ・ビジョンの手法は、生態学的・生物学的ワークフローを合理化する大きな可能性を示しており、研究コミュニティが利用できるデータセットやモデルの数も増えてきている。しかし、これらのリソースは、機械学習メトリクスを使用した評価に主眼が置かれており、その適用が下流の分析にどのような影響を与えるかについては比較的強調されていない。我々は、最終的なユースケースの文脈におけるモデルのパフォーマンスを直接表す、アプリケーション固有のメトリクスを用いてモデルを評価すべきであると主張する。(1)カメラトラップによる距離サンプリングで、ビデオベースの行動分類器を使用した場合のチンパンジーの生息数と密度の推定、(2)3D姿勢推定器を使用したハトの頭部回転の推定。我々は、強力な機械学習性能を持つモデル(例えば、87%のmAP)であっても、専門家由来のデータと比較して、生息数の推定に不一致をもたらすデータが得られる可能性があることを示す。同様に、姿勢推定において最も高い性能を持つモデルでも、ハトの視線方向について最も正確な推論を行うことはできない。これらの知見から、生態学的/生物学的データセットにアプリケーションに特化したメトリクスを統合し、モデルが下流のアプリケーションのコンテキストでベンチマークされるようにし、アプリケーションのワークフローへのモデルの統合を促進することを研究者に呼びかける。

要約(オリジナル)

Computer vision methods have demonstrated considerable potential to streamline ecological and biological workflows, with a growing number of datasets and models becoming available to the research community. However, these resources focus predominantly on evaluation using machine learning metrics, with relatively little emphasis on how their application impacts downstream analysis. We argue that models should be evaluated using application-specific metrics that directly represent model performance in the context of its final use case. To support this argument, we present two disparate case studies: (1) estimating chimpanzee abundance and density with camera trap distance sampling when using a video-based behaviour classifier and (2) estimating head rotation in pigeons using a 3D posture estimator. We show that even models with strong machine learning performance (e.g., 87% mAP) can yield data that leads to discrepancies in abundance estimates compared to expert-derived data. Similarly, the highest-performing models for posture estimation do not produce the most accurate inferences of gaze direction in pigeons. Motivated by these findings, we call for researchers to integrate application-specific metrics in ecological/biological datasets, allowing for models to be benchmarked in the context of their downstream application and to facilitate better integration of models into application workflows.

arxiv情報

著者 Alex Hoi Hang Chan,Otto Brookes,Urs Waldmann,Hemal Naik,Iain D. Couzin,Majid Mirmehdi,Noël Adiko Houa,Emmanuelle Normand,Christophe Boesch,Lukas Boesch,Mimi Arandjelovic,Hjalmar Kühl,Tilo Burghardt,Fumihiro Kano
発行日 2025-05-05 17:51:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Towards Application-Specific Evaluation of Vision Models: Case Studies in Ecology and Biology はコメントを受け付けていません