FMT:A Multimodal Pneumonia Detection Model Based on Stacking MOE Framework

要約

人工知能は、肺炎診断の医療画像分析を通じて診断精度を改善する可能性を示しています。
ただし、従来のマルチモーダルアプローチは、不完全なデータやモダリティ損失など、実際の課題に対処できないことがよくあります。
この研究では、柔軟なマルチモーダルトランス(FMT)が提案されました。これは、ResNet-50とBERTを共同表現学習に使用し、その後、臨床モダリティの損失をシミュレートして堅牢性を向上させる動的なマスクされた注意戦略が続きます。
最後に、専門家(MOE)アーキテクチャの連続的な混合を使用して、マルチレベルの決定の改良を達成しました。
小さなマルチモーダル肺炎データセットでの評価後、FMTは94%の精度、95%のリコール、93%F1スコア、シングルモーダルベースライン(ResNet:89%; Bert:79%)を上回る最先端のパフォーマンスを達成し、医療ベンチマーク(90%)を達成しました。
リソースに制約のある医療環境。

要約(オリジナル)

Artificial intelligence has shown the potential to improve diagnostic accuracy through medical image analysis for pneumonia diagnosis. However, traditional multimodal approaches often fail to address real-world challenges such as incomplete data and modality loss. In this study, a Flexible Multimodal Transformer (FMT) was proposed, which uses ResNet-50 and BERT for joint representation learning, followed by a dynamic masked attention strategy that simulates clinical modality loss to improve robustness; finally, a sequential mixture of experts (MOE) architecture was used to achieve multi-level decision refinement. After evaluation on a small multimodal pneumonia dataset, FMT achieved state-of-the-art performance with 94% accuracy, 95% recall, and 93% F1 score, outperforming single-modal baselines (ResNet: 89%; BERT: 79%) and the medical benchmark CheXMed (90%), providing a scalable solution for multimodal diagnosis of pneumonia in resource-constrained medical settings.

arxiv情報

著者 Jingyu Xu,Yang Wang
発行日 2025-03-07 17:52:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | FMT:A Multimodal Pneumonia Detection Model Based on Stacking MOE Framework はコメントを受け付けていません

Joint 3D Point Cloud Segmentation using Real-Sim Loop: From Panels to Trees and Branches

要約

近代的な果樹園は、管理を改善するために明確なパネル部門を備えた構造化された列に植えられています。
パネルからツリーおよびブランチ(P2TB)へのポイントクラウドの正確で効率的なジョイントセグメンテーションは、ロボット操作に不可欠です。
ただし、ほとんどの現在のセグメンテーション方法は、単一のインスタンスセグメンテーションに焦点を当てており、共同タスクを実行するための一連のディープネットワークに依存しています。
この戦略は、データに組み込まれた階層情報の使用を妨げ、エラーの蓄積と注釈と計算のコストの増加の両方につながり、実際のアプリケーションのスケーラビリティを制限します。
この研究では、データ生成をトレーニングするためのReal2Sim L-TreegenとP2TBタスク用に設計された共同モデル(J-P2TB)を組み込んだ新しいアプローチを提案しました。
生成されたシミュレーションデータセットでトレーニングされたJ-P2TBモデルは、ゼロショット学習を介して実際のパネルポイントクラウドの共同セグメンテーションに使用されました。
代表的な方法と比較して、私たちのモデルは、ほとんどのセグメンテーションメトリックでそれらを上回り、学習可能なパラメーターを40%少なく使用しました。
このSIM2realの結果は、モデルトレーニングにおけるLトリーゲンの有効性と、共同セグメンテーションのJ-P2TBのパフォーマンスを強調し、現実世界アプリケーションの強力な精度、効率、および一般化可能性を示しています。
これらの改善は、自動化された果樹園の運用のためのロボットの開発に大きな利益をもたらすだけでなく、デジタルツインテクノロジーを進めます。

要約(オリジナル)

Modern orchards are planted in structured rows with distinct panel divisions to improve management. Accurate and efficient joint segmentation of point cloud from Panel to Tree and Branch (P2TB) is essential for robotic operations. However, most current segmentation methods focus on single instance segmentation and depend on a sequence of deep networks to perform joint tasks. This strategy hinders the use of hierarchical information embedded in the data, leading to both error accumulation and increased costs for annotation and computation, which limits its scalability for real-world applications. In this study, we proposed a novel approach that incorporated a Real2Sim L-TreeGen for training data generation and a joint model (J-P2TB) designed for the P2TB task. The J-P2TB model, trained on the generated simulation dataset, was used for joint segmentation of real-world panel point clouds via zero-shot learning. Compared to representative methods, our model outperformed them in most segmentation metrics while using 40% fewer learnable parameters. This Sim2Real result highlighted the efficacy of L-TreeGen in model training and the performance of J-P2TB for joint segmentation, demonstrating its strong accuracy, efficiency, and generalizability for real-world applications. These improvements would not only greatly benefit the development of robots for automated orchard operations but also advance digital twin technology.

arxiv情報

著者 Tian Qiu,Ruiming Du,Nikolai Spine,Lailiang Cheng,Yu Jiang
発行日 2025-03-07 17:54:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, q-bio.QM | Joint 3D Point Cloud Segmentation using Real-Sim Loop: From Panels to Trees and Branches はコメントを受け付けていません

TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models

要約

単眼ビデオのカメラの軌跡をリダイレクトするための新しいアプローチであるTrajectoryCrafterを提示します。
確率的コンテンツ生成からの決定論的ビュー変換を解き放つことにより、私たちの方法は、ユーザー指定のカメラの軌跡を正確に制御することを実現します。
ポイントクラウドレンダーとソースビデオを条件として同時に統合し、正確なビュー変換とコヒーレント4Dコンテンツ生成を確保する新しいデュアルストリーム条件付きビデオ拡散モデルを提案します。
希少なマルチビュービデオを活用する代わりに、革新的なダブルレプロジェット戦略によって、Webスケールの単眼ビデオと静的なマルチビューデータセットを組み合わせたハイブリッドトレーニングデータセットをキュレートし、多様なシーン全体で堅牢な一般化を大幅に促進します。
マルチビューと大規模な単眼ビデオに関する広範な評価は、私たちの方法の優れたパフォーマンスを示しています。

要約(オリジナル)

We present TrajectoryCrafter, a novel approach to redirect camera trajectories for monocular videos. By disentangling deterministic view transformations from stochastic content generation, our method achieves precise control over user-specified camera trajectories. We propose a novel dual-stream conditional video diffusion model that concurrently integrates point cloud renders and source videos as conditions, ensuring accurate view transformations and coherent 4D content generation. Instead of leveraging scarce multi-view videos, we curate a hybrid training dataset combining web-scale monocular videos with static multi-view datasets, by our innovative double-reprojection strategy, significantly fostering robust generalization across diverse scenes. Extensive evaluations on multi-view and large-scale monocular videos demonstrate the superior performance of our method.

arxiv情報

著者 Mark YU,Wenbo Hu,Jinbo Xing,Ying Shan
発行日 2025-03-07 17:57:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models はコメントを受け付けていません

VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control

要約

破損したビデオコンテンツを復元することを目的としたビデオInpaintingは、かなりの進歩を経験しています。
これらの進歩にもかかわらず、既存の方法は、光の流れと受容フィールドプライアーを通じてマスクされていない領域ピクセルを伝播するか、画像を拡張するモデルを一時的に拡張するかどうかにかかわらず、完全にマスクされたオブジェクトを生成する際の課題に直面するか、それぞれ1つのモデルでのバックグラウンドコンテキストの保存と前景生成の競合する目的のバランスを取ります。
これらの制限に対処するために、効率的なコンテキストエンコーダー(バックボーンパラメーターの6%のみを含む)を組み込んだ新しいデュアルストリームパラダイムVideoPainterを提案し、マスクされたビデオを処理し、バックボーンを認識したバックグラウンドコンテキストキューを任意の訓練を受けたビデオに注入します。
このアーキテクチャの分離は、重要な背景コンテキストの微妙な統合を可能にしながら、モデルの学習の複雑さを大幅に削減します。
また、あらゆる長さのビデオが開始され、実用的な適用性を大幅に向上させる、新しいターゲット領域IDの再サンプリング手法を紹介します。
さらに、現在のビジョン理解モデルを活用するスケーラブルなデータセットパイプラインを確立し、VPDATAとVPBenchを提供して、セグメンテーションベースのトレーニングと評価を促進し、390Kを超えるダイバーシップクリップでデートする最大のビデオであるデータセットとベンチマークを入力します。
パイプラインベースとしての開拓を使用して、ビデオ編集やビデオ編集ペアデータ生成など、競争力のあるパフォーマンス、および実用的な可能性を実証する下流アプリケーションも調査します。
広範な実験では、ビデオ品質、マスク地域の保存、テキストの一貫性など、8つの主要なメトリックにわたる、任意の長さのビデオの編集と編集の両方でVideoPainterの優れたパフォーマンスを示しています。

要約(オリジナル)

Video inpainting, which aims to restore corrupted video content, has experienced substantial progress. Despite these advances, existing methods, whether propagating unmasked region pixels through optical flow and receptive field priors, or extending image-inpainting models temporally, face challenges in generating fully masked objects or balancing the competing objectives of background context preservation and foreground generation in one model, respectively. To address these limitations, we propose a novel dual-stream paradigm VideoPainter that incorporates an efficient context encoder (comprising only 6% of the backbone parameters) to process masked videos and inject backbone-aware background contextual cues to any pre-trained video DiT, producing semantically consistent content in a plug-and-play manner. This architectural separation significantly reduces the model’s learning complexity while enabling nuanced integration of crucial background context. We also introduce a novel target region ID resampling technique that enables any-length video inpainting, greatly enhancing our practical applicability. Additionally, we establish a scalable dataset pipeline leveraging current vision understanding models, contributing VPData and VPBench to facilitate segmentation-based inpainting training and assessment, the largest video inpainting dataset and benchmark to date with over 390K diverse clips. Using inpainting as a pipeline basis, we also explore downstream applications including video editing and video editing pair data generation, demonstrating competitive performance and significant practical potential. Extensive experiments demonstrate VideoPainter’s superior performance in both any-length video inpainting and editing, across eight key metrics, including video quality, mask region preservation, and textual coherence.

arxiv情報

著者 Yuxuan Bian,Zhaoyang Zhang,Xuan Ju,Mingdeng Cao,Liangbin Xie,Ying Shan,Qiang Xu
発行日 2025-03-07 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM | VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control はコメントを受け付けていません

BEHAVIOR Robot Suite: Streamlining Real-World Whole-Body Manipulation for Everyday Household Activities

要約

現実世界の家庭用タスクは、モバイル操作ロボットに大きな課題をもたらします。
既存のロボットベンチマークの分析により、成功したタスクパフォ​​ーマンスが3つの重要な全身制御機能、つまりバイマニュアル調整、安定した正確なナビゲーション、および広範なエンドエフェクターの到達可能性にかかっていることが明らかになりました。
これらの機能を達成するには、慎重なハードウェア設計が必要ですが、結果として生じるシステムの複雑さにより、視覚運動のポリシー学習がさらに複雑になります。
これらの課題に対処するために、多様な家庭用タスクにおける全身操作のための包括的なフレームワークであるBehavior Robot Suite(BRS)を紹介します。
BRSは、4ドーフの胴体を備えた、両手の車輪付きロボットの上に構築されており、データ収集のための費用対効果の高い全身テレオ操作インターフェイスと、全身視覚運動ポリシーを学習するための新しいアルゴリズムを統合します。
3つのコア機能を強調するだけでなく、長距離ナビゲーション、明確化および変形可能なオブジェクトとの相互作用、限定空間での操作などの追加の複雑さを導入する5つの挑戦的な家庭用タスクでBRSを評価します。
BRSの統合されたロボットの具体化、データ収集インターフェイス、および学習フレームワークは、日常の家庭用タスクの実世界の全身操作を可能にするための重要なステップをマークしていると考えています。
BRSはhttps://behavior-robot-suite.github.io/でオープンソーシングされています

要約(オリジナル)

Real-world household tasks present significant challenges for mobile manipulation robots. An analysis of existing robotics benchmarks reveals that successful task performance hinges on three key whole-body control capabilities: bimanual coordination, stable and precise navigation, and extensive end-effector reachability. Achieving these capabilities requires careful hardware design, but the resulting system complexity further complicates visuomotor policy learning. To address these challenges, we introduce the BEHAVIOR Robot Suite (BRS), a comprehensive framework for whole-body manipulation in diverse household tasks. Built on a bimanual, wheeled robot with a 4-DoF torso, BRS integrates a cost-effective whole-body teleoperation interface for data collection and a novel algorithm for learning whole-body visuomotor policies. We evaluate BRS on five challenging household tasks that not only emphasize the three core capabilities but also introduce additional complexities, such as long-range navigation, interaction with articulated and deformable objects, and manipulation in confined spaces. We believe that BRS’s integrated robotic embodiment, data collection interface, and learning framework mark a significant step toward enabling real-world whole-body manipulation for everyday household tasks. BRS is open-sourced at https://behavior-robot-suite.github.io/

arxiv情報

著者 Yunfan Jiang,Ruohan Zhang,Josiah Wong,Chen Wang,Yanjie Ze,Hang Yin,Cem Gokmen,Shuran Song,Jiajun Wu,Li Fei-Fei
発行日 2025-03-07 18:15:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | BEHAVIOR Robot Suite: Streamlining Real-World Whole-Body Manipulation for Everyday Household Activities はコメントを受け付けていません

NoT: Federated Unlearning via Weight Negation

要約

Federated Ulderning(FU)は、訓練されたフェデレーションラーニング(FL)モデルから参加者のデータ貢献を削除し、プライバシーと規制のコンプライアンスを確保することを目指しています。
従来のFUメソッドは、多くの場合、クライアント側またはサーバー側の補助ストレージに依存しているか、データが使用できなくなった場合に実行不可能な依存関係をターゲットにしたデータに直接アクセスする必要があります。
これらの制限を克服するために、重量否定(-1を掛ける)に基づく斬新で効率的なFUアルゴリズムを提案します。
私たちは、最適なパラメーターのセットから離れたモデルパラメーターを摂動することで、効果的かつ効率的な未学習を達成できるが、迅速な再最適化のために適切に配置されることにより、達成できると主張します。
この手法は、一見矛盾しているように見えますが、理論的には接地されています。体重否定の摂動が効果的に層間の同時捕獲を破壊し、おおよその最適性特性を保存しながら学習を誘導し、それによって迅速な回復を可能にすることを証明します。
3つのデータセットと3つのモデルアーキテクチャにわたる実験結果は、既存のベースラインを学習していない有効性と通信および計算効率において、既存のベースラインを大幅に上回っていないことを示しています。

要約(オリジナル)

Federated unlearning (FU) aims to remove a participant’s data contributions from a trained federated learning (FL) model, ensuring privacy and regulatory compliance. Traditional FU methods often depend on auxiliary storage on either the client or server side or require direct access to the data targeted for removal-a dependency that may not be feasible if the data is no longer available. To overcome these limitations, we propose NoT, a novel and efficient FU algorithm based on weight negation (multiplying by -1), which circumvents the need for additional storage and access to the target data. We argue that effective and efficient unlearning can be achieved by perturbing model parameters away from the set of optimal parameters, yet being well-positioned for quick re-optimization. This technique, though seemingly contradictory, is theoretically grounded: we prove that the weight negation perturbation effectively disrupts inter-layer co-adaptation, inducing unlearning while preserving an approximate optimality property, thereby enabling rapid recovery. Experimental results across three datasets and three model architectures demonstrate that NoT significantly outperforms existing baselines in unlearning efficacy as well as in communication and computational efficiency.

arxiv情報

著者 Yasser H. Khalil,Leo Brunswic,Soufiane Lamghari,Xu Li,Mahdi Beitollahi,Xi Chen
発行日 2025-03-07 18:19:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | NoT: Federated Unlearning via Weight Negation はコメントを受け付けていません

NeRF-Aug: Data Augmentation for Robotics with Neural Radiance Fields

要約

不明なオブジェクトに一般化できるポリシーをトレーニングすることは、ロボット工学の分野で長年の課題です。
ポリシーのパフォーマンスは、トレーニング中にシーン内のオブジェクトが見られなかった状況で大幅に低下することがよくあります。
この問題を解決するために、データセットに存在しないオブジェクトと対話するためのポリシーを教えることができる新しい方法であるnerf-augを提示します。
このアプローチは、増強のための神経放射輝度フィールドの速度、フォトリアリズム、および3D一貫性を活用することにより、既存のアプローチとは異なります。
NERF-AUGはどちらもより多くのフォトリアリスティックデータを作成し、既存の方法よりも63%速く実行されます。
専門家のデモに存在しない9つの新しいオブジェクトを備えた5つのタスクでの方法の有効性を実証します。
メソッドを次の最良の方法と比較すると、平均パフォーマンスが55.6%を達成します。
https://nerf-aug.github.ioでビデオの結果を見ることができます。

要約(オリジナル)

Training a policy that can generalize to unknown objects is a long standing challenge within the field of robotics. The performance of a policy often drops significantly in situations where an object in the scene was not seen during training. To solve this problem, we present NeRF-Aug, a novel method that is capable of teaching a policy to interact with objects that are not present in the dataset. This approach differs from existing approaches by leveraging the speed, photorealism, and 3D consistency of a neural radiance field for augmentation. NeRF-Aug both creates more photorealistic data and runs 63% faster than existing methods. We demonstrate the effectiveness of our method on 5 tasks with 9 novel objects that are not present in the expert demonstrations. We achieve an average performance boost of 55.6% when comparing our method to the next best method. You can see video results at https://nerf-aug.github.io.

arxiv情報

著者 Eric Zhu,Mara Levy,Matthew Gwilliam,Abhinav Shrivastava
発行日 2025-03-07 18:20:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | NeRF-Aug: Data Augmentation for Robotics with Neural Radiance Fields はコメントを受け付けていません

AIM-Fair: Advancing Algorithmic Fairness via Selectively Fine-Tuning Biased Models with Contextual Synthetic Data

要約

生成モデルの最近の進歩により、AIが生成されたデータによるモデルの公平性の改善に関する研究が促進されました。
ただし、既存の方法は、合成データの多様性と品質の制限に直面していることが多く、公平性と全体的なモデルの精度が低下します。
さらに、多くのアプローチは、人口統計グループラベルの可用性に依存しています。
このペーパーでは、これらの制限を克服し、アルゴリズムの公平性を促進する最先端の生成モデルの可能性を活用することを目指して、AIM-FAIRを提案します。
人口統計の注釈なしで、実際のデータで最初に訓練された偏ったモデルから始まる微調整パラダイムを調査します。
このモデルは、最先端の拡散モデルによって生成された偏りのない合成データを使用して、その公平性を向上させるために微調整されます。
この微調整パラダイムでは、2つの重要な課題が特定されています。1)高度な生成モデルでも発生する可能性のある合成データの低品質、および2)実際のデータと合成データの間のドメインとバイアスのギャップ。
合成データの品質の制限に対処するために、コンテキスト合成データ生成(CSDG)を提案して、コンテキスト対応LLMによって生成されたプロンプトを使用してテキストから画像拡散モデル(T2I)を使用してデータを生成し、合成データのバイアスのデータの多様性と制御の両方を確保します。
ドメインとバイアスのシフトを解決するために、バイアスに対してより敏感でドメインシフトに敏感でないモデルパラメーターのみが更新される新しい選択的微調整スキームを導入します。
CelebaおよびUtkfaceデータセットでの実験は、私たちのAIM-FAIRが有用性を維持しながらモデルの公平性を改善し、モデルの公平性への完全かつ部分的に微調整されたアプローチの両方を上回ることを示しています。

要約(オリジナル)

Recent advances in generative models have sparked research on improving model fairness with AI-generated data. However, existing methods often face limitations in the diversity and quality of synthetic data, leading to compromised fairness and overall model accuracy. Moreover, many approaches rely on the availability of demographic group labels, which are often costly to annotate. This paper proposes AIM-Fair, aiming to overcome these limitations and harness the potential of cutting-edge generative models in promoting algorithmic fairness. We investigate a fine-tuning paradigm starting from a biased model initially trained on real-world data without demographic annotations. This model is then fine-tuned using unbiased synthetic data generated by a state-of-the-art diffusion model to improve its fairness. Two key challenges are identified in this fine-tuning paradigm, 1) the low quality of synthetic data, which can still happen even with advanced generative models, and 2) the domain and bias gap between real and synthetic data. To address the limitation of synthetic data quality, we propose Contextual Synthetic Data Generation (CSDG) to generate data using a text-to-image diffusion model (T2I) with prompts generated by a context-aware LLM, ensuring both data diversity and control of bias in synthetic data. To resolve domain and bias shifts, we introduce a novel selective fine-tuning scheme in which only model parameters more sensitive to bias and less sensitive to domain shift are updated. Experiments on CelebA and UTKFace datasets show that our AIM-Fair improves model fairness while maintaining utility, outperforming both fully and partially fine-tuned approaches to model fairness.

arxiv情報

著者 Zengqun Zhao,Ziquan Liu,Yu Cao,Shaogang Gong,Ioannis Patras
発行日 2025-03-07 18:26:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | AIM-Fair: Advancing Algorithmic Fairness via Selectively Fine-Tuning Biased Models with Contextual Synthetic Data はコメントを受け付けていません

Task-oriented Uncertainty Collaborative Learning for Label-Efficient Brain Tumor Segmentation

要約

マルチコントラスト磁気共鳴イメージング(MRI)は、異なるコントラストから補完的な情報を活用することにより、脳腫瘍のセグメンテーションと診断に重要な役割を果たします。
それぞれのコントラストは、特定の腫瘍特性を強調し、腫瘍の形態、浮腫、および病理学的不均一性を包括的に理解することを可能にします。
ただし、既存の方法は、特に注釈が限られている場合、さまざまなコントラストにわたるマルチレベルの特異性の知覚の課題に依然として直面しています。
これらの課題には、データの不均一性、粒度の違い、および冗長な情報からの干渉が含まれます。
これらの制限に対処するために、マルチコントラストMRIセグメンテーションのためのタスク指向の不確実性共同学習(TUCL)フレームワークを提案します。
TUCLは、コントラストとタスク全体で特徴の相互作用を動的にモデル化するために、侵入内およびクロスプロンプトの注意メカニズムを備えたタスク指向の迅速な注意(TPA)モジュールを導入します。
さらに、循環プロセスは、予測をプロンプトにマッピングするように設計されており、プロンプトが効果的に利用されるようにします。
デコード段階では、TUCLフレームワークは、予測を繰り返し改善することにより堅牢なセグメンテーションを保証するデュアルパス不確実性洗練(DUR)戦略を提案します。
限られた標識データの広範な実験結果は、TUCLがセグメンテーションの精度を大幅に改善することを示しています(サイコロで88.2 \%、HD95で10.853 mm)。
TUCLには、マルチコントラスト情報を抽出し、広範な注釈への依存を減らす可能性があることを示しています。
このコードは、https://github.com/zhenxuan-zhang/tucl_brainsegで入手できます。

要約(オリジナル)

Multi-contrast magnetic resonance imaging (MRI) plays a vital role in brain tumor segmentation and diagnosis by leveraging complementary information from different contrasts. Each contrast highlights specific tumor characteristics, enabling a comprehensive understanding of tumor morphology, edema, and pathological heterogeneity. However, existing methods still face the challenges of multi-level specificity perception across different contrasts, especially with limited annotations. These challenges include data heterogeneity, granularity differences, and interference from redundant information. To address these limitations, we propose a Task-oriented Uncertainty Collaborative Learning (TUCL) framework for multi-contrast MRI segmentation. TUCL introduces a task-oriented prompt attention (TPA) module with intra-prompt and cross-prompt attention mechanisms to dynamically model feature interactions across contrasts and tasks. Additionally, a cyclic process is designed to map the predictions back to the prompt to ensure that the prompts are effectively utilized. In the decoding stage, the TUCL framework proposes a dual-path uncertainty refinement (DUR) strategy which ensures robust segmentation by refining predictions iteratively. Extensive experimental results on limited labeled data demonstrate that TUCL significantly improves segmentation accuracy (88.2\% in Dice and 10.853 mm in HD95). It shows that TUCL has the potential to extract multi-contrast information and reduce the reliance on extensive annotations. The code is available at: https://github.com/Zhenxuan-Zhang/TUCL_BrainSeg.

arxiv情報

著者 Zhenxuan Zhang,Hongjie Wu,Jiahao Huang,Baihong Xie,Zhifan Gao,Junxian Du,Pete Lally,Guang Yang
発行日 2025-03-07 18:44:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Task-oriented Uncertainty Collaborative Learning for Label-Efficient Brain Tumor Segmentation はコメントを受け付けていません

Motion by Queries: Identity-Motion Trade-offs in Text-to-Video Generation

要約

テキスト間拡散モデルは、テキストの説明からコヒーレントなビデオクリップを生成する際に顕著な進歩を示しています。
ただし、これらのモデルの動き、構造、およびアイデンティティ表現の相互作用は、未調査のままです。
ここでは、自己関節クエリ機能(別名Q機能)が動き、構造、アイデンティティを同時に管理し、これらの表現が相互作用したときに発生する課題をどのように統治するかを調査します。
我々の分析では、Qはレイアウトだけでなく、除去中にQが被験者のアイデンティティにも強い影響を与え、アイデンティティを転送する副作用なしに動きを転送することを困難にしていることが明らかになりました。
この二重の役割を理解することで、クエリフィーチャインジェクション(Qインジェクション)を制御し、2つのアプリケーションを実証することができました。(1)既存のアプローチよりも20倍効率的なゼロショットモーション転送方法、(2)Qインジェクションがモーションフィデルさを促進する一貫したマルチショットビデオ生成のトレーニングフリーテクニック。

要約(オリジナル)

Text-to-video diffusion models have shown remarkable progress in generating coherent video clips from textual descriptions. However, the interplay between motion, structure, and identity representations in these models remains under-explored. Here, we investigate how self-attention query features (a.k.a. Q features) simultaneously govern motion, structure, and identity and examine the challenges arising when these representations interact. Our analysis reveals that Q affects not only layout, but that during denoising Q also has a strong effect on subject identity, making it hard to transfer motion without the side-effect of transferring identity. Understanding this dual role enabled us to control query feature injection (Q injection) and demonstrate two applications: (1) a zero-shot motion transfer method that is 20 times more efficient than existing approaches, and (2) a training-free technique for consistent multi-shot video generation, where characters maintain identity across multiple video shots while Q injection enhances motion fidelity.

arxiv情報

著者 Yuval Atzmon,Rinon Gal,Yoad Tewel,Yoni Kasten,Gal Chechik
発行日 2025-03-07 18:46:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Motion by Queries: Identity-Motion Trade-offs in Text-to-Video Generation はコメントを受け付けていません