Foundation Models — A Panacea for Artificial Intelligence in Pathology?

要約

病理学における人工知能(AI)の役割は、診断を支援することから、全体のスライド画像(WSI)の予測形態パターンの発見に進化しています。
最近、自己監視前のトレーニングを活用する基礎モデル(FMS)は、多様なダウンストリームタスクの普遍的なソリューションとして広く提唱されています。
ただし、タスク固有(TS)モデルを使用したエンドツーエンドの学習に対する臨床的適用性と一般化の利点については、未解決の疑問が残っています。
ここでは、前立腺がんの診断とグリーソングレーディングのための臨床グレードのパフォーマンスを備えたAIに焦点を当てました。
11か国の15のサイトで7,342人の患者から100,000人以上のコアニードル生検を使用して、このタスクのAIの最大の検証を提示します。
複数のインスタンス学習フレームワークで、2つのFMSを完全なエンドツーエンドTSモデルと比較しました。
私たちの調査結果は、FMSがTSモデルを普遍的に上回るという仮定に挑戦します。
FMSはデータスカースシナリオのユーティリティを実証しましたが、そのパフォーマンスは収束しました – 場合によっては、十分なラベル付きトレーニングデータが利用可能である場合に-TSモデルによって超えられました。
特に、広範なタスク固有のトレーニングにより、臨床的に有意な誤分解、挑戦的な形態学の誤診、およびさまざまなWSIスキャナー間の変動性が著しく減少しました。
さらに、FMSはTSモデルの最大35倍のエネルギーを使用し、持続可能性に関する懸念を引き起こしました。
私たちの結果は、FMが迅速なプロトタイピングと研究に明確な利点を提供している一方で、臨床的に適用可能な医療AIの普遍的なソリューションとしての役割は不確実なままであることを強調しています。
ハイステークスの臨床アプリケーションの場合、厳しい検証とタスク固有のトレーニングの検討は非常に重要です。
FMSの強みとエンドツーエンドの学習を統合して、臨床使用に適した堅牢でリソース効率の高いAI病理ソリューションを実現することを提唱しています。

要約(オリジナル)

The role of artificial intelligence (AI) in pathology has evolved from aiding diagnostics to uncovering predictive morphological patterns in whole slide images (WSIs). Recently, foundation models (FMs) leveraging self-supervised pre-training have been widely advocated as a universal solution for diverse downstream tasks. However, open questions remain about their clinical applicability and generalization advantages over end-to-end learning using task-specific (TS) models. Here, we focused on AI with clinical-grade performance for prostate cancer diagnosis and Gleason grading. We present the largest validation of AI for this task, using over 100,000 core needle biopsies from 7,342 patients across 15 sites in 11 countries. We compared two FMs with a fully end-to-end TS model in a multiple instance learning framework. Our findings challenge assumptions that FMs universally outperform TS models. While FMs demonstrated utility in data-scarce scenarios, their performance converged with – and was in some cases surpassed by – TS models when sufficient labeled training data were available. Notably, extensive task-specific training markedly reduced clinically significant misgrading, misdiagnosis of challenging morphologies, and variability across different WSI scanners. Additionally, FMs used up to 35 times more energy than the TS model, raising concerns about their sustainability. Our results underscore that while FMs offer clear advantages for rapid prototyping and research, their role as a universal solution for clinically applicable medical AI remains uncertain. For high-stakes clinical applications, rigorous validation and consideration of task-specific training remain critically important. We advocate for integrating the strengths of FMs and end-to-end learning to achieve robust and resource-efficient AI pathology solutions fit for clinical use.

arxiv情報

著者 Nita Mulliqi,Anders Blilie,Xiaoyi Ji,Kelvin Szolnoky,Henrik Olsson,Sol Erika Boman,Matteo Titus,Geraldine Martinez Gonzalez,Julia Anna Mielcarz,Masi Valkonen,Einar Gudlaugsson,Svein R. Kjosavik,José Asenjo,Marcello Gambacorta,Paolo Libretti,Marcin Braun,Radzislaw Kordek,Roman Łowicki,Kristina Hotakainen,Päivi Väre,Bodil Ginnerup Pedersen,Karina Dalsgaard Sørensen,Benedicte Parm Ulhøi,Pekka Ruusuvuori,Brett Delahunt,Hemamali Samaratunga,Toyonori Tsuzuki,Emilius A. M. Janssen,Lars Egevad,Martin Eklund,Kimmo Kartasalo
発行日 2025-02-28 17:40:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Foundation Models — A Panacea for Artificial Intelligence in Pathology? はコメントを受け付けていません

Adaptive Keyframe Sampling for Long Video Understanding

要約

マルチモーダル大手言語モデル(MLLM)は、視覚入力をコンテキストとして大規模な言語モデル(LLMS)に追加トークンとして注入することにより、オープンワールドの視覚的理解を可能にしました。
ただし、視覚入力が単一の画像から長いビデオに変化すると、膨大な量のビデオトークンがMLLMの最大容量を大幅に超えているため、上記のパラダイムが困難になります。
したがって、既存のビデオベースのMLLMは、主に入力データからトークンのごく一部をサンプリングする際に確立されます。これにより、重要な情報が失われ、したがって誤った回答が生じる可能性があります。
このペーパーでは、Adaptive Keyframeサンプリング(AKS)という名前のシンプルで効果的なアルゴリズムを紹介します。
キーフレーム選択として知られるプラグアンドプレイモジュールを挿入します。これは、固定数のビデオトークンで有用な情報を最大化することを目的としています。
キーフレームの選択は、(1)キーフレームとプロンプトの関連性、および(2)ビデオ上のキーフレームのカバレッジを含む最適化として策定し、最適なソリューションを近似するための適応アルゴリズムを提示します。
2つの長いビデオ理解ベンチマークでの実験では、適応キーフレームサンプリングにより、有益なキーフレームを選択するとビデオQAの精度(強力なベースラインを超えて)が向上することが検証されます。
私たちの研究は、ビデオベースのMLLMにおける情報を事前にろ過することの重要性を明らかにしています。
コードはhttps://github.com/nctimtang/aksで入手できます。

要約(オリジナル)

Multimodal large language models (MLLMs) have enabled open-world visual understanding by injecting visual input as extra tokens into large language models (LLMs) as contexts. However, when the visual input changes from a single image to a long video, the above paradigm encounters difficulty because the vast amount of video tokens has significantly exceeded the maximal capacity of MLLMs. Therefore, existing video-based MLLMs are mostly established upon sampling a small portion of tokens from input data, which can cause key information to be lost and thus produce incorrect answers. This paper presents a simple yet effective algorithm named Adaptive Keyframe Sampling (AKS). It inserts a plug-and-play module known as keyframe selection, which aims to maximize the useful information with a fixed number of video tokens. We formulate keyframe selection as an optimization involving (1) the relevance between the keyframes and the prompt, and (2) the coverage of the keyframes over the video, and present an adaptive algorithm to approximate the best solution. Experiments on two long video understanding benchmarks validate that Adaptive Keyframe Sampling improves video QA accuracy (beyond strong baselines) upon selecting informative keyframes. Our study reveals the importance of information pre-filtering in video-based MLLMs. Code is available at https://github.com/ncTimTang/AKS.

arxiv情報

著者 Xi Tang,Jihao Qiu,Lingxi Xie,Yunjie Tian,Jianbin Jiao,Qixiang Ye
発行日 2025-02-28 17:46:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Adaptive Keyframe Sampling for Long Video Understanding はコメントを受け付けていません

Back to the Future Cyclopean Stereo: a human perception approach unifying deep and geometric constraints

要約

深さの不連続性と閉塞を組み込んだシクロピアンアイモデルで見られるように、分析的な3D表面モデルを明示的に提供することにより、ステレオビジョンを革新します。
この幾何学的基盤と学習されたステレオ機能により、システムは両方のアプローチの強みから利益を得ることができます。
また、データマッチングでは不十分な閉塞領域またはテクスチャーのない領域を埋めるために、表面の以前の単眼モデルを呼び出します。
私たちの結果はすでに最先端の純粋にデータ駆動型の方法と同等であり、重要な視覚情報をキャプチャするための3D幾何学モデルの重要性を強調している視覚品質がはるかに優れています。
このような定性的改善により、バーチャルリアリティ、より良い人間の経験、および重要なエラーを減らすためのロボット工学のために、適用可能性が見られる可能性があります。
私たちのアプローチの目的は、3D表面の幾何学的特性の理解とモデリングがコンピュータービジョン研究にとって有益であることを実証することを目的としています。

要約(オリジナル)

We innovate in stereo vision by explicitly providing analytical 3D surface models as viewed by a cyclopean eye model that incorporate depth discontinuities and occlusions. This geometrical foundation combined with learned stereo features allows our system to benefit from the strengths of both approaches. We also invoke a prior monocular model of surfaces to fill in occlusion regions or texture-less regions where data matching is not sufficient. Our results already are on par with the state-of-the-art purely data-driven methods and are of much better visual quality, emphasizing the importance of the 3D geometrical model to capture critical visual information. Such qualitative improvements may find applicability in virtual reality, for a better human experience, as well as in robotics, for reducing critical errors. Our approach aims to demonstrate that understanding and modeling geometrical properties of 3D surfaces is beneficial to computer vision research.

arxiv情報

著者 Sherlon Almeida da Silva,Davi Geiger,Luiz Velho,Moacir Antonelli Ponti
発行日 2025-02-28 17:58:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Back to the Future Cyclopean Stereo: a human perception approach unifying deep and geometric constraints はコメントを受け付けていません

Efficient and Context-Aware Label Propagation for Zero-/Few-Shot Training-Free Adaptation of Vision-Language Model

要約

ビジョン言語モデル(VLM)は、さまざまな下流タスクに取り組むために、大規模な事前訓練モデルを活用することにより、機械学習に革命をもたらしました。
ラベル、トレーニング、およびデータ効率が向上しましたが、最先端のVLMの多くは依然としてタスク固有のハイパーパラメーターチューニングを必要とし、テストサンプルを完全に活用できません。
これらの課題を克服するために、ラベル効率の高い適応と推論のためのグラフベースのアプローチを提案します。
私たちの方法は、タスク固有のチューニングなしで推論のためのラベル伝播を使用して、テキストプロンプト、少数のショットの例、およびテストサンプルを介してグラフを動的に構築します。
既存のゼロショットラベル伝播手法とは異なり、当社のアプローチには追加の非標識サポートセットが必要なく、動的グラフ拡張を介してテストサンプルマニホールドを効果的に活用します。
さらに、タスク適応の精度を向上させるために、コンテキストを意識した機能の再重視メカニズムを紹介します。
さらに、この方法は効率的なグラフ拡張をサポートし、リアルタイムの帰納的推論を可能にします。
細かい分類や分散除外の一般化など、下流のタスクに関する広範な評価は、アプローチの有効性を示しています。
ソースコードは、https://github.com/yushu-li/ecalpで入手できます。

要約(オリジナル)

Vision-language models (VLMs) have revolutionized machine learning by leveraging large pre-trained models to tackle various downstream tasks. Although label, training, and data efficiency have improved, many state-of-the-art VLMs still require task-specific hyperparameter tuning and fail to fully exploit test samples. To overcome these challenges, we propose a graph-based approach for label-efficient adaptation and inference. Our method dynamically constructs a graph over text prompts, few-shot examples, and test samples, using label propagation for inference without task-specific tuning. Unlike existing zero-shot label propagation techniques, our approach requires no additional unlabeled support set and effectively leverages the test sample manifold through dynamic graph expansion. We further introduce a context-aware feature re-weighting mechanism to improve task adaptation accuracy. Additionally, our method supports efficient graph expansion, enabling real-time inductive inference. Extensive evaluations on downstream tasks, such as fine-grained categorization and out-of-distribution generalization, demonstrate the effectiveness of our approach. The source code is available at https://github.com/Yushu-Li/ECALP.

arxiv情報

著者 Yushu Li,Yongyi Su,Adam Goodge,Kui Jia,Xun Xu
発行日 2025-02-28 18:17:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Efficient and Context-Aware Label Propagation for Zero-/Few-Shot Training-Free Adaptation of Vision-Language Model はコメントを受け付けていません

MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing

要約

拡散ベースの画像生成の大幅な進歩にもかかわらず、被験者主導の生成と命令ベースの編集は依然として困難です。
既存の方法は通常、それらを別々に扱い、限られた高品質のデータと貧弱な一般化に苦しんでいます。
ただし、どちらのタスクでも、入力と出力間の一貫性を維持しながら、複雑な視覚的変動をキャプチャする必要があります。
したがって、マルチモーダル命令を使用してタスク表現を標準化する統一されたフレームワークであるMigeを提案します。
それは、主題主導の世代を、空白のキャンバスでの作成として扱い、既存の画像の変更として命令ベースの編集を扱い、共有入出力定式化を確立します。
Migeは、フリーフォームのマルチモーダル命令を統一されたビジョン言語空間にマッピングする新しいマルチモーダルエンコーダーを導入し、機能融合メカニズムを介して視覚的およびセマンティック機能を統合します。この統一は両方のタスクの共同トレーニングを可能にし、2つの重要な利点を提供します。
命令ベースの編集。
(2)一般化:統一された形式での学習により、クロスタスクの知識転送が容易になり、Migeが命令ベースのサブジェクト駆動型編集を含む新しい組成タスクに一般化できます。
実験は、Migeが主題主導の生成と命令ベースの編集の両方で優れていることを示しており、命令ベースの主題主導型編集の新しいタスクで最先端を設定します。
コードとモデルはhttps://github.com/eureka-maggie/migeで公開されています。

要約(オリジナル)

Despite significant progress in diffusion-based image generation, subject-driven generation and instruction-based editing remain challenging. Existing methods typically treat them separately, struggling with limited high-quality data and poor generalization. However, both tasks require capturing complex visual variations while maintaining consistency between inputs and outputs. Therefore, we propose MIGE, a unified framework that standardizes task representations using multimodal instructions. It treats subject-driven generation as creation on a blank canvas and instruction-based editing as modification of an existing image, establishing a shared input-output formulation. MIGE introduces a novel multimodal encoder that maps free-form multimodal instructions into a unified vision-language space, integrating visual and semantic features through a feature fusion mechanism.This unification enables joint training of both tasks, providing two key advantages: (1) Cross-Task Enhancement: By leveraging shared visual and semantic representations, joint training improves instruction adherence and visual consistency in both subject-driven generation and instruction-based editing. (2) Generalization: Learning in a unified format facilitates cross-task knowledge transfer, enabling MIGE to generalize to novel compositional tasks, including instruction-based subject-driven editing. Experiments show that MIGE excels in both subject-driven generation and instruction-based editing while setting a state-of-the-art in the new task of instruction-based subject-driven editing. Code and model have been publicly available at https://github.com/Eureka-Maggie/MIGE.

arxiv情報

著者 Xueyun Tian,Wei Li,Bingbing Xu,Yige Yuan,Yuanzhuo Wang,Huawei Shen
発行日 2025-02-28 18:21:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing はコメントを受け付けていません

AutoComb: Automated Comb Sign Detector for 3D CTE Scans

要約

コームサインは、複数の胃腸疾患を検出するための重要なイメージングバイオマーカーです。
腸の壁に沿った血流の増加が潜在的な異常を示しているため、医師が炎症状態を診断するのに役立ちます。
その臨床的意義にもかかわらず、現在の検出方法は、マルチプラナーの画像指向の必要性により、手動で時間をかけており、主観的な解釈を起こしやすいです。
私たちの知る限り、私たちはCTEスキャンからの櫛記号を検出するための完全に自動化された手法を提案した最初です。
私たちの斬新なアプローチは、段階的アルゴリズムモジュールを介して処理を介して細かい血管分岐と壁の増強を識別することにより、病理学的高血管性の領域を示す確率的マップの開発に基づいています。
これらのモジュールには、ディープラーニングセグメンテーションモデル、ガウス混合モデル(GMM)、容器フィルターを使用した容器抽出、近隣の最大化による容器の反復確率的強化、容器上の距離ベースの重み制度を利用することが含まれます。
実験結果は、パイプラインがコームサインを効果的に識別し、クローン病および関連する高血管状態の診断精度を強化するための客観的で正確で信頼できるツールを提供することを示しています。

要約(オリジナル)

Comb Sign is an important imaging biomarker to detect multiple gastrointestinal diseases. It shows up as increased blood flow along the intestinal wall indicating potential abnormality, which helps doctors diagnose inflammatory conditions. Despite its clinical significance, current detection methods are manual, time-intensive, and prone to subjective interpretation due to the need for multi-planar image-orientation. To the best of our knowledge, we are the first to propose a fully automated technique for the detection of Comb Sign from CTE scans. Our novel approach is based on developing a probabilistic map that shows areas of pathological hypervascularity by identifying fine vascular bifurcations and wall enhancement via processing through stepwise algorithmic modules. These modules include utilising deep learning segmentation model, a Gaussian Mixture Model (GMM), vessel extraction using vesselness filter, iterative probabilistic enhancement of vesselness via neighborhood maximization and a distance-based weighting scheme over the vessels. Experimental results demonstrate that our pipeline effectively identifies Comb Sign, offering an objective, accurate, and reliable tool to enhance diagnostic accuracy in Crohn’s disease and related hypervascular conditions where Comb Sign is considered as one of the important biomarkers.

arxiv情報

著者 Shashwat Gupta,Sarthak Gupta,Akshan Agrawal,Mahim Naaz,Rajanikanth Yadav,Priyanka Bagade
発行日 2025-02-28 18:53:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | AutoComb: Automated Comb Sign Detector for 3D CTE Scans はコメントを受け付けていません

DELTA: Dense Efficient Long-range 3D Tracking for any video

要約

特に長いシーケンスにわたるピクセルレベルの精度を目指している場合、単眼ビデオからの密な3Dモーションの追跡は依然として挑戦的です。
3Dスペースのすべてのピクセルを効率的に追跡する新しい方法であるDeltaを紹介し、ビデオ全体で正確なモーション推定を可能にします。
当社のアプローチは、低解像度追跡のための共同グローバルローカル注意メカニズムを活用し、その後、高解像度の予測を実現するために変圧器ベースのアップサンプラーが続きます。
計算の非効率性またはスパーストラッキングによって制限される既存の方法とは異なり、Deltaは大規模に密な3D追跡を提供し、最先端の精度を達成しながら以前の方法よりも8倍速く実行されます。
さらに、トラッキングパフォーマンスに対する深さ表現の影響を調査し、最適な選択としてログの詳細を特定します。
広範な実験は、複数のベンチマークでのデルタの優位性を示しており、2Dと3Dの両方の密度の高い追跡タスクで新しい最先端の結果を達成しています。
私たちの方法は、3D空間での細粒の長期モーショントラッキングを必要とするアプリケーションに堅牢なソリューションを提供します。

要約(オリジナル)

Tracking dense 3D motion from monocular videos remains challenging, particularly when aiming for pixel-level precision over long sequences. We introduce DELTA, a novel method that efficiently tracks every pixel in 3D space, enabling accurate motion estimation across entire videos. Our approach leverages a joint global-local attention mechanism for reduced-resolution tracking, followed by a transformer-based upsampler to achieve high-resolution predictions. Unlike existing methods, which are limited by computational inefficiency or sparse tracking, DELTA delivers dense 3D tracking at scale, running over 8x faster than previous methods while achieving state-of-the-art accuracy. Furthermore, we explore the impact of depth representation on tracking performance and identify log-depth as the optimal choice. Extensive experiments demonstrate the superiority of DELTA on multiple benchmarks, achieving new state-of-the-art results in both 2D and 3D dense tracking tasks. Our method provides a robust solution for applications requiring fine-grained, long-term motion tracking in 3D space.

arxiv情報

著者 Tuan Duc Ngo,Peiye Zhuang,Chuang Gan,Evangelos Kalogerakis,Sergey Tulyakov,Hsin-Ying Lee,Chaoyang Wang
発行日 2025-02-28 18:54:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DELTA: Dense Efficient Long-range 3D Tracking for any video はコメントを受け付けていません

Unsupervised Parameter Efficient Source-free Post-pretraining

要約

NLPでの成功に続いて、最高のビジョンモデルは現在、10億パラメーターの範囲にあります。
これらの大きなモデルをターゲット分布に適応させることは、計算的および経済的に禁止されています。
この課題に対処するために、ソースドメインからターゲットドメインにベースモデルを効率的に適合させるように設計された、監視されていないパラメーター効率の高いソースのないソースのない予防アプローチであるUpstepを紹介します。
このようなソースフリーの設定には、壊滅的な忘却のリスクがあります。したがって、ii)壊滅的な忘却を最小限に抑え、トレーニングの繰り返しの50 \%でバックプロパゲーションをスキップすることにより計算コストをさらに削減する一連の補助操作(CVR)を提案します。
最後にiii)この適応プロセスは、低ランクの適応方法を通じて優先モデルを適応させることにより、パラメーター効率の高い方法で実行され、最適化するパラメーターのほんの一部をもたらします。
私たちは、監督されたものと監視されていないさまざまなバックボーンアーキテクチャを利用し、基本モデルとしてImagenetで訓練され、提案されたアプローチの適応性と一般化可能性を示す8つのターゲットドメインの多様なセットに適応します。

要約(オリジナル)

Following the success in NLP, the best vision models are now in the billion parameter ranges. Adapting these large models to a target distribution has become computationally and economically prohibitive. Addressing this challenge, we introduce UpStep, an Unsupervised Parameter-efficient Source-free post-pretraining approach, designed to efficiently adapt a base model from a source domain to a target domain: i) we design a self-supervised training scheme to adapt a pretrained model on an unlabeled target domain in a setting where source domain data is unavailable. Such source-free setting comes with the risk of catastrophic forgetting, hence, ii) we propose center vector regularization (CVR), a set of auxiliary operations that minimize catastrophic forgetting and additionally reduces the computational cost by skipping backpropagation in 50\% of the training iterations. Finally iii) we perform this adaptation process in a parameter-efficient way by adapting the pretrained model through low-rank adaptation methods, resulting in a fraction of parameters to optimize. We utilize various general backbone architectures, both supervised and unsupervised, trained on Imagenet as our base model and adapt them to a diverse set of eight target domains demonstrating the adaptability and generalizability of our proposed approach.

arxiv情報

著者 Abhishek Jha,Tinne Tuytelaars,Yuki M. Asano
発行日 2025-02-28 18:54:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Unsupervised Parameter Efficient Source-free Post-pretraining はコメントを受け付けていません

Raccoon: Multi-stage Diffusion Training with Coarse-to-Fine Curating Videos

要約

テキストからビデオへの生成は、拡散モデルの出現により有望な進歩を実証していますが、既存のアプローチはデータセットの品質と計算リソースによって制限されています。
これらの制限に対処するために、このペーパーでは、データキュレーションとモデル設計の両方を進める包括的なアプローチを提示します。
CFC-VIDS-1Mを紹介します。CFC-VIDS-1Mは、体系的な粗からファインキュレーションパイプラインを介して構築された高品質のビデオデータセットを紹介します。
パイプラインは、最初に複数の次元にわたってビデオの品質を評価し、次に視覚言語モデルを活用してテキストビデオアライメントとセマンティックな豊かさを強化する微調整された段階を評価します。
キュレーションされたデータセットが視覚の品質と時間的一貫性に重点を置いていることに基づいて、分離された空間的注意メカニズムを備えた変圧器ベースのアーキテクチャであるRaccoonを開発します。
このモデルは、ビデオ生成の複雑さを効率的に処理するように設計されたプログレッシブ4ステージ戦略を通じてトレーニングされています。
広範な実験は、高品質のデータキュレーションと効率的なトレーニング戦略の統合アプローチが、計算効率を維持しながら視覚的に魅力的で一時的にコヒーレントなビデオを生成することを示しています。
データセット、コード、モデルをリリースします。

要約(オリジナル)

Text-to-video generation has demonstrated promising progress with the advent of diffusion models, yet existing approaches are limited by dataset quality and computational resources. To address these limitations, this paper presents a comprehensive approach that advances both data curation and model design. We introduce CFC-VIDS-1M, a high-quality video dataset constructed through a systematic coarse-to-fine curation pipeline. The pipeline first evaluates video quality across multiple dimensions, followed by a fine-grained stage that leverages vision-language models to enhance text-video alignment and semantic richness. Building upon the curated dataset’s emphasis on visual quality and temporal coherence, we develop RACCOON, a transformer-based architecture with decoupled spatial-temporal attention mechanisms. The model is trained through a progressive four-stage strategy designed to efficiently handle the complexities of video generation. Extensive experiments demonstrate that our integrated approach of high-quality data curation and efficient training strategy generates visually appealing and temporally coherent videos while maintaining computational efficiency. We will release our dataset, code, and models.

arxiv情報

著者 Zhiyu Tan,Junyan Wang,Hao Yang,Luozheng Qin,Hesen Chen,Qiang Zhou,Hao Li
発行日 2025-02-28 18:56:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Raccoon: Multi-stage Diffusion Training with Coarse-to-Fine Curating Videos はコメントを受け付けていません

How far can we go with ImageNet for Text-to-Image generation?

要約

最近のテキストからイメージ(T2I)生成モデルは、品質よりもデータ量を優先する「より大きなISが優れている」パラダイムに続いて、10億規模のデータセットをトレーニングすることで顕著な結果を達成しました。
小規模で十分にキュレーションされたデータセットの戦略的なデータ増強が、大規模なWebスクレイプコレクションでトレーニングされたモデルと一致またはアウトパフォームすることができることを実証することにより、この確立されたパラダイムに挑戦します。
適切に設計されたテキストと画像の増強で拡張されたImagENetのみを使用して、GenevalでSD-XLで+2の総合スコアを達成し、DPGBenchで+5で+5を達成しながら、パラメーターと1/1000番目のトレーニング画像を使用します。
我々の結果は、大規模なデータセットではなく、戦略的データ増強がT2I生成にとってより持続可能なパスを提供できることを示唆しています。

要約(オリジナル)

Recent text-to-image (T2I) generation models have achieved remarkable results by training on billion-scale datasets, following a `bigger is better’ paradigm that prioritizes data quantity over quality. We challenge this established paradigm by demonstrating that strategic data augmentation of small, well-curated datasets can match or outperform models trained on massive web-scraped collections. Using only ImageNet enhanced with well-designed text and image augmentations, we achieve a +2 overall score over SD-XL on GenEval and +5 on DPGBench while using just 1/10th the parameters and 1/1000th the training images. Our results suggest that strategic data augmentation, rather than massive datasets, could offer a more sustainable path forward for T2I generation.

arxiv情報

著者 L. Degeorge,A. Ghosh,N. Dufour,D. Picard,V. Kalogeiton
発行日 2025-02-28 18:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | How far can we go with ImageNet for Text-to-Image generation? はコメントを受け付けていません