Interpretable Concept-based Deep Learning Framework for Multimodal Human Behavior Modeling

要約

インテリジェントな接続性の現代の時代において、システムが人間の行動状態を認識、解釈、応答できるようにする感情コンピューティング(AC)は、多くのAIシステムの統合された部分になりました。
すべての人間中心のシステムにおける責任あるAIおよび信頼性の最も重要なコンポーネントの1つとして、説明可能性はACの大きな関心事でした。
特に、最近リリースされたEUの一般データ保護規制では、生体認証ベースのシステムや感情的なコンピューティング分野で広く使用されている感情認識システムなど、高リスクのAIシステムが十分に解釈できる必要があります。
既存の説明可能な方法は、しばしば解釈可能性とパフォーマンスの間に妥協します。
それらのほとんどは、利害関係者に意味のあるドメイン固有の説明を提供することなく、主要なネットワークパラメーターの強調にのみ焦点を当てています。
さらに、彼らはまた、マルチモーダルデータソースからの洞察を効果的に共同学習および説明する際の課題に直面しています。
これらの制限に対処するために、斬新で一般化可能なフレームワーク、すなわち、注意ガイド付き概念モデル(AGCM)を提案します。これは、予測につながる概念とそれらが観察される場所を特定することにより、学習可能な概念的説明を提供します。
AGCMは、マルチモーダルの概念の調整と共同学習を通じて、空間的および時間的信号に拡張可能であり、モデルの意思決定プロセスに関するより深い洞察を持つ利害関係者に力を与えます。
確立された表情認識ベンチマークデータセットでのAGCMの効率を検証しながら、より複雑な実世界の人間の行動を理解するアプリケーションに関する一般化性を実証します。

要約(オリジナル)

In the contemporary era of intelligent connectivity, Affective Computing (AC), which enables systems to recognize, interpret, and respond to human behavior states, has become an integrated part of many AI systems. As one of the most critical components of responsible AI and trustworthiness in all human-centered systems, explainability has been a major concern in AC. Particularly, the recently released EU General Data Protection Regulation requires any high-risk AI systems to be sufficiently interpretable, including biometric-based systems and emotion recognition systems widely used in the affective computing field. Existing explainable methods often compromise between interpretability and performance. Most of them focus only on highlighting key network parameters without offering meaningful, domain-specific explanations to the stakeholders. Additionally, they also face challenges in effectively co-learning and explaining insights from multimodal data sources. To address these limitations, we propose a novel and generalizable framework, namely the Attention-Guided Concept Model (AGCM), which provides learnable conceptual explanations by identifying what concepts that lead to the predictions and where they are observed. AGCM is extendable to any spatial and temporal signals through multimodal concept alignment and co-learning, empowering stakeholders with deeper insights into the model’s decision-making process. We validate the efficiency of AGCM on well-established Facial Expression Recognition benchmark datasets while also demonstrating its generalizability on more complex real-world human behavior understanding applications.

arxiv情報

著者 Xinyu Li,Marwa Mahmoud
発行日 2025-02-14 13:15:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | Interpretable Concept-based Deep Learning Framework for Multimodal Human Behavior Modeling はコメントを受け付けていません

SEW: Self-calibration Enhanced Whole Slide Pathology Image Analysis

要約

病理学の画像は、がんの診断と治療のための「ゴールドスタンダード」と見なされており、ギガピクセルの画像は広範な組織と細胞情報を提供します。
既存の方法は、包括的な病理学的画像分析のためのグローバルな構造的および局所的な詳細機能を同時に抽出することができません。
これらの制限に対処するために、グローバルブランチ、フォーカス予測因子、および詳細なブランチの3つのコンポーネントで構成されるスライド病理学の画像分析全体のセルフキャリブレーション強化フレームワークを提案します。
グローバルブランチは、最初は病理学的なサムネイルを使用して分類されますが、フォーカス予測子は、グローバルブランチの最後の層の特徴に基づいて分類に関連する領域を識別します。
詳細な抽出分岐は、拡大領域が病変領域に対応するかどうかを評価します。
最後に、グローバルブランチとディテールブランチ間の特徴の一貫性の制約により、グローバルブランチが適切な領域に焦点を合わせ、最終識別のために十分な識別機能を抽出することが保証されます。
これらの焦点を絞った識別機能は、特徴クラスターの一意性と組織の空間分布の観点からの新規予後腫瘍マーカーを明らかにするために非常に貴重であることが証明されています。
広範な実験結果は、提案されたフレームワークが病理学的採点および予後タスクの正確で説明可能な結果を​​迅速に提供できることを示しています。

要約(オリジナル)

Pathology images are considered the “gold standard’ for cancer diagnosis and treatment, with gigapixel images providing extensive tissue and cellular information. Existing methods fail to simultaneously extract global structural and local detail features for comprehensive pathology image analysis efficiently. To address these limitations, we propose a self-calibration enhanced framework for whole slide pathology image analysis, comprising three components: a global branch, a focus predictor, and a detailed branch. The global branch initially classifies using the pathological thumbnail, while the focus predictor identifies relevant regions for classification based on the last layer features of the global branch. The detailed extraction branch then assesses whether the magnified regions correspond to the lesion area. Finally, a feature consistency constraint between the global and detail branches ensures that the global branch focuses on the appropriate region and extracts sufficient discriminative features for final identification. These focused discriminative features prove invaluable for uncovering novel prognostic tumor markers from the perspective of feature cluster uniqueness and tissue spatial distribution. Extensive experiment results demonstrate that the proposed framework can rapidly deliver accurate and explainable results for pathological grading and prognosis tasks.

arxiv情報

著者 Haoming Luo,Xiaotian Yu,Shengxuming Zhang,Jiabin Xia,Yang Jian,Yuning Sun,Liang Xue,Mingli Song,Jing Zhang,Xiuming Zhang,Zunlei Feng
発行日 2025-02-14 13:33:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SEW: Self-calibration Enhanced Whole Slide Pathology Image Analysis はコメントを受け付けていません

MonoForce: Learnable Image-conditioned Physics Engine

要約

オンボードカメラの画像からの大まかなオフロード地形でのロボット軌跡の予測のための新しいモデルを提案します。
このモデルは、エンドツーエンドの微分可能であるため、大規模なデータから学習する能力を維持しながら、物理学を認識しているニューラルシンボリック層を通じて古典力学の法則を実施します。
提案されたハイブリッドモデルは、ロボットとテレインの相互作用力を神経系シンボリック層と予測するブラックボックスコンポーネントを統合します。
このレイヤーには、地形との接触点でこれらの力を照会することにより、ロボットの軌跡を計算する微分可能な物理エンジンが含まれています。
提案されているアーキテクチャは、かなりの幾何学的および物理学的事前で構成されているため、結果として得られるモデルは、$ 10^4 $軌道を1秒あたり10ドル4ドルの軌道に供給する実際の画像に条件付けられた学習可能な物理エンジンとも見なすことができます。
このアーキテクチャは、SIMからリアルのギャップを減らし、分散分布の感度を緩和することを主張し、経験的に実証します。
迅速なシミュレーション速度と組み合わせて、差別化性により、モデルの予測制御、軌跡撮影、監視および強化学習またはスラムなど、さまざまなアプリケーションにモデルが適切に適用されます。
コードとデータは公開されています。

要約(オリジナル)

We propose a novel model for the prediction of robot trajectories on rough offroad terrain from the onboard camera images. This model enforces the laws of classical mechanics through a physics-aware neural symbolic layer while preserving the ability to learn from large-scale data as it is end-to-end differentiable. The proposed hybrid model integrates a black-box component that predicts robot-terrain interaction forces with a neural-symbolic layer. This layer includes a differentiable physics engine that computes the robot’s trajectory by querying these forces at the points of contact with the terrain. As the proposed architecture comprises substantial geometrical and physics priors, the resulting model can also be seen as a learnable physics engine conditioned on real images that delivers $10^4$ trajectories per second. We argue and empirically demonstrate that this architecture reduces the sim-to-real gap and mitigates out-of-distribution sensitivity. The differentiability, in conjunction with the rapid simulation speed, makes the model well-suited for various applications including model predictive control, trajectory shooting, supervised and reinforcement learning or SLAM. The codes and data are publicly available.

arxiv情報

著者 Ruslan Agishev,Karel Zimmermann
発行日 2025-02-14 13:36:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | MonoForce: Learnable Image-conditioned Physics Engine はコメントを受け付けていません

Revisiting Generalization Power of a DNN in Terms of Symbolic Interactions

要約

このペーパーは、相互作用の観点から深いニューラルネットワーク(DNNS)の一般化力を分析することを目的としています。
高次元の特徴空間におけるDNNの一般化力の以前の分析とは異なり、DNNの一般化力は、相互作用の一般化力として説明できることがわかります。
一般化可能な相互作用は崩壊型分布に従うことがわかりましたが、非一般化できない相互作用は紡錘形の分布に従います。
さらに、私たちの理論は、DNNからのこれら2つのタイプの相互作用を効果的に解体することができます。
私たちの理論は、実験のDNNでの実際の相互作用とよく一致することを確認しました。

要約(オリジナル)

This paper aims to analyze the generalization power of deep neural networks (DNNs) from the perspective of interactions. Unlike previous analysis of a DNN’s generalization power in a highdimensional feature space, we find that the generalization power of a DNN can be explained as the generalization power of the interactions. We found that the generalizable interactions follow a decay-shaped distribution, while non-generalizable interactions follow a spindle-shaped distribution. Furthermore, our theory can effectively disentangle these two types of interactions from a DNN. We have verified that our theory can well match real interactions in a DNN in experiments.

arxiv情報

著者 Lei Cheng,Junpeng Zhang,Qihan Ren,Quanshi Zhang
発行日 2025-02-14 13:46:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Revisiting Generalization Power of a DNN in Terms of Symbolic Interactions はコメントを受け付けていません

FreeBlend: Advancing Concept Blending with Staged Feedback-Driven Interpolation Diffusion

要約

コンセプトブレンディングは、生成モデルでは有望でありながら未使用の領域です。
構造スケッチに基づいた混合や潜在的な変更などの最近のアプローチが提案されていますが、それらはしばしば互換性のない意味情報と形状と外観の矛盾に苦しんでいます。
この作業では、これらの課題に対処するために設計された効果的でトレーニングなしのフレームワークであるFreeBlendを紹介します。
クロスモーダル損失を緩和し、特徴の詳細を強化するために、転送された画像埋め込みを条件付き入力として活用します。
このフレームワークは、潜在性の間の段階的な補間戦略を採用し、補助機能をシームレスに統合するためにブレンド比を徐々に調整します。
さらに、補助潜伏物を逆順序で更新するフィードバック駆動型メカニズムを導入し、グローバルな混合を促進し、剛性または不自然な出力を防止します。
広範な実験は、この方法が混合画像のセマンティックコヒーレンスと視覚的品質の両方を大幅に改善し、説得力のあるコヒーレントな結果をもたらすことを示しています。

要約(オリジナル)

Concept blending is a promising yet underexplored area in generative models. While recent approaches, such as embedding mixing and latent modification based on structural sketches, have been proposed, they often suffer from incompatible semantic information and discrepancies in shape and appearance. In this work, we introduce FreeBlend, an effective, training-free framework designed to address these challenges. To mitigate cross-modal loss and enhance feature detail, we leverage transferred image embeddings as conditional inputs. The framework employs a stepwise increasing interpolation strategy between latents, progressively adjusting the blending ratio to seamlessly integrate auxiliary features. Additionally, we introduce a feedback-driven mechanism that updates the auxiliary latents in reverse order, facilitating global blending and preventing rigid or unnatural outputs. Extensive experiments demonstrate that our method significantly improves both the semantic coherence and visual quality of blended images, yielding compelling and coherent results.

arxiv情報

著者 Yufan Zhou,Haoyu Shen,Huan Wang
発行日 2025-02-14 14:17:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FreeBlend: Advancing Concept Blending with Staged Feedback-Driven Interpolation Diffusion はコメントを受け付けていません

Exploring the Camera Bias of Person Re-identification

要約

人の再識別(REID)モデルのカメラバイアスを経験的に調査します。
以前は、この問題に対処するためにカメラ認識方法が提案されていましたが、それらは主にモデルのトレーニングドメインに限定されています。
目に見えないドメイン上のReidモデルのカメラバイアスを測定し、データ分布シフト下でカメラバイアスがより顕著になることを明らかにします。
目に見えないドメインデータの衰弱方法として、埋め込みベクターの特徴正規化を再検討します。
正規化は簡単なソリューションとして使用されていますが、その根本的な原因とより広範な適用性は未開拓のままです。
この単純な方法がバイアスを減らすのに効果的である理由を分析し、低レベルの画像特性やボディ角などの詳細なバイアス因子に適用できることを示します。
さらに、さまざまなモデルとベンチマークにわたる一般化可能性を検証し、Reidのシンプルで効果的なテスト時間後処理方法としての可能性を強調します。
さらに、REIDモデルの監視されていない学習におけるカメラバイアスの固有のリスクを調査します。
監視されていないモデルは、見たドメインデータでもカメララベルに非常に偏ったままであり、改善のかなりの余地を示しています。
カメラに偏った擬似ラベルがトレーニングに与える悪影響の観察に基づいて、バイアスを緩和するための簡単なトレーニング戦略を提案します。
これらの戦略を既存の監視されていない学習アルゴリズムに適用することにより、マイナーな修正により大幅なパフォーマンスの改善が達成できることを示します。

要約(オリジナル)

We empirically investigate the camera bias of person re-identification (ReID) models. Previously, camera-aware methods have been proposed to address this issue, but they are largely confined to training domains of the models. We measure the camera bias of ReID models on unseen domains and reveal that camera bias becomes more pronounced under data distribution shifts. As a debiasing method for unseen domain data, we revisit feature normalization on embedding vectors. While the normalization has been used as a straightforward solution, its underlying causes and broader applicability remain unexplored. We analyze why this simple method is effective at reducing bias and show that it can be applied to detailed bias factors such as low-level image properties and body angle. Furthermore, we validate its generalizability across various models and benchmarks, highlighting its potential as a simple yet effective test-time postprocessing method for ReID. In addition, we explore the inherent risk of camera bias in unsupervised learning of ReID models. The unsupervised models remain highly biased towards camera labels even for seen domain data, indicating substantial room for improvement. Based on observations of the negative impact of camera-biased pseudo labels on training, we suggest simple training strategies to mitigate the bias. By applying these strategies to existing unsupervised learning algorithms, we show that significant performance improvements can be achieved with minor modifications.

arxiv情報

著者 Myungseo Song,Jin-Woo Park,Jong-Seok Lee
発行日 2025-02-14 14:39:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Exploring the Camera Bias of Person Re-identification はコメントを受け付けていません

TractShapeNet: Efficient Multi-Shape Learning with 3D Tractography Point Clouds

要約

脳イメージングの研究では、拡散MRIトラクトグラフィーの幾何学的形状記述子が、脳の白質経路と脳機能との関係の研究に通知できることが実証されています。
この作業では、深い学習モデルを利用して脳の白質接続の形状測定を計算する可能性を調査します。
トラクトシェイプネットの新しいフレームワークを紹介します。これは、長さ、スパン、ボリューム、総表面積、不規則性の5つの形状測定値を計算するために、トラクトグラフィーのポイントクラウド表現を活用します。
1065人の健康な若い成人を含む大規模なデータセットでのメソッドのパフォーマンスを評価します。
形状測定計算の実験は、提案されたTractshapenetが、ピアソン相関係数と正規化された誤差メトリックの両方で、他のポイントクラウドベースのニューラルネットワークモデルを上回ることを示しています。
推論ランタイムの結果を、従来の形状計算ツールDSI-Studioと比較します。
私たちの結果は、深い学習アプローチがより速く、より効率的な形状測定計算を可能にすることを示しています。
また、2つの下流の言語認知予測タスクで実験を行い、Tractshapenetの形状測定がDSI-Studioによって計算されたものと同様に機能することを示しています。
私たちのコードは、https://github.com/slicerdmri/tractshapenetで入手できます。

要約(オリジナル)

Brain imaging studies have demonstrated that diffusion MRI tractography geometric shape descriptors can inform the study of the brain’s white matter pathways and their relationship to brain function. In this work, we investigate the possibility of utilizing a deep learning model to compute shape measures of the brain’s white matter connections. We introduce a novel framework, TractShapeNet, that leverages a point cloud representation of tractography to compute five shape measures: length, span, volume, total surface area, and irregularity. We assess the performance of the method on a large dataset including 1065 healthy young adults. Experiments for shape measure computation demonstrate that our proposed TractShapeNet outperforms other point cloud-based neural network models in both the Pearson correlation coefficient and normalized error metrics. We compare the inference runtime results with the conventional shape computation tool DSI-Studio. Our results demonstrate that a deep learning approach enables faster and more efficient shape measure computation. We also conduct experiments on two downstream language cognition prediction tasks, showing that shape measures from TractShapeNet perform similarly to those computed by DSI-Studio. Our code will be available at: https://github.com/SlicerDMRI/TractShapeNet.

arxiv情報

著者 Yui Lo,Yuqian Chen,Dongnan Liu,Jon Haitz Legarreta,Leo Zekelman,Fan Zhang,Jarrett Rushmore,Yogesh Rathi,Nikos Makris,Alexandra J. Golby,Weidong Cai,Lauren J. O’Donnell
発行日 2025-02-14 14:46:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | TractShapeNet: Efficient Multi-Shape Learning with 3D Tractography Point Clouds はコメントを受け付けていません

Is What You Ask For What You Get? Investigating Concept Associations in Text-to-Image Models

要約

Text-to-image (T2I) models are increasingly used in impactful real-life applications.
As such, there is a growing need to audit these models to ensure that they generate desirable, task-appropriate images.
However, systematically inspecting the associations between prompts and generated content in a human-understandable way remains challenging.
これに対処するために、これらの概念の観点から定義できる解釈可能な概念とメトリックを使用して、ビジョン言語モデルの条件付き分布を特徴付ける概念2Conceptを提案します。
This characterization allows us to use our framework to audit models and prompt-datasets.
実証するために、ユーザー定義の分布や経験的、実際の分布など、プロンプトの条件付き分布に関するいくつかのケーススタディを調査します。
Lastly, we implement Concept2Concept as an open-source interactive visualization tool to facilitate use by non-technical end-users.
A demo is available at https://tinyurl.com/Concept2ConceptDemo.

要約(オリジナル)

Text-to-image (T2I) models are increasingly used in impactful real-life applications. As such, there is a growing need to audit these models to ensure that they generate desirable, task-appropriate images. However, systematically inspecting the associations between prompts and generated content in a human-understandable way remains challenging. To address this, we propose Concept2Concept, a framework where we characterize conditional distributions of vision language models using interpretable concepts and metrics that can be defined in terms of these concepts. This characterization allows us to use our framework to audit models and prompt-datasets. To demonstrate, we investigate several case studies of conditional distributions of prompts, such as user-defined distributions or empirical, real-world distributions. Lastly, we implement Concept2Concept as an open-source interactive visualization tool to facilitate use by non-technical end-users. A demo is available at https://tinyurl.com/Concept2ConceptDemo.

arxiv情報

著者 Salma Abdel Magid,Weiwei Pan,Simon Warchol,Grace Guo,Junsik Kim,Mahia Rahman,Hanspeter Pfister
発行日 2025-02-14 14:52:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Is What You Ask For What You Get? Investigating Concept Associations in Text-to-Image Models はコメントを受け付けていません

Mapping bathymetry of inland water bodies on the North Slope of Alaska with Landsat using Random Forest

要約

アラスカの北の斜面は、地元住民と野生生物に重要な生態系サービスを提供する小さな水域に支配されています。
そのような情報を収集する際の課題により、水域の深さに関する詳細情報はほとんどありません。
この作業では、アラスカの北斜面の水域の多宇宙ランドサットデータからの深さを予測するために、機械学習(ランダムフォレストレグレッサー)モデルをトレーニングしました。
最大の課題は、モデルを訓練するのが費用がかかり、入手が困難なIn situデータの希少性です。
ランダムフォレストのより多様なトレーニングデータプールを提供するために、合成トレーニングデータとして以前の研究からモデル化された深度予測を使用することにより、この課題を克服しました。
最終的なランダムフォレストモデルは、IN in situデータで直接訓練されたモデルよりも堅牢であり、2016年から2018年までの208 Landsat 8シーンに適用されると、検証時に全体の$ r^{2} $値が0.76のマップが得られました。
最終マップは、Oak Ridge National Laboratory Distribues Active Archive Center(ORNL-DAAC)を通じて利用可能になりました。
このマップは、アラスカの北斜面全体のピクセルあたりの深さの推定値を伴う水域深度のこの種の地域評価の最初のものを表しています。

要約(オリジナル)

The North Slope of Alaska is dominated by small waterbodies that provide critical ecosystem services for local population and wildlife. Detailed information on the depth of the waterbodies is scarce due to the challenges with collecting such information. In this work we have trained a machine learning (Random Forest Regressor) model to predict depth from multispectral Landsat data in waterbodies across the North Slope of Alaska. The greatest challenge is the scarcity of in situ data, which is expensive and difficult to obtain, to train the model. We overcame this challenge by using modeled depth predictions from a prior study as synthetic training data to provide a more diverse training data pool for the Random Forest. The final Random Forest model was more robust than models trained directly on the in situ data and when applied to 208 Landsat 8 scenes from 2016 to 2018 yielded a map with an overall $r^{2}$ value of 0.76 on validation. The final map has been made available through the Oak Ridge National Laboratory Distribute Active Archive Center (ORNL-DAAC). This map represents a first of its kind regional assessment of waterbody depth with per pixel estimates of depth for the entire North Slope of Alaska.

arxiv情報

著者 Mark L. Carroll,Margaret R. Wooten,Claire E. Simpson,Caleb S. Spradlin,Melanie J. Frost,Mariana Blanco-Rojas,Zachary W. Williams,Jordan A. Caraballo-Vega,Christopher S. R. Neigh
発行日 2025-02-14 15:08:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Mapping bathymetry of inland water bodies on the North Slope of Alaska with Landsat using Random Forest はコメントを受け付けていません

Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

要約

30Bパラメーターと最大204フレームの長さまでのビデオを生成する機能を備えた最先端のテキストからビデオへの最先端の訓練モデルであるStep-Video-T2Vを提示します。
ディープ圧縮変動自動エンコーダーであるVideo-Vaeは、ビデオ生成タスク向けに設計されており、16×16の空間と8倍の時間的圧縮比を達成し、例外的なビデオ再構成品質を維持します。
ユーザープロンプトは、2つのバイリンガルテキストエンコーダーを使用してエンコードされ、英語と中国語の両方を処理します。
3Dの完全な注意を払ったDITは、フローマッチングを使用してトレーニングされ、潜在フレームへの入力ノイズを除去するために使用されます。
ビデオベースのDPOアプローチであるVideo-DPOが適用され、アーティファクトを削減し、生成されたビデオの視覚品質を向上させます。
また、トレーニング戦略について詳しく説明し、重要な観察と洞察を共有します。
Step-Video-T2Vのパフォーマンスは、新しいビデオ生成ベンチマークであるStep-Video-T2V-Evalで評価され、オープンソースと商業エンジンの両方と比較した場合、最先端のテキストからビデオへの品質を実証します。
さらに、現在の拡散ベースのモデルパラダイムの制限について説明し、ビデオファンデーションモデルの将来の方向性を概説します。
https://github.com/stepfun-ai/step-video-t2vでStep-Video-T2VとStep-Video-T2V-Evalの両方を入手できます。
オンラインバージョンには、https://yuewen.cn/videosからもアクセスできます。
私たちの目標は、Video Foundationモデルの革新を加速し、ビデオコンテンツの作成者に力を与えることです。

要約(オリジナル)

We present Step-Video-T2V, a state-of-the-art text-to-video pre-trained model with 30B parameters and the ability to generate videos up to 204 frames in length. A deep compression Variational Autoencoder, Video-VAE, is designed for video generation tasks, achieving 16×16 spatial and 8x temporal compression ratios, while maintaining exceptional video reconstruction quality. User prompts are encoded using two bilingual text encoders to handle both English and Chinese. A DiT with 3D full attention is trained using Flow Matching and is employed to denoise input noise into latent frames. A video-based DPO approach, Video-DPO, is applied to reduce artifacts and improve the visual quality of the generated videos. We also detail our training strategies and share key observations and insights. Step-Video-T2V’s performance is evaluated on a novel video generation benchmark, Step-Video-T2V-Eval, demonstrating its state-of-the-art text-to-video quality when compared with both open-source and commercial engines. Additionally, we discuss the limitations of current diffusion-based model paradigm and outline future directions for video foundation models. We make both Step-Video-T2V and Step-Video-T2V-Eval available at https://github.com/stepfun-ai/Step-Video-T2V. The online version can be accessed from https://yuewen.cn/videos as well. Our goal is to accelerate the innovation of video foundation models and empower video content creators.

arxiv情報

著者 Guoqing Ma,Haoyang Huang,Kun Yan,Liangyu Chen,Nan Duan,Shengming Yin,Changyi Wan,Ranchen Ming,Xiaoniu Song,Xing Chen,Yu Zhou,Deshan Sun,Deyu Zhou,Jian Zhou,Kaijun Tan,Kang An,Mei Chen,Wei Ji,Qiling Wu,Wen Sun,Xin Han,Yanan Wei,Zheng Ge,Aojie Li,Bin Wang,Bizhu Huang,Bo Wang,Brian Li,Changxing Miao,Chen Xu,Chenfei Wu,Chenguang Yu,Dapeng Shi,Dingyuan Hu,Enle Liu,Gang Yu,Ge Yang,Guanzhe Huang,Gulin Yan,Haiyang Feng,Hao Nie,Haonan Jia,Hanpeng Hu,Hanqi Chen,Haolong Yan,Heng Wang,Hongcheng Guo,Huilin Xiong,Huixin Xiong,Jiahao Gong,Jianchang Wu,Jiaoren Wu,Jie Wu,Jie Yang,Jiashuai Liu,Jiashuo Li,Jingyang Zhang,Junjing Guo,Junzhe Lin,Kaixiang Li,Lei Liu,Lei Xia,Liang Zhao,Liguo Tan,Liwen Huang,Liying Shi,Ming Li,Mingliang Li,Muhua Cheng,Na Wang,Qiaohui Chen,Qinglin He,Qiuyan Liang,Quan Sun,Ran Sun,Rui Wang,Shaoliang Pang,Shiliang Yang,Sitong Liu,Siqi Liu,Shuli Gao,Tiancheng Cao,Tianyu Wang,Weipeng Ming,Wenqing He,Xu Zhao,Xuelin Zhang,Xianfang Zeng,Xiaojia Liu,Xuan Yang,Yaqi Dai,Yanbo Yu,Yang Li,Yineng Deng,Yingming Wang,Yilei Wang,Yuanwei Lu,Yu Chen,Yu Luo,Yuchu Luo,Yuhe Yin,Yuheng Feng,Yuxiang Yang,Zecheng Tang,Zekai Zhang,Zidong Yang,Binxing Jiao,Jiansheng Chen,Jing Li,Shuchang Zhou,Xiangyu Zhang,Xinhao Zhang,Yibo Zhu,Heung-Yeung Shum,Daxin Jiang
発行日 2025-02-14 15:58:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model はコメントを受け付けていません