DPCore: Dynamic Prompt Coreset for Continual Test-Time Adaptation

要約

継続的なテスト時間適応(CTTA)は、事前に訓練されたモデルを継続的に変化しないターゲットドメインに適応させることを目指しています。
既存のCTTAメソッドは、均一な期間で構造化されたドメインの変化を想定していますが、実際の環境は、さまざまな周波数と期間でドメインが再発する動的なパターンを示すことがよくあります。
さまざまなドメインで同じパラメーターを適応させる現在のアプローチは、そのような動的な条件で苦労しています – 彼らは短いドメインの露出との収束の問題、以前に学んだ知識を忘れているリスク、またはそれを無関係なドメインに誤用します。
これを改善するために、DPCOREを提案します。DPCoreは、多様なドメインの変化パターンにわたって堅牢なパフォーマンスのために設計された方法であり、計算効率を確保します。
DPCOREは、3つの重要なコンポーネントを統合します。効率的なドメインアライメントの視覚的なプロンプト適応、知識保存のためのプロンプトコアセット、および実質的に異なるドメインの新しいドメインの新しいドメインを作成しながら、既存のプロンプトをインテリジェントに調整する動的な更新メカニズム。
4つのベンチマークでの広範な実験は、DPCOREがさまざまなCTTAメソッドを一貫して上回り、構造化された設定と動的設定の両方で最先端のパフォーマンスを達成しながら、以前のアプローチと比較して99%と計算時間を64%削減することを示しています。

要約(オリジナル)

Continual Test-Time Adaptation (CTTA) seeks to adapt source pre-trained models to continually changing, unseen target domains. While existing CTTA methods assume structured domain changes with uniform durations, real-world environments often exhibit dynamic patterns where domains recur with varying frequencies and durations. Current approaches, which adapt the same parameters across different domains, struggle in such dynamic conditions-they face convergence issues with brief domain exposures, risk forgetting previously learned knowledge, or misapplying it to irrelevant domains. To remedy this, we propose DPCore, a method designed for robust performance across diverse domain change patterns while ensuring computational efficiency. DPCore integrates three key components: Visual Prompt Adaptation for efficient domain alignment, a Prompt Coreset for knowledge preservation, and a Dynamic Update mechanism that intelligently adjusts existing prompts for similar domains while creating new ones for substantially different domains. Extensive experiments on four benchmarks demonstrate that DPCore consistently outperforms various CTTA methods, achieving state-of-the-art performance in both structured and dynamic settings while reducing trainable parameters by 99% and computation time by 64% compared to previous approaches.

arxiv情報

著者 Yunbei Zhang,Akshay Mehra,Shuaicheng Niu,Jihun Hamm
発行日 2025-02-11 16:47:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | DPCore: Dynamic Prompt Coreset for Continual Test-Time Adaptation はコメントを受け付けていません

Towards scientific discovery with dictionary learning: Extracting biological concepts from microscopy foundation models

要約

辞書学習(DL)は、大規模な言語モデルの強力な解釈可能性ツールとして浮上しています。
人間の解釈可能なデータ(テキストなど)から既知の概念(ゴールデンゲートブリッジなど)を抽出することにより、まばらなDLはモデルの内側の動作を解明できます。
この作業では、DLを使用して、人間が解釈できない科学データ(細胞画像など)から未知の概念を発見し、最終的に科学的発見に対する最新のアプローチを可能にするかどうかを尋ねます。
最初のステップとして、DLアルゴリズムを使用して、マルチセル画像データでトレーニングされた顕微鏡基盤モデルを研究します。
まばらな辞書が実際に細胞型や遺伝的摂動タイプなどの生物学的に意味のある概念を抽出することを示します。
また、反復的なコードブック機能学習〜(ICFL)を提案し、コントロールデータセットからPCAホワイトニングを使用する前処理ステップと組み合わせます。
実験では、ICFLとPCAの両方が、TOPKスパースオートエンコーダーと比較して、抽出された特徴の選択性を改善することを実証します。

要約(オリジナル)

Dictionary learning (DL) has emerged as a powerful interpretability tool for large language models. By extracting known concepts (e.g., Golden-Gate Bridge) from human-interpretable data (e.g., text), sparse DL can elucidate a model’s inner workings. In this work, we ask if DL can also be used to discover unknown concepts from less human-interpretable scientific data (e.g., cell images), ultimately enabling modern approaches to scientific discovery. As a first step, we use DL algorithms to study microscopy foundation models trained on multi-cell image data, where little prior knowledge exists regarding which high-level concepts should arise. We show that sparse dictionaries indeed extract biologically-meaningful concepts such as cell type and genetic perturbation type. We also propose Iterative Codebook Feature Learning~(ICFL) and combine it with a pre-processing step which uses PCA whitening from a control dataset. In our experiments, we demonstrate that both ICFL and PCA improve the selectivity of extracted features compared to TopK sparse autoencoders.

arxiv情報

著者 Konstantin Donhauser,Kristina Ulicna,Gemma Elyse Moran,Aditya Ravuri,Kian Kenyon-Dean,Cian Eastwood,Jason Hartford
発行日 2025-02-11 16:54:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML | Towards scientific discovery with dictionary learning: Extracting biological concepts from microscopy foundation models はコメントを受け付けていません

Magic 1-For-1: Generating One Minute Video Clips within One Minute

要約

このテクニカルレポートでは、最適化されたメモリ消費と推論潜時を備えた効率的なビデオ生成モデルであるMagic 1-for-1(MAGIC141)を紹介します。
重要なアイデアは単純です。テキストからビデオへの生成タスクを、拡散ステップ蒸留のための2つの別々の簡単なタスク、つまりテキストからイメージの生成と画像間生成に因数分解します。
同じ最適化アルゴリズムを使用して、画像からビデオへのタスクが実際にテキストからビデオへのタスク上で収束しやすいことを確認します。
また、最適化のトリックのバッグを探索して、3つの側面から画像間(I2V)モデルをトレーニングする計算コストを削減します。1)モデルの収束速度速度マルチモーダル事前条件注入を使用して。
2)敵対的なステップ蒸留を適用することにより、推論の遅延速度を上げ、3)パラメーターのスパース化による推論メモリコストの最適化。
これらのテクニックを使用すると、3秒以内に5秒のビデオクリップを生成できます。
テスト時間スライドウィンドウを適用することにより、視覚品質とモーションダイナミクスが大幅に向上し、1分以内に1分以内に1分間のビデオを生成することができ、平均で1秒のビデオクリップを生成するために1秒未満を費やすことができます。
一連の予備調査を実施して、拡散ステップ蒸留中に計算コストとビデオの品質との最適なトレードオフを調べ、これがオープンソース探索の良い基盤モデルになることを願っています。
コードとモデルの重みは、https://github.com/da-group-pku/magic-1-for-1で入手できます。

要約(オリジナル)

In this technical report, we present Magic 1-For-1 (Magic141), an efficient video generation model with optimized memory consumption and inference latency. The key idea is simple: factorize the text-to-video generation task into two separate easier tasks for diffusion step distillation, namely text-to-image generation and image-to-video generation. We verify that with the same optimization algorithm, the image-to-video task is indeed easier to converge over the text-to-video task. We also explore a bag of optimization tricks to reduce the computational cost of training the image-to-video (I2V) models from three aspects: 1) model convergence speedup by using a multi-modal prior condition injection; 2) inference latency speed up by applying an adversarial step distillation, and 3) inference memory cost optimization with parameter sparsification. With those techniques, we are able to generate 5-second video clips within 3 seconds. By applying a test time sliding window, we are able to generate a minute-long video within one minute with significantly improved visual quality and motion dynamics, spending less than 1 second for generating 1 second video clips on average. We conduct a series of preliminary explorations to find out the optimal tradeoff between computational cost and video quality during diffusion step distillation and hope this could be a good foundation model for open-source explorations. The code and the model weights are available at https://github.com/DA-Group-PKU/Magic-1-For-1.

arxiv情報

著者 Hongwei Yi,Shitong Shao,Tian Ye,Jiantong Zhao,Qingyu Yin,Michael Lingelbach,Li Yuan,Yonghong Tian,Enze Xie,Daquan Zhou
発行日 2025-02-11 16:58:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Magic 1-For-1: Generating One Minute Video Clips within One Minute はコメントを受け付けていません

PRVQL: Progressive Knowledge-guided Refinement for Robust Egocentric Visual Query Localization

要約

エゴセントリックビジュアルクエリローカリゼーション(EGOVQL)は、視覚的なクエリを考慮して、一人称ビデオからの空間と時間の関心のターゲットをローカライズすることに焦点を当てています。
最近の進歩的なものにもかかわらず、既存の方法は、十分なターゲットの手がかりが欠けているため、深刻なオブジェクトの外観の変化とビデオの乱雑な背景を処理するのに苦労することが多く、劣化につながります。
これに対処するには、eGoVQLの新しい進歩的な知識誘導精製フレームワークであるPRVQLを紹介します。
コアは、ターゲット関連の知識をビデオから直接継続的に活用し、ターゲットローカリゼーションを改善するためのクエリ機能とビデオ機能の両方を改善するためのガイダンスとしてそれを利用することです。
PRVQLには複数の処理段階が含まれています。
2つの特別に設計された知識学習モジュールを介して抽出された外観と空間知識を含む1つの段階からのターゲット知識は、次の段階のクエリとビデオ機能を改良するためのガイダンスとして利用されます。
このような進歩的なプロセスにより、PRVQLのターゲット知識を徐々に改善することができます。これにより、最終段階でローカライズのための洗練されたクエリとビデオ機能が向上します。
以前の方法と比較して、指定されたオブジェクトのキューに加えて、PRVQLは、機能を改良するためのガイダンスとしてビデオからの追加の重要なターゲット情報を享受しているため、複雑なシーンでEGOVQLを強化します。
挑戦的なEGO4Dに関する実験では、PRVQLは最先端の結果を達成し、他の方法を大幅に上回り、その有効性を示しています。
コード、モデル、および結果は、https://github.com/fb-reps/prvqlでリリースされます。

要約(オリジナル)

Egocentric visual query localization (EgoVQL) focuses on localizing the target of interest in space and time from first-person videos, given a visual query. Despite recent progressive, existing methods often struggle to handle severe object appearance changes and cluttering background in the video due to lacking sufficient target cues, leading to degradation. Addressing this, we introduce PRVQL, a novel Progressive knowledge-guided Refinement framework for EgoVQL. The core is to continuously exploit target-relevant knowledge directly from videos and utilize it as guidance to refine both query and video features for improving target localization. Our PRVQL contains multiple processing stages. The target knowledge from one stage, comprising appearance and spatial knowledge extracted via two specially designed knowledge learning modules, are utilized as guidance to refine the query and videos features for the next stage, which are used to generate more accurate knowledge for further feature refinement. With such a progressive process, target knowledge in PRVQL can be gradually improved, which, in turn, leads to better refined query and video features for localization in the final stage. Compared to previous methods, our PRVQL, besides the given object cues, enjoys additional crucial target information from a video as guidance to refine features, and hence enhances EgoVQL in complicated scenes. In our experiments on challenging Ego4D, PRVQL achieves state-of-the-art result and largely surpasses other methods, showing its efficacy. Our code, model and results will be released at https://github.com/fb-reps/PRVQL.

arxiv情報

著者 Bing Fan,Yunhe Feng,Yapeng Tian,Yuewei Lin,Yan Huang,Heng Fan
発行日 2025-02-11 17:04:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PRVQL: Progressive Knowledge-guided Refinement for Robust Egocentric Visual Query Localization はコメントを受け付けていません

The Faiss library

要約

ベクトルデータベースは通常、ベクトルの埋め込みの大規模なコレクションを管理します。
現在、AIアプリケーションは急速に成長しており、保存してインデックス作成する必要がある埋め込みの数も増えています。
FAISSライブラリは、ベクトルデータベースのコア機能であるベクトル類似性検索に専念しています。
FAISSは、ベクトルの検索、クラスター、圧縮、変換に使用されるインデックス作成方法と関連するプリミティブのツールキットです。
このペーパーでは、構造、最適化へのアプローチ、インターフェースの観点から、ベクター検索のトレードオフスペースとFAISSの設計原則について説明します。
ライブラリの主要な機能をベンチマークし、いくつかの選択したアプリケーションについて議論して、その幅広い適用性を強調します。

要約(オリジナル)

Vector databases typically manage large collections of embedding vectors. Currently, AI applications are growing rapidly, and so is the number of embeddings that need to be stored and indexed. The Faiss library is dedicated to vector similarity search, a core functionality of vector databases. Faiss is a toolkit of indexing methods and related primitives used to search, cluster, compress and transform vectors. This paper describes the trade-off space of vector search and the design principles of Faiss in terms of structure, approach to optimization and interfacing. We benchmark key features of the library and discuss a few selected applications to highlight its broad applicability.

arxiv情報

著者 Matthijs Douze,Alexandr Guzhva,Chengqi Deng,Jeff Johnson,Gergely Szilvasy,Pierre-Emmanuel Mazaré,Maria Lomeli,Lucas Hosseini,Hervé Jégou
発行日 2025-02-11 17:43:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.SE | The Faiss library はコメントを受け付けていません

Economics of Sourcing Human Data

要約

AIの進歩は、アノテーター市場からより広いインターネットまで、人間で生成されたデータに依存しています。
ただし、大規模な言語モデルの広範な使用は、これらのプラットフォーム上の人間で生成されたデータの品質と完全性を脅かしています。
この問題は、AIに生成されたコンテンツをフィルタリングするという即時の課題を超えていると主張します。それは、データ収集システムの設計方法に関するより深い欠陥を明らかにしています。
既存のシステムは、多くの場合、本質的な人間の動機付けを犠牲にして速度、スケール、効率を優先し、エンゲージメントとデータの品質の低下につながります。
データ収集システムを再考するために、貢献者の本質的な動機(外部のインセンティブのみに依存するよりも)に合わせて、貢献者の信頼と長期参加を維持しながら、大規模な高品質のデータ調達を支援することを提案します。

要約(オリジナル)

Progress in AI has relied on human-generated data, from annotator marketplaces to the wider Internet. However, the widespread use of large language models now threatens the quality and integrity of human-generated data on these very platforms. We argue that this issue goes beyond the immediate challenge of filtering AI-generated content–it reveals deeper flaws in how data collection systems are designed. Existing systems often prioritize speed, scale, and efficiency at the cost of intrinsic human motivation, leading to declining engagement and data quality. We propose that rethinking data collection systems to align with contributors’ intrinsic motivations–rather than relying solely on external incentives–can help sustain high-quality data sourcing at scale while maintaining contributor trust and long-term participation.

arxiv情報

著者 Sebastin Santy,Prasanta Bhattacharya,Manoel Horta Ribeiro,Kelsey Allen,Sewoong Oh
発行日 2025-02-11 17:51:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.CY, cs.HC, cs.LG | Economics of Sourcing Human Data はコメントを受け付けていません

EdgeEar: Efficient and Accurate Ear Recognition for Edge Devices

要約

耳認識は、さまざまなドメインにわたってアプリケーションを備えた非接触で控えめな生体認証技術です。
ただし、リソースに制約のあるデバイスに高性能の耳認識モデルを展開することは困難であり、適用性と広範な採用を制限しています。
このペーパーでは、この問題を解決するために、提案されているハイブリッドCNNトランスフォーマーアーキテクチャに基づいた軽量モデルであるEdgearを紹介します。
低ランクの近似を特定の線形層に組み込むことにより、エッジアアはパラメーターカウントを現在の最先端と比較して50倍に減少させ、競争の精度を維持しながら200万未満をもたらします。
制約のない耳認識チャレンジ(UERC2023)のベンチマークに関する評価は、Edgearが最低のEERを達成しながら計算コストを大幅に削減することを示しています。
これらの調査結果は、効率的かつ正確な耳認識の実現可能性を示しています。これは、耳の生体認証のより広い採用に貢献すると考えています。

要約(オリジナル)

Ear recognition is a contactless and unobtrusive biometric technique with applications across various domains. However, deploying high-performing ear recognition models on resource-constrained devices is challenging, limiting their applicability and widespread adoption. This paper introduces EdgeEar, a lightweight model based on a proposed hybrid CNN-transformer architecture to solve this problem. By incorporating low-rank approximations into specific linear layers, EdgeEar reduces its parameter count by a factor of 50 compared to the current state-of-the-art, bringing it below two million while maintaining competitive accuracy. Evaluation on the Unconstrained Ear Recognition Challenge (UERC2023) benchmark shows that EdgeEar achieves the lowest EER while significantly reducing computational costs. These findings demonstrate the feasibility of efficient and accurate ear recognition, which we believe will contribute to the wider adoption of ear biometrics.

arxiv情報

著者 Camile Lendering,Bernardo Perrone Ribeiro,Žiga Emeršič,Peter Peer
発行日 2025-02-11 17:53:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | EdgeEar: Efficient and Accurate Ear Recognition for Edge Devices はコメントを受け付けていません

SpaceMesh: A Continuous Representation for Learning Manifold Surface Meshes

要約

メッシュは視覚的なコンピューティングとシミュレーションで遍在していますが、ほとんどの既存の機械学習手法は間接的にのみメッシュを表しています。
スカラーフィールドのレベルセットまたはテンプレートの変形、または局所構造を欠く無秩序な三角スープとして。
この作業は、ニューラルネットワークの出力として複雑な接続性の多角形の多角形のメッシュを直接生成するスキームを提示します。
私たちの主要な革新は、各メッシュ頂点で連続潜在的な接続空間を定義することです。これは、離散メッシュを意味します。
特に、頂点の埋め込みは、ハーフエッジメッシュ表現で循環隣接関係を生成し、エッジマニフォールド性と一般的な多角形メッシュを表現する能力を保証します。
この表現は、接続性やトポロジーに制限されることなく、機械学習と確率的最適化に適しています。
最初にこの表現の基本的な特性を調査し、次に使用して、大きなデータセットからのメッシュの分布を適合させます。
結果のモデルは、データセット母集団から学習されたテッセレーション構造を備えた多様なメッシュを生成し、簡潔な詳細と高品質のメッシュ要素を備えています。
アプリケーションでは、このアプローチは生成モデルから高品質の出力を生成するだけでなく、メッシュ修理などの挑戦的なジオメトリ処理タスクを直接学習することもできます。

要約(オリジナル)

Meshes are ubiquitous in visual computing and simulation, yet most existing machine learning techniques represent meshes only indirectly, e.g. as the level set of a scalar field or deformation of a template, or as a disordered triangle soup lacking local structure. This work presents a scheme to directly generate manifold, polygonal meshes of complex connectivity as the output of a neural network. Our key innovation is to define a continuous latent connectivity space at each mesh vertex, which implies the discrete mesh. In particular, our vertex embeddings generate cyclic neighbor relationships in a halfedge mesh representation, which gives a guarantee of edge-manifoldness and the ability to represent general polygonal meshes. This representation is well-suited to machine learning and stochastic optimization, without restriction on connectivity or topology. We first explore the basic properties of this representation, then use it to fit distributions of meshes from large datasets. The resulting models generate diverse meshes with tessellation structure learned from the dataset population, with concise details and high-quality mesh elements. In applications, this approach not only yields high-quality outputs from generative models, but also enables directly learning challenging geometry processing tasks such as mesh repair.

arxiv情報

著者 Tianchang Shen,Zhaoshuo Li,Marc Law,Matan Atzmon,Sanja Fidler,James Lucas,Jun Gao,Nicholas Sharp
発行日 2025-02-11 17:53:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG | SpaceMesh: A Continuous Representation for Learning Manifold Surface Meshes はコメントを受け付けていません

Next Block Prediction: Video Generation via Semi-Auto-Regressive Modeling

要約

Next-Token Prediction(NTP)は、自己回帰(AR)ビデオ生成のための事実上のアプローチですが、最適ではない一方向の依存関係と推論速度が遅いことに苦しんでいます。
この作業では、ビデオ生成のために、次のブロック予測(NBP)と呼ばれる半自動性(SEMI-AR)フレームワークを提案します。
ビデオコンテンツを等しいサイズのブロック(行やフレームなど)に均一に分解することにより、生成ユニットを個々のトークンからブロックにシフトし、現在のブロック内の各トークンが次のブロックの対応するトークンを同時に予測できるようにします。
従来のARモデリングとは異なり、当社のフレームワークは各ブロック内で双方向の注意を採用しており、トークンがより堅牢な空間依存関係をキャプチャできるようにします。
複数のトークンを並行して予測することにより、NBPモデルは生成ステップの数を大幅に減らし、より速く、より効率的な推論につながります。
私たちのモデルは、UCF101で103.3、K600で25.5のFVDスコアを達成し、平均4.4でバニラNTPモデルを上回ります。
さらに、推論手順の数が減ったため、NBPモデルは1秒あたり8.89フレーム(128×128解像度)を生成し、11倍のスピードアップを達成します。
また、700mから3Bのパラメーターの範囲のモデルスケールを調査し、生成品質の大幅な改善を観察し、FVDスコアはUCF101で103.3から55.3、K600で25.5から19.5に低下し、アプローチのスケーラビリティを示しました。

要約(オリジナル)

Next-Token Prediction (NTP) is a de facto approach for autoregressive (AR) video generation, but it suffers from suboptimal unidirectional dependencies and slow inference speed. In this work, we propose a semi-autoregressive (semi-AR) framework, called Next-Block Prediction (NBP), for video generation. By uniformly decomposing video content into equal-sized blocks (e.g., rows or frames), we shift the generation unit from individual tokens to blocks, allowing each token in the current block to simultaneously predict the corresponding token in the next block. Unlike traditional AR modeling, our framework employs bidirectional attention within each block, enabling tokens to capture more robust spatial dependencies. By predicting multiple tokens in parallel, NBP models significantly reduce the number of generation steps, leading to faster and more efficient inference. Our model achieves FVD scores of 103.3 on UCF101 and 25.5 on K600, outperforming the vanilla NTP model by an average of 4.4. Furthermore, thanks to the reduced number of inference steps, the NBP model generates 8.89 frames (128×128 resolution) per second, achieving an 11x speedup. We also explored model scales ranging from 700M to 3B parameters, observing significant improvements in generation quality, with FVD scores dropping from 103.3 to 55.3 on UCF101 and from 25.5 to 19.5 on K600, demonstrating the scalability of our approach.

arxiv情報

著者 Shuhuai Ren,Shuming Ma,Xu Sun,Furu Wei
発行日 2025-02-11 17:57:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Next Block Prediction: Video Generation via Semi-Auto-Regressive Modeling はコメントを受け付けていません

CausalGeD: Blending Causality and Diffusion for Spatial Gene Expression Generation

要約

単一細胞RNAシーケンス(SCRNA-seq)と空間トランスクリプトミクス(ST)データの統合は、空間的コンテキストでの遺伝子発現を理解するために重要です。
このような統合のための既存の方法のパフォーマンスは限られており、構造的類似性はしばしば60 \%未満であるため、この制限は遺伝子間の因果関係を考慮しなかったことに起因します。
これらの関係を活用するために拡散プロセスと自己回帰プロセスを組み合わせた因果関係を提示します。
因果関係の変圧器を画像生成から遺伝子発現データに一般化することにより、モデルは事前定義された関係のない調節メカニズムをキャプチャします。
10個の組織データセットで、因果関係のあるアウトパフォームが、ピアソンの相関や構造的類似性を含む主要なメトリックで5-32 \%で最先端のベースラインをパフォーマンスし、技術的および生物学的洞察の両方を進めました。

要約(オリジナル)

The integration of single-cell RNA sequencing (scRNA-seq) and spatial transcriptomics (ST) data is crucial for understanding gene expression in spatial context. Existing methods for such integration have limited performance, with structural similarity often below 60\%, We attribute this limitation to the failure to consider causal relationships between genes. We present CausalGeD, which combines diffusion and autoregressive processes to leverage these relationships. By generalizing the Causal Attention Transformer from image generation to gene expression data, our model captures regulatory mechanisms without predefined relationships. Across 10 tissue datasets, CausalGeD outperformed state-of-the-art baselines by 5- 32\% in key metrics, including Pearson’s correlation and structural similarity, advancing both technical and biological insights.

arxiv情報

著者 Rabeya Tus Sadia,Md Atik Ahamed,Qiang Cheng
発行日 2025-02-11 18:26:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, q-bio.GN | CausalGeD: Blending Causality and Diffusion for Spatial Gene Expression Generation はコメントを受け付けていません