Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO

要約

最近の進歩は、大規模な言語モデル(LLM)の考え方(COT)の推論能力を高める上で、強化学習(RL)の重要な役割を強調しています。
2つの顕著なRLアルゴリズム、直接選好最適化(DPO)とグループ相対ポリシー最適化(GRPO)は、これらの開発の中心であり、異なる長所と短所を示しています。
また、シーケンシャルコット推論プロセスとして解釈可能な自己回帰画像生成は、LLMベースのCOT推論とは異なるユニークな課題を提示します。
これらは、テキストイメージの一貫性を確保し、画像の美的品質を改善し、より単純なルールベースの報酬に依存するのではなく、洗練された報酬モデルを設計することを網羅しています。
最近の努力によりRLがこのドメインに拡大されていますが、これらの探索は通常、ドメイン固有の課題とさまざまなRL戦略の特性の詳細な分析を欠いています。
このギャップを埋めるために、自己回帰画像生成におけるGRPOおよびDPOアルゴリズムの最初の包括的な調査を提供し、ドメイン内のパフォーマンスとドメイン外の一般化を評価しながら、それぞれの能力に対する異なる報酬モデルの影響を精査します。
我々の調査結果は、GRPOとDPOが明確な利点を示し、決定的には、より強力な内因性一般化機能を有するモデルに報いることが、適用されたRLアルゴリズムの一般化の可能性を潜在的に強化することを明らかにしています。
さらに、3つの一般的なスケーリング戦略を体系的に調査して、ドメイン内とドメイン外の習熟度の両方を強化し、各パラダイムの効率的なスケーリングパフォーマンスに関するユニークな洞察を導き出します。
私たちの研究が、より効果的なRLアルゴリズムを開発するための将来の作業を刺激するための新しいパスを舗装し、自己回帰画像生成の領域で堅牢なCOT推論を達成することを願っています。
コードはhttps://github.com/ziyuguo99/image-generation-cotでリリースされます

要約(オリジナル)

Recent advancements underscore the significant role of Reinforcement Learning (RL) in enhancing the Chain-of-Thought (CoT) reasoning capabilities of large language models (LLMs). Two prominent RL algorithms, Direct Preference Optimization (DPO) and Group Relative Policy Optimization (GRPO), are central to these developments, showcasing different pros and cons. Autoregressive image generation, also interpretable as a sequential CoT reasoning process, presents unique challenges distinct from LLM-based CoT reasoning. These encompass ensuring text-image consistency, improving image aesthetic quality, and designing sophisticated reward models, rather than relying on simpler rule-based rewards. While recent efforts have extended RL to this domain, these explorations typically lack an in-depth analysis of the domain-specific challenges and the characteristics of different RL strategies. To bridge this gap, we provide the first comprehensive investigation of the GRPO and DPO algorithms in autoregressive image generation, evaluating their in-domain performance and out-of-domain generalization, while scrutinizing the impact of different reward models on their respective capabilities. Our findings reveal that GRPO and DPO exhibit distinct advantages, and crucially, that reward models possessing stronger intrinsic generalization capabilities potentially enhance the generalization potential of the applied RL algorithms. Furthermore, we systematically explore three prevalent scaling strategies to enhance both their in-domain and out-of-domain proficiency, deriving unique insights into efficiently scaling performance for each paradigm. We hope our study paves a new path for inspiring future work on developing more effective RL algorithms to achieve robust CoT reasoning in the realm of autoregressive image generation. Code is released at https://github.com/ZiyuGuo99/Image-Generation-CoT

arxiv情報

著者 Chengzhuo Tong,Ziyu Guo,Renrui Zhang,Wenyu Shan,Xinyu Wei,Zhenghao Xing,Hongsheng Li,Pheng-Ann Heng
発行日 2025-06-10 13:46:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO はコメントを受け付けていません

HiSin: Efficient High-Resolution Sinogram Inpainting via Resolution-Guided Progressive Inference

要約

高解像度のシノグラムの開始は、高周波投影が見られないと目に見えるアーティファクトと診断エラーにつながる可能性があるため、コンピューター断層撮影の再構築に不可欠です。
拡散モデルは、その堅牢性と詳細な存在する機能のためにこのタスクに適していますが、高解像度の入力への適用は、過剰なメモリと計算の要求によって制限されます。
この制限に対処するために、解像度ガイド付きの進行性推論を介して入力する効率的なシノグラムのための新しい拡散ベースのフレームワークであるHisinを提案します。
低解像度でグローバル構造を徐々に抽出し、小さなパッチに対する高解像度の推論を扱い、メモリ効率の高いインパインティングを可能にします。
さらに、冗長な計算を減らすために、周波数に対応するパッチスキップと構造適応ステップ割り当てが組み込まれています。
実験結果は、Hisinがピークメモリの使用量を最大31.25%、推論時間を最大18.15%削減し、データセット、解像度、およびマスク条件全体で精度を開始することを示しています。

要約(オリジナル)

High-resolution sinogram inpainting is essential for computed tomography reconstruction, as missing high-frequency projections can lead to visible artifacts and diagnostic errors. Diffusion models are well-suited for this task due to their robustness and detail-preserving capabilities, but their application to high-resolution inputs is limited by excessive memory and computational demands. To address this limitation, we propose HiSin, a novel diffusion based framework for efficient sinogram inpainting via resolution-guided progressive inference. It progressively extracts global structure at low resolution and defers high-resolution inference to small patches, enabling memory-efficient inpainting. It further incorporates frequency-aware patch skipping and structure-adaptive step allocation to reduce redundant computation. Experimental results show that HiSin reduces peak memory usage by up to 31.25% and inference time by up to 18.15%, and maintains inpainting accuracy across datasets, resolutions, and mask conditions.

arxiv情報

著者 Jiaze E,Srutarshi Banerjee,Tekin Bicer,Guannan Wang,Yanfu Zhang,Bin Ren
発行日 2025-06-10 13:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | HiSin: Efficient High-Resolution Sinogram Inpainting via Resolution-Guided Progressive Inference はコメントを受け付けていません

Video-CoT: A Comprehensive Dataset for Spatiotemporal Understanding of Videos Based on Chain-of-Thought

要約

ビデオ分析からインタラクティブなシステムに至るまで、ビデオコンテンツの理解は、さまざまなアプリケーションに不可欠です。
大規模なビジョン言語モデル(VLM)の進歩にもかかわらず、これらのモデルは、徹底的なビデオ分析に不可欠な微妙で空間的な詳細を捉えるのに苦労しています。
このギャップに対処するために、チェーン思考(COT)の方法論を使用して時空間的理解を強化するように設計された画期的なデータセットであるビデオコットを紹介します。
ビデオコットには、192,000個の細粒のスパチオティオティオティオティオ型の質問分配ペアと23,000個の高品質のCOT解剖されたサンプルが含まれており、ビデオ理解における空間的理解を評価するための強固な基盤を提供します。
さらに、これらのタスクを評価するための包括的なベンチマークを提供します。各タスクには750の画像とカスタマイズされた評価メトリックが特徴です。
私たちの広範な実験は、現在のVLMSが満足のいくパフォーマンスを達成する上で重要な課題に直面しており、効果的な空間的理解の困難を高く示していることが明らかになりました。
全体として、ビデオコットデータセットとベンチマークは、高度なビデオ分析機能を必要とするインテリジェントシステムの将来の革新を理解し、サポートするための新しい道をオープンします。
これらのリソースを公開することにより、この重要な分野でのさらなる調査を奨励することを目指しています。
プロジェクトWebサイト:https://video-cot.github.io/。

要約(オリジナル)

Video content comprehension is essential for various applications, ranging from video analysis to interactive systems. Despite advancements in large-scale vision-language models (VLMs), these models often struggle to capture the nuanced, spatiotemporal details essential for thorough video analysis. To address this gap, we introduce Video-CoT, a groundbreaking dataset designed to enhance spatiotemporal understanding using Chain-of-Thought (CoT) methodologies. Video-CoT contains 192,000 fine-grained spa-tiotemporal question-answer pairs and 23,000 high-quality CoT-annotated samples, providing a solid foundation for evaluating spatiotemporal understanding in video comprehension. Additionally, we provide a comprehensive benchmark for assessing these tasks, with each task featuring 750 images and tailored evaluation metrics. Our extensive experiments reveal that current VLMs face significant challenges in achieving satisfactory performance, high-lighting the difficulties of effective spatiotemporal understanding. Overall, the Video-CoT dataset and benchmark open new avenues for research in multimedia understanding and support future innovations in intelligent systems requiring advanced video analysis capabilities. By making these resources publicly available, we aim to encourage further exploration in this critical area. Project website:https://video-cot.github.io/ .

arxiv情報

著者 Shuyi Zhang,Xiaoshuai Hao,Yingbo Tang,Lingfeng Zhang,Pengwei Wang,Zhongyuan Wang,Hongxuan Ma,Shanghang Zhang
発行日 2025-06-10 14:08:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Video-CoT: A Comprehensive Dataset for Spatiotemporal Understanding of Videos Based on Chain-of-Thought はコメントを受け付けていません

CulturalFrames: Assessing Cultural Expectation Alignment in Text-to-Image Models and Evaluation Metrics

要約

視覚コンテンツの生成のツールとしてのテキストからイメージ(T2I)モデルの普及の増加は、多様な文化的文脈を正確に表現する能力に関する懸念を引き起こします。
この作業では、明示的および暗黙的な文化的期待の両方に関して、T2Iモデルと評価メトリックのアラインメントを体系的に定量化する最初の研究を提示します。
この目的のために、視覚世代における文化的表現の厳格な人間の評価のために設計された新しいベンチマークであるCulturalFramesを紹介します。
10か国と5つの社会文化的領域にまたがるCulturalFramesは、983のプロンプト、4つの最先端のT2Iモデルによって生成された3637の対応する画像、および10Kを超える詳細な人間の注釈で構成されています。
T2Iモデルは、より挑戦的な暗黙の期待に応えることに失敗するだけでなく、それほど挑戦的ではない明示的な期待にも及ぶことがあることがわかります。
モデルと国で、文化的期待は平均44%の時間を逃しています。
これらの失敗の中で、明示的な期待は驚くほど高い平均率68%で見逃されますが、暗黙の期待の障害も重要であり、平均49%です。
さらに、既存のT2I評価メトリックが、内部の推論に関係なく、文化的整合の人間の判断と相関していないことを実証します。
まとめて、私たちの調査結果は重要なギャップを明らかにし、より文化的に情報に基づいたT2Iモデルと評価方法を開発するための実用的な方向を提供します。

要約(オリジナル)

The increasing ubiquity of text-to-image (T2I) models as tools for visual content generation raises concerns about their ability to accurately represent diverse cultural contexts. In this work, we present the first study to systematically quantify the alignment of T2I models and evaluation metrics with respect to both explicit as well as implicit cultural expectations. To this end, we introduce CulturalFrames, a novel benchmark designed for rigorous human evaluation of cultural representation in visual generations. Spanning 10 countries and 5 socio-cultural domains, CulturalFrames comprises 983 prompts, 3637 corresponding images generated by 4 state-of-the-art T2I models, and over 10k detailed human annotations. We find that T2I models not only fail to meet the more challenging implicit expectations but also the less challenging explicit expectations. Across models and countries, cultural expectations are missed an average of 44% of the time. Among these failures, explicit expectations are missed at a surprisingly high average rate of 68%, while implicit expectation failures are also significant, averaging 49%. Furthermore, we demonstrate that existing T2I evaluation metrics correlate poorly with human judgments of cultural alignment, irrespective of their internal reasoning. Collectively, our findings expose critical gaps, providing actionable directions for developing more culturally informed T2I models and evaluation methodologies.

arxiv情報

著者 Shravan Nayak,Mehar Bhatia,Xiaofeng Zhang,Verena Rieser,Lisa Anne Hendricks,Sjoerd van Steenkiste,Yash Goyal,Karolina Stańczak,Aishwarya Agrawal
発行日 2025-06-10 14:21:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | CulturalFrames: Assessing Cultural Expectation Alignment in Text-to-Image Models and Evaluation Metrics はコメントを受け付けていません

TinyLLaVA-Video: Towards Smaller LMMs for Video Understanding with Group Resampler

要約

ビデオ行動の認識とシーンの理解は、マルチモーダルインテリジェンスの基本的なタスクであり、多くの現実世界のアプリケーションの重要なビルディングブロックとして機能します。
大規模なマルチモーダルモデル(LMM)を通じて、ビデオ理解において顕著な進歩を遂げています。ほとんどの既存のオープンソースモデルは7B以上のパラメーターに依存しており、トレーニングに大規模なデータセットを必要とし、多くの研究者がリソースを集中してアクセスできません。
さらに、軽量モデルは、長い視覚シーケンスと時間的理解を効果的に処理する上で、持続的な課題に直面しています。
この作業では、約3.6Bのパラメーターを備えた軽量でありながら強力なビデオ理解モデルであるTinyLlava-Videoを紹介します。
私たちのデザインの礎石は、ビデオレベルの視覚トークンの数を大幅に削減および制御する新しいメカニズムであるビデオレベルのグループリサンプラーです。
従来の画像レベルの再サンプラーとは異なり、当社のアプローチは、一時的な理解を高めながら、冗長性を効果的に緩和し、ビデオベースのタスクのパフォーマンスの向上につながります。
さらに、Tinyllava-Videoは並外れた効率を示し、8 A100-40G GPUでの1日間のトレーニングのみを必要とします。
複数のベンチマーク上のいくつかの既存の7Bパラメーターモデルを上回ります。
この作品は、軽量ビデオ理解モデルに関する将来の研究の貴重な基盤を提供すると考えています。
コードと重みはhttps://github.com/zhangxj199/tinyllava-videoで入手できます。

要約(オリジナル)

Video behavior recognition and scene understanding are fundamental tasks in multimodal intelligence, serving as critical building blocks for numerous real-world applications. Through large multimodal models (LMMs) have achieved remarkable progress in video understanding, most existing open-source models rely on over 7B parameters and require large-scale datasets for training, making them resource-intensive and inaccessible to many researchers. Furthermore, lightweight models face persistent challenges in effectively processing long visual sequences and temporal understanding. In this work, we introduce TinyLLaVA-Video, a lightweight yet powerful video understanding model with approximately 3.6B parameters. The cornerstone of our design is the video-level group resampler, a novel mechanism that significantly reduces and controls the number of visual tokens at the video level. Unlike traditional image-level resampler, our approach effectively mitigates redundancy while enhancing temporal comprehension, leading to improved performance on video-based tasks. In addition, TinyLLaVA-Video demonstrates exceptional efficiency, requiring only one day of training on 8 A100-40G GPUs. It surpasses several existing 7B-parameter models on multiple benchmarks. We believe this work provides a valuable foundation for future research on lightweight video understanding models. The code and weights is available at https://github.com/ZhangXJ199/TinyLLaVA-Video.

arxiv情報

著者 Xingjian Zhang,Xi Weng,Yihao Yue,Zhaoxin Fan,Wenjun Wu,Lei Huang
発行日 2025-06-10 14:30:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TinyLLaVA-Video: Towards Smaller LMMs for Video Understanding with Group Resampler はコメントを受け付けていません

Adapting Vision-Language Foundation Model for Next Generation Medical Ultrasound Image Analysis

要約

医学的超音波検査は、リンパ節、乳房、甲状腺などの表在臓器や組織を調べるための不可欠な画像技術です。
高周波超音波波を使用して、人体の内部構造の詳細な画像を生成します。
ただし、これらの画像に関心のある手動で輪郭を描く領域は、専門知識を要求し、個人の間で一貫性のない解釈をもたらす労働集約的なタスクです。
さまざまなコンピュータービジョンアプリケーションに優れているVision-Language Foundationモデルは、超音波画像分析を強化するための新しい機会を提供します。
しかし、彼らのパフォーマンスは、自然イメージングドメインと医療イメージングドメインの大きな違いによって妨げられています。
この研究は、ビジョン言語基礎モデルのドメイン適応方法を開発することにより、これらの課題を克服しようとしています。
この研究では、特別な適応戦略とタスク駆動型のヘッドを備えたテキスト精製業者として大規模な言語モデルを利用することにより、Vision-Language Foundationモデルの微調整パイプラインを探ります。
私たちのアプローチは、6つの超音波データセットとセグメンテーションと分類の2つのタスクで広く評価されています。
実験結果は、私たちの方法が超音波画像分析のためのVision-Language Foundationモデルのパフォーマンスを効果的に改善し、既存の最先端のビジョン言語および純粋な基礎モデルを上回ることができることを示しています。
この研究のソースコードは、\ href {https://github.com/jinggqu/nextgen-uia} {github}で入手できます。

要約(オリジナル)

Medical ultrasonography is an essential imaging technique for examining superficial organs and tissues, including lymph nodes, breast, and thyroid. It employs high-frequency ultrasound waves to generate detailed images of the internal structures of the human body. However, manually contouring regions of interest in these images is a labor-intensive task that demands expertise and often results in inconsistent interpretations among individuals. Vision-language foundation models, which have excelled in various computer vision applications, present new opportunities for enhancing ultrasound image analysis. Yet, their performance is hindered by the significant differences between natural and medical imaging domains. This research seeks to overcome these challenges by developing domain adaptation methods for vision-language foundation models. In this study, we explore the fine-tuning pipeline for vision-language foundation models by utilizing large language model as text refiner with special-designed adaptation strategies and task-driven heads. Our approach has been extensively evaluated on six ultrasound datasets and two tasks: segmentation and classification. The experimental results show that our method can effectively improve the performance of vision-language foundation models for ultrasound image analysis, and outperform the existing state-of-the-art vision-language and pure foundation models. The source code of this study is available at \href{https://github.com/jinggqu/NextGen-UIA}{GitHub}.

arxiv情報

著者 Jingguo Qu,Xinyang Han,Tonghuan Xiao,Jia Ai,Juan Wu,Tong Zhao,Jing Qin,Ann Dorothy King,Winnie Chiu-Wing Chu,Jing Cai,Michael Tin-Cheung Yingınst
発行日 2025-06-10 14:37:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Adapting Vision-Language Foundation Model for Next Generation Medical Ultrasound Image Analysis はコメントを受け付けていません

StereoVAE: A lightweight stereo-matching system using embedded GPUs

要約

組み込みGPUを介してステレオマッチング用の軽量システムを提示します。
ステレオマッチングでの精度と処理速度のトレードオフを破り、埋め込まれたシステムがリアルタイム処理を確保しながらマッチング精度をさらに向上させることができます。
私たちの方法の主な考え方は、変分自動エンコーダー(VAE)に基づいて小さなニューラルネットワークを構築して、小さなサイズの粗い格差マップをアップサンプリングおよび改良することです。
提案されているハイブリッド構造は、計算の複雑さの点で従来の方法の利点をもたらすだけでなく、ニューラルネットワークの影響下で一致する精度を確保することもできません。
Kitti 2015ベンチマークでの広範な実験は、私たちの小さなシステムが、異なるアルゴリズムによって生成された粗視点マップの精度を改善する際に高い堅牢性を示し、埋め込みGPUでリアルタイムで実行されることを示しています。

要約(オリジナル)

We present a lightweight system for stereo matching through embedded GPUs. It breaks the trade-off between accuracy and processing speed in stereo matching, enabling our embedded system to further improve the matching accuracy while ensuring real-time processing. The main idea of our method is to construct a tiny neural network based on variational auto-encoder (VAE) to upsample and refinement a small size of coarse disparity map, which is first generated by a traditional matching method. The proposed hybrid structure cannot only bring the advantage of traditional methods in terms of computational complexity, but also ensure the matching accuracy under the impact of neural network. Extensive experiments on the KITTI 2015 benchmark demonstrate that our tiny system exhibits high robustness in improving the accuracy of the coarse disparity maps generated by different algorithms, while also running in real-time on embedded GPUs.

arxiv情報

著者 Qiong Chang,Xiang Li,Xin Xu,Xin Liu,Yun Li,Miyazaki Jun
発行日 2025-06-10 14:39:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM, cs.RO | StereoVAE: A lightweight stereo-matching system using embedded GPUs はコメントを受け付けていません

Mitigating Prior Shape Bias in Point Clouds via Differentiable Center Learning

要約

マスクされた自動エンコードと生成前削除は、コンピュータービジョンと自然言語処理で顕著な成功を収めており、最近ではポイントクラウドドメインに拡張されています。
それにもかかわらず、既存のポイントクラウドモデルは、センターポイントの事前サンプリングによる情報漏れの問題に悩まされており、モデルの些細なプロキシタスクにつながります。
これらのアプローチは、主にローカル機能の再構築に焦点を当てており、ポイントクラウド内のグローバルなパターンをキャプチャする能力を制限しています。
この論文では、事前テキストの難易度が減少したことで、表現型表現を学習するモデルの能力が妨げられると主張します。
これらの制限に対処するために、微分可能センターサンプリングネットワーク(DCS-NET)と呼ばれる新しいソリューションを導入します。
グローバル機能の再構築とローカルフィーチャの再構成の両方を非重要なプロキシタスクとして組み込み、ポイントクラウド内のグローバルパターンとローカルパターンの両方を同時に学習できるようにすることにより、情報漏れの問題に取り組みます。
実験結果は、我々の方法が既存のポイントクラウドモデルの表現能力を高め、情報漏れの問題に効果的に対処することを示しています。

要約(オリジナル)

Masked autoencoding and generative pretraining have achieved remarkable success in computer vision and natural language processing, and more recently, they have been extended to the point cloud domain. Nevertheless, existing point cloud models suffer from the issue of information leakage due to the pre-sampling of center points, which leads to trivial proxy tasks for the models. These approaches primarily focus on local feature reconstruction, limiting their ability to capture global patterns within point clouds. In this paper, we argue that the reduced difficulty of pretext tasks hampers the model’s capacity to learn expressive representations. To address these limitations, we introduce a novel solution called the Differentiable Center Sampling Network (DCS-Net). It tackles the information leakage problem by incorporating both global feature reconstruction and local feature reconstruction as non-trivial proxy tasks, enabling simultaneous learning of both the global and local patterns within point cloud. Experimental results demonstrate that our method enhances the expressive capacity of existing point cloud models and effectively addresses the issue of information leakage.

arxiv情報

著者 Zhe Li,Xiying Wang,Jinglin Zhao,Zheng Wang,Debin Liu,Laurence T. Yang
発行日 2025-06-10 14:39:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mitigating Prior Shape Bias in Point Clouds via Differentiable Center Learning はコメントを受け付けていません

Spatial Transcriptomics Expression Prediction from Histopathology Based on Cross-Modal Mask Reconstruction and Contrastive Learning

要約

空間トランスクリプトミクスは、さまざまな空間的位置で遺伝子発現レベルをキャプチャする技術であり、腫瘍微小環境分析と組織病理学の分子プロファイリングで広く使用されており、癌の遺伝子発現と臨床診断の解決に関する貴重な洞察を提供します。
データ収集のコストが高いため、大規模な空間トランスクリプトームデータのデータは依然として困難です。
この研究では、全体的なスライド画像から空間的に解決された遺伝子発現を予測するための対照的な学習ベースの深い学習方法を開発します。
6つの異なる疾患データセットにおける評価は、既存の研究と比較して、私たちの方法により、高度に発現した遺伝子、高可変遺伝子、およびマーカー遺伝子の予測におけるピアソン相関係数(PCC)がそれぞれ6.27%、6.11%、および11.26%を改善することを示しています。
さらなる分析は、この方法が遺伝子遺伝子相関を保持し、限られたサンプルを持つデータセットに適用されることを示しています。
さらに、我々の方法は、バイオマーカーの発現に基づいた癌組織の局在の可能性を示しています。

要約(オリジナル)

Spatial transcriptomics is a technology that captures gene expression levels at different spatial locations, widely used in tumor microenvironment analysis and molecular profiling of histopathology, providing valuable insights into resolving gene expression and clinical diagnosis of cancer. Due to the high cost of data acquisition, large-scale spatial transcriptomics data remain challenging to obtain. In this study, we develop a contrastive learning-based deep learning method to predict spatially resolved gene expression from whole-slide images. Evaluation across six different disease datasets demonstrates that, compared to existing studies, our method improves Pearson Correlation Coefficient (PCC) in the prediction of highly expressed genes, highly variable genes, and marker genes by 6.27%, 6.11%, and 11.26% respectively. Further analysis indicates that our method preserves gene-gene correlations and applies to datasets with limited samples. Additionally, our method exhibits potential in cancer tissue localization based on biomarker expression.

arxiv情報

著者 Junzhuo Liu,Markus Eckstein,Zhixiang Wang,Friedrich Feuerhake,Dorit Merhof
発行日 2025-06-10 14:42:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Spatial Transcriptomics Expression Prediction from Histopathology Based on Cross-Modal Mask Reconstruction and Contrastive Learning はコメントを受け付けていません

StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams

要約

非調整されたビデオストリームからの動的3Dシーンのリアルタイム再構成は、多くの現実世界アプリケーションにとって重要です。
ただし、既存の方法は、3つの重要な課題に共同で対処するのに苦労しています。1)無効化されていない入力をリアルタイムで処理し、2)動的シーンの進化を正確にモデル化し、3)長期の安定性と計算効率を維持します。
この目的のために、任意の長さの非調整されたビデオストリームをオンライン的に動的な3Dガウススプラッティング(3DG)表現に変換する最初の完全なフィードフォワードフレームワークであるStreamSplatを紹介し、時間的に局所的な観測からシーンのダイナミクスを回復できます。
2つの重要な技術革新を提案します。3DGS位置予測の静的エンコーダの確率的サンプリングメカニズムと、堅牢で効率的な動的モデリングを可能にする動的デコーダーの双方向変形フィールドです。
静的および動的なベンチマークでの広範な実験は、Streamsplatが再構築品質と動的シーンモデリングの両方で以前の作業を常に上回る一方で、任意の長いビデオストリームのオンライン再構築をユニークにサポートすることを示しています。
コードとモデルはhttps://github.com/nickwzk/streamsplatで入手できます。

要約(オリジナル)

Real-time reconstruction of dynamic 3D scenes from uncalibrated video streams is crucial for numerous real-world applications. However, existing methods struggle to jointly address three key challenges: 1) processing uncalibrated inputs in real time, 2) accurately modeling dynamic scene evolution, and 3) maintaining long-term stability and computational efficiency. To this end, we introduce StreamSplat, the first fully feed-forward framework that transforms uncalibrated video streams of arbitrary length into dynamic 3D Gaussian Splatting (3DGS) representations in an online manner, capable of recovering scene dynamics from temporally local observations. We propose two key technical innovations: a probabilistic sampling mechanism in the static encoder for 3DGS position prediction, and a bidirectional deformation field in the dynamic decoder that enables robust and efficient dynamic modeling. Extensive experiments on static and dynamic benchmarks demonstrate that StreamSplat consistently outperforms prior works in both reconstruction quality and dynamic scene modeling, while uniquely supporting online reconstruction of arbitrarily long video streams. Code and models are available at https://github.com/nickwzk/StreamSplat.

arxiv情報

著者 Zike Wu,Qi Yan,Xuanyu Yi,Lele Wang,Renjie Liao
発行日 2025-06-10 14:52:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams はコメントを受け付けていません