Feedback Guidance of Diffusion Models

要約

分類器のないガイダンス(CFG)は、条件付き拡散モデルのサンプルの忠実度を改善するための標準となっていますが、特定のサンプルが修正を必要とするかどうかに関係なく、一定のガイダンスを適用することにより、多様性を害し、記憶を引き起こす可能性があります。
状態依存係数を使用して、ニーズに基づいてガイダンス額を自己調整するフィードバックガイダンス(FBG)を提案します。
私たちのアプローチは、学習した条件分布が無条件分布によって直線的に破損すると仮定することにより、第一原理から導き出され、CFGの暗黙的な乗算仮定とは対照的です。
私たちのスキームは、推論中にガイダンスを動的に適応させるための条件付き信号情報性に関する独自の予測のフィードバックに依存しており、固定ハイパーパラメーターとしてのガイダンスの見解に挑戦しています。
このアプローチはImagENET512x512にベンチマークされており、分類器のないガイダンスを大幅に上回り、強力な数学的枠組みの恩恵を受けながら限られたインターバルガイダンス(LIG)に競争します。
テキストからイメージの生成では、予想されるように、私たちのアプローチは、より単純なプロンプトよりも複雑なプロンプトに高いガイダンススケールを自動的に適用し、CFGやLIGなどの既存のガイダンススキームと簡単に組み合わせることができることを実証します。

要約(オリジナル)

While Classifier-Free Guidance (CFG) has become standard for improving sample fidelity in conditional diffusion models, it can harm diversity and induce memorization by applying constant guidance regardless of whether a particular sample needs correction. We propose FeedBack Guidance (FBG), which uses a state-dependent coefficient to self-regulate guidance amounts based on need. Our approach is derived from first principles by assuming the learned conditional distribution is linearly corrupted by the unconditional distribution, contrasting with CFG’s implicit multiplicative assumption. Our scheme relies on feedback of its own predictions about the conditional signal informativeness to adapt guidance dynamically during inference, challenging the view of guidance as a fixed hyperparameter. The approach is benchmarked on ImageNet512x512, where it significantly outperforms Classifier-Free Guidance and is competitive to Limited Interval Guidance (LIG) while benefitting from a strong mathematical framework. On Text-To-Image generation, we demonstrate that, as anticipated, our approach automatically applies higher guidance scales for complex prompts than for simpler ones and that it can be easily combined with existing guidance schemes such as CFG or LIG.

arxiv情報

著者 Koulischer Felix,Handke Florian,Deleu Johannes,Demeester Thomas,Ambrogioni Luca
発行日 2025-06-06 13:46:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

LinGuinE: Longitudinal Guidance Estimation for Volumetric Lung Tumour Segmentation

要約

肺肉総腫瘍体積のセグメンテーションは、放射線療法と外科的介入における重要な第一歩であり、化学療法反応の評価に役割を果たし始めています。
薬物に対する反応は、期間、つまり縦断的研究で一連のCTスキャンにわたって腫瘍体積を追跡することによって測定されます。
ただし、現在、自動化または半自動化された縦方向の腫瘍セグメンテーションのためのソリューションはほとんど存在しません。
このホワイトペーパーでは、肺腫瘍の縦方向のシリーズをセグメント化する自動化された方法であるLinguineを紹介します。
放射線科医は、任意の時点でCTスキャンで腫瘍の位置を示す最初の入力を提供する必要があります。
リンギンサンプルはこの腫瘍内でポイントを指し、剛性登録を使用して別の時点に伝播します。
クリック妥当性分類器は、まだ腫瘍内に該当するポイントを選択します。
これらは、新しい時点でセグメンテーションを自動的に作成するために使用されます。
肺腫瘍の第3相臨床試験と、公開されている4-D肺CBCTデータセットの臨床試験から取得したデータセットで言語をテストしました。
63の縦断的研究で、両方のテストセットのサイコロが20%以上(p <0.05)を改善することがわかります。 任意の時点を出発点として使用し、アブレーション実験を実施し、リンギンのセットアップが両方のテストデータセットで最良の結果をもたらすことがあることを示します。

要約(オリジナル)

Segmentation of lung gross tumour volumes is an important first step in radiotherapy and surgical intervention, and is starting to play a role in assessing chemotherapy response. Response to a drug is measured by tracking the tumour volumes over a series of CT scans over a time period i.e. a longitudinal study. However, there currently exist few solutions for automated or semi-automated longitudinal tumour segmentation. This paper introduces LinGuinE, an automated method to segment a longitudinal series of lung tumours. A radiologist must provide an initial input, indicating the location of the tumour in a CT scan at an arbitrary time point. LinGuinE samples points inside this tumour and propagates them to another time point using rigid registration. A click validity classifier selects points which still fall within the tumour; these are used to automatically create a segmentation in the new time point. We test LinGuinE on a dataset acquired from a phase 3 clinical trial for lung tumours and the publicly available 4-D lung CBCT dataset. We find that LinGuinE improves the Dice on both test sets by over 20% (p< 0.05) across 63 longitudinal studies. We show that any time point can be used as a starting point, conduct ablation experiments, and find that our LinGuinE setup yields the best results on both test datasets.

arxiv情報

著者 Nadine Garibli,Mayank Patwari,Bence Csiba,Yi Wei,Kostas Sidiropoulos
発行日 2025-06-06 13:52:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | コメントする

VideoChat-A1: Thinking with Long Videos by Chain-of-Shot Reasoning

要約

最近のビデオ理解の進歩は、マルチモーダルの大手言語モデル(MLLMS)によって推進されています。
しかし、これらのMLLMは、短いビデオを分析するのが得意ですが、より長いコンテキストでビデオを理解するのが困難に苦しんでいます。
この困難に対処するために、いくつかのエージェントパラダイムが最近提案されており、長いビデオで追加のコンテキスト知識を取得するためのエージェントとしてMLLMSを使用しています。
ただし、ほとんどの既存のエージェントは、長いビデオが複数のショットで構成されているという重要な事実を無視しています。つまり、長いビデオからユーザーの質問に答えるために、人間のような関連するショットを深く理解することが重要です。
そのような洞察がなければ、これらのエージェントはしばしば誤って冗長な騒々しい時間的文脈でさえ冗長に感じられ、長いビデオ理解の能力を制限します。
このギャップを埋めるために、新しい長いビデオエージェントパラダイムであるVideoChat-A1を提案します。
以前の作品とは異なり、私たちのVideoChat-A1は、明確なショットの推論パラダイムを介して、長いビデオで深く考えることができます。
より具体的には、ユーザーの質問の関連するショットを徐々に選択し、粗からファインのパーティションでこれらのショットを調べることができます。
ショットチェーンに沿ったマルチモーダル推論により、VideoChat-A1は段階的な人間の思考プロセスを効果的に模倣し、長いビデオで思慮深い理解のために好ましい時間的コンテキストをインタラクティブに発見することができます。
広範な実験では、VideoChat-A1が主流の長いビデオQAベンチマークで最先端のパフォーマンスを達成することを示しています。
緊密なソースGPT-4OおよびGemini 1.5 Proの先頭と比較して、VideoChat-A1は競争の正確性を提供しますが、平均して7 \%入力フレームと12 \%推論時間を備えています。

要約(オリジナル)

The recent advance in video understanding has been driven by multimodal large language models (MLLMs). But these MLLMs are good at analyzing short videos, while suffering from difficulties in understanding videos with a longer context. To address this difficulty, several agent paradigms have recently been proposed, using MLLMs as agents for retrieving extra contextual knowledge in a long video. However, most existing agents ignore the key fact that a long video is composed with multiple shots, i.e., to answer the user question from a long video, it is critical to deeply understand its relevant shots like human. Without such insight, these agents often mistakenly find redundant even noisy temporal context, restricting their capacity for long video understanding. To fill this gap, we propose VideoChat-A1, a novel long video agent paradigm. Different from the previous works, our VideoChat-A1 can deeply think with long videos, via a distinct chain-of-shot reasoning paradigm. More specifically, it can progressively select the relevant shots of user question, and look into these shots in a coarse-to-fine partition. By multi-modal reasoning along the shot chain, VideoChat-A1 can effectively mimic step-by-step human thinking process, allowing to interactively discover preferable temporal context for thoughtful understanding in long videos. Extensive experiments show that, our VideoChat-A1 achieves the state-of-the-art performance on the mainstream long video QA benchmarks, e.g., it achieves 77.0 on VideoMME and 70.1 on EgoSchema, outperforming its strong baselines (e.g., Intern2.5VL-8B and InternVideo2.5-8B), by up to 10.8\% and 6.2\%. Compared to leading close-source GPT-4o and Gemini 1.5 Pro, VideoChat-A1 offers competitive accuracy, but with 7\% input frames and 12\% inference time on average.

arxiv情報

著者 Zikang Wang,Boyu Chen,Zhengrong Yue,Yi Wang,Yu Qiao,Limin Wang,Yali Wang
発行日 2025-06-06 13:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

DermaCon-IN: A Multi-concept Annotated Dermatological Image Dataset of Indian Skin Disorders for Clinical AI Research

要約

人工知能は、スケーラブルな画像ベースの診断を可能にすることにより、皮膚療法を増強する態勢が整っています。
しかし、堅牢で公平なモデルの開発は、現実世界の実践の臨床的および人口統計学的複雑さをキャプチャできないデータセットによって妨げられたままです。
この複雑さは、地域固有の疾患分布、皮膚トーンの広い変動、および非西洋集団からの外来シナリオの過小評価に由来しています。
南インドの外来患者診療所全体で約3,000人の患者から5,450を超える臨床画像を含む、前向きにキュレーションされた皮膚科データセットであるDermacon-inを紹介します。
各画像は、ルークの分類から適応された階層的な病因ベースの分類法の下で構成された240を超える異なる診断を持つボード認定皮膚科医によって注釈が付けられています。
データセットは、インドの外来患者のケアで一般的に見られる皮膚科学条件と色調の変動の幅広いスペクトルをキャプチャします。
畳み込みモデル(ResNet、Densenet、EfficientNet)、変圧器ベースのモデル(VIT、Maxvit、Swin)、およびコンセプトボトルネックモデルを含むさまざまなアーキテクチャをベーチラインのパフォーマンスを確立し、解剖学的および概念レベルのキューを統合する方法を探ります。
これらの結果は、解釈可能で臨床的に現実的なモデルに向けて将来の努力を導くことを目的としています。
Dermacon-inは、現実世界の設定で皮膚科AIを前進させるためのスケーラブルで代表的な基盤を提供します。

要約(オリジナル)

Artificial intelligence is poised to augment dermatological care by enabling scalable image-based diagnostics. Yet, the development of robust and equitable models remains hindered by datasets that fail to capture the clinical and demographic complexity of real-world practice. This complexity stems from region-specific disease distributions, wide variation in skin tones, and the underrepresentation of outpatient scenarios from non-Western populations. We introduce DermaCon-IN, a prospectively curated dermatology dataset comprising over 5,450 clinical images from approximately 3,000 patients across outpatient clinics in South India. Each image is annotated by board-certified dermatologists with over 240 distinct diagnoses, structured under a hierarchical, etiology-based taxonomy adapted from Rook’s classification. The dataset captures a wide spectrum of dermatologic conditions and tonal variation commonly seen in Indian outpatient care. We benchmark a range of architectures including convolutional models (ResNet, DenseNet, EfficientNet), transformer-based models (ViT, MaxViT, Swin), and Concept Bottleneck Models to establish baseline performance and explore how anatomical and concept-level cues may be integrated. These results are intended to guide future efforts toward interpretable and clinically realistic models. DermaCon-IN provides a scalable and representative foundation for advancing dermatology AI in real-world settings.

arxiv情報

著者 Shanawaj S Madarkar,Mahajabeen Madarkar,Madhumitha V,Teli Prakash,Konda Reddy Mopuri,Vinaykumar MV,KVL Sathwika,Adarsh Kasturi,Gandla Dilip Raj,PVN Supranitha,Harsh Udai
発行日 2025-06-06 13:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | コメントする

WoundAIssist: A Patient-Centered Mobile App for AI-Assisted Wound Care With Physicians in the Loop

要約

特に老化した集団における慢性創傷の有病率の高まりは、延長された入院、コストの上昇、患者の生活の質の低下により、重要なヘルスケアの課題を提示します。
従来の創傷ケアは資源集約型であり、患者と医療専門家(HCP)の両方に負担をかける頻繁な対面訪問を必要とします。
したがって、私たちは、遠隔医療創傷ケアをサポートするために設計された患者中心のAI駆動型モバイルアプリケーションである創傷者を提示します。
創傷者は、患者が写真やアンケートを介して自宅で傷を定期的に記録することを可能にしますが、医師は遠隔監視とビデオ相談を通じてケアプロセスに積極的に関与し続けています。
際立った機能は、患者が報告されたデータと組み合わせて、創傷治癒の進行を継続的に監視できるように、デバイス上の創傷セグメンテーションのための統合された軽量学習モデルです。
患者とドメインの専門家の両方を含む反復的なユーザー中心のプロセスを通じて開発された創傷者は、特に高齢患者にユーザーフレンドリーな設計を優先します。
患者と皮膚科医による決定的な使いやすさの研究は、優れた使いやすさ、アプリの品質の優れたもの、およびAI駆動型の傷の認識に対する好ましい認識を報告しました。
私たちの主な貢献は、(i)患者とHCPの間のギャップを埋めるために設計された使いやすい包括的なテレヘルスソリューションである、(ii)実装と(ii)revideaissistの評価です。
さらに、3年以上の学際的な研究から派生したリモート患者監視アプリの設計洞察を統合し、臨床ドメイン全体で同様のデジタルヘルスツールの開発を通知する可能性があります。

要約(オリジナル)

The rising prevalence of chronic wounds, especially in aging populations, presents a significant healthcare challenge due to prolonged hospitalizations, elevated costs, and reduced patient quality of life. Traditional wound care is resource-intensive, requiring frequent in-person visits that strain both patients and healthcare professionals (HCPs). Therefore, we present WoundAIssist, a patient-centered, AI-driven mobile application designed to support telemedical wound care. WoundAIssist enables patients to regularly document wounds at home via photographs and questionnaires, while physicians remain actively engaged in the care process through remote monitoring and video consultations. A distinguishing feature is an integrated lightweight deep learning model for on-device wound segmentation, which, combined with patient-reported data, enables continuous monitoring of wound healing progression. Developed through an iterative, user-centered process involving both patients and domain experts, WoundAIssist prioritizes an user-friendly design, particularly for elderly patients. A conclusive usability study with patients and dermatologists reported excellent usability, good app quality, and favorable perceptions of the AI-driven wound recognition. Our main contribution is two-fold: (I) the implementation and (II) evaluation of WoundAIssist, an easy-to-use yet comprehensive telehealth solution designed to bridge the gap between patients and HCPs. Additionally, we synthesize design insights for remote patient monitoring apps, derived from over three years of interdisciplinary research, that may inform the development of similar digital health tools across clinical domains.

arxiv情報

著者 Vanessa Borst,Anna Riedmann,Tassilo Dege,Konstantin Müller,Astrid Schmieder,Birgit Lugrin,Samuel Kounev
発行日 2025-06-06 14:10:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | コメントする

Bidirectional Image-Event Guided Low-Light Image Enhancement

要約

極端な低光条件下では、動的範囲が限られているため、従来のフレームベースのカメラは、キャプチャされた画像の詳細損失とモーションブラーに直面しています。
このボトルネックを克服するために、研究者はイベントカメラを導入し、イベントガイド下のローライト画像強化アルゴリズムを提案しました。
ただし、これらの方法は、動的照明条件とスパースイベントデータにおける局所構造の不連続によって引き起こされるグローバルな低周波ノイズの影響を無視します。
これらの問題に対処するために、革新的な双方向のガイド付き低灯画像強化フレームワーク(Bilie)を提案します。
特に、グローバルな照明ステップの変更によって導入された有意な低周波ノイズを緩和するために、イベント表現レベルで周波数ハイパスフィルタリングベースのイベント機能強化(EFE)モジュールを導入して、低周波情報の干渉を抑制し、高周波のエッジを保存および強調します。
既存のデータセットの視覚的品質と色のバイアスが不十分であることを考慮して、拡張イベントガイダンスによって導入された構造的不連続性と局所ノイズを抑制しながら、よりスムーズな融合表現を生成しながら、エッジは、信頼できる強化スキームを通じて高品質のグラウンドトゥルースを備えた新しいデータセット(免除)を提供します。
広範な実験結果は、提案されたBilieがPSNRで0.96dB、LPIPSで0.03の最先端の方法よりも優れていることを示しています。

要約(オリジナル)

Under extreme low-light conditions, traditional frame-based cameras, due to their limited dynamic range and temporal resolution, face detail loss and motion blur in captured images. To overcome this bottleneck, researchers have introduced event cameras and proposed event-guided low-light image enhancement algorithms. However, these methods neglect the influence of global low-frequency noise caused by dynamic lighting conditions and local structural discontinuities in sparse event data. To address these issues, we propose an innovative Bidirectional guided Low-light Image Enhancement framework (BiLIE). Specifically, to mitigate the significant low-frequency noise introduced by global illumination step changes, we introduce the frequency high-pass filtering-based Event Feature Enhancement (EFE) module at the event representation level to suppress the interference of low-frequency information, and preserve and highlight the high-frequency edges.Furthermore, we design a Bidirectional Cross Attention Fusion (BCAF) mechanism to acquire high-frequency structures and edges while suppressing structural discontinuities and local noise introduced by sparse event guidance, thereby generating smoother fused representations.Additionally, considering the poor visual quality and color bias in existing datasets, we provide a new dataset (RELIE), with high-quality ground truth through a reliable enhancement scheme. Extensive experimental results demonstrate that our proposed BiLIE outperforms state-of-the-art methods by 0.96dB in PSNR and 0.03 in LPIPS.

arxiv情報

著者 Zhanwen Liu,Huanna Song,Yang Wang,Nan Yang,Shangyu Xie,Yisheng An,Xiangmo Zhao
発行日 2025-06-06 14:28:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

CCLSTM: Coupled Convolutional Long-Short Term Memory Network for Occupancy Flow Forecasting

要約

動的エージェントの将来の状態を予測することは、自律運転の基本的なタスクです。
この目的の表現力のある表現は、運動、空間的範囲、およびマルチモーダルの将来の分布をモデル化するためのスケーラブルで統一された形式を提供する占有フローフィールドです。
最近の方法はこの表現を使用して強力な結果を達成しましたが、多くの場合、実際には利用できない、または生成が困難な高品質のベクトル化された入力、および計算的に集中的でコストがかかるトランスベースのアーキテクチャの使用に依存しています。
これらの問題に対処するために、\ textBf {結合畳み込みLSTM(CCLSTM)}を提案します。
CCLSTMは、ベクトル化された入力や自己関節メカニズムに依存せずに、コンパクトな再発畳み込み構造を使用して、時間的ダイナミクスと空間的占有率相関を効果的にキャプチャします。
その単純さにもかかわらず、CCLSTMは占有フローメトリックで最先端のパフォーマンスを達成し、この提出時点で、2024年のWaymo占有およびフロー予測チャレンジリーダーボードのすべてのメトリックで\(1^{\ text {st}} \)をランク付けします。

要約(オリジナル)

Predicting future states of dynamic agents is a fundamental task in autonomous driving. An expressive representation for this purpose is Occupancy Flow Fields, which provide a scalable and unified format for modeling motion, spatial extent, and multi-modal future distributions. While recent methods have achieved strong results using this representation, they often depend on high-quality vectorized inputs, which are unavailable or difficult to generate in practice, and the use of transformer-based architectures, which are computationally intensive and costly to deploy. To address these issues, we propose \textbf{Coupled Convolutional LSTM (CCLSTM)}, a lightweight, end-to-end trainable architecture based solely on convolutional operations. Without relying on vectorized inputs or self-attention mechanisms, CCLSTM effectively captures temporal dynamics and spatial occupancy-flow correlations using a compact recurrent convolutional structure. Despite its simplicity, CCLSTM achieves state-of-the-art performance on occupancy flow metrics and, as of this submission, ranks \(1^{\text{st}}\) in all metrics on the 2024 Waymo Occupancy and Flow Prediction Challenge leaderboard.

arxiv情報

著者 Peter Lengyel
発行日 2025-06-06 14:38:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Gradient Similarity Surgery in Multi-Task Deep Learning

要約

マルチタスク学習($ MTL $)パラダイムは、タスクで共有される高レベルでより一般的な隠されたパターンをキャプチャする単一モデル内で複数のタスクを同時に学習することを目的としています。
深い学習では、バックプロパゲーショントレーニングプロセスの重要な課題は、勾配降下学習ルールの収束速度と安定性を改善するための高度なオプティマイザーの設計です。
特に、マルチタスクディープラーニング($ mtdl $)では、多数のタスクが潜在的に矛盾する勾配を生成する場合があり、それが多様な損失関数の同時収束を妨げる可能性があります。
この課題は、タスクの目的の勾配が異なる大きさまたは反対方向のいずれかを持っている場合に発生し、1つまたは少数が互いに支配または干渉し、したがってトレーニングプロセスを低下させます。
勾配手術方法は、全体的な勾配軌道を調整することにより、矛盾する勾配に明示的に対処する問題に対処します。
この研究では、新しい勾配手術法である類似性を覚める運動量勾配手術(SAM-GS)を紹介します。これは、最適化プロセスを導くための勾配の大きさの類似性測定に基づいた効果的でスケーラブルなアプローチを提供します。
SAM-GS手術は、勾配の均等化と1次勢いの変調を採用しています。
一連の実験テストにより、SAM-GSの合成問題と$ MTL $ベンチマークに対する有効性が示されています。
勾配の大きさの類似性は、学習プロセスの最適化のために$ MTDL $の勾配集約を正規化する上で重要な役割を果たします。

要約(オリジナル)

The multi-task learning ($MTL$) paradigm aims to simultaneously learn multiple tasks within a single model capturing higher-level, more general hidden patterns that are shared by the tasks. In deep learning, a significant challenge in the backpropagation training process is the design of advanced optimisers to improve the convergence speed and stability of the gradient descent learning rule. In particular, in multi-task deep learning ($MTDL$) the multitude of tasks may generate potentially conflicting gradients that would hinder the concurrent convergence of the diverse loss functions. This challenge arises when the gradients of the task objectives have either different magnitudes or opposite directions, causing one or a few to dominate or to interfere with each other, thus degrading the training process. Gradient surgery methods address the problem explicitly dealing with conflicting gradients by adjusting the overall gradient trajectory. This work introduces a novel gradient surgery method, the Similarity-Aware Momentum Gradient Surgery (SAM-GS), which provides an effective and scalable approach based on a gradient magnitude similarity measure to guide the optimisation process. The SAM-GS surgery adopts gradient equalisation and modulation of the first-order momentum. A series of experimental tests have shown the effectiveness of SAM-GS on synthetic problems and $MTL$ benchmarks. Gradient magnitude similarity plays a crucial role in regularising gradient aggregation in $MTDL$ for the optimisation of the learning process.

arxiv情報

著者 Thomas Borsani,Andrea Rosani,Giuseppe Nicosia,Giuseppe Di Fatta
発行日 2025-06-06 14:40:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

要約

基礎モデルは、時系列予測(TSF)で有望なアプローチとして浮上しています。
既存のアプローチは、大規模な言語モデル(LLM)を再利用するか、大規模な時系列データセットを構築して、ユニバーサル予測のためのTSFファンデーションモデルを開発します。
ただし、これらの方法は、重度のクロスドメインギャップまたはドメイン内の不均一性のために課題に直面しています。
このペーパーでは、豊かで高品質の自然画像からTSFファンデーションモデルを構築するための新しい道を探ります。
私たちの重要な洞察は、Imagenetデータセットで事前に訓練された視覚的なマスクされた自動エンコーダーが、自然に数値シリーズの予測者になる可能性があることです。
画像再構成タスクとしてTSFを再定式化することにより、画像のトレーニング前とTSFのダウンストリームタスクの間のギャップを埋めます。
驚くべきことに、時系列ドメインでのさらなる適応がなければ、提案されたVisiontは既存のTSFファンデーションモデルよりも優れたゼロショット予測パフォーマンスを達成できます。
1つのエポックを微調整することで、Visiontsは予測をさらに改善し、ほとんどの場合、最先端のパフォーマンスを達成することができました。
広範な実験では、画像と現実世界の時系列との本質的な類似性が明らかになり、視覚モデルがTSFに「無料のランチ」を提供し、将来のクロスモダリティ研究の可能性を強調する可能性があることを示唆しています。
私たちのコードは、https://github.com/keytoyze/visiontsで公開されています。

要約(オリジナル)

Foundation models have emerged as a promising approach in time series forecasting (TSF). Existing approaches either repurpose large language models (LLMs) or build large-scale time series datasets to develop TSF foundation models for universal forecasting. However, these methods face challenges due to the severe cross-domain gap or in-domain heterogeneity. This paper explores a new road to building a TSF foundation model from rich, high-quality natural images. Our key insight is that a visual masked autoencoder, pre-trained on the ImageNet dataset, can naturally be a numeric series forecaster. By reformulating TSF as an image reconstruction task, we bridge the gap between image pre-training and TSF downstream tasks. Surprisingly, without further adaptation in the time series domain, the proposed VisionTS could achieve better zero-shot forecast performance than existing TSF foundation models. With fine-tuning for one epoch, VisionTS could further improve the forecasting and achieve state-of-the-art performance in most cases. Extensive experiments reveal intrinsic similarities between images and real-world time series, suggesting that visual models may offer a ‘free lunch’ for TSF and highlight the potential for future cross-modality research. Our code is publicly available at https://github.com/Keytoyze/VisionTS.

arxiv情報

著者 Mouxiang Chen,Lefei Shen,Zhuo Li,Xiaoyun Joy Wang,Jianling Sun,Chenghao Liu
発行日 2025-06-06 14:46:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

GenSpace: Benchmarking Spatially-Aware Image Generation

要約

人間は、写真のために3Dスペースでシーンを直感的に構成して配置できます。
ただし、テキストまたは画像プロンプトから画像を作成する際に、同様の3D空間認識を持つ高度なAIイメージジェネレーターは、シーンを計画できますか?
現在の画像生成モデルの空間的認識を包括的に評価するために、新しいベンチマークと評価パイプラインであるGenspaceを紹介します。
さらに、一般的な視覚言語モデル(VLM)を使用した標準的な評価は、詳細な空間エラーをキャプチャできないことがよくあります。
この課題を処理するために、複数の視覚基盤モデルを使用して3Dシーンのジオメトリを再構築し、より正確で人間に合わせた空間的忠実さのメトリックを提供する専門的な評価パイプラインとメトリックを提案します。
私たちの調査結果は、AIモデルが視覚的に魅力的な画像を作成し、一般的な指示に従うことができる一方で、オブジェクトの配置、関係、測定などの特定の3Dの詳細と闘っていることを示しています。
現在の最先端の画像生成モデルの空間認識における3つのコア制限を要約します。1)オブジェクトの視点の理解、2)エゴセントリックアロコンセントリック変換、3)メトリック測定順守。画像生成における空間知能を改善するための可能な方向を強調します。

要約(オリジナル)

Humans can intuitively compose and arrange scenes in the 3D space for photography. However, can advanced AI image generators plan scenes with similar 3D spatial awareness when creating images from text or image prompts? We present GenSpace, a novel benchmark and evaluation pipeline to comprehensively assess the spatial awareness of current image generation models. Furthermore, standard evaluations using general Vision-Language Models (VLMs) frequently fail to capture the detailed spatial errors. To handle this challenge, we propose a specialized evaluation pipeline and metric, which reconstructs 3D scene geometry using multiple visual foundation models and provides a more accurate and human-aligned metric of spatial faithfulness. Our findings show that while AI models create visually appealing images and can follow general instructions, they struggle with specific 3D details like object placement, relationships, and measurements. We summarize three core limitations in the spatial perception of current state-of-the-art image generation models: 1) Object Perspective Understanding, 2) Egocentric-Allocentric Transformation and 3) Metric Measurement Adherence, highlighting possible directions for improving spatial intelligence in image generation.

arxiv情報

著者 Zehan Wang,Jiayang Xu,Ziang Zhang,Tianyu Pang,Chao Du,Hengshuang Zhao,Zhou Zhao
発行日 2025-06-06 14:51:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする