Contrast-Invariant Self-supervised Segmentation for Quantitative Placental MRI

要約

胎盤の定量分析には、正確な胎盤セグメンテーションが不可欠です。
ただし、このタスクは、次のことにより、T2*の重み付き胎盤イメージングで特に困難です。(1)個々のエコー全体の弱い境界コントラスト。
(2)すべてのエコー時間の手動地面の真理注釈がない。
(3)胎児および母体の動きによって引き起こされるエコー全体のモーションアーティファクト。
この作業では、堅牢でコントラスト不変の表現を学習するために、マルチエコーT2*の重み付きMRI全体で補完的な情報を活用するコントラストの高度化セグメンテーションフレームワークを提案します。
私たちの方法は統合されています:(i)ラベルのないマルチエコースライスの自己監視された事前削除のためのマスクされた自動エンコード(MAE)。
(ii)エコー時代にわたる監視されていないドメイン適応のためのマスクされた擬似標識(MPL)。
(iii)グローバルローカルコラボレーションは、細粒の特徴をグローバルな解剖学的コンテキストに合わせます。
さらに、同じ主題のエコー全体で表現の一貫性を促進するために、セマンティックマッチング損失を導入します。
臨床的マルチエコー胎盤MRIデータセットの実験は、私たちのアプローチがエコーの時間に効果的に一般化し、シングルエコーと素朴な融合ベースラインの両方を上回ることを示しています。
私たちの知る限り、これは胎盤セグメンテーションのためにマルチエコーT2*の重量MRIを体系的に活用する最初の作業です。

要約(オリジナル)

Accurate placental segmentation is essential for quantitative analysis of the placenta. However, this task is particularly challenging in T2*-weighted placental imaging due to: (1) weak and inconsistent boundary contrast across individual echoes; (2) the absence of manual ground truth annotations for all echo times; and (3) motion artifacts across echoes caused by fetal and maternal movement. In this work, we propose a contrast-augmented segmentation framework that leverages complementary information across multi-echo T2*-weighted MRI to learn robust, contrast-invariant representations. Our method integrates: (i) masked autoencoding (MAE) for self-supervised pretraining on unlabeled multi-echo slices; (ii) masked pseudo-labeling (MPL) for unsupervised domain adaptation across echo times; and (iii) global-local collaboration to align fine-grained features with global anatomical context. We further introduce a semantic matching loss to encourage representation consistency across echoes of the same subject. Experiments on a clinical multi-echo placental MRI dataset demonstrate that our approach generalizes effectively across echo times and outperforms both single-echo and naive fusion baselines. To our knowledge, this is the first work to systematically exploit multi-echo T2*-weighted MRI for placental segmentation.

arxiv情報

著者 Xinliu Zhong,Ruiying Liu,Emily S. Nichols,Xuzhe Zhang,Andrew F. Laine,Emma G. Duerden,Yun Wang
発行日 2025-05-30 15:58:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Contrast-Invariant Self-supervised Segmentation for Quantitative Placental MRI はコメントを受け付けていません

Tackling View-Dependent Semantics in 3D Language Gaussian Splatting

要約

3Dガウススプラッティング(3D-GS)の最近の進歩により、RGB画像から高品質の3Dシーンの再構築が可能になります。
多くの研究は、言語主導のオープンボキャブラリーシーンの理解のためにこのパラダイムを拡張しています。
ただし、それらのほとんどは、2Dセマンティック機能を3Dガウスに投影し、2Dと3Dの理解の根本的なギャップを見落としているだけです。3Dオブジェクトは、さまざまな観点からさまざまなセマンティクスを示す場合があります。
この課題に対処するために、3Dシーンをオブジェクトに分解することでクロスビューセマンティック接続を確立するLaga(言語ガウス)を提案します。
次に、セマンティック記述子をクラスタリングし、マルチビューセマンティクスに基づいてそれらを再び測定することにより、ビューと組み合わせたセマンティック表現を構築します。
広範な実験は、Lagaがビュー依存のセマンティクスから重要な情報を効果的にキャプチャし、3Dシーンをより包括的な理解できるようにすることを示しています。
特に、同じ設定では、LAGAはLERF-OVSデータセットで以前のSOTAよりも +18.7%MIOUの大幅な改善を達成します。
私たちのコードは、https://github.com/sjtu-deepvisionlab/lagaで入手できます。

要約(オリジナル)

Recent advancements in 3D Gaussian Splatting (3D-GS) enable high-quality 3D scene reconstruction from RGB images. Many studies extend this paradigm for language-driven open-vocabulary scene understanding. However, most of them simply project 2D semantic features onto 3D Gaussians and overlook a fundamental gap between 2D and 3D understanding: a 3D object may exhibit various semantics from different viewpoints–a phenomenon we term view-dependent semantics. To address this challenge, we propose LaGa (Language Gaussians), which establishes cross-view semantic connections by decomposing the 3D scene into objects. Then, it constructs view-aggregated semantic representations by clustering semantic descriptors and reweighting them based on multi-view semantics. Extensive experiments demonstrate that LaGa effectively captures key information from view-dependent semantics, enabling a more comprehensive understanding of 3D scenes. Notably, under the same settings, LaGa achieves a significant improvement of +18.7% mIoU over the previous SOTA on the LERF-OVS dataset. Our code is available at: https://github.com/SJTU-DeepVisionLab/LaGa.

arxiv情報

著者 Jiazhong Cen,Xudong Zhou,Jiemin Fang,Changsong Wen,Lingxi Xie,Xiaopeng Zhang,Wei Shen,Qi Tian
発行日 2025-05-30 16:06:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Tackling View-Dependent Semantics in 3D Language Gaussian Splatting はコメントを受け付けていません

Good Keypoints for the Two-View Geometry Estimation Problem

要約

ローカル機能は、多くの最新のダウンストリームアプリケーションにとって不可欠です。
したがって、機能検出器と記述子のより良い設計のために下流のパフォーマンスに寄与するローカル機能の特性を決定することは興味深いことです。
私たちの仕事では、2ビュージオメトリ推定問題のコンテキストで、スコアリング機能ポイント(キーポイント)の新しい理論モデルを提案します。
このモデルは、ホモグラフィーの推定問題を解決するための優れたキーポイントが必要な2つのプロパティを決定します。再現可能であり、予想される測定エラーが少ないことです。
この結果は、対応の数を最大化することで、ホモグラフィーの推定精度が常に向上するとは限らない理由に関する重要な洞察を提供します。
開発されたモデルを使用して、ホモグラフィーの推定に利益をもたらすキーポイントを検出し、境界のあるness-st(boness-st)keypoint検出器を導入するメソッドを設計します。
Boness-STの斬新さは、強力な理論的基礎、サブピクセルの改良によるより正確なキーポイントスコアリング、および低顕著性のキーポイントに対する優れた堅牢性のために設計されたコストから生まれます。
その結果、Boness-STは、平面ホモグラフィー推定タスクの以前の自己監視局所機能検出器よりも優れており、Epipolar Geometry推定タスクでそれらと同等です。

要約(オリジナル)

Local features are essential to many modern downstream applications. Therefore, it is of interest to determine the properties of local features that contribute to the downstream performance for a better design of feature detectors and descriptors. In our work, we propose a new theoretical model for scoring feature points (keypoints) in the context of the two-view geometry estimation problem. The model determines two properties that a good keypoint for solving the homography estimation problem should have: be repeatable and have a small expected measurement error. This result provides key insights into why maximizing the number of correspondences doesn’t always lead to better homography estimation accuracy. We use the developed model to design a method that detects keypoints that benefit the homography estimation and introduce the Bounded NeSS-ST (BoNeSS-ST) keypoint detector. The novelty of BoNeSS-ST comes from strong theoretical foundations, a more accurate keypoint scoring due to subpixel refinement and a cost designed for superior robustness to low saliency keypoints. As a result, BoNeSS-ST outperforms prior self-supervised local feature detectors on the planar homography estimation task and is on par with them on the epipolar geometry estimation task.

arxiv情報

著者 Konstantin Pakulev,Alexander Vakhitov,Gonzalo Ferrer
発行日 2025-05-30 16:07:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Good Keypoints for the Two-View Geometry Estimation Problem はコメントを受け付けていません

Autoregression-free video prediction using diffusion model for mitigating error propagation

要約

既存の長期ビデオ予測方法は、多くの場合、自己回帰ビデオ予測メカニズムに依存しています。
ただし、このアプローチは、特に遠い将来のフレームでは、エラー伝播に悩まされています。
この制限に対処するために、このペーパーでは、拡散モデルを使用して、最初の自己網目上の(ARFREE)ビデオ予測フレームワークを提案します。
自己回帰ビデオ予測メカニズムとは異なり、Arfreeはコンテキストフレームタプルの将来のフレームタプルを直接予測します。
提案されているアーフリーは、2つの重要なコンポーネントで構成されています。1)コンテキストフレームタプルから抽出されたモーション機能を使用して将来のモーションを予測するモーション予測モジュール。
2)隣接する将来のフレームタプル間のモーションの連続性とコンテキストの一貫性を改善するトレーニング方法。
2つのベンチマークデータセットを使用した実験は、提案されているArfreeビデオ予測フレームワークがいくつかの最先端のビデオ予測方法よりも優れていることを示しています。

要約(オリジナル)

Existing long-term video prediction methods often rely on an autoregressive video prediction mechanism. However, this approach suffers from error propagation, particularly in distant future frames. To address this limitation, this paper proposes the first AutoRegression-Free (ARFree) video prediction framework using diffusion models. Different from an autoregressive video prediction mechanism, ARFree directly predicts any future frame tuples from the context frame tuple. The proposed ARFree consists of two key components: 1) a motion prediction module that predicts a future motion using motion feature extracted from the context frame tuple; 2) a training method that improves motion continuity and contextual consistency between adjacent future frame tuples. Our experiments with two benchmark datasets show that the proposed ARFree video prediction framework outperforms several state-of-the-art video prediction methods.

arxiv情報

著者 Woonho Ko,Jin Bok Park,Il Yong Chun
発行日 2025-05-30 16:09:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Autoregression-free video prediction using diffusion model for mitigating error propagation はコメントを受け付けていません

Post-hoc Probabilistic Vision-Language Models

要約

クリップやSiglipなどのビジョン言語モデル(VLM)は、分類、検索、および生成タスクで顕著な成功を収めています。
このため、VLMは、コサインの類似性を使用して類似性が評価されるジョイント潜在空間に画像とテキストの説明を決定的にマッピングします。
ただし、入力の決定論的マッピングは、ダウンストリームタスクで使用された場合、ドメインシフトから生じる概念に対する不確実性をキャプチャできません。
この作業では、追加のトレーニングを必要としないVLMSの事後不確実性の推定を提案します。
私たちの方法は、VLMSの最後の層にわたってベイジアン後部近似を活用し、コサインの類似性に対する不確実性を分析的に定量化します。
アクティブ学習における不確実性の定量化とサポートセット選択の有効性を示します。
ベースラインと比較して、改善され、校正された予測不確実性、解釈可能な不確実性の推定値、およびサンプル効率の高いアクティブ学習を取得します。
私たちの結果は、大規模モデルの安全性が批判的なアプリケーションに対する有望です。

要約(オリジナル)

Vision-language models (VLMs), such as CLIP and SigLIP, have found remarkable success in classification, retrieval, and generative tasks. For this, VLMs deterministically map images and text descriptions to a joint latent space in which their similarity is assessed using the cosine similarity. However, a deterministic mapping of inputs fails to capture uncertainties over concepts arising from domain shifts when used in downstream tasks. In this work, we propose post-hoc uncertainty estimation in VLMs that does not require additional training. Our method leverages a Bayesian posterior approximation over the last layers in VLMs and analytically quantifies uncertainties over cosine similarities. We demonstrate its effectiveness for uncertainty quantification and support set selection in active learning. Compared to baselines, we obtain improved and well-calibrated predictive uncertainties, interpretable uncertainty estimates, and sample-efficient active learning. Our results show promise for safety-critical applications of large-scale models.

arxiv情報

著者 Anton Baumann,Rui Li,Marcus Klasson,Santeri Mentu,Shyamgopal Karthik,Zeynep Akata,Arno Solin,Martin Trapp
発行日 2025-05-30 16:21:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Post-hoc Probabilistic Vision-Language Models はコメントを受け付けていません

Disentangled Source-Free Personalization for Facial Expression Recognition with Neutral Target Data

要約

ビデオからの表情表現認識(FER)は、ヒューマンコンピューターの相互作用や健康診断や監視(例えば、痛みやうつ病の評価)など、さまざまなアプリケーション分野で重要なタスクです。
微妙な感情的または健康状態を認識するという課題を超えて、深いFERモデルの有効性は、表現のかなりの被験者間の変動によってしばしば妨げられます。
ソースフリー(監視なし)ドメイン適応(SFDA)メソッドを使用して、非標識ターゲットドメインデータのみを使用して事前に訓練されたソースモデルを適応させることができ、それによりデータプライバシー、ストレージ、および送信の問題を回避できます。
通常、SFDAメソッドは、集団全体に対応するターゲットドメインデータセットに適応し、すべての認識クラスのデータが含まれていると想定しています。
ただし、このような包括的なターゲットデータを収集することは、ヘルスケアアプリケーションではFERにとって困難または不可能です。
多くの実際のシナリオでは、展開前にターゲット被験者から短いニュートラル制御ビデオ(ニュートラル式のみを表示)を収集することが可能です。
これらのビデオを使用して、被験者間の表現の変動性をよりよく処理するためにモデルを適応させることができます。
このホワイトペーパーでは、ターゲット式データが欠落しているモデルを適応させることでもたらされる課題に対処するために、解き伸びたSFDA(DSFDA)メソッドを紹介します。
DSFDAは、非中立データが欠落しているターゲットデータのエンドツーエンドの生成と適応のためのニュートラルターゲット制御ビデオのデータを活用します。
私たちの方法は、ターゲット対象の不足していない非中立発現データを生成しながら、表現とアイデンティティに関連する機能を解くことを学び、それによりモデルの精度を向上させます。
さらに、私たちの自己監督戦略は、同じアイデンティティとソースの表現を維持するターゲット画像を再構築することにより、モデルの適応を改善します。

要約(オリジナル)

Facial Expression Recognition (FER) from videos is a crucial task in various application areas, such as human-computer interaction and health diagnosis and monitoring (e.g., assessing pain and depression). Beyond the challenges of recognizing subtle emotional or health states, the effectiveness of deep FER models is often hindered by the considerable inter-subject variability in expressions. Source-free (unsupervised) domain adaptation (SFDA) methods may be employed to adapt a pre-trained source model using only unlabeled target domain data, thereby avoiding data privacy, storage, and transmission issues. Typically, SFDA methods adapt to a target domain dataset corresponding to an entire population and assume it includes data from all recognition classes. However, collecting such comprehensive target data can be difficult or even impossible for FER in healthcare applications. In many real-world scenarios, it may be feasible to collect a short neutral control video (which displays only neutral expressions) from target subjects before deployment. These videos can be used to adapt a model to better handle the variability of expressions among subjects. This paper introduces the Disentangled SFDA (DSFDA) method to address the challenge posed by adapting models with missing target expression data. DSFDA leverages data from a neutral target control video for end-to-end generation and adaptation of target data with missing non-neutral data. Our method learns to disentangle features related to expressions and identity while generating the missing non-neutral expression data for the target subject, thereby enhancing model accuracy. Additionally, our self-supervision strategy improves model adaptation by reconstructing target images that maintain the same identity and source expression.

arxiv情報

著者 Masoumeh Sharafi,Emma Ollivier,Muhammad Osama Zeeshan,Soufiane Belharbi,Marco Pedersoli,Alessandro Lameiras Koerich,Simon Bacon,Eric Granger
発行日 2025-05-30 16:31:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Disentangled Source-Free Personalization for Facial Expression Recognition with Neutral Target Data はコメントを受け付けていません

Efficient Estimation of Regularized Tyler’s M-Estimator Using Approximate LOOCV

要約

正則化係数$ \ alpha \ in(0,1)$を正規化する係数$ \ alpha \ in(rtme)を推定する問題を検討します。
特に、適切に選択された目的関数のソリューションとして$ \ alpha $を設定することにより、最適な収縮係数を推定することを提案します。
すなわち、休暇をとると、反対検証(LOOCV)の対数責任の損失。
LOOCVは中程度のサンプルサイズ$ n $でも計算上法外なものであるため、LOOCV手順中に残された各サンプルのRTME手順$ n $時間を呼び出す必要性を排除するLOOCV対数尤度損失の計算上の効率的な近似を提案します。
この近似により、LOOCV手順の実行時間の複雑さが$ O(n)$削減され、LOOCV推定値を計算するための大幅な高速化が得られます。
重尾のある楕円形の分布からサンプリングされた合成高次元データ、およびオブジェクト認識、顔認識、手書きのデジットの認識のための実際の高次元データセットに関する提案されたアプローチの効率と精度を実証します。
私たちの実験は、提案されたアプローチが、収縮係数推定のための文献の他の方法よりも効率的で一貫してより正確であることを示しています。

要約(オリジナル)

We consider the problem of estimating a regularization parameter, or a shrinkage coefficient $\alpha \in (0,1)$ for Regularized Tyler’s M-estimator (RTME). In particular, we propose to estimate an optimal shrinkage coefficient by setting $\alpha$ as the solution to a suitably chosen objective function; namely the leave-one-out cross-validated (LOOCV) log-likelihood loss. Since LOOCV is computationally prohibitive even for moderate sample size $n$, we propose a computationally efficient approximation for the LOOCV log-likelihood loss that eliminates the need for invoking the RTME procedure $n$ times for each sample left out during the LOOCV procedure. This approximation yields an $O(n)$ reduction in the running time complexity for the LOOCV procedure, which results in a significant speedup for computing the LOOCV estimate. We demonstrate the efficiency and accuracy of the proposed approach on synthetic high-dimensional data sampled from heavy-tailed elliptical distributions, as well as on real high-dimensional datasets for object recognition, face recognition, and handwritten digit’s recognition. Our experiments show that the proposed approach is efficient and consistently more accurate than other methods in the literature for shrinkage coefficient estimation.

arxiv情報

著者 Karim Abou-Moustafa
発行日 2025-05-30 16:43:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.CV, cs.LG, eess.SP, I.2.0, stat.ML | Efficient Estimation of Regularized Tyler’s M-Estimator Using Approximate LOOCV はコメントを受け付けていません

Progressive Prompt Detailing for Improved Alignment in Text-to-Image Generative Models

要約

テキストからイメージへの生成モデルは、しばしば複雑なシーン、明確な視覚的特性と空間的関係を備えた多様なオブジェクトを詳述する長いプロンプトと格闘しています。
この作業では、粗からファインからファインの穀物を徐々に改良することにより、テキストから画像への調整を改善するためのトレーニングなしの方法である、範囲(粗から洗練されたプロンプトの埋め込みのスケジュールされた補間)を提案します。
詳細な入力プロンプトが与えられると、最初に複数のサブプロンプトに分解します。これは、広範なシーンレイアウトの説明から非常に複雑な詳細に進化します。
推論中に、これらのサブプロンプト間を補間し、生成された画像に細かい粒子の詳細を徐々に導入します。
当社のトレーニングフリーのプラグアンドプレイアプローチは、プロンプトアライメントを大幅に強化し、Genai-Benchデータセットのプロンプトの83%で安定した拡散ベースライン上の視覚的質問回答(VQA)スコアの+8を超える平均改善を達成します。

要約(オリジナル)

Text-to-image generative models often struggle with long prompts detailing complex scenes, diverse objects with distinct visual characteristics and spatial relationships. In this work, we propose SCoPE (Scheduled interpolation of Coarse-to-fine Prompt Embeddings), a training-free method to improve text-to-image alignment by progressively refining the input prompt in a coarse-to-fine-grained manner. Given a detailed input prompt, we first decompose it into multiple sub-prompts which evolve from describing broad scene layout to highly intricate details. During inference, we interpolate between these sub-prompts and thus progressively introduce finer-grained details into the generated image. Our training-free plug-and-play approach significantly enhances prompt alignment, achieves an average improvement of more than +8 in Visual Question Answering (VQA) scores over the Stable Diffusion baselines on 83% of the prompts from the GenAI-Bench dataset.

arxiv情報

著者 Ketan Suhaas Saichandran,Xavier Thomas,Prakhar Kaushik,Deepti Ghadiyaram
発行日 2025-05-30 16:44:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Progressive Prompt Detailing for Improved Alignment in Text-to-Image Generative Models はコメントを受け付けていません

DiG-Net: Enhancing Quality of Life through Hyper-Range Dynamic Gesture Recognition in Assistive Robotics

要約

ダイナミックハンドジェスチャーは、特にモビリティの制約を備えた個人や操作ロボットをリモートで促進する、直感的で非言語的コミュニケーションを促進する、人間とロボットの支援相互作用(HRI)に極めて重要な役割を果たします。
現在のジェスチャー認識方法は、主に短距離相互作用に限定されており、遠くからの堅牢な支援コミュニケーションを必要とするシナリオでの有用性を減らします。
この論文では、支援ロボット工学専用に設計された新しいアプローチを紹介し、最大30メートルの延長距離で動的なジェスチャー認識を可能にし、それによりアクセシビリティと生活の質を大幅に向上させます。
提案されている距離認識ジェスチャーネットワーク(DIG-NET)は、深さの条件付き変形可能なアライメント(DADA)ブロックを時空間グラフモジュールと効果的に組み合わせて、重要な身体的減衰、解像度の減少、実質的な環境で一般的に体験する動的なジェスチャーの品質を含む、困難な条件下で捕らえられたジェスチャーシーケンスの堅牢な処理と分類を可能にします。
さらに、学習を強化し、さまざまな距離にわたってモデルの堅牢性を強化することが示されている、放射測定の時空深度減衰損失(RSTDAL)を導入します。
私たちのモデルは、最先端のジェスチャー認識フレームワークよりも大幅なパフォーマンス改善を示し、挑戦的なハイパーレンジのジェスチャーを備えた多様なデータセットで97.3%の認識精度を達成します。
かなりの距離からジェスチャーを効果的に解釈することにより、DIG-NETは、在宅医療、産業安全、リモート支援シナリオにおける支援ロボットの使いやすさを大幅に向上させ、身体的制限に関係なくユーザー向けのシームレスで直感的なやり取りを可能にします

要約(オリジナル)

Dynamic hand gestures play a pivotal role in assistive human-robot interaction (HRI), facilitating intuitive, non-verbal communication, particularly for individuals with mobility constraints or those operating robots remotely. Current gesture recognition methods are mostly limited to short-range interactions, reducing their utility in scenarios demanding robust assistive communication from afar. In this paper, we introduce a novel approach designed specifically for assistive robotics, enabling dynamic gesture recognition at extended distances of up to 30 meters, thereby significantly improving accessibility and quality of life. Our proposed Distance-aware Gesture Network (DiG-Net) effectively combines Depth-Conditioned Deformable Alignment (DADA) blocks with Spatio-Temporal Graph modules, enabling robust processing and classification of gesture sequences captured under challenging conditions, including significant physical attenuation, reduced resolution, and dynamic gesture variations commonly experienced in real-world assistive environments. We further introduce the Radiometric Spatio-Temporal Depth Attenuation Loss (RSTDAL), shown to enhance learning and strengthen model robustness across varying distances. Our model demonstrates significant performance improvement over state-of-the-art gesture recognition frameworks, achieving a recognition accuracy of 97.3% on a diverse dataset with challenging hyper-range gestures. By effectively interpreting gestures from considerable distances, DiG-Net significantly enhances the usability of assistive robots in home healthcare, industrial safety, and remote assistance scenarios, enabling seamless and intuitive interactions for users regardless of physical limitations

arxiv情報

著者 Eran Bamani Beeri,Eden Nissinman,Avishai Sintov
発行日 2025-05-30 16:47:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | DiG-Net: Enhancing Quality of Life through Hyper-Range Dynamic Gesture Recognition in Assistive Robotics はコメントを受け付けていません

Draw ALL Your Imagine: A Holistic Benchmark and Agent Framework for Complex Instruction-based Image Generation

要約

テキストからイメージ(T2I)生成の最近の進歩により、モデルはテキストの説明から高品質の画像を作成できました。
ただし、これらのモデルは、複数のオブジェクト、属性、および空間的関係を含む複雑な指示に苦労しています。
T2Iモデルを評価するための既存のベンチマークは、主に一般的なテキストイメージのアライメントに焦点を当てており、複雑で多面的なプロンプトの微妙な要件をキャプチャできません。
このギャップを考慮して、複雑な指示の下でT2Iモデルを評価するために特別に設計された包括的なベンチマークであるLongbench-T2iを導入します。
Longbench-T2Iは、9つの多様な視覚評価の次元にまたがる500の複雑に設計されたプロンプトで構成されており、複雑な指示に従うモデルの能力を徹底的に評価できます。
ベンチマークを超えて、追加のモデルトレーニングを必要とせずに複雑な命令主導型の画像生成を促進するエージェントフレームワーク(Plan2Gen)を提案します。
このフレームワークは、既存のT2Iモデルとシームレスに統合され、大規模な言語モデルを使用して複雑なプロンプトを解釈および分解し、生成プロセスをより効果的に導きます。
Clipscoreなどの既存の評価メトリックは、複雑な命令のニュアンスを適切にキャプチャできないため、一連の多次元メトリックを使用して生成された画像の品質評価を自動化する評価ツールキットを導入します。
データとコードはhttps://github.com/yczhou001/longbench-t2iでリリースされます。

要約(オリジナル)

Recent advancements in text-to-image (T2I) generation have enabled models to produce high-quality images from textual descriptions. However, these models often struggle with complex instructions involving multiple objects, attributes, and spatial relationships. Existing benchmarks for evaluating T2I models primarily focus on general text-image alignment and fail to capture the nuanced requirements of complex, multi-faceted prompts. Given this gap, we introduce LongBench-T2I, a comprehensive benchmark specifically designed to evaluate T2I models under complex instructions. LongBench-T2I consists of 500 intricately designed prompts spanning nine diverse visual evaluation dimensions, enabling a thorough assessment of a model’s ability to follow complex instructions. Beyond benchmarking, we propose an agent framework (Plan2Gen) that facilitates complex instruction-driven image generation without requiring additional model training. This framework integrates seamlessly with existing T2I models, using large language models to interpret and decompose complex prompts, thereby guiding the generation process more effectively. As existing evaluation metrics, such as CLIPScore, fail to adequately capture the nuances of complex instructions, we introduce an evaluation toolkit that automates the quality assessment of generated images using a set of multi-dimensional metrics. The data and code are released at https://github.com/yczhou001/LongBench-T2I.

arxiv情報

著者 Yucheng Zhou,Jiahao Yuan,Qianning Wang
発行日 2025-05-30 16:48:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Draw ALL Your Imagine: A Holistic Benchmark and Agent Framework for Complex Instruction-based Image Generation はコメントを受け付けていません