Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance

要約

テキスト間合成の評価は、確立されたメトリックと人間の好みとの間の不整合のために困難です。
CFREDを提案します。CFREDは、視覚的忠実度とテキストプロンプトの両方を明示的に説明する条件付きFR \ ‘Echet距離の概念に基づいたメトリックを提案します。
インセプションスコア(IS)、fre \ ‘echetインセプション距離(fid)、クリップスコアなどの既存のメトリックは、画質または画像テキストのアライメントのいずれかを評価しますが、人間の好みとの相関関係を制限するものではありません。
人間の好みを複製するために明示的にトレーニングされたスコアリングモデルには、絶え間ない更新には、新しい生成技術やドメイン外の入力に一般化されない場合があります。
最近提案された複数のテキストから画像間モデルと多様な迅速なデータセットにわたる広範な実験を通じて、CFREDは、人間の好みで訓練されたメトリックを含む統計的メトリックと比較して、人間の判断とより高い相関を示すことを実証します。
私たちの調査結果は、CFREDを、この急速に進化する分野でのベンチマークを標準化するテキストからイメージモデルの体系的な評価のための堅牢で将来の防御メトリックとして検証されています。
評価ツールキットとベンチマークを付録にリリースします。

要約(オリジナル)

Evaluating text-to-image synthesis is challenging due to misalignment between established metrics and human preferences. We propose cFreD, a metric based on the notion of Conditional Fr\’echet Distance that explicitly accounts for both visual fidelity and text-prompt alignment. Existing metrics such as Inception Score (IS), Fr\’echet Inception Distance (FID) and CLIPScore assess either image quality or image-text alignment but not both which limits their correlation with human preferences. Scoring models explicitly trained to replicate human preferences require constant updates and may not generalize to novel generation techniques or out-of-domain inputs. Through extensive experiments across multiple recently proposed text-to-image models and diverse prompt datasets, we demonstrate that cFreD exhibits a higher correlation with human judgments compared to statistical metrics, including metrics trained with human preferences. Our findings validate cFreD as a robust, future-proof metric for the systematic evaluation of text-to-image models, standardizing benchmarking in this rapidly evolving field. We release our evaluation toolkit and benchmark in the appendix.

arxiv情報

著者 Jaywon Koo,Jefferson Hernandez,Moayed Haji-Ali,Ziyan Yang,Vicente Ordonez
発行日 2025-03-27 17:35:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance はコメントを受け付けていません

OccRobNet : Occlusion Robust Network for Accurate 3D Interacting Hand-Object Pose Estimation

要約

閉塞は、3Dハンドポーズを推定する際の挑戦的な問題の1つです。
この問題は、手がオブジェクトまたは両手が関与すると、より顕著になります。
過去の作品では、これらの閉塞地域にあまり注意が払われていません。
しかし、これらの領域には、3Dハンドポーズの推定に不可欠な重要かつ有益な情報が含まれています。
したがって、このホワイトペーパーでは、入力RGB画像から3Dハンドオブジェクトポーズを推定するためのオクルージョンの堅牢で正確な方法を提案します。
私たちの方法には、CNNベースのモデルを使用してハンドジョイントを最初にローカライズし、コンテキスト情報を抽出してそれらを改良することが含まれます。
次に、自己注意変圧器は、特定のジョイントと手のアイデンティティを識別します。
これにより、モデルは、閉塞領域でも関節を検出するのに役立つ特定のジョイントの手の帰属性を識別するのに役立ちます。
さらに、これらの関節を手のアイデンティティを使用して、交差注意メカニズムを使用してポーズを推定するために使用されます。
したがって、閉塞領域のジョイントを識別することにより、得られたネットワークは閉塞に対して堅牢になります。
したがって、このネットワークは、Interhand2.6M、HO3D、およびH $ _2 $ O3Dデータセットで評価されると、最新の結果を達成します。

要約(オリジナル)

Occlusion is one of the challenging issues when estimating 3D hand pose. This problem becomes more prominent when hand interacts with an object or two hands are involved. In the past works, much attention has not been given to these occluded regions. But these regions contain important and beneficial information that is vital for 3D hand pose estimation. Thus, in this paper, we propose an occlusion robust and accurate method for the estimation of 3D hand-object pose from the input RGB image. Our method includes first localising the hand joints using a CNN based model and then refining them by extracting contextual information. The self attention transformer then identifies the specific joints along with the hand identity. This helps the model to identify the hand belongingness of a particular joint which helps to detect the joint even in the occluded region. Further, these joints with hand identity are then used to estimate the pose using cross attention mechanism. Thus, by identifying the joints in the occluded region, the obtained network becomes robust to occlusion. Hence, this network achieves state-of-the-art results when evaluated on the InterHand2.6M, HO3D and H$_2$O3D datasets.

arxiv情報

著者 Mallika Garg,Debashis Ghosh,Pyari Mohan Pradhan
発行日 2025-03-27 17:36:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | OccRobNet : Occlusion Robust Network for Accurate 3D Interacting Hand-Object Pose Estimation はコメントを受け付けていません

Multi-View and Multi-Scale Alignment for Contrastive Language-Image Pre-training in Mammography

要約

対照的な言語イメージ前訓練(CLIP)は、医療画像分析に強い可能性を示していますが、実質的なデータと計算リソースが必要です。
これらの制限により、医療イメージングの既存のクリップアプリケーションは、主に豊富な画像レポートデータを利用できる胸部X線などのモダリティに焦点を当てており、他の多くの重要なモダリティが採用されていないままになります。
ここでは、マンモグラフィへのフルクリップモデルの最初の適応の1つを提案します。これは、ラベル付きのデータ不足、関心のある小さな領域を持つ高解像度画像、およびクラスごとの不均衡による重要な課題を提示します。
最初に、マルチビューの性質を活用するマンモグラフィの専門的な監督フレームワークを開発します。
さらに、高解像度画像の詳細な機能によりよく焦点を当てるように、対称ローカルアライメントモジュールを設計します。
最後に、データの制限に対処するために医学的知識で事前に訓練された大規模な言語モデルのためのパラメーター効率の高い微調整アプローチを組み込みます。
当社のマルチビューおよびマルチスケールアライメント(MAMA)メソッドは、2つの大規模な現実世界マンモグラフィデータセットの3つの異なるタスクの最先端のベースラインを上回り、RSNA-MammoとRSNA-Mammoを超えており、最大のベースラインと比較してモデルサイズは52%しかありません。
コードはhttps://github.com/xypb/mamaで入手できます

要約(オリジナル)

Contrastive Language-Image Pre-training (CLIP) demonstrates strong potential in medical image analysis but requires substantial data and computational resources. Due to these restrictions, existing CLIP applications in medical imaging focus mainly on modalities like chest X-rays that have abundant image-report data available, leaving many other important modalities underexplored. Here, we propose one of the first adaptations of the full CLIP model to mammography, which presents significant challenges due to labeled data scarcity, high-resolution images with small regions of interest, and class-wise imbalance. We first develop a specialized supervision framework for mammography that leverages its multi-view nature. Furthermore, we design a symmetric local alignment module to better focus on detailed features in high-resolution images. Lastly, we incorporate a parameter-efficient fine-tuning approach for large language models pre-trained with medical knowledge to address data limitations. Our multi-view and multi-scale alignment (MaMA) method outperforms state-of-the-art baselines for three different tasks on two large real-world mammography datasets, EMBED and RSNA-Mammo, with only 52% model size compared with the largest baseline. The code is available at https://github.com/XYPB/MaMA

arxiv情報

著者 Yuexi Du,John Onofrey,Nicha C. Dvornek
発行日 2025-03-27 17:39:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Multi-View and Multi-Scale Alignment for Contrastive Language-Image Pre-training in Mammography はコメントを受け付けていません

OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

要約

一時的な認識、質問が提起されたときにタイムスタンプに基づいて動的に推論する能力は、オフラインビデオLLMとオンラインビデオLLMの重要な区別です。
静的、事後分析の完全なビデオに依存するオフラインモデルとは異なり、オンラインモデルは、質問が提起されたタイムスタンプに基づいて、回答を段階的かつ動的に適応させます。
その重要性にもかかわらず、一時的な認識は既存のベンチマークで適切に評価されていません。
このギャップを埋めるために、OVOベンチ(オンラインビデオベンチマーク)を紹介します。これは、高度なオンラインビデオ理解機能ベンチマークのためのタイムスタンプの重要性を強調する新しいビデオベンチマークです。
OVOベンチは、3つの異なるシナリオの下で特定のタイムスタンプで発生するイベントを推論および応答するビデオLLMの能力を評価します。(1)後方追跡:過去のイベントに戻って質問に答える。
(2)リアルタイムの理解:現在のタイムスタンプで展開するイベントを理解し、対応します。
(3)フォワードアクティブな応答:質問に正確に答えるのに十分な将来の情報が利用可能になるまで応答を遅らせます。
OVOベンチは、644個のユニークなビデオと、正確なタイムスタンプを使用したほぼ人間がキュレーションされた2,800個の細かいメタアノットを備えた12のタスクで構成されています。
自動化された世代パイプラインと人間のキュレーションを組み合わせます。
これらの高品質のサンプルを使用して、ビデオLLMを体系的にビデオタイムラインに照会するための評価パイプラインをさらに開発しました。
9つのVideo-LLMの評価により、従来のベンチマークの進歩にもかかわらず、現在のモデルはオンラインビデオ理解に苦労し、人間のエージェントと比較して大きなギャップを示していることが明らかになりました。
Ovo-BenchがビデオLLMSの進歩を促進し、オンラインビデオ推論の将来の研究を促すことを願っています。
当社のベンチマークとコードは、https://github.com/joeleelyf/ovo-benchでアクセスできます。

要約(オリジナル)

Temporal Awareness, the ability to reason dynamically based on the timestamp when a question is raised, is the key distinction between offline and online video LLMs. Unlike offline models, which rely on complete videos for static, post hoc analysis, online models process video streams incrementally and dynamically adapt their responses based on the timestamp at which the question is posed. Despite its significance, temporal awareness has not been adequately evaluated in existing benchmarks. To fill this gap, we present OVO-Bench (Online-VideO-Benchmark), a novel video benchmark that emphasizes the importance of timestamps for advanced online video understanding capability benchmarking. OVO-Bench evaluates the ability of video LLMs to reason and respond to events occurring at specific timestamps under three distinct scenarios: (1) Backward tracing: trace back to past events to answer the question. (2) Real-time understanding: understand and respond to events as they unfold at the current timestamp. (3) Forward active responding: delay the response until sufficient future information becomes available to answer the question accurately. OVO-Bench comprises 12 tasks, featuring 644 unique videos and approximately human-curated 2,800 fine-grained meta-annotations with precise timestamps. We combine automated generation pipelines with human curation. With these high-quality samples, we further developed an evaluation pipeline to systematically query video LLMs along the video timeline. Evaluations of nine Video-LLMs reveal that, despite advancements on traditional benchmarks, current models struggle with online video understanding, showing a significant gap compared to human agents. We hope OVO-Bench will drive progress in video LLMs and inspire future research in online video reasoning. Our benchmark and code can be accessed at https://github.com/JoeLeelyf/OVO-Bench.

arxiv情報

著者 Yifei Li,Junbo Niu,Ziyang Miao,Chunjiang Ge,Yuanhang Zhou,Qihao He,Xiaoyi Dong,Haodong Duan,Shuangrui Ding,Rui Qian,Pan Zhang,Yuhang Zang,Yuhang Cao,Conghui He,Jiaqi Wang
発行日 2025-03-27 17:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding? はコメントを受け付けていません

A Survey on Computational Solutions for Reconstructing Complete Objects by Reassembling Their Fractured Parts

要約

その部分から完全なオブジェクトを再構築することは、多くの科学的領域での基本的な問題です。
この記事の目的は、このトピックに関する体系的な調査を提供することです。
再組み立ての問題には、個々のピースの属性を理解し、異なるピース間の一致を確立する必要があります。
また、多くのアプローチが基礎となる完全なオブジェクトの事前をモデル化しています。
既存のアプローチは、形状セグメンテーション、形状マッチング、および学習形状のプライアーの密接に接続された問題です。
このコンテキストで既存のアルゴリズムを提供し、一般的なアプローチとの類似点と相違点を強調します。
また、初期の非深さの学習アプローチから最近の深い学習アプローチまでの傾向を調査します。
アルゴリズムに加えて、この調査では、既存のデータセット、オープンソースソフトウェアパッケージ、およびアプリケーションについても説明します。
私たちの知る限り、これはコンピューターグラフィックスのこのトピックに関する最初の包括的な調査です。

要約(オリジナル)

Reconstructing a complete object from its parts is a fundamental problem in many scientific domains. The purpose of this article is to provide a systematic survey on this topic. The reassembly problem requires understanding the attributes of individual pieces and establishing matches between different pieces. Many approaches also model priors of the underlying complete object. Existing approaches are tightly connected problems of shape segmentation, shape matching, and learning shape priors. We provide existing algorithms in this context and emphasize their similarities and differences to general-purpose approaches. We also survey the trends from early non-deep learning approaches to more recent deep learning approaches. In addition to algorithms, this survey will also describe existing datasets, open-source software packages, and applications. To the best of our knowledge, this is the first comprehensive survey on this topic in computer graphics.

arxiv情報

著者 Jiaxin Lu,Yongqing Liang,Huijun Han,Jiacheng Hua,Junfeng Jiang,Xin Li,Qixing Huang
発行日 2025-03-27 17:45:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | A Survey on Computational Solutions for Reconstructing Complete Objects by Reassembling Their Fractured Parts はコメントを受け付けていません

SparseFlex: High-Resolution and Arbitrary-Topology 3D Shape Modeling

要約

開いた表面や複雑なインテリアなど、任意のトポロジを備えた高忠実度の3Dメッシュを作成することは、依然として重要な課題です。
既存の暗黙的なフィールド方法は、多くの場合、コストがかかり、詳細に分解される水密変換を必要としますが、他のアプローチは高解像度で苦労しています。
このペーパーでは、レンダリング損失から直接最大1024^3 $の解像度で微分可能なメッシュ再構成を可能にする、新しいまばらな構造化された等骨格表現であるSparseflexを紹介します。
Sparseflexは、屈曲部の精度をまばらなボクセル構造と組み合わせ、表面隣接領域に計算を集中させ、オープンサーフェスの効率的な取り扱いを行います。
重要なことに、レンダリング中に関連するボクセルのみをアクティブにし、メモリ消費を劇的に削減し、高解像度トレーニングを可能にするフラストムを意識したセクションボクセルトレーニング戦略を導入します。
これにより、監督のみを使用してメッシュインテリアの再構築が初めて可能になります。
これに基づいて、高品質の3D形状生成のための変分自動エンコーダー(VAE)と修正フロートランスをトレーニングすることにより、完全な形状モデリングパイプラインを実証します。
私たちの実験は、最先端の再構築精度を示しており、面取り距離が約82%減少し、以前の方法と比較してFスコアが約88%増加し、任意のトポロジを伴う高解像度の詳細な3D形状の生成を示しています。
レンダリング損失を伴う高解像度の微分可能なメッシュ再構成と生成を可能にすることにより、スパースフレックスは、3D形状の表現とモデリングで最先端の最先端を大幅に進めます。

要約(オリジナル)

Creating high-fidelity 3D meshes with arbitrary topology, including open surfaces and complex interiors, remains a significant challenge. Existing implicit field methods often require costly and detail-degrading watertight conversion, while other approaches struggle with high resolutions. This paper introduces SparseFlex, a novel sparse-structured isosurface representation that enables differentiable mesh reconstruction at resolutions up to $1024^3$ directly from rendering losses. SparseFlex combines the accuracy of Flexicubes with a sparse voxel structure, focusing computation on surface-adjacent regions and efficiently handling open surfaces. Crucially, we introduce a frustum-aware sectional voxel training strategy that activates only relevant voxels during rendering, dramatically reducing memory consumption and enabling high-resolution training. This also allows, for the first time, the reconstruction of mesh interiors using only rendering supervision. Building upon this, we demonstrate a complete shape modeling pipeline by training a variational autoencoder (VAE) and a rectified flow transformer for high-quality 3D shape generation. Our experiments show state-of-the-art reconstruction accuracy, with a ~82% reduction in Chamfer Distance and a ~88% increase in F-score compared to previous methods, and demonstrate the generation of high-resolution, detailed 3D shapes with arbitrary topology. By enabling high-resolution, differentiable mesh reconstruction and generation with rendering losses, SparseFlex significantly advances the state-of-the-art in 3D shape representation and modeling.

arxiv情報

著者 Xianglong He,Zi-Xin Zou,Chia-Hao Chen,Yuan-Chen Guo,Ding Liang,Chun Yuan,Wanli Ouyang,Yan-Pei Cao,Yangguang Li
発行日 2025-03-27 17:46:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SparseFlex: High-Resolution and Arbitrary-Topology 3D Shape Modeling はコメントを受け付けていません

3DGen-Bench: Comprehensive Benchmark Suite for 3D Generative Models

要約

3D世代は急速な進歩を経験していますが、3D評価の開発はペースを維持していません。
自動評価を人間の認識と公平に整合させる方法は、よく知られている課題になりました。
言語とイメージ生成の分野における最近の進歩は、人間の好みを探求し、立派なフィッティング能力を紹介しています。
ただし、3Dドメインには、生成モデルよりもこのような包括的な優先データセットがまだありません。
この不在を緩和するために、戦闘方法で統合されたプラットフォームである3DGen-Arenaを開発します。
次に、多様なテキストと画像のプロンプトを慎重に設計し、アリーナプラットフォームを活用して、パブリックユーザーと専門家のアノテーターの両方から人間の好みを収集し、その結果、大規模な多次元の人間選好データセット3DGenベンチが生まれます。
このデータセットを使用して、クリップベースのスコアリングモデル、3DGENスコア、およびMLLMベースの自動評価者である3DGEN-EVALをさらにトレーニングします。
これらの2つのモデルは、テキストから3Dへの質の高い評価を革新的に統合し、画像から3Dの発電を統合し、それぞれの強みと共同で自動評価システムを形成します。
広範な実験は、人間の好みを予測する際のスコアリングモデルの有効性を示しており、既存の指標と比較して人間のランクとの優れた相関を示しています。
3DGenベンチデータセットと自動評価システムが、3D世代の分野でより公平な評価を促進し、3D生成モデルとその下流のアプリケーションの開発をさらに促進すると考えています。

要約(オリジナル)

3D generation is experiencing rapid advancements, while the development of 3D evaluation has not kept pace. How to keep automatic evaluation equitably aligned with human perception has become a well-recognized challenge. Recent advances in the field of language and image generation have explored human preferences and showcased respectable fitting ability. However, the 3D domain still lacks such a comprehensive preference dataset over generative models. To mitigate this absence, we develop 3DGen-Arena, an integrated platform in a battle manner. Then, we carefully design diverse text and image prompts and leverage the arena platform to gather human preferences from both public users and expert annotators, resulting in a large-scale multi-dimension human preference dataset 3DGen-Bench. Using this dataset, we further train a CLIP-based scoring model, 3DGen-Score, and a MLLM-based automatic evaluator, 3DGen-Eval. These two models innovatively unify the quality evaluation of text-to-3D and image-to-3D generation, and jointly form our automated evaluation system with their respective strengths. Extensive experiments demonstrate the efficacy of our scoring model in predicting human preferences, exhibiting a superior correlation with human ranks compared to existing metrics. We believe that our 3DGen-Bench dataset and automated evaluation system will foster a more equitable evaluation in the field of 3D generation, further promoting the development of 3D generative models and their downstream applications.

arxiv情報

著者 Yuhan Zhang,Mengchen Zhang,Tong Wu,Tengfei Wang,Gordon Wetzstein,Dahua Lin,Ziwei Liu
発行日 2025-03-27 17:53:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | 3DGen-Bench: Comprehensive Benchmark Suite for 3D Generative Models はコメントを受け付けていません

CTRL-O: Language-Controllable Object-Centric Visual Representation Learning

要約

オブジェクト中心の表現学習は、視覚的なシーンを「スロット」または「オブジェクトファイル」と呼ばれる固定サイズのベクトルに分解することを目的としています。そこでは、各スロットが異なるオブジェクトをキャプチャします。
現在の最先端のオブジェクト中心のモデルは、複雑な現実世界のシーンを含む多様なドメインでのオブジェクト発見において顕著な成功を示しています。
ただし、これらのモデルは重要な制限に悩まされています。制御可能性が欠けています。
具体的には、現在のオブジェクト中心のモデルは、ユーザー入力がどのオブジェクトを表現するかをガイドすることなく、オブジェクトの先入観に基づいて表現を学習します。
オブジェクト中心のモデルに制御可能性を導入すると、シーンからインスタンス固有の表現を抽出する機能など、さまざまな有用な機能のロックを解除できます。
この作業では、言語の説明にスロットを調整することにより、スロット表現をユーザー指向した制御のための新しいアプローチを提案します。
私たちがCTRL-Oと呼ぶ制御可能なオブジェクト中心の表現学習アプローチは、マスクの監督を必要とせずに複雑な現実世界のシーンでターゲットを絞ったオブジェクト言語結合を達成します。
次に、これらの制御可能なスロット表現を、テキストからイメージの生成と視覚的な質問応答という2つの下流のビジョン言語タスクに適用します。
提案されたアプローチは、インスタンス固有のテキストからイメージへの生成を可能にし、視覚的な質問応答でも強力なパフォーマンスを達成します。

要約(オリジナル)

Object-centric representation learning aims to decompose visual scenes into fixed-size vectors called ‘slots’ or ‘object files’, where each slot captures a distinct object. Current state-of-the-art object-centric models have shown remarkable success in object discovery in diverse domains, including complex real-world scenes. However, these models suffer from a key limitation: they lack controllability. Specifically, current object-centric models learn representations based on their preconceived understanding of objects, without allowing user input to guide which objects are represented. Introducing controllability into object-centric models could unlock a range of useful capabilities, such as the ability to extract instance-specific representations from a scene. In this work, we propose a novel approach for user-directed control over slot representations by conditioning slots on language descriptions. The proposed ConTRoLlable Object-centric representation learning approach, which we term CTRL-O, achieves targeted object-language binding in complex real-world scenes without requiring mask supervision. Next, we apply these controllable slot representations on two downstream vision language tasks: text-to-image generation and visual question answering. The proposed approach enables instance-specific text-to-image generation and also achieves strong performance on visual question answering.

arxiv情報

著者 Aniket Didolkar,Andrii Zadaianchuk,Rabiul Awal,Maximilian Seitzer,Efstratios Gavves,Aishwarya Agrawal
発行日 2025-03-27 17:53:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | CTRL-O: Language-Controllable Object-Centric Visual Representation Learning はコメントを受け付けていません

LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis

要約

迅速な表現力とテキストレンダリングの忠実度のギャップを体系的に橋渡しする高品質のテキストイメージ合成の包括的なスイートであるLex-Artを紹介します。
私たちのアプローチは、データ中心のパラダイムに従い、DeepSeek-R1に基づいた高品質のデータ合成パイプラインを構築して、10K高解像度、審美的に洗練された1024 $ \ Times $ 1024画像のデータセットであるLEX​​-10Kをキュレートします。
データセット構造を超えて、堅牢なプロンプト濃縮モデルであるLex-Enhancerを開発し、2つのテキストからイメージモデル、Lex-FluxとLex-Luminaを訓練し、最先端のテキストレンダリングパフォーマンスを実現します。
視覚的なテキスト生成を体系的に評価するために、忠実な正規化された編集距離(PNET)によって補完される忠実性、美学、およびアライメントを評価するベンチマークであるLex-Benchを紹介します。
実験は有意な改善を示し、Lex-LuminaはCreateBenchで79.81%のPNEDゲインを達成し、Lex-Fluxは色(+3.18%)、位置(+4.45%)、およびフォント精度(+3.81%)のベースラインを上回るベースラインを上回ります。
コード、モデル、データセット、デモは公開されています。

要約(オリジナル)

We introduce LeX-Art, a comprehensive suite for high-quality text-image synthesis that systematically bridges the gap between prompt expressiveness and text rendering fidelity. Our approach follows a data-centric paradigm, constructing a high-quality data synthesis pipeline based on Deepseek-R1 to curate LeX-10K, a dataset of 10K high-resolution, aesthetically refined 1024$\times$1024 images. Beyond dataset construction, we develop LeX-Enhancer, a robust prompt enrichment model, and train two text-to-image models, LeX-FLUX and LeX-Lumina, achieving state-of-the-art text rendering performance. To systematically evaluate visual text generation, we introduce LeX-Bench, a benchmark that assesses fidelity, aesthetics, and alignment, complemented by Pairwise Normalized Edit Distance (PNED), a novel metric for robust text accuracy evaluation. Experiments demonstrate significant improvements, with LeX-Lumina achieving a 79.81% PNED gain on CreateBench, and LeX-FLUX outperforming baselines in color (+3.18%), positional (+4.45%), and font accuracy (+3.81%). Our codes, models, datasets, and demo are publicly available.

arxiv情報

著者 Shitian Zhao,Qilong Wu,Xinyue Li,Bo Zhang,Ming Li,Qi Qin,Dongyang Liu,Kaipeng Zhang,Hongsheng Li,Yu Qiao,Peng Gao,Bin Fu,Zhen Li
発行日 2025-03-27 17:56:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis はコメントを受け付けていません

Reconstructing Humans with a Biomechanically Accurate Skeleton

要約

この論文では、生体力学的に正確なスケルトンモデルを使用して、単一の画像から3D人を再構築する方法を紹介します。
これを達成するために、イメージを入力として撮影し、モデルのパラメーターを推定するトランスをトレーニングします。
このタスクのトレーニングデータが不足しているため、パイプラインを構築して、単一の画像の擬似グラウンドトゥルースモデルパラメーターを作成し、これらの擬似ラベルを繰り返し洗練するトレーニング手順を実装します。
3Dヒトメッシュ回復の最新の方法と比較して、我々のモデルは標準ベンチマークで競争力のあるパフォーマンスを達成しますが、極端な3Dポーズと視点で設定で大幅に上回ることができます。
さらに、以前の再構成方法は、関節角度の制限に頻繁に違反し、不自然な回転につながることを示します。
対照的に、私たちのアプローチは、生体力学的にもっともらしい自由度を活用して、より現実的な関節の回転を推定します。
複数の人間のポーズ推定ベンチマークにわたってアプローチを検証します。
コード、モデル、データをhttps://isshikihugh.github.io/hsmr/で利用可能にします

要約(オリジナル)

In this paper, we introduce a method for reconstructing 3D humans from a single image using a biomechanically accurate skeleton model. To achieve this, we train a transformer that takes an image as input and estimates the parameters of the model. Due to the lack of training data for this task, we build a pipeline to produce pseudo ground truth model parameters for single images and implement a training procedure that iteratively refines these pseudo labels. Compared to state-of-the-art methods for 3D human mesh recovery, our model achieves competitive performance on standard benchmarks, while it significantly outperforms them in settings with extreme 3D poses and viewpoints. Additionally, we show that previous reconstruction methods frequently violate joint angle limits, leading to unnatural rotations. In contrast, our approach leverages the biomechanically plausible degrees of freedom making more realistic joint rotation estimates. We validate our approach across multiple human pose estimation benchmarks. We make the code, models and data available at: https://isshikihugh.github.io/HSMR/

arxiv情報

著者 Yan Xia,Xiaowei Zhou,Etienne Vouga,Qixing Huang,Georgios Pavlakos
発行日 2025-03-27 17:56:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Reconstructing Humans with a Biomechanically Accurate Skeleton はコメントを受け付けていません