XLD: A Cross-Lane Dataset for Benchmarking Novel Driving View Synthesis

要約

自律運転車の安全性を確保するには、シミュレーションによる自律システムの包括的なテストが不可欠です。
これには、これらのシナリオの多くが公道ではまれであるかめったに遭遇しないため、実際のデータ収集の制限を超えて拡張する安全性が批判的なシナリオの生成が必要です。
ただし、ほとんどの既存の新規ビュー合成(NVS)メソッドの評価は、トレーニングデータからの画像フレームの散発的なサンプリングに依存しており、レンダリングされた画像をグラウンドトゥルース画像と比較しています。
残念ながら、この評価プロトコルは、閉ループシミュレーションの実際の要件を満たすことはできません。
具体的には、真のアプリケーションには、現実の世界でキャプチャするのが難しい元の軌跡(架橋ビューなど)を超えて拡張する新しいビューをレンダリングする能力が必要です。
これに対処するために、このホワイトペーパーでは、自律運転シミュレーション用に特別に設計された新しい運転ビュー合成評価のための合成データセットを紹介します。
このユニークなデータセットには、トレーニングの軌跡から1〜4 $メーターで逸脱することによってキャプチャされた画像のテストが含まれています。
さまざまな時間や気象条件をカバーする6つのシーケンスで構成されています。
各シーケンスには、450ドルのトレーニング画像、120ドルのテスト画像、対応するカメラのポーズと本質的なパラメーターが含まれています。
この新しいデータセットを活用して、フロントのみおよびマルチカメラ設定の下で既存のNVSアプローチを評価するための最初の現実的なベンチマークを確立します。
実験的な調査結果は、現在のアプローチの大きなギャップを強調し、クロスレーンまたは閉ループシミュレーションの厳しい前提条件を満たすための不十分な能力を明らかにしています。

要約(オリジナル)

Comprehensive testing of autonomous systems through simulation is essential to ensure the safety of autonomous driving vehicles. This requires the generation of safety-critical scenarios that extend beyond the limitations of real-world data collection, as many of these scenarios are rare or rarely encountered on public roads. However, evaluating most existing novel view synthesis (NVS) methods relies on sporadic sampling of image frames from the training data, comparing the rendered images with ground-truth images. Unfortunately, this evaluation protocol falls short of meeting the actual requirements in closed-loop simulations. Specifically, the true application demands the capability to render novel views that extend beyond the original trajectory (such as cross-lane views), which are challenging to capture in the real world. To address this, this paper presents a synthetic dataset for novel driving view synthesis evaluation, which is specifically designed for autonomous driving simulations. This unique dataset includes testing images captured by deviating from the training trajectory by $1-4$ meters. It comprises six sequences that cover various times and weather conditions. Each sequence contains $450$ training images, $120$ testing images, and their corresponding camera poses and intrinsic parameters. Leveraging this novel dataset, we establish the first realistic benchmark for evaluating existing NVS approaches under front-only and multicamera settings. The experimental findings underscore the significant gap in current approaches, revealing their inadequate ability to fulfill the demanding prerequisites of cross-lane or closed-loop simulation.

arxiv情報

著者 Hao Li,Chenming Wu,Ming Yuan,Yan Zhang,Chen Zhao,Chunyu Song,Haocheng Feng,Errui Ding,Dingwen Zhang,Jingdong Wang
発行日 2025-05-07 15:25:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | XLD: A Cross-Lane Dataset for Benchmarking Novel Driving View Synthesis はコメントを受け付けていません

HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

要約

カスタマイズされたビデオジェネレーションは、柔軟なユーザー定義条件下で特定の主題を特徴とするビデオを作成することを目的としていますが、既存の方法は、アイデンティティの一貫性と限られた入力モダリティに苦労することがよくあります。
このペーパーでは、画像、オーディオ、ビデオ、テキストの条件をサポートしながら主題の一貫性を強調するマルチモーダルカスタマイズされたビデオ生成フレームワークであるHunyuancustomを提案します。
Hunyuanvideoに基づいて構築されたこのモデルは、最初に画像テキスト条件付き生成タスクに対処し、LLAVAに基づいてマルチモーダル理解を強化するためにテキストイメージ融合モジュールを導入し、画像ID強化モジュールをレバレッジしてフレーム全体のアイデンティティ機能を強化する画像ID強化モジュールを導入します。
オーディオおよびビデオコンディショナルの生成を有効にするために、モダリティ固有の条件インジェクションメカニズムをさらに提案します。空間交差に関する階層的アライメントを達成するオーディオンモジュール、およびパッチ化ベースの特徴的整合ネットワークを介して潜在的な圧縮条件ビデオを統合するビデオ駆動型注入モジュールを提案します。
単一およびマルチサブジェクトのシナリオに関する広範な実験は、HunyuancustomがIDの一貫性、リアリズム、およびテキストビデオアラインメントの観点から、最先端のオープンソースメソッドを大幅に上回ることを示しています。
さらに、オーディオやビデオ駆動型のカスタマイズされたビデオ生成など、下流のタスク全体でその堅牢性を検証します。
私たちの結果は、制御可能なビデオ生成を進める際のマルチモーダルコンディショニングとアイデンティティを提供する戦略の有効性を強調しています。
すべてのコードとモデルは、https://hunyuancustom.github.ioで入手できます。

要約(オリジナル)

Customized video generation aims to produce videos featuring specific subjects under flexible user-defined conditions, yet existing methods often struggle with identity consistency and limited input modalities. In this paper, we propose HunyuanCustom, a multi-modal customized video generation framework that emphasizes subject consistency while supporting image, audio, video, and text conditions. Built upon HunyuanVideo, our model first addresses the image-text conditioned generation task by introducing a text-image fusion module based on LLaVA for enhanced multi-modal understanding, along with an image ID enhancement module that leverages temporal concatenation to reinforce identity features across frames. To enable audio- and video-conditioned generation, we further propose modality-specific condition injection mechanisms: an AudioNet module that achieves hierarchical alignment via spatial cross-attention, and a video-driven injection module that integrates latent-compressed conditional video through a patchify-based feature-alignment network. Extensive experiments on single- and multi-subject scenarios demonstrate that HunyuanCustom significantly outperforms state-of-the-art open- and closed-source methods in terms of ID consistency, realism, and text-video alignment. Moreover, we validate its robustness across downstream tasks, including audio and video-driven customized video generation. Our results highlight the effectiveness of multi-modal conditioning and identity-preserving strategies in advancing controllable video generation. All the code and models are available at https://hunyuancustom.github.io.

arxiv情報

著者 Teng Hu,Zhentao Yu,Zhengguang Zhou,Sen Liang,Yuan Zhou,Qin Lin,Qinglin Lu
発行日 2025-05-07 15:33:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation はコメントを受け付けていません

Text2CT: Towards 3D CT Volume Generation from Free-text Descriptions Using Diffusion Model

要約

記述的なフリーテキスト入力から3D CTボリュームを生成することは、診断と研究における変革的な機会を提供します。
この論文では、拡散モデルを使用してテキスト説明から3D CTボリュームを合成するための新しいアプローチであるText2CTを紹介します。
固定形式のテキスト入力に依存する以前の方法とは異なり、Text2CTは、多様なフリーテキストの説明から生成を可能にする新しいプロンプトの定式化を採用しています。
提案されたフレームワークは、医療テキストを潜在的な表現にエンコードし、それらを高解像度3D CTスキャンに解読し、統合された3Dフレームワークでセマンティックテキスト入力と詳細なボリューム表現の間のギャップを効果的に埋めます。
私たちの方法は、入力テキストに記載されているように、解剖学的忠実度を保存し、複雑な構造をキャプチャする上で優れた性能を示しています。
広範な評価は、私たちのアプローチが最新の結果を達成し、診断における有望な潜在的なアプリケーションを提供し、データ増強を提供することを示しています。

要約(オリジナル)

Generating 3D CT volumes from descriptive free-text inputs presents a transformative opportunity in diagnostics and research. In this paper, we introduce Text2CT, a novel approach for synthesizing 3D CT volumes from textual descriptions using the diffusion model. Unlike previous methods that rely on fixed-format text input, Text2CT employs a novel prompt formulation that enables generation from diverse, free-text descriptions. The proposed framework encodes medical text into latent representations and decodes them into high-resolution 3D CT scans, effectively bridging the gap between semantic text inputs and detailed volumetric representations in a unified 3D framework. Our method demonstrates superior performance in preserving anatomical fidelity and capturing intricate structures as described in the input text. Extensive evaluations show that our approach achieves state-of-the-art results, offering promising potential applications in diagnostics, and data augmentation.

arxiv情報

著者 Pengfei Guo,Can Zhao,Dong Yang,Yufan He,Vishwesh Nath,Ziyue Xu,Pedro R. A. S. Bassi,Zongwei Zhou,Benjamin D. Simon,Stephanie Anne Harmon,Baris Turkbey,Daguang Xu
発行日 2025-05-07 15:53:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Text2CT: Towards 3D CT Volume Generation from Free-text Descriptions Using Diffusion Model はコメントを受け付けていません

Edge-GPU Based Face Tracking for Face Detection and Recognition Acceleration

要約

リアルタイムで正確な顔の検出と公共の場所での認識に特化した費用対効果の高いマシンビジョンシステムは、多くの最新のアプリケーションにとって非常に重要です。
ただし、特殊なエッジまたはクラウドAIハードウェアアクセラレータを使用して高性能に到達できるにもかかわらず、スループットと消費電力の改善の余地はまだあります。
このペーパーは、最新のエッジGPUの1つ、つまりNvidia Jetson AGX Orinの1つで顔の検出と認識システムを最適化する組み合わせたハードウェアソフトウェアアプローチを提案することを目的としています。
まず、すべてのハードウェアエンジンの同時使用を活用して、処理時間を改善します。
これにより、これらのタスクが主に自動的に、およびCPUまたはGPUコアに自動的かつ排他的に割り当てられた以前の作品よりも改善が提供されます。
さらに、このペーパーでは、フェイストラッカーモジュールを統合して、すべてのフレームのフェイス認識アルゴリズムを冗長に実行しないようにしますが、シーンに新しいフェイスが表示された場合にのみゆったりとしています。
拡張実験の結果は、Orin GPUで利用可能なすべてのハードウェアエンジンの同時使用とパイプラインへのトラッカーの統合により、1920 X 1080の入力サイズフレームが平均6つの顔/フレームを含む290 fps(1秒あたりのフレーム)の印象的なスループットが得られることを示唆しています。
さらに、CPU/GPUエンジンのみでタスクを実行し、トラッカーをOrin GPU \ ’92Sパイプラインに統合することなく、約800 MWの消費電力の大幅な節約が達成されました。
このハードウェアコードシグインアプローチは、エッジで高性能マシンビジョンシステムを設計する方法を開くことができます。これは、同じシーンに近くのいくつかのカメラが通常展開される公共の場所でのビデオ監視で非常に必要です。

要約(オリジナル)

Cost-effective machine vision systems dedicated to real-time and accurate face detection and recognition in public places are crucial for many modern applications. However, despite their high performance, which could be reached using specialized edge or cloud AI hardware accelerators, there is still room for improvement in throughput and power consumption. This paper aims to suggest a combined hardware-software approach that optimizes face detection and recognition systems on one of the latest edge GPUs, namely NVIDIA Jetson AGX Orin. First, it leverages the simultaneous usage of all its hardware engines to improve processing time. This offers an improvement over previous works where these tasks were mainly allocated automatically and exclusively to the CPU or, to a higher extent, to the GPU core. Additionally, the paper suggests integrating a face tracker module to avoid redundantly running the face recognition algorithm for every frame but only when a new face appears in the scene. The results of extended experiments suggest that simultaneous usage of all the hardware engines that are available in the Orin GPU and tracker integration into the pipeline yield an impressive throughput of 290 FPS (frames per second) on 1920 x 1080 input size frames containing in average of 6 faces/frame. Additionally, a substantial saving of power consumption of around 800 mW was achieved when compared to running the task on the CPU/GPU engines only and without integrating a tracker into the Orin GPU\’92s pipeline. This hardware-codesign approach can pave the way to design high-performance machine vision systems at the edge, critically needed in video monitoring in public places where several nearby cameras are usually deployed for a same scene.

arxiv情報

著者 Asma Baobaid,Mahmoud Meribout
発行日 2025-05-07 15:57:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.CV, cs.LG, eess.IV | Edge-GPU Based Face Tracking for Face Detection and Recognition Acceleration はコメントを受け付けていません

DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once

要約

可視および赤外線融合は、画像融合の分野で最も重要なタスクの1つであり、高レベルのビジョンタスクのための明確な構造情報と高品質のテクスチャ機能を備えた融合画像を生成することを目指しています。
ただし、目に見える画像の深刻な照明劣化に直面した場合、既存の画像融合法の融合結果はしばしばぼやけた視覚効果を示し、自律運転に大きな課題をもたらします。
この目的のために、可視および赤外線の画像の解きと融合を一度に処理するために暗闇のないネットワークが提案されています(DFVO)。カスケードされたマルチタスクアプローチを採用して、従来の2段階のカスケードトレーニング(強化と融合)を置き換え、歴史的なデータ伝達によって引き起こされる情報エントロピー損失の問題に対処します。
具体的には、カスケードタスク戦略の潜在的な特徴を取得するために、潜在的な特徴抽出器(LCFE)を構築します。
まず、詳細抽出モジュール(DEM)が考案され、高周波セマンティック情報を取得します。
第二に、低周波情報を抽出し、ソース画像からテクスチャ機能を保持するために、ハイパークロスアテンションモジュール(HCAM)を設計します。
最後に、関連する損失関数は、全体的なネットワーク学習を導くように設計されており、それによりより良い画像融合を実現します。
広範な実験は、提案されたアプローチが定性的および定量的評価の観点から最先端の代替案よりも優れていることを示しています。
特に、DFVOは、暗い環境でより明確で、より有益で、より均等に照らされた融合の結果を生成することができ、63.258 dB PSNRと0.724 ccでLLVIPデータセットで最高のパフォーマンスを達成し、高レベルの視覚タスクのより効果的な情報を提供します。
私たちのコードは、https://github.com/davin-qi530/dfvoで公開されています。

要約(オリジナル)

Visible and infrared image fusion is one of the most crucial tasks in the field of image fusion, aiming to generate fused images with clear structural information and high-quality texture features for high-level vision tasks. However, when faced with severe illumination degradation in visible images, the fusion results of existing image fusion methods often exhibit blurry and dim visual effects, posing major challenges for autonomous driving. To this end, a Darkness-Free network is proposed to handle Visible and infrared image disentanglement and fusion all at Once (DFVO), which employs a cascaded multi-task approach to replace the traditional two-stage cascaded training (enhancement and fusion), addressing the issue of information entropy loss caused by hierarchical data transmission. Specifically, we construct a latent-common feature extractor (LCFE) to obtain latent features for the cascaded tasks strategy. Firstly, a details-extraction module (DEM) is devised to acquire high-frequency semantic information. Secondly, we design a hyper cross-attention module (HCAM) to extract low-frequency information and preserve texture features from source images. Finally, a relevant loss function is designed to guide the holistic network learning, thereby achieving better image fusion. Extensive experiments demonstrate that our proposed approach outperforms state-of-the-art alternatives in terms of qualitative and quantitative evaluations. Particularly, DFVO can generate clearer, more informative, and more evenly illuminated fusion results in the dark environments, achieving best performance on the LLVIP dataset with 63.258 dB PSNR and 0.724 CC, providing more effective information for high-level vision tasks. Our code is publicly accessible at https://github.com/DaVin-Qi530/DFVO.

arxiv情報

著者 Qi Zhou,Yukai Shi,Xiaojun Yang,Xiaoyu Xian,Lunjia Liao,Ruimao Zhang,Liang Lin
発行日 2025-05-07 15:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once はコメントを受け付けていません

VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling

要約

この作業では、ビデオのみで条件付けられた音楽生成を体系的に研究しています。
まず、映画の予告編、広告、ドキュメンタリーなどのさまざまなジャンルを含む、360Kビデオ音楽ペアで構成される大規模なデータセットを提示します。
さらに、ビデオ入力に合わせた音楽を生成するための簡単なフレームワークであるVidMuseを提案します。
VidMuseは、動画と音響的および意味的に整合する高忠実度の音楽を制作することで際立っています。
ローカルおよびグローバルな視覚的キューを組み込むことにより、VidMuseは、長期モデリングを通じてビデオコンテンツを一貫して一致させる音楽的に一貫したオーディオトラックを作成することができます。
広範な実験を通じて、VidMuseは、オーディオの品質、多様性、および視聴覚アライメントの観点から既存のモデルよりも優れています。
コードとデータセットはhttps://vidmuse.github.io/で入手できます。

要約(オリジナル)

In this work, we systematically study music generation conditioned solely on the video. First, we present a large-scale dataset comprising 360K video-music pairs, including various genres such as movie trailers, advertisements, and documentaries. Furthermore, we propose VidMuse, a simple framework for generating music aligned with video inputs. VidMuse stands out by producing high-fidelity music that is both acoustically and semantically aligned with the video. By incorporating local and global visual cues, VidMuse enables the creation of musically coherent audio tracks that consistently match the video content through Long-Short-Term modeling. Through extensive experiments, VidMuse outperforms existing models in terms of audio quality, diversity, and audio-visual alignment. The code and datasets are available at https://vidmuse.github.io/.

arxiv情報

著者 Zeyue Tian,Zhaoyang Liu,Ruibin Yuan,Jiahao Pan,Qifeng Liu,Xu Tan,Qifeng Chen,Wei Xue,Yike Guo
発行日 2025-05-07 15:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD | VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling はコメントを受け付けていません

RAFT: Robust Augmentation of FeaTures for Image Segmentation

要約

画像セグメンテーションは、シーンの理解のための強力なコンピュータービジョン技術です。
ただし、現実世界の展開は、高品質で細心の注意を払ってラベル付けされたデータセットの必要性によって阻害されます。
合成データは、手動のデータ収集と注釈の必要性を減らしながら、高品質のラベルを提供します。
ただし、合成データでトレーニングされた深いニューラルネットワークは、多くの場合、Syn2realの問題に直面しているため、現実世界の展開のパフォーマンスが低下します。
画像セグメンテーションの前述のギャップを緩和するために、データと機能の増強とアクティブ学習を介した最小限の実世界データを使用して、画像セグメンテーションモデルを適応させるための新しいフレームワークであるRaftを提案します。
RAFTを検証するために、合成から現実的な「Synthia-> Cityscapes」および「GTAV-> Cityscapes」ベンチマークの実験を実行します。
私たちはなんとか以前の最先端のハローを上回りました。
Synthia-> Cityscapesは、2.1%/79.9%のドメイン適応によりMIOU*の改善を経験し、GTAV-> CityscapesはMIOUで0.4%/78.2%の改善を経験します。
さらに、「Cityscapes-> ACDC」の実際のベンチマークでアプローチをテストし、再びHaloを上回り、1.3%/73.2%の適応時にMIOUの利益を上げます。
最後に、最終的な移籍MIOUでの割り当てられた注釈予算とRAFTのさまざまなコンポーネントの効果を調べます。

要約(オリジナル)

Image segmentation is a powerful computer vision technique for scene understanding. However, real-world deployment is stymied by the need for high-quality, meticulously labeled datasets. Synthetic data provides high-quality labels while reducing the need for manual data collection and annotation. However, deep neural networks trained on synthetic data often face the Syn2Real problem, leading to poor performance in real-world deployments. To mitigate the aforementioned gap in image segmentation, we propose RAFT, a novel framework for adapting image segmentation models using minimal labeled real-world data through data and feature augmentations, as well as active learning. To validate RAFT, we perform experiments on the synthetic-to-real ‘SYNTHIA->Cityscapes’ and ‘GTAV->Cityscapes’ benchmarks. We managed to surpass the previous state of the art, HALO. SYNTHIA->Cityscapes experiences an improvement in mIoU* upon domain adaptation of 2.1%/79.9%, and GTAV->Cityscapes experiences a 0.4%/78.2% improvement in mIoU. Furthermore, we test our approach on the real-to-real benchmark of ‘Cityscapes->ACDC’, and again surpass HALO, with a gain in mIoU upon adaptation of 1.3%/73.2%. Finally, we examine the effect of the allocated annotation budget and various components of RAFT upon the final transfer mIoU.

arxiv情報

著者 Edward Humes,Xiaomin Lin,Uttej Kallakuri,Tinoosh Mohsenin
発行日 2025-05-07 16:02:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RAFT: Robust Augmentation of FeaTures for Image Segmentation はコメントを受け付けていません

Registration of 3D Point Sets Using Exponential-based Similarity Matrix

要約

ポイントクラウド登録は、コンピュータービジョンとロボット工学の根本的な問題であり、Lidarや構造化された光などの深度センサーを使用してさまざまな視点からキャプチャされた3Dポイントセットのアラインメントを含みます。
最新のロボットシステム、特にマッピングに焦点を当てたシステムでは、同じ環境の複数のビューを正確にマージすることが不可欠です。
ただし、最先端の登録手法は、ポイントセット間に大きな回転の違いが存在する場合、またはセンサーノイズによってデータが大幅に破損している場合に苦労します。
これらの課題は、不整合につながり、その結果、3D再構成が不正確または歪んでいる可能性があります。
この作業では、これらの両方の制限に対処し、古典的な反復ポイント(ICP)アルゴリズムに堅牢な変更を提案します。
指数類似性マトリックスICP(ESM-ICP)と呼ばれるこの方法は、ガウスにインスパイアされた指数重み付けスキームを統合して、反復全体に動的に適応する類似性マトリックスを構築します。
このマトリックスは、アライメント中の回転コンポーネントと翻訳コンポーネントの両方の推定の改善を容易にします。
2つの挑戦的なシナリオでESM-ICPの堅牢性を示します。(i)ソースとターゲットポイントクラウドの間の大きな回転不一致、および(ii)非ガウスノイズによって破損したデータ。
私たちの結果は、ESM-ICPが従来の幾何学的登録手法と最近のいくつかの学習ベースの方法よりも優れていることを示しています。
再現性とコミュニティの関与を促進するために、当社の完全な実装はGitHubで公開されています。
https://github.com/aralab-unr/esm_icp

要約(オリジナル)

Point cloud registration is a fundamental problem in computer vision and robotics, involving the alignment of 3D point sets captured from varying viewpoints using depth sensors such as LiDAR or structured light. In modern robotic systems, especially those focused on mapping, it is essential to merge multiple views of the same environment accurately. However, state-of-the-art registration techniques often struggle when large rotational differences exist between point sets or when the data is significantly corrupted by sensor noise. These challenges can lead to misalignments and, consequently, to inaccurate or distorted 3D reconstructions. In this work, we address both these limitations by proposing a robust modification to the classic Iterative Closest Point (ICP) algorithm. Our method, termed Exponential Similarity Matrix ICP (ESM-ICP), integrates a Gaussian-inspired exponential weighting scheme to construct a similarity matrix that dynamically adapts across iterations. This matrix facilitates improved estimation of both rotational and translational components during alignment. We demonstrate the robustness of ESM-ICP in two challenging scenarios: (i) large rotational discrepancies between the source and target point clouds, and (ii) data corrupted by non-Gaussian noise. Our results show that ESM-ICP outperforms traditional geometric registration techniques as well as several recent learning-based methods. To encourage reproducibility and community engagement, our full implementation is made publicly available on GitHub. https://github.com/aralab-unr/ESM_ICP

arxiv情報

著者 Ashutosh Singandhupe,Sanket Lokhande,Hung Manh La
発行日 2025-05-07 16:17:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Registration of 3D Point Sets Using Exponential-based Similarity Matrix はコメントを受け付けていません

LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation

要約

Clipは、大規模な画像テキストペアの対照学習を介して、画像とテキスト機能を共有表現空間に並べる基礎マルチモーダルモデルです。
その有効性は、主に豊かな監督としての自然言語の使用に起因しています。
大規模な言語モデル(LLMS)の顕著な進歩に動機付けられたこの作業では、LLMSの優れたテキスト理解と広範なオープンワールドの知識が、特により長くより複雑な画像キャプションを処理するために、クリップの機能をどのように強化できるかを探ります。
LLMを前処理されたクリップに統合する効率的なトレーニング後の戦略を提案します。
LLMSの自己回帰の性質によってもたらされる課題に対処するために、キャプションとキャプションのコントラスト的な微調整フレームワークを導入し、LLM出力の識別品質を大幅に向上させます。
広範な実験は、私たちのアプローチがロラベースの方法よりも優れていることを示しており、優れたパフォーマンスでほぼ4倍高速なトレーニングを達成しています。
さらに、さまざまなゼロショットマルチモーダル検索タスク、横断的検索タスク、およびマルチモーダル言語モデルモデルの前編成にわたって、CLIP、EVA02、SIGLIP2などの最先端モデルよりも大幅な改善を検証します。

要約(オリジナル)

CLIP is a foundational multimodal model that aligns image and text features into a shared representation space via contrastive learning on large-scale image-text pairs. Its effectiveness primarily stems from the use of natural language as rich supervision. Motivated by the remarkable advancements in large language models (LLMs), this work explores how LLMs’ superior text understanding and extensive open-world knowledge can enhance CLIP’s capability, especially for processing longer and more complex image captions. We propose an efficient post-training strategy that integrates LLMs into pretrained CLIP. To address the challenge posed by the autoregressive nature of LLMs, we introduce a caption-to-caption contrastive fine-tuning framework, significantly enhancing the discriminative quality of LLM outputs. Extensive experiments demonstrate that our approach outperforms LoRA-based methods, achieving nearly fourfold faster training with superior performance. Furthermore, we validate substantial improvements over state-of-the-art models such as CLIP, EVA02, and SigLip2 across various zero-shot multimodal retrieval tasks, cross-lingual retrieval tasks, and multimodal language model pretraining.

arxiv情報

著者 Weiquan Huang,Aoqi Wu,Yifan Yang,Xufang Luo,Yuqing Yang,Liang Hu,Qi Dai,Chunyu Wang,Xiyang Dai,Dongdong Chen,Chong Luo,Lili Qiu
発行日 2025-05-07 16:51:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation はコメントを受け付けていません

Enhancing Virtual Try-On with Synthetic Pairs and Error-Aware Noise Scheduling

要約

標準的な製品ビューの孤立した衣服の画像と人の別の画像を考えると、仮想トライオンタスクは、ターゲットの衣服を着ている人の新しい画像を生成することを目指しています。
以前のバーチャルトライオンワークスは、この目標を達成する上で2つの大きな課題に直面しています。a)ペアの(人間、衣服)トレーニングデータの可用性は限られています。
b)プロンプトされた衣服のそれと完全に一致するテクスチャの生成は困難であり、多くの場合、歪んだテキストと色あせたテクスチャをもたらします。
私たちの作品は、合成データとモデルの改良の両方を通じてこれらの問題に取り組む方法を探ります。
服を着た個人の単一の画像から(人間、合成衣服)ペアを生成する衣服抽出モデルを導入します。
その後、合成ペアを使用して、仮想トライオンのトレーニングを強化できます。
また、ベース仮想トライオンモデルの出力を修正するために局所的な生成エラーを外科的に標的とするエラーを認識した改良ベースのSchr \ ‘Odinger Bridge(EARSB)を提案します。
可能性のあるエラーを識別するために、洗練のために領域を局在させる弱く監視されたエラー分類器を提案し、その後、信頼ヒートマップでSchr \ ‘Odinger Bridgeの騒音スケジュールを増強します。
Viton-HDとDresscode-Upperの実験は、合成データの増強が以前の作業のパフォーマンスを向上させ、EARSBが全体的な画質を向上させることを示しています。
ユーザー調査では、私たちのモデルは、平均59%のケースでユーザーに好まれています。

要約(オリジナル)

Given an isolated garment image in a canonical product view and a separate image of a person, the virtual try-on task aims to generate a new image of the person wearing the target garment. Prior virtual try-on works face two major challenges in achieving this goal: a) the paired (human, garment) training data has limited availability; b) generating textures on the human that perfectly match that of the prompted garment is difficult, often resulting in distorted text and faded textures. Our work explores ways to tackle these issues through both synthetic data as well as model refinement. We introduce a garment extraction model that generates (human, synthetic garment) pairs from a single image of a clothed individual. The synthetic pairs can then be used to augment the training of virtual try-on. We also propose an Error-Aware Refinement-based Schr\’odinger Bridge (EARSB) that surgically targets localized generation errors for correcting the output of a base virtual try-on model. To identify likely errors, we propose a weakly-supervised error classifier that localizes regions for refinement, subsequently augmenting the Schr\’odinger Bridge’s noise schedule with its confidence heatmap. Experiments on VITON-HD and DressCode-Upper demonstrate that our synthetic data augmentation enhances the performance of prior work, while EARSB improves the overall image quality. In user studies, our model is preferred by the users in an average of 59% of cases.

arxiv情報

著者 Nannan Li,Kevin J. Shih,Bryan A. Plummer
発行日 2025-05-07 16:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Enhancing Virtual Try-On with Synthetic Pairs and Error-Aware Noise Scheduling はコメントを受け付けていません