投稿者「jarxiv」のアーカイブ

XLD: A Cross-Lane Dataset for Benchmarking Novel Driving View Synthesis

要約 自律運転車の安全性を確保するには、シミュレーションによる自律システムの包括 … 続きを読む

カテゴリー: cs.CV | XLD: A Cross-Lane Dataset for Benchmarking Novel Driving View Synthesis はコメントを受け付けていません

HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

要約 カスタマイズされたビデオジェネレーションは、柔軟なユーザー定義条件下で特定 … 続きを読む

カテゴリー: cs.CV | HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation はコメントを受け付けていません

Text2CT: Towards 3D CT Volume Generation from Free-text Descriptions Using Diffusion Model

要約 記述的なフリーテキスト入力から3D CTボリュームを生成することは、診断と … 続きを読む

カテゴリー: cs.CV | Text2CT: Towards 3D CT Volume Generation from Free-text Descriptions Using Diffusion Model はコメントを受け付けていません

Edge-GPU Based Face Tracking for Face Detection and Recognition Acceleration

要約 リアルタイムで正確な顔の検出と公共の場所での認識に特化した費用対効果の高い … 続きを読む

カテゴリー: cs.AR, cs.CV, cs.LG, eess.IV | Edge-GPU Based Face Tracking for Face Detection and Recognition Acceleration はコメントを受け付けていません

DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once

要約 可視および赤外線融合は、画像融合の分野で最も重要なタスクの1つであり、高レ … 続きを読む

カテゴリー: cs.AI, cs.CV | DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once はコメントを受け付けていません

VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling

要約 この作業では、ビデオのみで条件付けられた音楽生成を体系的に研究しています。 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD | VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling はコメントを受け付けていません

RAFT: Robust Augmentation of FeaTures for Image Segmentation

要約 画像セグメンテーションは、シーンの理解のための強力なコンピュータービジョン … 続きを読む

カテゴリー: cs.CV | RAFT: Robust Augmentation of FeaTures for Image Segmentation はコメントを受け付けていません

Registration of 3D Point Sets Using Exponential-based Similarity Matrix

要約 ポイントクラウド登録は、コンピュータービジョンとロボット工学の根本的な問題 … 続きを読む

カテゴリー: cs.CV | Registration of 3D Point Sets Using Exponential-based Similarity Matrix はコメントを受け付けていません

LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation

要約 Clipは、大規模な画像テキストペアの対照学習を介して、画像とテキスト機能 … 続きを読む

カテゴリー: cs.CL, cs.CV | LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation はコメントを受け付けていません

Enhancing Virtual Try-On with Synthetic Pairs and Error-Aware Noise Scheduling

要約 標準的な製品ビューの孤立した衣服の画像と人の別の画像を考えると、仮想トライ … 続きを読む

カテゴリー: cs.CV | Enhancing Virtual Try-On with Synthetic Pairs and Error-Aware Noise Scheduling はコメントを受け付けていません