「cs.CV」カテゴリーアーカイブ

Efficient Flow Matching using Latent Variables

投稿日: 2025年5月8日作成者: jarxiv

要約フローマッチングモデルは、確率的生成モデルの間で画像生成タスクに大きな可能 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

‘I Can See Forever!’: Evaluating Real-time VideoLLMs for Assisting Individuals with Visual Impairments

投稿日: 2025年5月8日作成者: jarxiv

要約視覚障害のある人口、特に重度の視覚障害者は現在大きく、日々の活動は彼らにと … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.HC, cs.MM | コメントを受け付けていません

Defining and Quantifying Creative Behavior in Popular Image Generators

投稿日: 2025年5月8日作成者: jarxiv

要約生成AIモデルの創造性は、決定的な答えなしに、過去数年間で科学的議論の対象 … 続きを読む →

カテゴリー: cs.AI, cs.CV, I.2.m | コメントを受け付けていません

Leveraging Simultaneous Usage of Edge GPU Hardware Engines for Video Face Detection and Recognition

投稿日: 2025年5月8日作成者: jarxiv

要約セキュリティの強化や認可された会場への非接触アクセスなど、いくつかのアプリ … 続きを読む →

カテゴリー: cs.AR, cs.CV, eess.IV | コメントを受け付けていません

XLD: A Cross-Lane Dataset for Benchmarking Novel Driving View Synthesis

投稿日: 2025年5月8日作成者: jarxiv

要約自律運転車の安全性を確保するには、シミュレーションによる自律システムの包括 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

投稿日: 2025年5月8日作成者: jarxiv

要約カスタマイズされたビデオジェネレーションは、柔軟なユーザー定義条件下で特定 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Text2CT: Towards 3D CT Volume Generation from Free-text Descriptions Using Diffusion Model

投稿日: 2025年5月8日作成者: jarxiv

要約記述的なフリーテキスト入力から3D CTボリュームを生成することは、診断と … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Edge-GPU Based Face Tracking for Face Detection and Recognition Acceleration

投稿日: 2025年5月8日作成者: jarxiv

要約リアルタイムで正確な顔の検出と公共の場所での認識に特化した費用対効果の高い … 続きを読む →

カテゴリー: cs.AR, cs.CV, cs.LG, eess.IV | コメントを受け付けていません

DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once

投稿日: 2025年5月8日作成者: jarxiv

要約可視および赤外線融合は、画像融合の分野で最も重要なタスクの1つであり、高レ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling

投稿日: 2025年5月8日作成者: jarxiv

要約この作業では、ビデオのみで条件付けられた音楽生成を体系的に研究しています。 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Efficient Flow Matching using Latent Variables

‘I Can See Forever!’: Evaluating Real-time VideoLLMs for Assisting Individuals with Visual Impairments

Defining and Quantifying Creative Behavior in Popular Image Generators

Leveraging Simultaneous Usage of Edge GPU Hardware Engines for Video Face Detection and Recognition

XLD: A Cross-Lane Dataset for Benchmarking Novel Driving View Synthesis

HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

Text2CT: Towards 3D CT Volume Generation from Free-text Descriptions Using Diffusion Model

Edge-GPU Based Face Tracking for Face Detection and Recognition Acceleration

DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once

VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling

最近の投稿

最近のコメント

アーカイブ

カテゴリー