月別アーカイブ: 2025年1月

HYB-VITON: A Hybrid Approach to Virtual Try-On Combining Explicit and Implicit Warping

要約 仮想試着システムは電子商取引において大きな可能性を秘めており、顧客が自分で … 続きを読む

カテゴリー: cs.CV | HYB-VITON: A Hybrid Approach to Virtual Try-On Combining Explicit and Implicit Warping はコメントを受け付けていません

Dolphin: Closed-loop Open-ended Auto-research through Thinking, Practice, and Feedback

要約 科学研究のパラダイムは、人工知能 (AI) の発展により大きな変革を迎えて … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Dolphin: Closed-loop Open-ended Auto-research through Thinking, Practice, and Feedback はコメントを受け付けていません

Explainable AI model reveals disease-related mechanisms in single-cell RNA-seq data

要約 神経変性疾患(NDD)は複雑であり、そのメカニズムが十分に理解されていない … 続きを読む

カテゴリー: cs.CV, cs.LG, q-bio.GN | Explainable AI model reveals disease-related mechanisms in single-cell RNA-seq data はコメントを受け付けていません

Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers

要約 私たちは、映画レベルの品質とダイナミックなモーションを備えたアイデンティテ … 続きを読む

カテゴリー: cs.CV | Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers はコメントを受け付けていません

CoStruction: Conjoint radiance field optimization for urban scene reconStruction with limited image overlap

要約 記録された運転シーケンスから周囲の表面ジオメトリを再構築することは、都市環 … 続きを読む

カテゴリー: cs.CV, I.2.10, I.4.5 | CoStruction: Conjoint radiance field optimization for urban scene reconStruction with limited image overlap はコメントを受け付けていません

Gaussian Building Mesh (GBM): Extract a Building’s 3D Mesh with Google Earth and Gaussian Splatting

要約 最近リリースされたオープンソースの事前トレーニング済み基本画像セグメンテー … 続きを読む

カテゴリー: cs.CV, cs.GR | Gaussian Building Mesh (GBM): Extract a Building’s 3D Mesh with Google Earth and Gaussian Splatting はコメントを受け付けていません

Visual question answering: from early developments to recent advances — a survey

要約 Visual Question Answering (VQA) は、特徴抽 … 続きを読む

カテゴリー: cs.CV, cs.MM | Visual question answering: from early developments to recent advances — a survey はコメントを受け付けていません

Vim-F: Visual State Space Model Benefiting from Learning in the Frequency Domain

要約 近年、Mamba 深層学習モデルとして知られる、効率的なハードウェアを意識 … 続きを読む

カテゴリー: cs.CV | Vim-F: Visual State Space Model Benefiting from Learning in the Frequency Domain はコメントを受け付けていません

Vision Language Models as Values Detectors

要約 テキスト入力とビジュアル入力を統合した大規模言語モデルにより、複雑なデータ … 続きを読む

カテゴリー: cs.CV, cs.HC | Vision Language Models as Values Detectors はコメントを受け付けていません

Temporal Feature Weaving for Neonatal Echocardiographic Viewpoint Video Classification

要約 心エコー図における自動視点分類は、専門技術者が不在の場合に、リソースが不足 … 続きを読む

カテゴリー: cs.CV | Temporal Feature Weaving for Neonatal Echocardiographic Viewpoint Video Classification はコメントを受け付けていません