月別アーカイブ: 2025年2月

Language-Guided Diffusion Model for Visual Grounding

要約 視覚的に接地(VG)タスクには、明示的に対応する画像領域が提供される言語フ … 続きを読む

カテゴリー: cs.CV, cs.MM | Language-Guided Diffusion Model for Visual Grounding はコメントを受け付けていません

Personalized Topology-Informed Localization of Standard 12-Lead ECG Electrode Placement from Incomplete Cardiac MRIs for Efficient Cardiac Digital Twins

要約 心臓デジタルツイン(CDTS)は、心臓メカニズムに関連するマルチスケール特 … 続きを読む

カテゴリー: cs.CV, eess.IV, physics.med-ph | Personalized Topology-Informed Localization of Standard 12-Lead ECG Electrode Placement from Incomplete Cardiac MRIs for Efficient Cardiac Digital Twins はコメントを受け付けていません

SGFormer: Spherical Geometry Transformer for 360 Depth Estimation

要約 パノラマの歪みは、特に北極と南極で顕著な360の深度推定で大きな課題をもた … 続きを読む

カテゴリー: cs.AI, cs.CV | SGFormer: Spherical Geometry Transformer for 360 Depth Estimation はコメントを受け付けていません

Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation

要約 少数の3Dポイントクラウドセグメンテーション(FS-PCS)は、最小限の注 … 続きを読む

カテゴリー: cs.CV | Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation はコメントを受け付けていません

MoFM: A Large-Scale Human Motion Foundation Model

要約 ファンデーションモデル(FM)は、多様なタスク全体のスケーラビリティと一般 … 続きを読む

カテゴリー: cs.CV, cs.LG | MoFM: A Large-Scale Human Motion Foundation Model はコメントを受け付けていません

Stealthy Backdoor Attack in Self-Supervised Learning Vision Encoders for Large Vision Language Models

要約 自己教師の学習(SSL)ビジョンエンコーダーは、高品質の画像表現を学習する … 続きを読む

カテゴリー: cs.CV | Stealthy Backdoor Attack in Self-Supervised Learning Vision Encoders for Large Vision Language Models はコメントを受け付けていません

Duo Streamers: A Streaming Gesture Recognition Framework

要約 リソース制約のシナリオでのジェスチャー認識は、高精度と低遅延を達成する上で … 続きを読む

カテゴリー: cs.CV | Duo Streamers: A Streaming Gesture Recognition Framework はコメントを受け付けていません

Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation

要約 最近、拡散モデルはモノチャネルオーディオ生成で大きな成功を収めています。 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation はコメントを受け付けていません

LDGen: Enhancing Text-to-Image Synthesis via Large Language Model-Driven Language Representation

要約 この論文では、計算需要を最小限に抑えながら、既存のテキストから画像間拡散モ … 続きを読む

カテゴリー: cs.CV | LDGen: Enhancing Text-to-Image Synthesis via Large Language Model-Driven Language Representation はコメントを受け付けていません

GCDance: Genre-Controlled 3D Full Body Dance Generation Driven By Music

要約 音楽から高品質のフルボディダンスシーケンスを生成することは、ジャンル固有の … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS | GCDance: Genre-Controlled 3D Full Body Dance Generation Driven By Music はコメントを受け付けていません