月別アーカイブ: 2025年2月

Language-Guided Diffusion Model for Visual Grounding

投稿日: 2025年2月26日作成者: jarxiv

要約視覚的に接地（VG）タスクには、明示的に対応する画像領域が提供される言語フ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Personalized Topology-Informed Localization of Standard 12-Lead ECG Electrode Placement from Incomplete Cardiac MRIs for Efficient Cardiac Digital Twins

投稿日: 2025年2月26日作成者: jarxiv

要約心臓デジタルツイン（CDTS）は、心臓メカニズムに関連するマルチスケール特 … 続きを読む →

カテゴリー: cs.CV, eess.IV, physics.med-ph | コメントを受け付けていません

SGFormer: Spherical Geometry Transformer for 360 Depth Estimation

投稿日: 2025年2月26日作成者: jarxiv

要約パノラマの歪みは、特に北極と南極で顕著な360の深度推定で大きな課題をもた … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation

投稿日: 2025年2月26日作成者: jarxiv

要約少数の3Dポイントクラウドセグメンテーション（FS-PCS）は、最小限の注 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MoFM: A Large-Scale Human Motion Foundation Model

投稿日: 2025年2月26日作成者: jarxiv

要約ファンデーションモデル（FM）は、多様なタスク全体のスケーラビリティと一般 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Stealthy Backdoor Attack in Self-Supervised Learning Vision Encoders for Large Vision Language Models

投稿日: 2025年2月26日作成者: jarxiv

要約自己教師の学習（SSL）ビジョンエンコーダーは、高品質の画像表現を学習する … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Duo Streamers: A Streaming Gesture Recognition Framework

投稿日: 2025年2月26日作成者: jarxiv

要約リソース制約のシナリオでのジェスチャー認識は、高精度と低遅延を達成する上で … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation

投稿日: 2025年2月26日作成者: jarxiv

要約最近、拡散モデルはモノチャネルオーディオ生成で大きな成功を収めています。 … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

LDGen: Enhancing Text-to-Image Synthesis via Large Language Model-Driven Language Representation

投稿日: 2025年2月26日作成者: jarxiv

要約この論文では、計算需要を最小限に抑えながら、既存のテキストから画像間拡散モ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GCDance: Genre-Controlled 3D Full Body Dance Generation Driven By Music

投稿日: 2025年2月26日作成者: jarxiv

要約音楽から高品質のフルボディダンスシーケンスを生成することは、ジャンル固有の … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS | コメントを受け付けていません

月別アーカイブ: 2025年2月

Language-Guided Diffusion Model for Visual Grounding

Personalized Topology-Informed Localization of Standard 12-Lead ECG Electrode Placement from Incomplete Cardiac MRIs for Efficient Cardiac Digital Twins

SGFormer: Spherical Geometry Transformer for 360 Depth Estimation

Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation

MoFM: A Large-Scale Human Motion Foundation Model

Stealthy Backdoor Attack in Self-Supervised Learning Vision Encoders for Large Vision Language Models

Duo Streamers: A Streaming Gesture Recognition Framework

Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation

LDGen: Enhancing Text-to-Image Synthesis via Large Language Model-Driven Language Representation

GCDance: Genre-Controlled 3D Full Body Dance Generation Driven By Music

最近の投稿

最近のコメント

アーカイブ

カテゴリー