月別アーカイブ: 2024年5月

PoseCrafter: One-Shot Personalized Video Synthesis Following Flexible Pose Control

要約 このペーパーでは、柔軟なポーズの制御に続いてパーソナライズされたビデオを生 … 続きを読む

カテゴリー: cs.AI, cs.CV | PoseCrafter: One-Shot Personalized Video Synthesis Following Flexible Pose Control はコメントを受け付けていません

Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary Action Recognition

要約 CLIP (対照的言語イメージ事前トレーニング) の目覚ましい成功に基づい … 続きを読む

カテゴリー: cs.CV | Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary Action Recognition はコメントを受け付けていません

Beyond Literal Descriptions: Understanding and Locating Open-World Objects Aligned with Human Intentions

要約 ビジュアル グラウンディング (VG) は、指定された自然言語表現に一致す … 続きを読む

カテゴリー: cs.CV | Beyond Literal Descriptions: Understanding and Locating Open-World Objects Aligned with Human Intentions はコメントを受け付けていません

Domain Generalisation for Object Detection under Covariate and Concept Shift

要約 ドメイン一般化は、ドメイン固有の特徴を抑制しながら、ドメイン不変の特徴の学 … 続きを読む

カテゴリー: cs.CV | Domain Generalisation for Object Detection under Covariate and Concept Shift はコメントを受け付けていません

Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach

要約 自己教師あり機能は、最新の機械学習システムの基礎です。 通常、データ収集に … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach はコメントを受け付けていません

DiffCalib: Reformulating Monocular Camera Calibration as Diffusion-Based Dense Incident Map Generation

要約 単眼カメラのキャリブレーションは、多くの 3D ビジョン アプリケーション … 続きを読む

カテゴリー: cs.CV | DiffCalib: Reformulating Monocular Camera Calibration as Diffusion-Based Dense Incident Map Generation はコメントを受け付けていません

Align as Ideal: Cross-Modal Alignment Binding for Federated Medical Vision-Language Pre-training

要約 ビジョン言語事前トレーニング (VLP) は、マルチモーダル表現学習の効率 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | Align as Ideal: Cross-Modal Alignment Binding for Federated Medical Vision-Language Pre-training はコメントを受け付けていません

LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image

要約 大規模再構成モデ​​ルは、単一または複数の入力画像からの自動 3D コンテ … 続きを読む

カテゴリー: cs.CV | LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image はコメントを受け付けていません

Less is more: Summarizing Patch Tokens for efficient Multi-Label Class-Incremental Learning

要約 プロンプト チューニングは、タスク固有のパラメータ (またはプロンプト) … 続きを読む

カテゴリー: cs.AI, cs.CV | Less is more: Summarizing Patch Tokens for efficient Multi-Label Class-Incremental Learning はコメントを受け付けていません

Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation

要約 近年、現実的な生成結果と幅広いパーソナライズされたアプリケーションにより、 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation はコメントを受け付けていません