月別アーカイブ: 2024年3月

Embodied Understanding of Driving Scenarios

要約 身体化されたシーンの理解は、自律エージェントがオープンな運転シナリオを認識 … 続きを読む

カテゴリー: cs.CV | Embodied Understanding of Driving Scenarios はコメントを受け付けていません

Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures

要約 トランスフォーマーはコンピューター ビジョンと自然言語処理に革命をもたらし … 続きを読む

カテゴリー: cs.CV | Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures はコメントを受け付けていません

A Domain Translation Framework with an Adversarial Denoising Diffusion Model to Generate Synthetic Datasets of Echocardiography Images

要約 現在、医療画像ドメインの翻訳業務は、研究者や臨床医からの高い需要を示してい … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | A Domain Translation Framework with an Adversarial Denoising Diffusion Model to Generate Synthetic Datasets of Echocardiography Images はコメントを受け付けていません

High-Level Parallelism and Nested Features for Dynamic Inference Cost and Top-Down Attention

要約 このペーパーでは、動的な推論コストとトップダウンのアテンション メカニズム … 続きを読む

カテゴリー: cs.CV | High-Level Parallelism and Nested Features for Dynamic Inference Cost and Top-Down Attention はコメントを受け付けていません

MedFLIP: Medical Vision-and-Language Self-supervised Fast Pre-Training with Masked Autoencoder

要約 医療分析の分野では、マスクされたオートエンコーダー (MAE) とマルチモ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, eess.IV | MedFLIP: Medical Vision-and-Language Self-supervised Fast Pre-Training with Masked Autoencoder はコメントを受け付けていません

Pix2Gif: Motion-Guided Diffusion for GIF Generation

要約 私たちは、画像から GIF (ビデオ) への生成のためのモーションガイド付 … 続きを読む

カテゴリー: cs.AI, cs.CV | Pix2Gif: Motion-Guided Diffusion for GIF Generation はコメントを受け付けていません

CAT: Enhancing Multimodal Large Language Model to Answer Questions in Dynamic Audio-Visual Scenarios

要約 このペーパーでは、豊富で複雑な動的なオーディオビジュアル コンポーネントで … 続きを読む

カテゴリー: cs.CV | CAT: Enhancing Multimodal Large Language Model to Answer Questions in Dynamic Audio-Visual Scenarios はコメントを受け付けていません

Geometry-Guided Ray Augmentation for Neural Surface Reconstruction with Sparse Views

要約 この論文では、まばらな多視点画像から 3D シーンとオブジェクトを再構成す … 続きを読む

カテゴリー: cs.CV | Geometry-Guided Ray Augmentation for Neural Surface Reconstruction with Sparse Views はコメントを受け付けていません

Audio-Visual Person Verification based on Recursive Fusion of Joint Cross-Attention

要約 顔と声が互いに密接に関連しているため、視聴覚融合を使用した個人または身元確 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Audio-Visual Person Verification based on Recursive Fusion of Joint Cross-Attention はコメントを受け付けていません

Dynamic Cross Attention for Audio-Visual Person Verification

要約 個人または身元の検証は、主に顔や音声などの個別のモダリティを使用して研究さ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Dynamic Cross Attention for Audio-Visual Person Verification はコメントを受け付けていません