「cs.CV」カテゴリーアーカイブ

MCTrack: A Unified 3D Multi-Object Tracking Framework for Autonomous Driving

投稿日: 2024年10月15日作成者: jarxiv

要約このペーパーでは、KITTI、nuScenes、Waymo データセット全 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Extracting Training Data from Unconditional Diffusion Models

投稿日: 2024年10月15日作成者: jarxiv

要約拡散確率モデル (DPM) が生成人工知能 (AI) の主流モデルとして採 … 続きを読む →

カテゴリー: cs.CR, cs.CV, cs.LG | コメントを受け付けていません

Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies

投稿日: 2024年10月15日作成者: jarxiv

要約オーディオビジュアルディープフェイク検出に関する既存の方法は、オーディオデ … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

PCF-Lift: Panoptic Lifting by Probabilistic Contrastive Fusion

投稿日: 2024年10月15日作成者: jarxiv

要約パノプティックリフティングは、2D パノプティックセグメンテーションを … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Transforming Game Play: A Comparative Study of DCQN and DTQN Architectures in Reinforcement Learning

投稿日: 2024年10月15日作成者: jarxiv

要約この研究では、3 つの異なる Atari ゲームにわたって畳み込みニューラ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework

投稿日: 2024年10月15日作成者: jarxiv

要約少数ショット学習に関する既存の研究のほとんどは、同じモダリティからの少数の … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation

投稿日: 2024年10月15日作成者: jarxiv

要約最近、普及モデルはモノチャンネルオーディオ生成において大きな成功を収めてい … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Sign Stitching: A Novel Approach to Sign Language Production

投稿日: 2024年10月15日作成者: jarxiv

要約手話言語制作 (SLP) は、利用可能なリソースが限られており、手話データ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Enhancing Performance of Point Cloud Completion Networks with Consistency Loss

投稿日: 2024年10月15日作成者: jarxiv

要約点群補完ネットワークは従来、完成した点群と対応するグラウンドトゥルース間の … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

TALK-Act: Enhance Textural-Awareness for 2D Speaking Avatar Reenactment with Diffusion Model

投稿日: 2024年10月15日作成者: jarxiv

要約最近、顔アニメーション技術の急速な発展により、2D 話すアバターが日常のシ … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

MCTrack: A Unified 3D Multi-Object Tracking Framework for Autonomous Driving

Extracting Training Data from Unconditional Diffusion Models

Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies

PCF-Lift: Panoptic Lifting by Probabilistic Contrastive Fusion

Transforming Game Play: A Comparative Study of DCQN and DTQN Architectures in Reinforcement Learning

Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework

Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation

Sign Stitching: A Novel Approach to Sign Language Production

Enhancing Performance of Point Cloud Completion Networks with Consistency Loss

TALK-Act: Enhance Textural-Awareness for 2D Speaking Avatar Reenactment with Diffusion Model

最近の投稿

最近のコメント

アーカイブ

カテゴリー