「cs.MM」カテゴリーアーカイブ

Language-Guided Diffusion Model for Visual Grounding

投稿日: 2023年8月21日作成者: jarxiv

要約ビジュアルグラウンディング (VG) タスクには、提供された言語フレーズ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

KeyPosS: Plug-and-Play Facial Landmark Detection through GPS-Inspired True-Range Multilateration

投稿日: 2023年8月21日作成者: jarxiv

要約顔分析の分野では、顔認識や表情分析からアニメーションに至るまで、さまざまな … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

PoSynDA: Multi-Hypothesis Pose Synthesis Domain Adaptation for Robust 3D Human Pose Estimation

投稿日: 2023年8月21日作成者: jarxiv

要約現在の 3D 人間の姿勢推定器は、ターゲットドメインのトレーニングセッ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.RO | コメントを受け付けていません

Audiovisual Moments in Time: A Large-Scale Annotated Dataset of Audiovisual Actions

投稿日: 2023年8月21日作成者: jarxiv

要約私たちは、オーディオビジュアルアクションイベントの大規模なデータセット … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Seeing through the Brain: Image Reconstruction of Visual Perception from Human Brain Signals

投稿日: 2023年8月17日作成者: jarxiv

要約しかし、百聞は一見に如かずですが、人間の視覚認識がどのように認知と絡み合っ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, eess.IV, q-bio.NC | コメントを受け付けていません

Dynamic Low-Rank Instance Adaptation for Universal Neural Image Compression

投稿日: 2023年8月16日作成者: jarxiv

要約ニューラル画像圧縮の最新の進歩は、従来の標準コーデックのレート歪み性能を超 … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV, I.4.2; E.4 | コメントを受け付けていません

SuS-X: Training-Free Name-Only Transfer of Vision-Language Models

投稿日: 2023年8月16日作成者: jarxiv

要約 Contrastive Language-Image Pre-traini … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

MACO: A Modality Adversarial and Contrastive Framework for Modality-missing Multi-modal Knowledge Graph Completion

投稿日: 2023年8月15日作成者: jarxiv

要約近年、マルチモーダルナレッジグラフ補完 (MMKGC) が大幅に進歩しまし … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.MM | コメントを受け付けていません

Temporal Sentence Grounding in Streaming Videos

投稿日: 2023年8月15日作成者: jarxiv

要約この論文は、ストリーミングビデオにおける時間的センテンスグラウンディン … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

CTP: Towards Vision-Language Continual Pretraining via Compatible Momentum Contrast and Topology Preservation

投稿日: 2023年8月15日作成者: jarxiv

要約 Vision-Language Pretraining (VLP) は、大 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Language-Guided Diffusion Model for Visual Grounding

KeyPosS: Plug-and-Play Facial Landmark Detection through GPS-Inspired True-Range Multilateration

PoSynDA: Multi-Hypothesis Pose Synthesis Domain Adaptation for Robust 3D Human Pose Estimation

Audiovisual Moments in Time: A Large-Scale Annotated Dataset of Audiovisual Actions

Seeing through the Brain: Image Reconstruction of Visual Perception from Human Brain Signals

Dynamic Low-Rank Instance Adaptation for Universal Neural Image Compression

SuS-X: Training-Free Name-Only Transfer of Vision-Language Models

MACO: A Modality Adversarial and Contrastive Framework for Modality-missing Multi-modal Knowledge Graph Completion

Temporal Sentence Grounding in Streaming Videos

CTP: Towards Vision-Language Continual Pretraining via Compatible Momentum Contrast and Topology Preservation

最近の投稿

最近のコメント

アーカイブ

カテゴリー