「cs.MM」カテゴリーアーカイブ

Rethinking Audio-visual Synchronization for Active Speaker Detection

投稿日: 2022年6月22日作成者: jarxiv

要約アクティブスピーカー検出（ASD）システムは、マルチトーカーの会話を分析す … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Bi-Calibration Networks for Weakly-Supervised Video Representation Learning

投稿日: 2022年6月22日作成者: jarxiv

要約検索されたクエリまたは周囲のテキスト（タイトルなど）と組み合わせた大量のW … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Grounded Language-Image Pre-training

投稿日: 2022年6月20日作成者: jarxiv

要約このホワイトペーパーでは、オブジェクトレベル、言語認識、およびセマンティッ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

whu-nercms at trecvid2021:instance search task

投稿日: 2022年6月20日作成者: jarxiv

要約論文のTRECVID2021でWHU-NERCMSの実験方法と結果を簡単に … 続きを読む →

カテゴリー: cs.CV, cs.IR, cs.MM | コメントを受け付けていません

Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product Retrieval

投稿日: 2022年6月20日作成者: jarxiv

要約この研究の目標は、細粒度の製品カテゴリに対して、弱教師ありマルチモーダルイ … 続きを読む →

カテゴリー: cs.CV, cs.DB, cs.IR, cs.MM | コメントを受け付けていません

SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning

投稿日: 2022年6月17日作成者: jarxiv

要約 3D環境向けのオンザフライのジオメトリベースのオーディオレンダリング用のプ … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

AVATAR: Unconstrained Audiovisual Speech Recognition

投稿日: 2022年6月16日作成者: jarxiv

要約視聴覚自動音声認識（AV-ASR）は、ASRの拡張機能であり、多くの場合、 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Variable Bitrate Neural Fields

投稿日: 2022年6月16日作成者: jarxiv

要約符号付き距離関数や放射輝度フィールドなどのスカラーフィールドとベクトルフィ … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.LG, cs.MM | コメントを受け付けていません

Comprehending and Ordering Semantics for Image Captioning

投稿日: 2022年6月15日作成者: jarxiv

要約画像の豊富なセマンティクスを理解し、それらを言語順に並べることは、画像のキ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Stand-Alone Inter-Frame Attention in Video Models

投稿日: 2022年6月15日作成者: jarxiv

要約ビデオの独自性としてのモーションは、ビデオ理解モデルの開発に不可欠です。 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Rethinking Audio-visual Synchronization for Active Speaker Detection

Bi-Calibration Networks for Weakly-Supervised Video Representation Learning

Grounded Language-Image Pre-training

whu-nercms at trecvid2021:instance search task

Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product Retrieval

SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning

AVATAR: Unconstrained Audiovisual Speech Recognition

Variable Bitrate Neural Fields

Comprehending and Ordering Semantics for Image Captioning

Stand-Alone Inter-Frame Attention in Video Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー