「cs.MM」カテゴリーアーカイブ

LongShortNet: Exploring Temporal and Semantic Features Fusion in Streaming Perception

投稿日: 2022年10月28日作成者: jarxiv

要約ストリーミング認識は、自動運転システムの遅延と精度を首尾一貫して考慮する自 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

TAMFormer: Multi-Modal Transformer with Learned Attention Mask for Early Intent Prediction

投稿日: 2022年10月27日作成者: jarxiv

要約人間の意図の予測は、ビデオ内のアクティビティを視覚ベースのシステムで予測す … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Learning Audio-Visual embedding for Person Verification in the Wild

投稿日: 2022年10月27日作成者: jarxiv

要約オーディオビジュアルの埋め込みは、個人の検証において単一モダリティの埋め込 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

AMPose: Alternatively Mixed Global-Local Attention Model for 3D Human Pose Estimation

投稿日: 2022年10月27日作成者: jarxiv

要約グラフ畳み込みネットワーク (GCN) は、3D 人間の姿勢推定 (HPE … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

End-to-end Transformer for Compressed Video Quality Enhancement

投稿日: 2022年10月26日作成者: jarxiv

要約畳み込みニューラルネットワークは、近年、圧縮ビデオの品質向上タスクで優れ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Image-Text Retrieval with Binary and Continuous Label Supervision

投稿日: 2022年10月21日作成者: jarxiv

要約ほとんどの画像とテキストの検索作業では、画像とテキストのペアが一致するかど … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Sparse in Space and Time: Audio-visual Synchronisation with Trainable Selectors

投稿日: 2022年10月14日作成者: jarxiv

要約このホワイトペーパーの目的は、「実際の」一般的なビデオの視聴覚同期です。 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

A Generalist Framework for Panoptic Segmentation of Images and Videos

投稿日: 2022年10月13日作成者: jarxiv

要約パノプティックセグメンテーションは、画像のすべてのピクセルにセマンティッ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Evaluating Point Cloud Quality via Transformational Complexity

投稿日: 2022年10月11日作成者: jarxiv

要約完全参照点群品質評価 (FR-PCQA) は、利用可能な参照を使用して歪ん … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video Retrieval

投稿日: 2022年10月10日作成者: jarxiv

要約多言語のテキストとビデオの検索方法は近年大幅に改善されていますが、他の言語 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

LongShortNet: Exploring Temporal and Semantic Features Fusion in Streaming Perception

TAMFormer: Multi-Modal Transformer with Learned Attention Mask for Early Intent Prediction

Learning Audio-Visual embedding for Person Verification in the Wild

AMPose: Alternatively Mixed Global-Local Attention Model for 3D Human Pose Estimation

End-to-end Transformer for Compressed Video Quality Enhancement

Image-Text Retrieval with Binary and Continuous Label Supervision

Sparse in Space and Time: Audio-visual Synchronisation with Trainable Selectors

A Generalist Framework for Panoptic Segmentation of Images and Videos

Evaluating Point Cloud Quality via Transformational Complexity

C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video Retrieval

最近の投稿

最近のコメント

アーカイブ

カテゴリー