cs.MM」カテゴリーアーカイブ

You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos

要約 トリミングされていないビデオが与えられた場合、テンポラル センテンス グラ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos はコメントを受け付けていません

SuS-X: Training-Free Name-Only Transfer of Vision-Language Models

要約 Contrastive Language-Image Pre-traini … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | SuS-X: Training-Free Name-Only Transfer of Vision-Language Models はコメントを受け付けていません

Temporal Sentence Grounding in Videos: A Survey and Future Directions

要約 ビデオにおける時間的文のグラウンディング (TSGV)、別名自然言語ビデオ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Temporal Sentence Grounding in Videos: A Survey and Future Directions はコメントを受け付けていません

PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents

要約 大規模なデータセットでトレーニングされた Foundation モデルは、 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM | PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents はコメントを受け付けていません

TriDet: Temporal Action Detection with Relative Boundary Modeling

要約 この論文では、一時的なアクション検出のための 1 段階のフレームワーク T … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | TriDet: Temporal Action Detection with Relative Boundary Modeling はコメントを受け付けていません

MuLTI: Efficient Video-and-Language Understanding with MultiWay-Sampler and Multiple Choice Modeling

要約 ビデオと言語の理解には、ビデオによる質問への回答、テキストとビデオの検索、 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | MuLTI: Efficient Video-and-Language Understanding with MultiWay-Sampler and Multiple Choice Modeling はコメントを受け付けていません

QVRF: A Quantization-error-aware Variable Rate Framework for Learned Image Compression

要約 学習した画像圧縮は有望な圧縮性能を示していますが、広範囲にわたる可変ビット … 続きを読む

カテゴリー: cs.AI, cs.MM, eess.IV | QVRF: A Quantization-error-aware Variable Rate Framework for Learned Image Compression はコメントを受け付けていません

BIRD-PCC: Bi-directional Range Image-based Deep LiDAR Point Cloud Compression

要約 LiDAR センサーによって収集される大量のデータは、LiDAR ポイント … 続きを読む

カテゴリー: cs.MM, cs.RO | BIRD-PCC: Bi-directional Range Image-based Deep LiDAR Point Cloud Compression はコメントを受け付けていません

Video Question Answering Using CLIP-Guided Visual-Text Attention

要約 ビデオとテキストのクロスモーダル学習は、ビデオ質問応答 (VideoQA) … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, I.2.10 | Video Question Answering Using CLIP-Guided Visual-Text Attention はコメントを受け付けていません

CaDM: Codec-aware Diffusion Modeling for Neural-enhanced Video Streaming

要約 近年、ストリーマーのアップリンク帯域幅に合わせてビデオ ビットストリームが … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, eess.IV | CaDM: Codec-aware Diffusion Modeling for Neural-enhanced Video Streaming はコメントを受け付けていません