cs.MM」カテゴリーアーカイブ

Audio-visual Event Localization on Portrait Mode Short Videos

要約 視聴覚イベントのローカリゼーション(AVEL)は、マルチモーダルシーンの理 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Audio-visual Event Localization on Portrait Mode Short Videos はコメントを受け付けていません

A Multimedia Analytics Model for the Foundation Model Era

要約 基礎モデルとエージェント人工知能の急速な進歩は、人間と分析システムの間のよ … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.MM | A Multimedia Analytics Model for the Foundation Model Era はコメントを受け付けていません

Latent Multimodal Reconstruction for Misinformation Detection

要約 キャプションが画像の起源、コンテキスト、または意味を誤って伝えた誤った画像 … 続きを読む

カテゴリー: cs.CV, cs.MM | Latent Multimodal Reconstruction for Misinformation Detection はコメントを受け付けていません

Agent Journey Beyond RGB: Unveiling Hybrid Semantic-Spatial Environmental Representations for Vision-and-Language Navigation

要約 自然言語の指示に基づいて目に見えない環境をナビゲートすることは、視覚航海航 … 続きを読む

カテゴリー: cs.CV, cs.MM | Agent Journey Beyond RGB: Unveiling Hybrid Semantic-Spatial Environmental Representations for Vision-and-Language Navigation はコメントを受け付けていません

NeRFlex: Resource-aware Real-time High-quality Rendering of Complex Scenes on Mobile Devices

要約 Neural Radiance Fields(NeRF)は、3D再構成にお … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.LG, cs.MM, cs.PF | NeRFlex: Resource-aware Real-time High-quality Rendering of Complex Scenes on Mobile Devices はコメントを受け付けていません

EVOS: Efficient Implicit Neural Training via EVOlutionary Selector

要約 我々は、陰的神経表現(INR)を高速化するための効率的な学習パラダイムであ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.NE | EVOS: Efficient Implicit Neural Training via EVOlutionary Selector はコメントを受け付けていません

AutoSSVH: Exploring Automated Frame Sampling for Efficient Self-Supervised Video Hashing

要約 Self-Supervised Video Hashing (SSVH)は … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.MM | AutoSSVH: Exploring Automated Frame Sampling for Efficient Self-Supervised Video Hashing はコメントを受け付けていません

L-LBVC: Long-Term Motion Estimation and Prediction for Learned Bi-Directional Video Compression

要約 近年、学習型ビデオ圧縮(LVC)が低遅延構成で優れた性能を示すようになった … 続きを読む

カテゴリー: cs.CV, cs.MM | L-LBVC: Long-Term Motion Estimation and Prediction for Learned Bi-Directional Video Compression はコメントを受け付けていません

FortisAVQA and MAVEN: a Benchmark Dataset and Debiasing Framework for Robust Multimodal Reasoning

要約 オーディオビジュアル質問応答(AVQA)は、ペアのオーディオビデオ入力に基 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, H.5.1 | FortisAVQA and MAVEN: a Benchmark Dataset and Debiasing Framework for Robust Multimodal Reasoning はコメントを受け付けていません

EVOS: Efficient Implicit Neural Training via EVOlutionary Selector

要約 暗黙の神経表現(INR)を加速するための効率的なトレーニングパラダイムであ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.NE | EVOS: Efficient Implicit Neural Training via EVOlutionary Selector はコメントを受け付けていません