-
最近の投稿
- How to Coordinate UAVs and UGVs for Efficient Mission Planning? Optimizing Energy-Constrained Cooperative Routing with a DRL Framework
- NavEX: A Multi-Agent Coverage in Non-Convex and Uneven Environments via Exemplar-Clustering
- Simultaneous System Identification and Model Predictive Control with No Dynamic Regret
- When to Localize? A Risk-Constrained Reinforcement Learning Approach
- SPARK-Remote: A Cost-Effective System for Remote Bimanual Robot Teleoperation
-
最近のコメント
表示できるコメントはありません。 cs.AI (37393) cs.CL (28290) cs.CV (43079) cs.HC (2862) cs.LG (42313) cs.RO (22180) cs.SY (3395) eess.IV (5005) eess.SY (3387) stat.ML (5527)
「cs.MM」カテゴリーアーカイブ
Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation
要約 このペーパーでは、特定のポートレート画像の顔の表情とカメラビューを制御でき … 続きを読む
QPT V2: Masked Image Modeling Advances Visual Scoring
要約 品質評価と美的評価は、視覚コンテンツの知覚された品質と美的感覚を評価するこ … 続きを読む
MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues
要約 マルチモーダル大規模言語モデル (MLLM) は、ビデオ内の視覚、音響、言 … 続きを読む
Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization
要約 最近、新しい形式の音声部分偽造がフォレンジックに課題をもたらしており、長時 … 続きを読む
FakingRecipe: Detecting Fake News on Short Video Platforms from the Perspective of Creative Process
要約 ショートビデオ共有プラットフォームがニュース消費の重要なチャネルになるにつ … 続きを読む
360VFI: A Dataset and Benchmark for Omnidirectional Video Frame Interpolation
要約 VR関連技術の発展により、視聴者はヘッドマウントディスプレイを通じてリアル … 続きを読む
HaloQuest: A Visual Hallucination Dataset for Advancing Multimodal Reasoning
要約 幻覚は大規模な言語モデルにとって大きな問題であり、視覚言語モデル (VLM … 続きを読む
Multimodal Misinformation Detection using Large Vision-Language Models
要約 誤った情報の蔓延とその憂慮すべき影響により、産業界と学界の両方が誤った情報 … 続きを読む
Towards Assessing Data Replication in Music Generation with Music Similarity Metrics on Raw Audio
要約 音楽生成における最近の進歩により、創造的な音楽プロセス、現在のビジネス モ … 続きを読む