-
最近の投稿
- Budget-constrained Collaborative Renewable Energy Forecasting Market
- Med-R$^2$: Crafting Trustworthy LLM Physicians through Retrieval and Reasoning of Evidence-Based Medicine
- SANER: Annotation-free Societal Attribute Neutralizer for Debiasing CLIP
- Video Depth Anything: Consistent Depth Estimation for Super-Long Videos
- InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling
-
最近のコメント
表示できるコメントはありません。 cs.AI (32523) cs.CL (24589) cs.CR (2516) cs.CV (38733) cs.LG (37398) cs.RO (18958) cs.SY (2900) eess.IV (4641) eess.SY (2894) stat.ML (4935)
「cs.MM」カテゴリーアーカイブ
Rendering-Oriented 3D Point Cloud Attribute Compression using Sparse Tensor-based Transformer
要約 3D ビジュアライゼーション技術の進化により、デジタル コンテンツとのやり … 続きを読む
Unified Coding for Both Human Perception and Generalized Machine Analytics with CLIP Supervision
要約 デコードされたビットストリームは通常、人間またはマシンのニーズにのみ対応し … 続きを読む
Visual question answering: from early developments to recent advances — a survey
要約 Visual Question Answering (VQA) は、特徴抽 … 続きを読む
Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue
要約 対話における皮肉の説明 (SED) は、新しいながらもやりがいのあるタスク … 続きを読む
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset
要約 この論文では、マルチモーダルな理解と生成のための視覚・音声・言語オムニ知覚 … 続きを読む
VCEval: Rethinking What is a Good Educational Video and How to Automatically Evaluate It
要約 オンライン コースにより、教育へのアクセスの障壁は大幅に低くなりましたが、 … 続きを読む
Reviewing Intelligent Cinematography: AI research for camera-based video production
要約 この論文は、エンターテインメント目的での実際のカメラ コンテンツ取得のコン … 続きを読む
Towards Expressive Video Dubbing with Multiscale Multimodal Context Interaction
要約 自動ビデオ ダビング (AVD) は、スクリプトから唇の動きと顔の感情に合 … 続きを読む
ChemDFM-X: Towards Large Multimodal Model for Chemistry
要約 AI ツールの急速な発展により、化学を含む自然科学の研究にこれまでにない支 … 続きを読む