-
最近の投稿
- S-CFE: Simple Counterfactual Explanations
- SuperMat: Physically Consistent PBR Material Estimation at Interactive Rates
- Isotropy Matters: Soft-ZCA Whitening of Embeddings for Semantic Code Search
- MotionWavelet: Human Motion Prediction via Wavelet Manifold Learning
- CrowdMAC: Masked Crowd Density Completion for Robust Crowd Density Forecasting
-
最近のコメント
表示できるコメントはありません。 cs.AI (30192) cs.CL (22807) cs.CR (2340) cs.CV (36565) cs.LG (35016) cs.RO (17555) cs.SY (2697) eess.IV (4453) eess.SY (2691) stat.ML (4664)
「cs.MM」カテゴリーアーカイブ
EALD-MLLM: Emotion Analysis in Long-sequential and De-identity videos with Multi-modal Large Language Model
要約 感情 AI は、人間の感情状態を理解するコンピューターの能力です。 既存の … 続きを読む
Towards Real-world Video Face Restoration: A New Benchmark
要約 画像上のブラインド顔復元(BFR)はここ数年で大幅に進歩しましたが、現実世 … 続きを読む
ComposerX: Multi-Agent Symbolic Music Composition with LLMs
要約 音楽作曲は人類の創造的な側面を表しており、それ自体が長い依存関係とハーモニ … 続きを読む
SemiPL: A Semi-supervised Method for Event Sound Source Localization
要約 近年、イベント音源定位はさまざまな分野で広く応用されています。 最近の作品 … 続きを読む
Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models
要約 画像検索は、マルチメディアおよびコンピュータ ビジョンにおいて極めて重要な … 続きを読む
Exploring the Distinctiveness and Fidelity of the Descriptions Generated by Large Vision-Language Models
要約 Large Vision-Language Model (LVLM) は、 … 続きを読む
CFMW: Cross-modality Fusion Mamba for Multispectral Object Detection under Adverse Weather Conditions
要約 可視赤外線スペクトルの手がかりを統合したクロスモダリティ画像は、物体検出の … 続きを読む
Wiki-LLaVA: Hierarchical Retrieval-Augmented Generation for Multimodal LLMs
要約 マルチモーダル LLM は LLM の自然な進化であり、純粋なテキスト モ … 続きを読む
Seeing Text in the Dark: Algorithm and Benchmark
要約 視覚的に劣化するため、暗い環境でテキストをローカライズするのは困難です。 … 続きを読む
Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding
要約 Large Vision-Language Model (LVLM) は物 … 続きを読む