-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
In Anticipation of Perfect Deepfake: Identity-anchored Artifact-agnostic Detection under Rebalanced Deepfake Detection Protocol
要約 ディープ生成モデルが進歩するにつれて、ディープフェイクが「完璧」、つまり認 … 続きを読む
EALD-MLLM: Emotion Analysis in Long-sequential and De-identity videos with Multi-modal Large Language Model
要約 感情 AI は、人間の感情状態を理解するコンピューターの能力です。 既存の … 続きを読む
Towards Real-world Video Face Restoration: A New Benchmark
要約 画像上のブラインド顔復元(BFR)はここ数年で大幅に進歩しましたが、現実世 … 続きを読む
ComposerX: Multi-Agent Symbolic Music Composition with LLMs
要約 音楽作曲は人類の創造的な側面を表しており、それ自体が長い依存関係とハーモニ … 続きを読む
SemiPL: A Semi-supervised Method for Event Sound Source Localization
要約 近年、イベント音源定位はさまざまな分野で広く応用されています。 最近の作品 … 続きを読む
Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models
要約 画像検索は、マルチメディアおよびコンピュータ ビジョンにおいて極めて重要な … 続きを読む
Exploring the Distinctiveness and Fidelity of the Descriptions Generated by Large Vision-Language Models
要約 Large Vision-Language Model (LVLM) は、 … 続きを読む
CFMW: Cross-modality Fusion Mamba for Multispectral Object Detection under Adverse Weather Conditions
要約 可視赤外線スペクトルの手がかりを統合したクロスモダリティ画像は、物体検出の … 続きを読む
Wiki-LLaVA: Hierarchical Retrieval-Augmented Generation for Multimodal LLMs
要約 マルチモーダル LLM は LLM の自然な進化であり、純粋なテキスト モ … 続きを読む
Seeing Text in the Dark: Algorithm and Benchmark
要約 視覚的に劣化するため、暗い環境でテキストをローカライズするのは困難です。 … 続きを読む