-
最近の投稿
- CHD: Coupled Hierarchical Diffusion for Long-Horizon Tasks
- FLUXSynID: A Framework for Identity-Controlled Synthetic Face Generation with Document and Live Images
- Rethinking Latent Redundancy in Behavior Cloning: An Information Bottleneck Approach for Robot Manipulation
- Codifying Character Logic in Role-Playing
- OnPrem.LLM: A Privacy-Conscious Document Intelligence Toolkit
-
最近のコメント
表示できるコメントはありません。 cs.AI (37970) cs.CL (28697) cs.CV (43566) cs.HC (2902) cs.LG (42896) cs.RO (22574) cs.SY (3461) eess.IV (5049) eess.SY (3453) stat.ML (5591)
「cs.MM」カテゴリーアーカイブ
A Rate-Distortion-Classification Approach for Lossy Image Compression
要約 非可逆画像圧縮では、指定されたビットレートに画像を圧縮しながら、最小限の信 … 続きを読む
In Anticipation of Perfect Deepfake: Identity-anchored Artifact-agnostic Detection under Rebalanced Deepfake Detection Protocol
要約 ディープ生成モデルが進歩するにつれて、ディープフェイクが「完璧」、つまり認 … 続きを読む
EALD-MLLM: Emotion Analysis in Long-sequential and De-identity videos with Multi-modal Large Language Model
要約 感情 AI は、人間の感情状態を理解するコンピューターの能力です。 既存の … 続きを読む
Towards Real-world Video Face Restoration: A New Benchmark
要約 画像上のブラインド顔復元(BFR)はここ数年で大幅に進歩しましたが、現実世 … 続きを読む
ComposerX: Multi-Agent Symbolic Music Composition with LLMs
要約 音楽作曲は人類の創造的な側面を表しており、それ自体が長い依存関係とハーモニ … 続きを読む
SemiPL: A Semi-supervised Method for Event Sound Source Localization
要約 近年、イベント音源定位はさまざまな分野で広く応用されています。 最近の作品 … 続きを読む
Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models
要約 画像検索は、マルチメディアおよびコンピュータ ビジョンにおいて極めて重要な … 続きを読む
Exploring the Distinctiveness and Fidelity of the Descriptions Generated by Large Vision-Language Models
要約 Large Vision-Language Model (LVLM) は、 … 続きを読む
CFMW: Cross-modality Fusion Mamba for Multispectral Object Detection under Adverse Weather Conditions
要約 可視赤外線スペクトルの手がかりを統合したクロスモダリティ画像は、物体検出の … 続きを読む