-
最近の投稿
- MotionWavelet: Human Motion Prediction via Wavelet Manifold Learning
- CrowdMAC: Masked Crowd Density Completion for Robust Crowd Density Forecasting
- Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens
- Single-cell Curriculum Learning-based Deep Graph Embedding Clustering
- StableAnimator: High-Quality Identity-Preserving Human Image Animation
-
最近のコメント
表示できるコメントはありません。 cs.AI (30192) cs.CL (22806) cs.CR (2340) cs.CV (36564) cs.LG (35015) cs.RO (17555) cs.SY (2697) eess.IV (4453) eess.SY (2691) stat.ML (4664)
「cs.MM」カテゴリーアーカイブ
CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning
要約 マルチモーダル大規模言語モデル (MLLM) は目覚ましい進歩を遂げ、強力 … 続きを読む
SVDD Challenge 2024: A Singing Voice Deepfake Detection Challenge Evaluation Plan
要約 AI によって生成された歌声の急速な進歩により、自然な人間の歌声が忠実に模 … 続きを読む
Reviewing Intelligent Cinematography: AI research for camera-based video production
要約 この論文は、エンターテインメント目的での実際のカメラ コンテンツ取得のコン … 続きを読む
Multi-scale Bottleneck Transformer for Weakly Supervised Multimodal Violence Detection
要約 弱監視マルチモーダル暴力検出は、RGB、オプティカル フロー、オーディオな … 続きを読む
Picking watermarks from noise (PWFN): an improved robust watermarking model against intensive distortions
要約 電子透かしは、人間の目には検出できない方法で画像を変更することで秘密情報を … 続きを読む
Language Models as Black-Box Optimizers for Vision-Language Models
要約 Web スケールのデータセットで事前トレーニングされたビジョン言語モデル … 続きを読む
CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor
要約 既存のオープンボキャブラリーの画像セグメンテーション手法では、マスク ラベ … 続きを読む
DBDH: A Dual-Branch Dual-Head Neural Network for Invisible Embedded Regions Localization
要約 QRコードに代わる不可視のハイパーリンクや隠しコードを画像に埋め込むことが … 続きを読む
A Rate-Distortion-Classification Approach for Lossy Image Compression
要約 非可逆画像圧縮では、指定されたビットレートに画像を圧縮しながら、最小限の信 … 続きを読む
In Anticipation of Perfect Deepfake: Identity-anchored Artifact-agnostic Detection under Rebalanced Deepfake Detection Protocol
要約 ディープ生成モデルが進歩するにつれて、ディープフェイクが「完璧」、つまり認 … 続きを読む