-
最近の投稿
- Mr. DETR: Instructive Multi-Route Training for Detection Transformers
- Efficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning
- Whole-Body Dynamic Throwing with Legged Manipulators
- RG-Attn: Radian Glue Attention for Multi-modality Multi-agent Cooperative Perception
- Scalable Real2Sim: Physics-Aware Asset Generation Via Robotic Pick-and-Place Setups
-
最近のコメント
表示できるコメントはありません。 cs.AI (35979) cs.CL (27216) cs.CR (2743) cs.CV (41828) cs.LG (40948) cs.RO (21216) cs.SY (3206) eess.IV (4914) eess.SY (3200) stat.ML (5368)
「cs.MM」カテゴリーアーカイブ
ExDDV: A New Dataset for Explainable Deepfake Detection in Video
要約 生成されたビデオのリアリズムと品質が増え続けると、自動ディープフェイク検出 … 続きを読む
Video-Guided Foley Sound Generation with Multimodal Controls
要約 ビデオのサウンドエフェクトを生成するには、多くの場合、実生活のソースとサウ … 続きを読む
BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing
要約 要素レベルの視覚操作はデジタルコンテンツの作成に不可欠ですが、現在の拡散ベ … 続きを読む
Rethinking Few-Shot Adaptation of Vision-Language Models in Two Stages
要約 An old-school recipe for training a c … 続きを読む
TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree Sequencing
要約 Treemeshgptを紹介します。Treemeshgptは、入力ポイント … 続きを読む
AudioX: Diffusion Transformer for Anything-to-Audio Generation
要約 オーディオと音楽の生成は、多くのアプリケーションで重要なタスクとして浮上し … 続きを読む
Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model
要約 マルチモーダルの基礎モデルをトレーニングするためのオーディオとビジュアルデ … 続きを読む
GenHPE: Generative Counterfactuals for 3D Human Pose Estimation with Radio Frequency Signals
要約 人間のポーズ推定(HPE)は、さまざまな用途の人体関節の位置を検出します。 … 続きを読む
YuE: Scaling Open Foundation Models for Long-Form Music Generation
要約 LLAMA2アーキテクチャに基づいたオープンファンデーションモデルのファミ … 続きを読む