-
最近の投稿
- Solving Multi-Agent Safe Optimal Control with Distributed Epigraph Form MARL
- Nearly Optimal Nonlinear Safe Control with BaS-SDRE
- Field Report on Ground Penetrating Radar for Localization at the Mars Desert Research Station
- LAPP: Large Language Model Feedback for Preference-Driven Reinforcement Learning
- CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos
-
最近のコメント
表示できるコメントはありません。 cs.AI (36968) cs.CL (27986) cs.CV (42734) cs.HC (2830) cs.LG (41908) cs.RO (21895) cs.SY (3335) eess.IV (4980) eess.SY (3327) stat.ML (5485)
「cs.MM」カテゴリーアーカイブ
Automatic Album Sequencing
要約 アルバムの順序付けは、アルバム制作プロセスの重要な部分です。 最近、コレク … 続きを読む
SAV-SE: Scene-aware Audio-Visual Speech Enhancement with Selective State Space Model
要約 音声強調はさまざまなアプリケーションで重要な役割を果たしており、視覚情報の … 続きを読む
Pseudo-triplet Guided Few-shot Composed Image Retrieval
要約 合成画像検索 (CIR) は、マルチモーダル クエリを使用してターゲット画 … 続きを読む
Rendering-Oriented 3D Point Cloud Attribute Compression using Sparse Tensor-based Transformer
要約 3D ビジュアライゼーション技術の進化により、デジタル コンテンツとのやり … 続きを読む
A Hierarchical Compression Technique for 3D Gaussian Splatting Compression
要約 3D ガウス スプラッティング (GS) は、新しいビュー合成において優れ … 続きを読む
A multi-purpose automatic editing system based on lecture semantics for remote education
要約 遠隔授業は、その利便性と安全性により、特にパンデミックのような極端な状況下 … 続きを読む
Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models
要約 最近、単一の統合モデルを使用してさまざまなオーディオ タスクに同時に取り組 … 続きを読む
Long-Form Text-to-Music Generation with Adaptive Prompts: A Case of Study in Tabletop Role-Playing Games Soundtracks
要約 この論文では、テーブルトップ ロール プレイング ゲーム (TRPG) の … 続きを読む
Learning to Unify Audio, Visual and Text for Audio-Enhanced Multilingual Visual Answer Localization
要約 多言語ビジュアル回答ローカリゼーション (MVAL) の目標は、特定の多言 … 続きを読む