-
最近の投稿
- RT-cache: Efficient Robot Trajectory Retrieval System
- Reach-Avoid-Stabilize Using Admissible Control Sets
- Solving Reach- and Stabilize-Avoid Problems Using Discounted Reachability
- A Novel 6-axis Force/Torque Sensor Using Inductance Sensors
- Deployable and Generalizable Motion Prediction: Taxonomy, Open Challenges and Future Directions
-
最近のコメント
表示できるコメントはありません。 cs.AI (38110) cs.CL (28797) cs.CV (43686) cs.HC (2911) cs.LG (43032) cs.RO (22672) cs.SY (3480) eess.IV (5065) eess.SY (3472) stat.ML (5604)
「cs.MM」カテゴリーアーカイブ
AudioX: Diffusion Transformer for Anything-to-Audio Generation
要約 オーディオと音楽の生成は、多くのアプリケーションで重要なタスクとして浮上し … 続きを読む
Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model
要約 マルチモーダルの基礎モデルをトレーニングするためのオーディオとビジュアルデ … 続きを読む
GenHPE: Generative Counterfactuals for 3D Human Pose Estimation with Radio Frequency Signals
要約 人間のポーズ推定(HPE)は、さまざまな用途の人体関節の位置を検出します。 … 続きを読む
YuE: Scaling Open Foundation Models for Long-Form Music Generation
要約 LLAMA2アーキテクチャに基づいたオープンファンデーションモデルのファミ … 続きを読む
Video-to-Audio Generation with Hidden Alignment
要約 ビデオ入力に従って意味的および一時的に整列したオーディオコンテンツを生成す … 続きを読む
ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding
要約 ビデオ大規模な言語モデル(Videollms)は、ビデオ理解において顕著な … 続きを読む
A Survey on 3D Gaussian Splatting
要約 3D Gaussian Splatting(GS)は、明示的な輝きフィール … 続きを読む
VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control
要約 破損したビデオコンテンツを復元することを目的としたビデオInpaintin … 続きを読む
More than Memes: A Multimodal Topic Modeling Approach to Conspiracy Theories on Telegram
要約 ソーシャルメディアでの(オーディオ)視覚データの増加する有病率に対処し、こ … 続きを読む