-
最近の投稿
- SOUS VIDE: Cooking Visual Drone Navigation Policies in a Gaussian Splatting Vacuum
- Clarke Transform and Encoder-Decoder Architecture for Arbitrary Joints Locations in Displacement-Actuated Continuum Robots
- Using Clarke Transform to Create a Framework on the Manifold: From Sampling via Trajectory Generation to Control
- Safe Dynamic Motion Generation in Configuration Space Using Differentiable Distance Fields
- BODex: Scalable and Efficient Robotic Dexterous Grasp Synthesis Using Bilevel Optimization
-
最近のコメント
表示できるコメントはありません。 cs.AI (31383) cs.CL (23735) cs.CR (2434) cs.CV (37739) cs.LG (36254) cs.RO (18349) cs.SY (2813) eess.IV (4535) eess.SY (2807) stat.ML (4810)
「cs.MM」カテゴリーアーカイブ
AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information?
要約 近年、GPT-4o、Gemini 1.5 Pro、Reka Coreなどの … 続きを読む
DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder
要約 最近の研究により、音声による話し顔の生成は大幅に進歩しましたが、生成された … 続きを読む
Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings
要約 既存の Multimoal Large Language Model (M … 続きを読む
LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos
要約 ビデオの理解は目覚ましい進歩を遂げているにもかかわらず、ほとんどの取り組み … 続きを読む
WavChat: A Survey of Spoken Dialogue Models
要約 GPT-4o などのシステムに代表される音声対話モデルの最近の進歩は、音声 … 続きを読む
Automatic Album Sequencing
要約 アルバムの順序付けは、アルバム制作プロセスの重要な部分です。 最近、コレク … 続きを読む
Health AI Developer Foundations
要約 堅牢な医療機械学習 (ML) モデルは、臨床研究を加速し、ワークフローと結 … 続きを読む
Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis
要約 この論文では、マルチモーダル音声生成のための新しい技術を動機付けるために、 … 続きを読む
Video-Guided Foley Sound Generation with Multimodal Controls
要約 ビデオのサウンド エフェクトを生成するには、多くの場合、現実のソースから大 … 続きを読む