-
最近の投稿
- Design of a Visual Pose Estimation Algorithm for Moon Landing
- A novel step-by-step procedure for the kinematic calibration of robots using a single draw-wire encoder
- Ultra-High-Frequency Harmony: mmWave Radar and Event Camera Orchestrate Accurate Drone Landing
- Geometric Freeze-Tag Problem
- A Dual-Motor Actuator for Ceiling Robots with High Force and High Speed Capabilities
-
最近のコメント
表示できるコメントはありません。 cs.AI (34107) cs.CL (25783) cs.CR (2623) cs.CV (40027) cs.LG (39092) cs.RO (19895) cs.SY (3026) eess.IV (4764) eess.SY (3020) stat.ML (5162)
「cs.MM」カテゴリーアーカイブ
Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings
要約 既存の Multimoal Large Language Model (M … 続きを読む
LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos
要約 ビデオの理解は目覚ましい進歩を遂げているにもかかわらず、ほとんどの取り組み … 続きを読む
WavChat: A Survey of Spoken Dialogue Models
要約 GPT-4o などのシステムに代表される音声対話モデルの最近の進歩は、音声 … 続きを読む
Automatic Album Sequencing
要約 アルバムの順序付けは、アルバム制作プロセスの重要な部分です。 最近、コレク … 続きを読む
Health AI Developer Foundations
要約 堅牢な医療機械学習 (ML) モデルは、臨床研究を加速し、ワークフローと結 … 続きを読む
Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis
要約 この論文では、マルチモーダル音声生成のための新しい技術を動機付けるために、 … 続きを読む
Video-Guided Foley Sound Generation with Multimodal Controls
要約 ビデオのサウンド エフェクトを生成するには、多くの場合、現実のソースから大 … 続きを読む
Health AI Developer Foundations
要約 堅牢な医療機械学習 (ML) モデルは、臨床研究を加速し、ワークフローと結 … 続きを読む
HARP: A Large-Scale Higher-Order Ambisonic Room Impulse Response Dataset
要約 この寄稿では、イメージ ソース メソッドを使用して作成された 7 次アンビ … 続きを読む
VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation
要約 高度なビデオ分析機能を備えた大規模マルチモーダル モデル (LMM) が、 … 続きを読む