-
最近の投稿
- Predicting center of mass position in non-cyclic activities: The influence of acceleration, prediction horizon, and ground reaction forces
- Are Transformers Truly Foundational for Robotics?
- Performance Evaluation of Deep Learning-Based State Estimation: A Comparative Study of KalmanNet
- Performance Assessment of Lidar Odometry Frameworks: A Case Study at the Australian Botanic Garden Mount Annan
- VLM-Social-Nav: Socially Aware Robot Navigation through Scoring using Vision-Language Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (30189) cs.CL (22805) cs.CR (2340) cs.CV (36561) cs.LG (35013) cs.RO (17553) cs.SY (2697) eess.IV (4453) eess.SY (2691) stat.ML (4664)
「cs.MM」カテゴリーアーカイブ
Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)
要約 Explainable AI for the Arts (XAIxArts … 続きを読む
MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding
要約 ラージ ビジョン ランゲージ モデル (LVLM) の出現により、マルチモ … 続きを読む
VIA: A Spatiotemporal Video Adaptation Framework for Global and Local Video Editing
要約 ビデオ編集は、エンターテインメントや教育からプロフェッショナルなコミュニケ … 続きを読む
Unveiling Encoder-Free Vision-Language Models
要約 既存のビジョン言語モデル (VLM) は、主にビジョン エンコーダに依存し … 続きを読む
SSTFB: Leveraging self-supervised pretext learning and temporal self-attention with feature branching for real-time video polyp segmentation
要約 ポリープは早期がんの指標であるため、ポリープの発生とその切除を評価すること … 続きを読む
CinePile: A Long Video Question Answering Dataset and Benchmark
要約 長い形式のビデオを理解するための現在のデータセットは、ビデオから 1 つま … 続きを読む
PianoMotion10M: Dataset and Benchmark for Hand Motion Generation in Piano Performance
要約 近年、教育における人工知能技術への注目が高まっていますが、効果的な楽器指導 … 続きを読む
Explore the Limits of Omni-modal Pretraining at Scale
要約 私たちは、あらゆるモダリティを理解し、普遍的な表現を学習できるオムニモーダ … 続きを読む
Speech Emotion Recognition with ASR Transcripts: A Comprehensive Study on Word Error Rate and Fusion Techniques
要約 テキスト データは一般に、音声感情認識 (SER) のパフォーマンスと信頼 … 続きを読む
Learning Domain-Invariant Features for Out-of-Context News Detection
要約 文脈を無視したマルチモーダルなニュースは、オンライン メディア プラットフ … 続きを読む