-
最近の投稿
- Design of a Visual Pose Estimation Algorithm for Moon Landing
- A novel step-by-step procedure for the kinematic calibration of robots using a single draw-wire encoder
- Ultra-High-Frequency Harmony: mmWave Radar and Event Camera Orchestrate Accurate Drone Landing
- Geometric Freeze-Tag Problem
- A Dual-Motor Actuator for Ceiling Robots with High Force and High Speed Capabilities
-
最近のコメント
表示できるコメントはありません。 cs.AI (34107) cs.CL (25783) cs.CR (2623) cs.CV (40027) cs.LG (39092) cs.RO (19895) cs.SY (3026) eess.IV (4764) eess.SY (3020) stat.ML (5162)
「cs.MM」カテゴリーアーカイブ
Exploring Self-Supervised Skeleton-Based Human Action Recognition under Occlusions
要約 自己監視型のスケルトンベースの動作認識手法を自律ロボット システムに統合す … 続きを読む
LocoMotion: Learning Motion-Focused Video-Language Representations
要約 この論文は、動きに焦点を当てたビデオ言語表現を目指しています。 ビデオ言語 … 続きを読む
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling
要約 言語モデルは、画像、ビデオ、音声、オーディオなどの自然信号のモデル化に効果 … 続きを読む
AIM 2024 Challenge on Compressed Video Quality Assessment: Methods and Results
要約 ビデオ品質評価 (VQA) は、視聴者のエクスペリエンスに直接影響を与える … 続きを読む
Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)
要約 Explainable AI for the Arts (XAIxArts … 続きを読む
Movie101v2: Improved Movie Narration Benchmark
要約 自動映画ナレーションは、視覚障害のある視聴者を支援するために、ビデオに合わ … 続きを読む
Parallel Backpropagation for Inverse of a Convolution with Application to Normalizing Flows
要約 可逆畳み込みの逆は、フローの正規化や画像のブレ除去などで登場する重要な操作 … 続きを読む
MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures
要約 AI モデルが現実世界の信号から効果的に学習し、それに関与するには、多様な … 続きを読む
MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures
要約 AI モデルが現実世界の信号から効果的に学習し、それに関与するには、多様な … 続きを読む
Beyond Coarse-Grained Matching in Video-Text Retrieval
要約 ビデオテキストの検索は大幅に進歩しましたが、キャプションの微妙な違いを識別 … 続きを読む