-
最近の投稿
- Open-Vocabulary Action Localization with Iterative Visual Prompting
- Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots
- The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control
- PokeFlex: A Real-World Dataset of Deformable Objects for Robotics
- Toward a Better Understanding of Robot Energy Consumption in Agroecological Applications
-
最近のコメント
表示できるコメントはありません。 cs.AI (27918) cs.CL (21095) cs.CR (2183) cs.CV (34618) cs.LG (32650) cs.RO (16022) cs.SY (2484) eess.IV (4238) eess.SY (2478) stat.ML (4372)
「cs.MM」カテゴリーアーカイブ
LongShortNet: Exploring Temporal and Semantic Features Fusion in Streaming Perception
要約 タイトル:LongShortNet:ストリーミング知覚における時間的および … 続きを読む
DAMO-StreamNet: Optimizing Streaming Perception in Autonomous Driving
要約 リアルタイム認識、またはストリーミング認識は、自動運転の重要な側面であり、 … 続きを読む
WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research
要約 オーディオ言語 (AL) マルチモーダル学習タスクの進歩は、近年重要です。 … 続きを読む
ProContEXT: Exploring Progressive Context Transformer for Tracking
要約 既存のビジュアル オブジェクト トラッキング (VOT) は、最初のフレー … 続きを読む
Decoding Visual Neural Representations by Multimodal Learning of Brain-Visual-Linguistic Features
要約 人間の視覚神経表現を解読することは、視覚処理メカニズムを明らかにし、脳のよ … 続きを読む
Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment
要約 オーディオは私たちの周りの世界をどのように説明しますか? 本論文では,音か … 続きを読む
DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder
要約 最近の研究では、発話による会話の顔の生成が大幅に進歩しましたが、生成された … 続きを読む
STEFANN: Scene Text Editor using Font Adaptive Neural Network
要約 キャプチャされたシーンのテキスト情報は、シーンの解釈と意思決定において重要 … 続きを読む
Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal Action Localization
要約 時間アクション ローカリゼーション (TAL) では、さまざまな期間と複雑 … 続きを読む